metadata
tags:
- bertopic
library_name: bertopic
pipeline_tag: text-classification
mdl_bertopic_globo
This is a BERTopic model. BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
Usage
To use this model, please install BERTopic:
pip install -U bertopic
You can use the model as follows:
from bertopic import BERTopic
topic_model = BERTopic.load("strauss-oak/mdl_bertopic_globo")
topic_model.get_topic_info()
Topic overview
- Number of topics: 20
- Number of training documents: 24433
Click here for an overview of all topics.
Topic ID | Topic Keywords | Topic Frequency | Label |
---|---|---|---|
-1 | disse - anos - presidente - ainda - pessoas | 13 | -1_disse_anos_presidente_ainda |
0 | dose - saude - covid - vacina - casos | 7995 | 0_dose_saude_covid_vacina |
1 | presidente - bolsonaro - governo - disse - lula | 3785 | 1_presidente_bolsonaro_governo_disse |
2 | policia - disse - local - policiais - anos | 3626 | 2_policia_disse_local_policiais |
3 | anos - musica - brasil - gente - vai | 2170 | 3_anos_musica_brasil_gente |
4 | ucrania - russia - guerra - putin - disse | 1616 | 4_ucrania_russia_guerra_putin |
5 | chuva - sul - feira - chuvas - energia | 690 | 5_chuva_sul_feira_chuvas |
6 | preco - precos - produto - petrobras - combustiveis | 619 | 6_preco_precos_produto_petrobras |
7 | hospital - anos - familia - paulo - disse | 617 | 7_hospital_anos_familia_paulo |
8 | inflacao - juros - alta - taxa - economia | 501 | 8_inflacao_juros_alta_taxa |
9 | dezenas - aposta - premio - probabilidade - caixa | 378 | 9_dezenas_aposta_premio_probabilidade |
10 | voo - aeronave - aviao - voos - aeroporto | 370 | 10_voo_aeronave_aviao_voos |
11 | internet - iphone - rede - facebook - usuarios | 360 | 11_internet_iphone_rede_facebook |
12 | valor - pagamento - declaracao - valores - imposto | 342 | 12_valor_pagamento_declaracao_valores |
13 | fase - manifestantes - servicos - funcionar - paulo | 336 | 13_fase_manifestantes_servicos_funcionar |
14 | desmatamento - amazonia - indigenas - emissoes - brasil | 333 | 14_desmatamento_amazonia_indigenas_emissoes |
15 | taliba - israel - afeganistao - hamas - gaza | 327 | 15_taliba_israel_afeganistao_hamas |
16 | trabalho - trimestre - milhoes - trabalhadores - pessoas | 167 | 16_trabalho_trimestre_milhoes_trabalhadores |
17 | pessoas - genero - trans - racismo - lgbtqia | 97 | 17_pessoas_genero_trans_racismo |
18 | licenca - paternidade - licenca paternidade - piangers - ovulos | 91 | 18_licenca_paternidade_licenca paternidade_piangers |
Training hyperparameters
- calculate_probabilities: False
- language: None
- low_memory: False
- min_topic_size: 10
- n_gram_range: (1, 1)
- nr_topics: 20
- seed_topic_list: None
- top_n_words: 10
- verbose: False
- zeroshot_min_similarity: 0.7
- zeroshot_topic_list: None
Framework versions
- Numpy: 1.23.5
- HDBSCAN: 0.8.33
- UMAP: 0.5.5
- Pandas: 1.5.3
- Scikit-Learn: 1.2.2
- Sentence-transformers: 2.2.2
- Transformers: 4.35.2
- Numba: 0.58.1
- Plotly: 5.15.0
- Python: 3.10.12