ricardoz commited on
Commit
7602286
·
verified ·
1 Parent(s): b720f65

Adiciona o paper publicado

Browse files
Files changed (1) hide show
  1. README.md +19 -1
README.md CHANGED
@@ -22,7 +22,7 @@ pipeline_tag: fill-mask
22
 
23
  ## Introdução
24
 
25
- O BERTugues foi pré-treinado seguindo os mesmos passos do [paper original do BERT](https://arxiv.org/abs/1810.04805v2), com os objetivos de Masked Language Modeling (MLM) e Next Sentence Prediction (NSP), com 1 milhão de *steps*, usando mais de 20 GB de textos. Como o [Bertimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased), foi pré-treinado com o dataset [BrWAC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) e a Wikipédia em português para o Tokenizador, contando com algumas melhorias no fluxo de treinamento, como:
26
  + **Remoção de caracteres pouco comuns no português do treinamento do Tokenizador.** No Bertimbau mais de 7000 dos 29794 usam caracteres orientais ou especiais, quase nunca usados no português. Por exemplo, existem os tokens: "##漫", "##켝", "##前", já no BERTugues fizemos a remoção desses caracteres antes de treinar o tokenizador;
27
  + **😀 Adição dos principais Emojis no Tokenizador.** A Wikipédia conta com poucos Emojis em seu texto, dessa forma um baixo número de Emojis entravam nos Tokens. Como já [demonstrado na literatura](https://arxiv.org/abs/1910.13793), eles são importantes numa série de tarefas;
28
  + **Filtragem de qualidade dos textos do BrWAC** seguindo o modelo heurística proposta pelo [paper do modelo Gopher](https://arxiv.org/abs/2112.11446) do Google, onde removemos do BrWac textos de baixa qualidade.
@@ -101,6 +101,24 @@ last_hidden_state
101
  # 1.3398e+00, 1.4413e-01, 8.2983e-01, -8.2349e-02, 1.8593e-01,
102
  ```
103
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
104
  ## Mais informações
105
 
106
  Para mais informações acesso [nosso Github](https://github.com/ricardozago/BERTugues)!
 
22
 
23
  ## Introdução
24
 
25
+ O BERTugues foi pré-treinado seguindo os mesmos passos do [paper original do BERT](https://arxiv.org/abs/1810.04805v2), com os objetivos de Masked Language Modeling (MLM) e Next Sentence Prediction (NSP), com 1 milhão de *steps*, usando mais de 20 GB de textos. Para mais detalhes do treinamento, por favor, leia o [paper publicado](https://ojs.uel.br/revistas/uel/index.php/semexatas/article/view/50630). Como o [Bertimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased), foi pré-treinado com o dataset [BrWAC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) e a Wikipédia em português para o Tokenizador, contando com algumas melhorias no fluxo de treinamento, como:
26
  + **Remoção de caracteres pouco comuns no português do treinamento do Tokenizador.** No Bertimbau mais de 7000 dos 29794 usam caracteres orientais ou especiais, quase nunca usados no português. Por exemplo, existem os tokens: "##漫", "##켝", "##前", já no BERTugues fizemos a remoção desses caracteres antes de treinar o tokenizador;
27
  + **😀 Adição dos principais Emojis no Tokenizador.** A Wikipédia conta com poucos Emojis em seu texto, dessa forma um baixo número de Emojis entravam nos Tokens. Como já [demonstrado na literatura](https://arxiv.org/abs/1910.13793), eles são importantes numa série de tarefas;
28
  + **Filtragem de qualidade dos textos do BrWAC** seguindo o modelo heurística proposta pelo [paper do modelo Gopher](https://arxiv.org/abs/2112.11446) do Google, onde removemos do BrWac textos de baixa qualidade.
 
101
  # 1.3398e+00, 1.4413e-01, 8.2983e-01, -8.2349e-02, 1.8593e-01,
102
  ```
103
 
104
+ ## Citação
105
+
106
+ Se você usar o BERTugues em suas publicações, não esqueça de citá-lo! Isso ajuda muito no reconhecimento e na valorização do modelo na comunidade científica.
107
+
108
+ ```bibtex
109
+ @article{Zago2024bertugues,
110
+ title = {BERTugues: A Novel BERT Transformer Model Pre-trained for Brazilian Portuguese},
111
+ volume = {45},
112
+ url = {https://ojs.uel.br/revistas/uel/index.php/semexatas/article/view/50630},
113
+ DOI = {10.5433/1679-0375.2024.v45.50630},
114
+ journal = {Semina: Ciências Exatas e Tecnológicas},
115
+ author = {Mazza Zago, Ricardo and Agnoletti dos Santos Pedotti, Luciane},
116
+ year = {2024},
117
+ month = {Dec.},
118
+ pages = {e50630}
119
+ }
120
+ ```
121
+
122
  ## Mais informações
123
 
124
  Para mais informações acesso [nosso Github](https://github.com/ricardozago/BERTugues)!