Adiciona o paper publicado
Browse files
README.md
CHANGED
@@ -22,7 +22,7 @@ pipeline_tag: fill-mask
|
|
22 |
|
23 |
## Introdução
|
24 |
|
25 |
-
O BERTugues foi pré-treinado seguindo os mesmos passos do [paper original do BERT](https://arxiv.org/abs/1810.04805v2), com os objetivos de Masked Language Modeling (MLM) e Next Sentence Prediction (NSP), com 1 milhão de *steps*, usando mais de 20 GB de textos. Como o [Bertimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased), foi pré-treinado com o dataset [BrWAC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) e a Wikipédia em português para o Tokenizador, contando com algumas melhorias no fluxo de treinamento, como:
|
26 |
+ **Remoção de caracteres pouco comuns no português do treinamento do Tokenizador.** No Bertimbau mais de 7000 dos 29794 usam caracteres orientais ou especiais, quase nunca usados no português. Por exemplo, existem os tokens: "##漫", "##켝", "##前", já no BERTugues fizemos a remoção desses caracteres antes de treinar o tokenizador;
|
27 |
+ **😀 Adição dos principais Emojis no Tokenizador.** A Wikipédia conta com poucos Emojis em seu texto, dessa forma um baixo número de Emojis entravam nos Tokens. Como já [demonstrado na literatura](https://arxiv.org/abs/1910.13793), eles são importantes numa série de tarefas;
|
28 |
+ **Filtragem de qualidade dos textos do BrWAC** seguindo o modelo heurística proposta pelo [paper do modelo Gopher](https://arxiv.org/abs/2112.11446) do Google, onde removemos do BrWac textos de baixa qualidade.
|
@@ -101,6 +101,24 @@ last_hidden_state
|
|
101 |
# 1.3398e+00, 1.4413e-01, 8.2983e-01, -8.2349e-02, 1.8593e-01,
|
102 |
```
|
103 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
104 |
## Mais informações
|
105 |
|
106 |
Para mais informações acesso [nosso Github](https://github.com/ricardozago/BERTugues)!
|
|
|
22 |
|
23 |
## Introdução
|
24 |
|
25 |
+
O BERTugues foi pré-treinado seguindo os mesmos passos do [paper original do BERT](https://arxiv.org/abs/1810.04805v2), com os objetivos de Masked Language Modeling (MLM) e Next Sentence Prediction (NSP), com 1 milhão de *steps*, usando mais de 20 GB de textos. Para mais detalhes do treinamento, por favor, leia o [paper publicado](https://ojs.uel.br/revistas/uel/index.php/semexatas/article/view/50630). Como o [Bertimbau](https://huggingface.co/neuralmind/bert-base-portuguese-cased), foi pré-treinado com o dataset [BrWAC](https://www.inf.ufrgs.br/pln/wiki/index.php?title=BrWaC) e a Wikipédia em português para o Tokenizador, contando com algumas melhorias no fluxo de treinamento, como:
|
26 |
+ **Remoção de caracteres pouco comuns no português do treinamento do Tokenizador.** No Bertimbau mais de 7000 dos 29794 usam caracteres orientais ou especiais, quase nunca usados no português. Por exemplo, existem os tokens: "##漫", "##켝", "##前", já no BERTugues fizemos a remoção desses caracteres antes de treinar o tokenizador;
|
27 |
+ **😀 Adição dos principais Emojis no Tokenizador.** A Wikipédia conta com poucos Emojis em seu texto, dessa forma um baixo número de Emojis entravam nos Tokens. Como já [demonstrado na literatura](https://arxiv.org/abs/1910.13793), eles são importantes numa série de tarefas;
|
28 |
+ **Filtragem de qualidade dos textos do BrWAC** seguindo o modelo heurística proposta pelo [paper do modelo Gopher](https://arxiv.org/abs/2112.11446) do Google, onde removemos do BrWac textos de baixa qualidade.
|
|
|
101 |
# 1.3398e+00, 1.4413e-01, 8.2983e-01, -8.2349e-02, 1.8593e-01,
|
102 |
```
|
103 |
|
104 |
+
## Citação
|
105 |
+
|
106 |
+
Se você usar o BERTugues em suas publicações, não esqueça de citá-lo! Isso ajuda muito no reconhecimento e na valorização do modelo na comunidade científica.
|
107 |
+
|
108 |
+
```bibtex
|
109 |
+
@article{Zago2024bertugues,
|
110 |
+
title = {BERTugues: A Novel BERT Transformer Model Pre-trained for Brazilian Portuguese},
|
111 |
+
volume = {45},
|
112 |
+
url = {https://ojs.uel.br/revistas/uel/index.php/semexatas/article/view/50630},
|
113 |
+
DOI = {10.5433/1679-0375.2024.v45.50630},
|
114 |
+
journal = {Semina: Ciências Exatas e Tecnológicas},
|
115 |
+
author = {Mazza Zago, Ricardo and Agnoletti dos Santos Pedotti, Luciane},
|
116 |
+
year = {2024},
|
117 |
+
month = {Dec.},
|
118 |
+
pages = {e50630}
|
119 |
+
}
|
120 |
+
```
|
121 |
+
|
122 |
## Mais informações
|
123 |
|
124 |
Para mais informações acesso [nosso Github](https://github.com/ricardozago/BERTugues)!
|