tgsc commited on
Commit
e43292b
·
1 Parent(s): 0a310ea

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -6
README.md CHANGED
@@ -21,11 +21,13 @@ DeBERTina é um modelo [DeBERTa-v3](https://arxiv.org/abs/2111.09543) em portugu
21
 
22
  *DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
23
 
24
- | Model | type | Vocabulary | Parameters |
25
  | :-: | :-: | :-: | :-: |
26
- | [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k |82.4M |
27
- | [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small) | sentence-transformer | 65k | 51M |
28
- | [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k | 100M |
 
 
29
 
30
  - **Developed by:** Thacio Garcia Scandaroli
31
  - **Model type:** DeBERTa-v3
@@ -42,12 +44,12 @@ Special tokens:
42
 
43
  ## Treino
44
 
45
- O modelo foi treinado com uma parte do corpus C4 em português, utilizando um tokenizer sentencepiece com vocabulário de tamanho 32k.
46
 
47
  O treino consiste em um gerador e um discriminador. O gerador é treinado com *masked language modeling* em 15% dos tokens. Em seguida, tokens são substituídos pelas
48
  predições do gerador, e o discriminador é treinado de forma a identificar quais tokens são originais e quais foram substítudos.
49
 
50
- *The model was trained with a subset of C4 corpus in portuguese with a sentencepiece tokenizer with a vocabulary of 32k.*
51
 
52
  *The training is done with a generator and a discriminator. The generator is trained with maskeed language modeling as BERT, but without next sentence prediction, by masking 15% of the tokens.*
53
 
 
21
 
22
  *DeBERTina is a portuguese [DeBERTa-v3](https://arxiv.org/abs/2111.09543) model trained electra-style [ELECTRA](https://arxiv.org/abs/2003.10555) (with Replaced Token Detection - RTD) and gradient-disentangled embedding sharing (GDES).*
23
 
24
+ | Model | type | Vocabulary | Backbone + Embeddings = Total Parameters |
25
  | :-: | :-: | :-: | :-: |
26
+ | [ult5-pt-small](https://huggingface.co/tgsc/ult5-pt-small) | encoder-decoder | 65k | 56.6M + 25.8M = 82.4M |
27
+ | [sentence-transformer-ult5-pt-small](https://huggingface.co/tgsc/sentence-transformer-ult5-pt-small) | sentence-transformer | 65k | 25.2 + 25.8M = 51M |
28
+ | [DeBERTina-base](https://huggingface.co/tgsc/debertina-base) | encoder | 32k | 85.5M + 24.6M = 110.0M |
29
+ | [DeBERTina-base-128k-vocab](https://huggingface.co/tgsc/debertina-base-128k-vocab) | encoder | 128k | 85.5M + 98.3M = 183.8M |
30
+ | [DeBERTina-xsmall](https://huggingface.co/tgsc/debertina-xsmall) | encoder | 128k | 21.5M + 49.2M = 70.6M |
31
 
32
  - **Developed by:** Thacio Garcia Scandaroli
33
  - **Model type:** DeBERTa-v3
 
44
 
45
  ## Treino
46
 
47
+ O modelo foi treinado com o corpus C4 em português, utilizando um tokenizer sentencepiece com vocabulário de tamanho 128k.
48
 
49
  O treino consiste em um gerador e um discriminador. O gerador é treinado com *masked language modeling* em 15% dos tokens. Em seguida, tokens são substituídos pelas
50
  predições do gerador, e o discriminador é treinado de forma a identificar quais tokens são originais e quais foram substítudos.
51
 
52
+ *The model was trained with the C4 corpus in portuguese with a sentencepiece tokenizer with a vocabulary of 128.*
53
 
54
  *The training is done with a generator and a discriminator. The generator is trained with maskeed language modeling as BERT, but without next sentence prediction, by masking 15% of the tokens.*
55