chandar-lab
/

NeoBERT

Feature Extraction

Model card Files Files and versions Community

Minor changes for correct inference

#1

by tomaarsen HF staff - opened 3 days ago

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (4) hide show

README.md +1 -0
config.json +3 -1
model.py +2 -1
tokenizer_config.json +4 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ datasets:
 - tiiuae/falcon-refinedweb
 language:
 - en
 ---
 # NeoBERT

 - tiiuae/falcon-refinedweb
 language:
 - en
+library_name: transformers
 ---
 # NeoBERT

config.json CHANGED Viewed

@@ -4,7 +4,9 @@
   ],
   "auto_map": {
     "AutoConfig": "model.NeoBERTConfig",
-    "AutoModel": "model.NeoBERTLMHead"
   },
   "classifier_init_range": 0.02,
   "decoder_init_range": 0.02,

   ],
   "auto_map": {
     "AutoConfig": "model.NeoBERTConfig",
+    "AutoModel": "model.NeoBERT",
+    "AutoModelForMaskedLM": "model.NeoBERTLMHead",
+    "AutoModelForSequenceClassification": "model.NeoBERTForSequenceClassification"
   },
   "classifier_init_range": 0.02,
   "decoder_init_range": 0.02,

model.py CHANGED Viewed

@@ -190,7 +190,7 @@ class EncoderBlock(nn.Module):
                 query=xq.transpose(1, 2),
                 key=xk.transpose(1, 2),
                 value=xv.transpose(1, 2),
-                attn_mask=attention_mask,
                 dropout_p=0,
             ).transpose(1, 2)
@@ -199,6 +199,7 @@ class EncoderBlock(nn.Module):
 class NeoBERTPreTrainedModel(PreTrainedModel):
     config_class = NeoBERTConfig
     _supports_cache_class = True
     def _init_weights(self, module):

                 query=xq.transpose(1, 2),
                 key=xk.transpose(1, 2),
                 value=xv.transpose(1, 2),
+                attn_mask=attention_mask.bool(),
                 dropout_p=0,
             ).transpose(1, 2)
 class NeoBERTPreTrainedModel(PreTrainedModel):
     config_class = NeoBERTConfig
+    base_model_prefix = "model"
     _supports_cache_class = True
     def _init_weights(self, module):

tokenizer_config.json CHANGED Viewed

@@ -46,6 +46,10 @@
   "do_lower_case": true,
   "extra_special_tokens": {},
   "mask_token": "[MASK]",
   "model_max_length": 4096,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",

   "do_lower_case": true,
   "extra_special_tokens": {},
   "mask_token": "[MASK]",
+  "model_input_names": [
+    "input_ids",
+    "attention_mask"
+  ],
   "model_max_length": 4096,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",