KoichiYasuoka
/

roberta-small-belarusian-ud-goeswith

Token Classification

dependency-parsing

Model card Files Files and versions Community

KoichiYasuoka commited on 10 days ago

Commit

ec0d012

·

1 Parent(s): ccb418b

model improved

Files changed (4) hide show

config.json +1 -1
maker.py +1 -1
pytorch_model.bin +2 -2
tokenizer_config.json +1 -0

config.json CHANGED Viewed

@@ -9347,7 +9347,7 @@
   "position_embedding_type": "absolute",
   "tokenizer_class": "BertTokenizer",
   "torch_dtype": "float32",
-  "transformers_version": "4.40.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30000

   "position_embedding_type": "absolute",
   "tokenizer_class": "BertTokenizer",
   "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30000

maker.py CHANGED Viewed

@@ -52,7 +52,7 @@ devDS=UDgoeswithDataset("dev.conllu",tkz)
 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
 cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()},ignore_mismatched_sizes=True)
-arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=48,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1,save_safetensors=False)
 trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg,ignore_mismatched_sizes=True),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)

 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
 cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()},ignore_mismatched_sizes=True)
+arg=TrainingArguments(num_train_epochs=10,per_device_train_batch_size=16,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1,save_safetensors=False)
 trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg,ignore_mismatched_sizes=True),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b0827682edbb5050271e666f0e0686c9b092a1f0bc51545c7c492d0678f9f1f
-size 67315955

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5442dafd851a2e56f7e097d4ef367e80c572ffd731fcce7f030f96eab55dc5
+size 67318118

tokenizer_config.json CHANGED Viewed

@@ -46,6 +46,7 @@
   "do_basic_tokenize": true,
   "do_lower_case": true,
   "do_lowercase": false,
   "mask_token": "[MASK]",
   "model_max_length": 128,
   "never_split": [

   "do_basic_tokenize": true,
   "do_lower_case": true,
   "do_lowercase": false,
+  "extra_special_tokens": {},
   "mask_token": "[MASK]",
   "model_max_length": 128,
   "never_split": [