Training in progress, step 2000

Browse files

Files changed (12) hide show

model.safetensors +1 -1
run-2/checkpoint-2000/config.json +48 -0
run-2/checkpoint-2000/model.safetensors +3 -0
run-2/checkpoint-2000/optimizer.pt +3 -0
run-2/checkpoint-2000/rng_state.pth +3 -0
run-2/checkpoint-2000/scheduler.pt +3 -0
run-2/checkpoint-2000/special_tokens_map.json +51 -0
run-2/checkpoint-2000/tokenizer.json +0 -0
run-2/checkpoint-2000/tokenizer_config.json +59 -0
run-2/checkpoint-2000/trainer_state.json +626 -0
run-2/checkpoint-2000/training_args.bin +3 -0
run-2/checkpoint-2000/vocab.txt +0 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17f1e97e80984b8c703c5df8fbd30ef068a73a57bbc1e84e480b96e2d8ee40ff
 size 442518124

 version https://git-lfs.github.com/spec/v1
+oid sha256:113eba0e6b90e0bb677bbfb986fe78ee95b5c8cce1532311561842da585bec67
 size 442518124

run-2/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "klue/roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tokenizer_class": "BertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32000
+}

run-2/checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:113eba0e6b90e0bb677bbfb986fe78ee95b5c8cce1532311561842da585bec67
+size 442518124

run-2/checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a93cdfeb3effdb1f9a43592171cf1f9caf173b6b5e4e93bcfd08ae190e796788
+size 885156090

run-2/checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:939fd5510f65cc3ec5dbc64b6ae59d4b5f524535e6a0ab42fe9fe15128491743
+size 14244

run-2/checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faf23bb8ac89c48a2f5b1700cb5896db1f9e5805884a76028d78c32811314841
+size 1064

run-2/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-2/checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,626 @@

+{
+  "best_metric": 0.8493072488776222,
+  "best_model_checkpoint": "test-klue/ynat/run-2/checkpoint-2000",
+  "epoch": 3.502626970227671,
+  "eval_steps": 50,
+  "global_step": 2000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.520888692829572e-06,
+      "loss": 1.9542,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_f1": 0.04583937972534243,
+      "eval_loss": 1.94540536403656,
+      "eval_runtime": 12.7715,
+      "eval_samples_per_second": 713.073,
+      "eval_steps_per_second": 1.409,
+      "step": 50
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.307798077502143e-06,
+      "loss": 1.6697,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_f1": 0.5702339339536844,
+      "eval_loss": 1.5132834911346436,
+      "eval_runtime": 13.3022,
+      "eval_samples_per_second": 684.621,
+      "eval_steps_per_second": 1.353,
+      "step": 100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.094707462174712e-06,
+      "loss": 0.8971,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_f1": 0.7432151839966054,
+      "eval_loss": 0.97530198097229,
+      "eval_runtime": 12.9877,
+      "eval_samples_per_second": 701.204,
+      "eval_steps_per_second": 1.386,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.881616846847283e-06,
+      "loss": 0.6418,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_f1": 0.7297934771119111,
+      "eval_loss": 0.8931246995925903,
+      "eval_runtime": 12.7184,
+      "eval_samples_per_second": 716.049,
+      "eval_steps_per_second": 1.415,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 8.668526231519852e-06,
+      "loss": 0.6438,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_f1": 0.7761230585561165,
+      "eval_loss": 0.7596781849861145,
+      "eval_runtime": 12.6711,
+      "eval_samples_per_second": 718.722,
+      "eval_steps_per_second": 1.421,
+      "step": 250
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.455435616192421e-06,
+      "loss": 0.5509,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_f1": 0.8095769257080263,
+      "eval_loss": 0.6825068593025208,
+      "eval_runtime": 12.713,
+      "eval_samples_per_second": 716.351,
+      "eval_steps_per_second": 1.416,
+      "step": 300
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.242345000864992e-06,
+      "loss": 0.45,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_f1": 0.820467350641947,
+      "eval_loss": 0.6184367537498474,
+      "eval_runtime": 12.8329,
+      "eval_samples_per_second": 709.662,
+      "eval_steps_per_second": 1.403,
+      "step": 350
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.029254385537563e-06,
+      "loss": 0.4877,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_f1": 0.8192647088110643,
+      "eval_loss": 0.5932053327560425,
+      "eval_runtime": 12.9021,
+      "eval_samples_per_second": 705.857,
+      "eval_steps_per_second": 1.395,
+      "step": 400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.816163770210132e-06,
+      "loss": 0.5672,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_f1": 0.8008517524970246,
+      "eval_loss": 0.6429001092910767,
+      "eval_runtime": 12.7777,
+      "eval_samples_per_second": 712.728,
+      "eval_steps_per_second": 1.409,
+      "step": 450
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.603073154882702e-06,
+      "loss": 0.5631,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_f1": 0.8381595689513368,
+      "eval_loss": 0.5315341353416443,
+      "eval_runtime": 12.733,
+      "eval_samples_per_second": 715.231,
+      "eval_steps_per_second": 1.414,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.3899825395552714e-06,
+      "loss": 0.5015,
+      "step": 550
+    },
+    {
+      "epoch": 0.96,
+      "eval_f1": 0.8180551239783007,
+      "eval_loss": 0.6169003844261169,
+      "eval_runtime": 12.9102,
+      "eval_samples_per_second": 705.412,
+      "eval_steps_per_second": 1.394,
+      "step": 550
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.176891924227842e-06,
+      "loss": 0.4257,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_f1": 0.817923619273461,
+      "eval_loss": 0.6071110963821411,
+      "eval_runtime": 13.735,
+      "eval_samples_per_second": 663.053,
+      "eval_steps_per_second": 1.311,
+      "step": 600
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.963801308900412e-06,
+      "loss": 0.3327,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_f1": 0.826695023066157,
+      "eval_loss": 0.5854237675666809,
+      "eval_runtime": 13.1401,
+      "eval_samples_per_second": 693.07,
+      "eval_steps_per_second": 1.37,
+      "step": 650
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.7507106935729815e-06,
+      "loss": 0.403,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_f1": 0.8378257942819006,
+      "eval_loss": 0.5514610409736633,
+      "eval_runtime": 12.6701,
+      "eval_samples_per_second": 718.777,
+      "eval_steps_per_second": 1.421,
+      "step": 700
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 6.537620078245552e-06,
+      "loss": 0.3681,
+      "step": 750
+    },
+    {
+      "epoch": 1.31,
+      "eval_f1": 0.8209323144303958,
+      "eval_loss": 0.6371071338653564,
+      "eval_runtime": 13.0054,
+      "eval_samples_per_second": 700.248,
+      "eval_steps_per_second": 1.384,
+      "step": 750
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.324529462918122e-06,
+      "loss": 0.3236,
+      "step": 800
+    },
+    {
+      "epoch": 1.4,
+      "eval_f1": 0.8376510055572749,
+      "eval_loss": 0.5530755519866943,
+      "eval_runtime": 12.7123,
+      "eval_samples_per_second": 716.393,
+      "eval_steps_per_second": 1.416,
+      "step": 800
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.111438847590692e-06,
+      "loss": 0.4138,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_f1": 0.8451899128476951,
+      "eval_loss": 0.5386557579040527,
+      "eval_runtime": 12.9136,
+      "eval_samples_per_second": 705.227,
+      "eval_steps_per_second": 1.394,
+      "step": 850
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.8983482322632625e-06,
+      "loss": 0.3877,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_f1": 0.8396443482352846,
+      "eval_loss": 0.5918898582458496,
+      "eval_runtime": 12.97,
+      "eval_samples_per_second": 702.16,
+      "eval_steps_per_second": 1.388,
+      "step": 900
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 5.6852576169358325e-06,
+      "loss": 0.4276,
+      "step": 950
+    },
+    {
+      "epoch": 1.66,
+      "eval_f1": 0.8384743295885987,
+      "eval_loss": 0.5536447763442993,
+      "eval_runtime": 12.8415,
+      "eval_samples_per_second": 709.185,
+      "eval_steps_per_second": 1.402,
+      "step": 950
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 5.472167001608402e-06,
+      "loss": 0.3926,
+      "step": 1000
+    },
+    {
+      "epoch": 1.75,
+      "eval_f1": 0.8172426280935748,
+      "eval_loss": 0.6521010398864746,
+      "eval_runtime": 12.7489,
+      "eval_samples_per_second": 714.335,
+      "eval_steps_per_second": 1.412,
+      "step": 1000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 5.2590763862809725e-06,
+      "loss": 0.4432,
+      "step": 1050
+    },
+    {
+      "epoch": 1.84,
+      "eval_f1": 0.8475488904826799,
+      "eval_loss": 0.49612656235694885,
+      "eval_runtime": 12.9412,
+      "eval_samples_per_second": 703.724,
+      "eval_steps_per_second": 1.391,
+      "step": 1050
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.0459857709535426e-06,
+      "loss": 0.4031,
+      "step": 1100
+    },
+    {
+      "epoch": 1.93,
+      "eval_f1": 0.8534964001754608,
+      "eval_loss": 0.5003403425216675,
+      "eval_runtime": 13.459,
+      "eval_samples_per_second": 676.648,
+      "eval_steps_per_second": 1.337,
+      "step": 1100
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 4.832895155626112e-06,
+      "loss": 0.403,
+      "step": 1150
+    },
+    {
+      "epoch": 2.01,
+      "eval_f1": 0.850177595861797,
+      "eval_loss": 0.48595184087753296,
+      "eval_runtime": 13.0479,
+      "eval_samples_per_second": 697.967,
+      "eval_steps_per_second": 1.38,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.619804540298683e-06,
+      "loss": 0.2496,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1,
+      "eval_f1": 0.8431021077169384,
+      "eval_loss": 0.5751626491546631,
+      "eval_runtime": 12.7058,
+      "eval_samples_per_second": 716.759,
+      "eval_steps_per_second": 1.417,
+      "step": 1200
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 4.406713924971253e-06,
+      "loss": 0.257,
+      "step": 1250
+    },
+    {
+      "epoch": 2.19,
+      "eval_f1": 0.8475870877960617,
+      "eval_loss": 0.5579206347465515,
+      "eval_runtime": 12.6855,
+      "eval_samples_per_second": 717.908,
+      "eval_steps_per_second": 1.419,
+      "step": 1250
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 4.193623309643822e-06,
+      "loss": 0.3404,
+      "step": 1300
+    },
+    {
+      "epoch": 2.28,
+      "eval_f1": 0.8376321081317408,
+      "eval_loss": 0.6273791790008545,
+      "eval_runtime": 12.7187,
+      "eval_samples_per_second": 716.034,
+      "eval_steps_per_second": 1.415,
+      "step": 1300
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 3.980532694316393e-06,
+      "loss": 0.2248,
+      "step": 1350
+    },
+    {
+      "epoch": 2.36,
+      "eval_f1": 0.8374320586864977,
+      "eval_loss": 0.6183853149414062,
+      "eval_runtime": 12.8619,
+      "eval_samples_per_second": 708.058,
+      "eval_steps_per_second": 1.399,
+      "step": 1350
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 3.7674420789889623e-06,
+      "loss": 0.335,
+      "step": 1400
+    },
+    {
+      "epoch": 2.45,
+      "eval_f1": 0.8499224527475217,
+      "eval_loss": 0.5527887940406799,
+      "eval_runtime": 12.9423,
+      "eval_samples_per_second": 703.662,
+      "eval_steps_per_second": 1.391,
+      "step": 1400
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 3.5543514636615323e-06,
+      "loss": 0.3058,
+      "step": 1450
+    },
+    {
+      "epoch": 2.54,
+      "eval_f1": 0.8389360164023282,
+      "eval_loss": 0.6216479539871216,
+      "eval_runtime": 12.7941,
+      "eval_samples_per_second": 711.813,
+      "eval_steps_per_second": 1.407,
+      "step": 1450
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.341260848334102e-06,
+      "loss": 0.2675,
+      "step": 1500
+    },
+    {
+      "epoch": 2.63,
+      "eval_f1": 0.8420632349860007,
+      "eval_loss": 0.6038542985916138,
+      "eval_runtime": 12.7939,
+      "eval_samples_per_second": 711.826,
+      "eval_steps_per_second": 1.407,
+      "step": 1500
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 3.1281702330066724e-06,
+      "loss": 0.2097,
+      "step": 1550
+    },
+    {
+      "epoch": 2.71,
+      "eval_f1": 0.8351176102968624,
+      "eval_loss": 0.6655907034873962,
+      "eval_runtime": 13.3086,
+      "eval_samples_per_second": 684.295,
+      "eval_steps_per_second": 1.353,
+      "step": 1550
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.9150796176792424e-06,
+      "loss": 0.2868,
+      "step": 1600
+    },
+    {
+      "epoch": 2.8,
+      "eval_f1": 0.8457462458632461,
+      "eval_loss": 0.5934119820594788,
+      "eval_runtime": 13.4832,
+      "eval_samples_per_second": 675.433,
+      "eval_steps_per_second": 1.335,
+      "step": 1600
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 2.701989002351812e-06,
+      "loss": 0.3255,
+      "step": 1650
+    },
+    {
+      "epoch": 2.89,
+      "eval_f1": 0.843285508336316,
+      "eval_loss": 0.6201077103614807,
+      "eval_runtime": 13.4442,
+      "eval_samples_per_second": 677.394,
+      "eval_steps_per_second": 1.339,
+      "step": 1650
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 2.4888983870243825e-06,
+      "loss": 0.3317,
+      "step": 1700
+    },
+    {
+      "epoch": 2.98,
+      "eval_f1": 0.8462407461032612,
+      "eval_loss": 0.599490761756897,
+      "eval_runtime": 13.006,
+      "eval_samples_per_second": 700.216,
+      "eval_steps_per_second": 1.384,
+      "step": 1700
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 2.2758077716969525e-06,
+      "loss": 0.3481,
+      "step": 1750
+    },
+    {
+      "epoch": 3.06,
+      "eval_f1": 0.8533197825326935,
+      "eval_loss": 0.565264105796814,
+      "eval_runtime": 12.6526,
+      "eval_samples_per_second": 719.772,
+      "eval_steps_per_second": 1.423,
+      "step": 1750
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 2.062717156369522e-06,
+      "loss": 0.1945,
+      "step": 1800
+    },
+    {
+      "epoch": 3.15,
+      "eval_f1": 0.8491469838704785,
+      "eval_loss": 0.6022334098815918,
+      "eval_runtime": 12.8004,
+      "eval_samples_per_second": 711.465,
+      "eval_steps_per_second": 1.406,
+      "step": 1800
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 1.8496265410420923e-06,
+      "loss": 0.2752,
+      "step": 1850
+    },
+    {
+      "epoch": 3.24,
+      "eval_f1": 0.8365374998533712,
+      "eval_loss": 0.6872730851173401,
+      "eval_runtime": 12.9696,
+      "eval_samples_per_second": 702.183,
+      "eval_steps_per_second": 1.388,
+      "step": 1850
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 1.6365359257146626e-06,
+      "loss": 0.1996,
+      "step": 1900
+    },
+    {
+      "epoch": 3.33,
+      "eval_f1": 0.8451033394376192,
+      "eval_loss": 0.6422092318534851,
+      "eval_runtime": 12.8718,
+      "eval_samples_per_second": 707.513,
+      "eval_steps_per_second": 1.398,
+      "step": 1900
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 1.4234453103872324e-06,
+      "loss": 0.2491,
+      "step": 1950
+    },
+    {
+      "epoch": 3.42,
+      "eval_f1": 0.8470154791947956,
+      "eval_loss": 0.6257719397544861,
+      "eval_runtime": 12.7843,
+      "eval_samples_per_second": 712.356,
+      "eval_steps_per_second": 1.408,
+      "step": 1950
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 1.2103546950598024e-06,
+      "loss": 0.2368,
+      "step": 2000
+    },
+    {
+      "epoch": 3.5,
+      "eval_f1": 0.8493072488776222,
+      "eval_loss": 0.6073781251907349,
+      "eval_runtime": 12.7011,
+      "eval_samples_per_second": 717.024,
+      "eval_steps_per_second": 1.417,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2284,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 162782606311200.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 9.520888692829572e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 4
+  }
+}

run-2/checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffebf7e3158659f9acfc5251a7413b79224a3042a0cc4d9f259be5d9dbc266cd
+size 4728

run-2/checkpoint-2000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff