Doowon96 commited on Jan 23

Commit

072599a

•

1 Parent(s): b597518

Training in progress, step 1500

Browse files

Files changed (23) hide show

model.safetensors +1 -1
run-2/checkpoint-1000/config.json +48 -0
run-2/checkpoint-1000/model.safetensors +3 -0
run-2/checkpoint-1000/optimizer.pt +3 -0
run-2/checkpoint-1000/rng_state.pth +3 -0
run-2/checkpoint-1000/scheduler.pt +3 -0
run-2/checkpoint-1000/special_tokens_map.json +51 -0
run-2/checkpoint-1000/tokenizer.json +0 -0
run-2/checkpoint-1000/tokenizer_config.json +59 -0
run-2/checkpoint-1000/trainer_state.json +326 -0
run-2/checkpoint-1000/training_args.bin +3 -0
run-2/checkpoint-1000/vocab.txt +0 -0
run-2/checkpoint-1500/config.json +48 -0
run-2/checkpoint-1500/model.safetensors +3 -0
run-2/checkpoint-1500/optimizer.pt +3 -0
run-2/checkpoint-1500/rng_state.pth +3 -0
run-2/checkpoint-1500/scheduler.pt +3 -0
run-2/checkpoint-1500/special_tokens_map.json +51 -0
run-2/checkpoint-1500/tokenizer.json +0 -0
run-2/checkpoint-1500/tokenizer_config.json +59 -0
run-2/checkpoint-1500/trainer_state.json +476 -0
run-2/checkpoint-1500/training_args.bin +3 -0
run-2/checkpoint-1500/vocab.txt +0 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32829ac41fa7d2ff1128f275e22cdd36477e6ae03d652fe1eb6c21605e21cf60
 size 442518124

 version https://git-lfs.github.com/spec/v1
+oid sha256:17f1e97e80984b8c703c5df8fbd30ef068a73a57bbc1e84e480b96e2d8ee40ff
 size 442518124

run-2/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "klue/roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tokenizer_class": "BertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32000
+}

run-2/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32829ac41fa7d2ff1128f275e22cdd36477e6ae03d652fe1eb6c21605e21cf60
+size 442518124

run-2/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5f4da5b16a52e52edf28a690da6a0cbb917965447aa00df376e7a8928a470fe
+size 885156090

run-2/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfa29879bfeb52dbe9143232bc4a10111256a751b7c7dfeba61e129bf6be84a1
+size 14244

run-2/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afeefb1fb1d75e6183fe25724d639490d27a5c5d144cd8fc9769e05d6b32b92f
+size 1064

run-2/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-2/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,326 @@

+{
+  "best_metric": 0.8381595689513368,
+  "best_model_checkpoint": "test-klue/ynat/run-2/checkpoint-500",
+  "epoch": 1.7513134851138354,
+  "eval_steps": 50,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.520888692829572e-06,
+      "loss": 1.9542,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_f1": 0.04583937972534243,
+      "eval_loss": 1.94540536403656,
+      "eval_runtime": 12.7715,
+      "eval_samples_per_second": 713.073,
+      "eval_steps_per_second": 1.409,
+      "step": 50
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.307798077502143e-06,
+      "loss": 1.6697,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_f1": 0.5702339339536844,
+      "eval_loss": 1.5132834911346436,
+      "eval_runtime": 13.3022,
+      "eval_samples_per_second": 684.621,
+      "eval_steps_per_second": 1.353,
+      "step": 100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.094707462174712e-06,
+      "loss": 0.8971,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_f1": 0.7432151839966054,
+      "eval_loss": 0.97530198097229,
+      "eval_runtime": 12.9877,
+      "eval_samples_per_second": 701.204,
+      "eval_steps_per_second": 1.386,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.881616846847283e-06,
+      "loss": 0.6418,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_f1": 0.7297934771119111,
+      "eval_loss": 0.8931246995925903,
+      "eval_runtime": 12.7184,
+      "eval_samples_per_second": 716.049,
+      "eval_steps_per_second": 1.415,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 8.668526231519852e-06,
+      "loss": 0.6438,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_f1": 0.7761230585561165,
+      "eval_loss": 0.7596781849861145,
+      "eval_runtime": 12.6711,
+      "eval_samples_per_second": 718.722,
+      "eval_steps_per_second": 1.421,
+      "step": 250
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.455435616192421e-06,
+      "loss": 0.5509,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_f1": 0.8095769257080263,
+      "eval_loss": 0.6825068593025208,
+      "eval_runtime": 12.713,
+      "eval_samples_per_second": 716.351,
+      "eval_steps_per_second": 1.416,
+      "step": 300
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.242345000864992e-06,
+      "loss": 0.45,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_f1": 0.820467350641947,
+      "eval_loss": 0.6184367537498474,
+      "eval_runtime": 12.8329,
+      "eval_samples_per_second": 709.662,
+      "eval_steps_per_second": 1.403,
+      "step": 350
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.029254385537563e-06,
+      "loss": 0.4877,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_f1": 0.8192647088110643,
+      "eval_loss": 0.5932053327560425,
+      "eval_runtime": 12.9021,
+      "eval_samples_per_second": 705.857,
+      "eval_steps_per_second": 1.395,
+      "step": 400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.816163770210132e-06,
+      "loss": 0.5672,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_f1": 0.8008517524970246,
+      "eval_loss": 0.6429001092910767,
+      "eval_runtime": 12.7777,
+      "eval_samples_per_second": 712.728,
+      "eval_steps_per_second": 1.409,
+      "step": 450
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.603073154882702e-06,
+      "loss": 0.5631,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_f1": 0.8381595689513368,
+      "eval_loss": 0.5315341353416443,
+      "eval_runtime": 12.733,
+      "eval_samples_per_second": 715.231,
+      "eval_steps_per_second": 1.414,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.3899825395552714e-06,
+      "loss": 0.5015,
+      "step": 550
+    },
+    {
+      "epoch": 0.96,
+      "eval_f1": 0.8180551239783007,
+      "eval_loss": 0.6169003844261169,
+      "eval_runtime": 12.9102,
+      "eval_samples_per_second": 705.412,
+      "eval_steps_per_second": 1.394,
+      "step": 550
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.176891924227842e-06,
+      "loss": 0.4257,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_f1": 0.817923619273461,
+      "eval_loss": 0.6071110963821411,
+      "eval_runtime": 13.735,
+      "eval_samples_per_second": 663.053,
+      "eval_steps_per_second": 1.311,
+      "step": 600
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.963801308900412e-06,
+      "loss": 0.3327,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_f1": 0.826695023066157,
+      "eval_loss": 0.5854237675666809,
+      "eval_runtime": 13.1401,
+      "eval_samples_per_second": 693.07,
+      "eval_steps_per_second": 1.37,
+      "step": 650
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.7507106935729815e-06,
+      "loss": 0.403,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_f1": 0.8378257942819006,
+      "eval_loss": 0.5514610409736633,
+      "eval_runtime": 12.6701,
+      "eval_samples_per_second": 718.777,
+      "eval_steps_per_second": 1.421,
+      "step": 700
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 6.537620078245552e-06,
+      "loss": 0.3681,
+      "step": 750
+    },
+    {
+      "epoch": 1.31,
+      "eval_f1": 0.8209323144303958,
+      "eval_loss": 0.6371071338653564,
+      "eval_runtime": 13.0054,
+      "eval_samples_per_second": 700.248,
+      "eval_steps_per_second": 1.384,
+      "step": 750
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.324529462918122e-06,
+      "loss": 0.3236,
+      "step": 800
+    },
+    {
+      "epoch": 1.4,
+      "eval_f1": 0.8376510055572749,
+      "eval_loss": 0.5530755519866943,
+      "eval_runtime": 12.7123,
+      "eval_samples_per_second": 716.393,
+      "eval_steps_per_second": 1.416,
+      "step": 800
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.111438847590692e-06,
+      "loss": 0.4138,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_f1": 0.8451899128476951,
+      "eval_loss": 0.5386557579040527,
+      "eval_runtime": 12.9136,
+      "eval_samples_per_second": 705.227,
+      "eval_steps_per_second": 1.394,
+      "step": 850
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.8983482322632625e-06,
+      "loss": 0.3877,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_f1": 0.8396443482352846,
+      "eval_loss": 0.5918898582458496,
+      "eval_runtime": 12.97,
+      "eval_samples_per_second": 702.16,
+      "eval_steps_per_second": 1.388,
+      "step": 900
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 5.6852576169358325e-06,
+      "loss": 0.4276,
+      "step": 950
+    },
+    {
+      "epoch": 1.66,
+      "eval_f1": 0.8384743295885987,
+      "eval_loss": 0.5536447763442993,
+      "eval_runtime": 12.8415,
+      "eval_samples_per_second": 709.185,
+      "eval_steps_per_second": 1.402,
+      "step": 950
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 5.472167001608402e-06,
+      "loss": 0.3926,
+      "step": 1000
+    },
+    {
+      "epoch": 1.75,
+      "eval_f1": 0.8172426280935748,
+      "eval_loss": 0.6521010398864746,
+      "eval_runtime": 12.7489,
+      "eval_samples_per_second": 714.335,
+      "eval_steps_per_second": 1.412,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2284,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 81469417756800.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 9.520888692829572e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 4
+  }
+}

run-2/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffebf7e3158659f9acfc5251a7413b79224a3042a0cc4d9f259be5d9dbc266cd
+size 4728

run-2/checkpoint-1000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "klue/roberta-base",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "tokenizer_class": "BertTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32000
+}

run-2/checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17f1e97e80984b8c703c5df8fbd30ef068a73a57bbc1e84e480b96e2d8ee40ff
+size 442518124

run-2/checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0852145dbedd3d255be66c9beab141be9e64410d3de1fcc836278111774e6a
+size 885156090

run-2/checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00e674e1c53bc3c38e08621d5e0b2e51a3c1e08b1238d1cd7a57dff5ebf25d88
+size 14244

run-2/checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52875a2cd32e5a9687b756a6ffed88cddf8f2fc62d96d872e43b52b8cd79d6c6
+size 1064

run-2/checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

run-2/checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,476 @@

+{
+  "best_metric": 0.8420632349860007,
+  "best_model_checkpoint": "test-klue/ynat/run-2/checkpoint-1500",
+  "epoch": 2.626970227670753,
+  "eval_steps": 50,
+  "global_step": 1500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.520888692829572e-06,
+      "loss": 1.9542,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_f1": 0.04583937972534243,
+      "eval_loss": 1.94540536403656,
+      "eval_runtime": 12.7715,
+      "eval_samples_per_second": 713.073,
+      "eval_steps_per_second": 1.409,
+      "step": 50
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.307798077502143e-06,
+      "loss": 1.6697,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_f1": 0.5702339339536844,
+      "eval_loss": 1.5132834911346436,
+      "eval_runtime": 13.3022,
+      "eval_samples_per_second": 684.621,
+      "eval_steps_per_second": 1.353,
+      "step": 100
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.094707462174712e-06,
+      "loss": 0.8971,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_f1": 0.7432151839966054,
+      "eval_loss": 0.97530198097229,
+      "eval_runtime": 12.9877,
+      "eval_samples_per_second": 701.204,
+      "eval_steps_per_second": 1.386,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.881616846847283e-06,
+      "loss": 0.6418,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_f1": 0.7297934771119111,
+      "eval_loss": 0.8931246995925903,
+      "eval_runtime": 12.7184,
+      "eval_samples_per_second": 716.049,
+      "eval_steps_per_second": 1.415,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 8.668526231519852e-06,
+      "loss": 0.6438,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_f1": 0.7761230585561165,
+      "eval_loss": 0.7596781849861145,
+      "eval_runtime": 12.6711,
+      "eval_samples_per_second": 718.722,
+      "eval_steps_per_second": 1.421,
+      "step": 250
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.455435616192421e-06,
+      "loss": 0.5509,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_f1": 0.8095769257080263,
+      "eval_loss": 0.6825068593025208,
+      "eval_runtime": 12.713,
+      "eval_samples_per_second": 716.351,
+      "eval_steps_per_second": 1.416,
+      "step": 300
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 8.242345000864992e-06,
+      "loss": 0.45,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_f1": 0.820467350641947,
+      "eval_loss": 0.6184367537498474,
+      "eval_runtime": 12.8329,
+      "eval_samples_per_second": 709.662,
+      "eval_steps_per_second": 1.403,
+      "step": 350
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 8.029254385537563e-06,
+      "loss": 0.4877,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_f1": 0.8192647088110643,
+      "eval_loss": 0.5932053327560425,
+      "eval_runtime": 12.9021,
+      "eval_samples_per_second": 705.857,
+      "eval_steps_per_second": 1.395,
+      "step": 400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 7.816163770210132e-06,
+      "loss": 0.5672,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_f1": 0.8008517524970246,
+      "eval_loss": 0.6429001092910767,
+      "eval_runtime": 12.7777,
+      "eval_samples_per_second": 712.728,
+      "eval_steps_per_second": 1.409,
+      "step": 450
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.603073154882702e-06,
+      "loss": 0.5631,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_f1": 0.8381595689513368,
+      "eval_loss": 0.5315341353416443,
+      "eval_runtime": 12.733,
+      "eval_samples_per_second": 715.231,
+      "eval_steps_per_second": 1.414,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 7.3899825395552714e-06,
+      "loss": 0.5015,
+      "step": 550
+    },
+    {
+      "epoch": 0.96,
+      "eval_f1": 0.8180551239783007,
+      "eval_loss": 0.6169003844261169,
+      "eval_runtime": 12.9102,
+      "eval_samples_per_second": 705.412,
+      "eval_steps_per_second": 1.394,
+      "step": 550
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 7.176891924227842e-06,
+      "loss": 0.4257,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_f1": 0.817923619273461,
+      "eval_loss": 0.6071110963821411,
+      "eval_runtime": 13.735,
+      "eval_samples_per_second": 663.053,
+      "eval_steps_per_second": 1.311,
+      "step": 600
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 6.963801308900412e-06,
+      "loss": 0.3327,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_f1": 0.826695023066157,
+      "eval_loss": 0.5854237675666809,
+      "eval_runtime": 13.1401,
+      "eval_samples_per_second": 693.07,
+      "eval_steps_per_second": 1.37,
+      "step": 650
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 6.7507106935729815e-06,
+      "loss": 0.403,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_f1": 0.8378257942819006,
+      "eval_loss": 0.5514610409736633,
+      "eval_runtime": 12.6701,
+      "eval_samples_per_second": 718.777,
+      "eval_steps_per_second": 1.421,
+      "step": 700
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 6.537620078245552e-06,
+      "loss": 0.3681,
+      "step": 750
+    },
+    {
+      "epoch": 1.31,
+      "eval_f1": 0.8209323144303958,
+      "eval_loss": 0.6371071338653564,
+      "eval_runtime": 13.0054,
+      "eval_samples_per_second": 700.248,
+      "eval_steps_per_second": 1.384,
+      "step": 750
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 6.324529462918122e-06,
+      "loss": 0.3236,
+      "step": 800
+    },
+    {
+      "epoch": 1.4,
+      "eval_f1": 0.8376510055572749,
+      "eval_loss": 0.5530755519866943,
+      "eval_runtime": 12.7123,
+      "eval_samples_per_second": 716.393,
+      "eval_steps_per_second": 1.416,
+      "step": 800
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 6.111438847590692e-06,
+      "loss": 0.4138,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_f1": 0.8451899128476951,
+      "eval_loss": 0.5386557579040527,
+      "eval_runtime": 12.9136,
+      "eval_samples_per_second": 705.227,
+      "eval_steps_per_second": 1.394,
+      "step": 850
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 5.8983482322632625e-06,
+      "loss": 0.3877,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_f1": 0.8396443482352846,
+      "eval_loss": 0.5918898582458496,
+      "eval_runtime": 12.97,
+      "eval_samples_per_second": 702.16,
+      "eval_steps_per_second": 1.388,
+      "step": 900
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 5.6852576169358325e-06,
+      "loss": 0.4276,
+      "step": 950
+    },
+    {
+      "epoch": 1.66,
+      "eval_f1": 0.8384743295885987,
+      "eval_loss": 0.5536447763442993,
+      "eval_runtime": 12.8415,
+      "eval_samples_per_second": 709.185,
+      "eval_steps_per_second": 1.402,
+      "step": 950
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 5.472167001608402e-06,
+      "loss": 0.3926,
+      "step": 1000
+    },
+    {
+      "epoch": 1.75,
+      "eval_f1": 0.8172426280935748,
+      "eval_loss": 0.6521010398864746,
+      "eval_runtime": 12.7489,
+      "eval_samples_per_second": 714.335,
+      "eval_steps_per_second": 1.412,
+      "step": 1000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 5.2590763862809725e-06,
+      "loss": 0.4432,
+      "step": 1050
+    },
+    {
+      "epoch": 1.84,
+      "eval_f1": 0.8475488904826799,
+      "eval_loss": 0.49612656235694885,
+      "eval_runtime": 12.9412,
+      "eval_samples_per_second": 703.724,
+      "eval_steps_per_second": 1.391,
+      "step": 1050
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 5.0459857709535426e-06,
+      "loss": 0.4031,
+      "step": 1100
+    },
+    {
+      "epoch": 1.93,
+      "eval_f1": 0.8534964001754608,
+      "eval_loss": 0.5003403425216675,
+      "eval_runtime": 13.459,
+      "eval_samples_per_second": 676.648,
+      "eval_steps_per_second": 1.337,
+      "step": 1100
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 4.832895155626112e-06,
+      "loss": 0.403,
+      "step": 1150
+    },
+    {
+      "epoch": 2.01,
+      "eval_f1": 0.850177595861797,
+      "eval_loss": 0.48595184087753296,
+      "eval_runtime": 13.0479,
+      "eval_samples_per_second": 697.967,
+      "eval_steps_per_second": 1.38,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.619804540298683e-06,
+      "loss": 0.2496,
+      "step": 1200
+    },
+    {
+      "epoch": 2.1,
+      "eval_f1": 0.8431021077169384,
+      "eval_loss": 0.5751626491546631,
+      "eval_runtime": 12.7058,
+      "eval_samples_per_second": 716.759,
+      "eval_steps_per_second": 1.417,
+      "step": 1200
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 4.406713924971253e-06,
+      "loss": 0.257,
+      "step": 1250
+    },
+    {
+      "epoch": 2.19,
+      "eval_f1": 0.8475870877960617,
+      "eval_loss": 0.5579206347465515,
+      "eval_runtime": 12.6855,
+      "eval_samples_per_second": 717.908,
+      "eval_steps_per_second": 1.419,
+      "step": 1250
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 4.193623309643822e-06,
+      "loss": 0.3404,
+      "step": 1300
+    },
+    {
+      "epoch": 2.28,
+      "eval_f1": 0.8376321081317408,
+      "eval_loss": 0.6273791790008545,
+      "eval_runtime": 12.7187,
+      "eval_samples_per_second": 716.034,
+      "eval_steps_per_second": 1.415,
+      "step": 1300
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 3.980532694316393e-06,
+      "loss": 0.2248,
+      "step": 1350
+    },
+    {
+      "epoch": 2.36,
+      "eval_f1": 0.8374320586864977,
+      "eval_loss": 0.6183853149414062,
+      "eval_runtime": 12.8619,
+      "eval_samples_per_second": 708.058,
+      "eval_steps_per_second": 1.399,
+      "step": 1350
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 3.7674420789889623e-06,
+      "loss": 0.335,
+      "step": 1400
+    },
+    {
+      "epoch": 2.45,
+      "eval_f1": 0.8499224527475217,
+      "eval_loss": 0.5527887940406799,
+      "eval_runtime": 12.9423,
+      "eval_samples_per_second": 703.662,
+      "eval_steps_per_second": 1.391,
+      "step": 1400
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 3.5543514636615323e-06,
+      "loss": 0.3058,
+      "step": 1450
+    },
+    {
+      "epoch": 2.54,
+      "eval_f1": 0.8389360164023282,
+      "eval_loss": 0.6216479539871216,
+      "eval_runtime": 12.7941,
+      "eval_samples_per_second": 711.813,
+      "eval_steps_per_second": 1.407,
+      "step": 1450
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.341260848334102e-06,
+      "loss": 0.2675,
+      "step": 1500
+    },
+    {
+      "epoch": 2.63,
+      "eval_f1": 0.8420632349860007,
+      "eval_loss": 0.6038542985916138,
+      "eval_runtime": 12.7939,
+      "eval_samples_per_second": 711.826,
+      "eval_steps_per_second": 1.407,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2284,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "total_flos": 122130123328800.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 9.520888692829572e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 8,
+    "seed": 4
+  }
+}

run-2/checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffebf7e3158659f9acfc5251a7413b79224a3042a0cc4d9f259be5d9dbc266cd
+size 4728

run-2/checkpoint-1500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff