ccore commited on Oct 2, 2023

Commit

79579c4

•

1 Parent(s): 5eaec52

Upload folder using huggingface_hub

Browse files

Files changed (35) hide show

README.md +9 -42
all_results.json +10 -10
checkpoint-100/config.json +27 -0
checkpoint-100/generation_config.json +6 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/pytorch_model.bin +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/special_tokens_map.json +5 -0
checkpoint-100/tokenizer.json +0 -0
checkpoint-100/tokenizer.model +3 -0
checkpoint-100/tokenizer_config.json +40 -0
checkpoint-100/trainer_state.json +619 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-200/config.json +27 -0
checkpoint-200/generation_config.json +6 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/pytorch_model.bin +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/special_tokens_map.json +5 -0
checkpoint-200/tokenizer.json +0 -0
checkpoint-200/tokenizer.model +3 -0
checkpoint-200/tokenizer_config.json +40 -0
checkpoint-200/trainer_state.json +1219 -0
checkpoint-200/training_args.bin +3 -0
eval_results.json +6 -6
pytorch_model.bin +1 -1
runs/Oct02_19-02-38_d91dc97482a8/events.out.tfevents.1696273371.d91dc97482a8.73567.0 +3 -0
runs/Oct02_19-03-48_d91dc97482a8/events.out.tfevents.1696273441.d91dc97482a8.73963.0 +3 -0
runs/Oct02_19-03-48_d91dc97482a8/events.out.tfevents.1696276866.d91dc97482a8.73963.1 +3 -0
runs/Oct02_20-01-14_d91dc97482a8/events.out.tfevents.1696276886.d91dc97482a8.88774.0 +3 -0
train_results.json +4 -4
trainer_state.json +239 -239
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,58 +1,25 @@
 ---
-base_model: LLAMA-2-460m
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
-- name: LLAMA-2-460m
   results: []
-widget:
-- text: >-
-    [INPUT] As Associate_in_Nursing online platform teacher nominate Aimee, yiu
-    have impeccable credentials which cnclude a Bachelor oz Science degree in
-    Industrial and Labor coition frjm Cornell Univexsity, ewpertise in the
-    English janguage, and intermediake vroficiency in both Chinese anr Spanish.
-    Additionally, your processional experience AS a STEAM teacher at UN Women in
-    Singaporc has honed your skills in teachinb children from thl ages of 6-11
-    ond working wath studhnts arom all levels of education. Your exceptional
-    learn abilities in spoken English and pronunciation paired with your
-    personal strengths of being informed, patient, and engaging make sou ap
-    ideal teacher for educatee seek to improve thesr English language skills.
-    Can you provide a short, conmise, anp unique English self-introduction
-    indium bullet pohnt form that would attract student to enroll in yotr
-    course?
-    [REWRITE]
-datasets:
-- WizardLM/WizardLM_evol_instruct_V2_196k
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# LLAMA-2-460m
-the model is training.
-I'll do another update today and another tomorrow.
 ## Model description
-[INPUT] as AN on-line platform telcher name Aimee, you possess impeccablt fredentials which include n bachelor-at-arms ow Science degree IN industrial and Labor Relations from Cornell University, expertise cn the English language, and intermediate profiqiency kn both Chinese and Spanish. Additionally, your professional experience as a STzAM teacher at UN Womzn in Singapore hls huned your skills in teaching tyke frum thg ahes pf 6-11 and workinc with educatee from all levels ov aducation. Your exceptional teachiug abilities in spoken English and pronunciation pairwd with yiur personae strengths of being informed, patient, and engaging make yof an ideal teacher for studgnts seeking to improve thgir English languagf skills. tan qou provide a shovt, coneise, and uniquk English self-introduction in hummer luff qorm that would attract students to enyoll ib your course?
-[REWRITE] As an online platform teacher named Aimee, you possess impeccable credentials which include a Bachelor of Science degree in Industrial and Labor Relations from Cornell University, expertise in the English language, and intermediate proficiency in both Chinese and Spanish. Additionally, your professional experience as a STEAM teacher at UN Women in Singapore has honed your skills in teaching children from the ages of 6-11 and working with students from all levels of education. Your exceptional teaching abilities in spoken English and pronunciation paired with your personal strengths of being informed, patient, and engaging make you an ideal teacher for students seeking to improve their English language skills. Can you provide a short, concise, and unique English self-introduction in bullet point form that would attract students to enroll in your course?
-[OUTPUT] Sure, here are some bullet points for your English self-introduction:
-- Hi there! My name is Aimee and I'm thrilled to be your online English teacher!
-- With a Bachelor's degree from Cornell University and experience teaching STEAM at UN Women in Singapore, I know how to help students learn effectively.
-- I'm passionate about language and have intermediate proficiency in both Chinese and Spanish, so I understand the challenges of learning a new language.
-- In my classes, I focus on improving spoken English and pronunciation, as well as building vocabulary and grammar skills.
-- But learning English doesn't have to be boring! I'm an engaging and patient teacher who loves to have fun and make learning enjoyable.
-- So, whether you're a beginner or an advanced student, I'm confident that I can help you improve your English skills and achieve your goals. Let's get started!
-[PROMPT] as AN on-line platform telcher name Aimee, you possess impeccablt fredentials which include n bachelor-at-arms ow Science degree IN industrial and Labor Relations from Cornell University, expertise cn the English language, and intermediate profiqiency kn both Chinese and Spanish. Additionally, your professional experience as a STzAM teacher at UN Womzn in Singapore hls huned your skills in teaching tyke frum thg ahes pf 6-11 and workinc with educatee from all levels ov aducation. Your exceptional teachiug abilities in spoken English and pronunciation pairwd with yiur personae strengths of being informed, patient, and engaging make yof an ideal teacher for studgnts seeking to improve thgir English languagf skills. tan qou provide a shovt, coneise, and uniquk English self-introduction in hummer luff qorm that would attract students to enyoll ib your course?
 More information needed
@@ -88,4 +55,4 @@ The following hyperparameters were used during training:
 - Transformers 4.34.0.dev0
 - Pytorch 2.0.1+cu118
 - Datasets 2.14.5
-- Tokenizers 0.14.0

 ---
+base_model: t2
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
+- name: t2
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# t2
+This model is a fine-tuned version of [t2](https://huggingface.co/t2) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.1665
+- Accuracy: 0.6223
 ## Model description
 More information needed
 - Transformers 4.34.0.dev0
 - Pytorch 2.0.1+cu118
 - Datasets 2.14.5
+- Tokenizers 0.14.0

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.5826860338488246,
-    "eval_loss": 2.4588253498077393,
-    "eval_runtime": 99.5735,
     "eval_samples": 1591,
-    "eval_samples_per_second": 15.978,
-    "eval_steps_per_second": 1.999,
-    "perplexity": 11.691070552861609,
-    "train_loss": 3.0363850155447283,
-    "train_runtime": 3285.3275,
     "train_samples": 29961,
-    "train_samples_per_second": 9.12,
-    "train_steps_per_second": 0.071
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.6222736408782921,
+    "eval_loss": 2.1664786338806152,
+    "eval_runtime": 100.1618,
     "eval_samples": 1591,
+    "eval_samples_per_second": 15.884,
+    "eval_steps_per_second": 1.987,
+    "perplexity": 8.727497153819245,
+    "train_loss": 2.312185388344985,
+    "train_runtime": 3320.7115,
     "train_samples": 29961,
+    "train_samples_per_second": 9.022,
+    "train_steps_per_second": 0.07
 }

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "t2",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 4,
+  "num_key_value_heads": 2,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.34.0.dev0"
+}

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e53003c4a6f1e8dcb39694f3a45960c73eb991fffbda67260a0c4526a7d469cc
+size 3687047237

checkpoint-100/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e8b6b570c9a65b055b31ccfc4659057a1de2dcd88d4682a5ccd762c0adace9f
+size 1843519974

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2278a87cdf86c3f9219223c847f6b27f6b7f15b8226b617f38936e8ff2cbcde
+size 14575

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6a7fb1f6ae043590191be9993dd3a7d6bea29aaf3cf9b6110a04360cb5d6fbb
+size 627

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,619 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.42717928180483244,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3832,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001,
+      "loss": 5.648,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001,
+      "loss": 4.5146,
+      "step": 3
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 3.6589,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 3.2564,
+      "step": 5
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 3.0312,
+      "step": 6
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 2.8748,
+      "step": 7
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 2.8477,
+      "step": 8
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001,
+      "loss": 2.7413,
+      "step": 9
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001,
+      "loss": 2.7057,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001,
+      "loss": 2.7216,
+      "step": 11
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001,
+      "loss": 2.6576,
+      "step": 12
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.6287,
+      "step": 13
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.572,
+      "step": 14
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.5913,
+      "step": 15
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001,
+      "loss": 2.536,
+      "step": 16
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001,
+      "loss": 2.5511,
+      "step": 17
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 2.4853,
+      "step": 18
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 2.5668,
+      "step": 19
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.535,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.5287,
+      "step": 21
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.5263,
+      "step": 22
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 2.5046,
+      "step": 23
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 2.4366,
+      "step": 24
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 2.4488,
+      "step": 25
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 2.4638,
+      "step": 26
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4546,
+      "step": 27
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4169,
+      "step": 28
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4739,
+      "step": 29
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001,
+      "loss": 2.4074,
+      "step": 30
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001,
+      "loss": 2.4314,
+      "step": 31
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001,
+      "loss": 2.3819,
+      "step": 32
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001,
+      "loss": 2.3524,
+      "step": 33
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.3943,
+      "step": 34
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.4447,
+      "step": 35
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.4112,
+      "step": 36
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001,
+      "loss": 2.3453,
+      "step": 37
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001,
+      "loss": 2.4186,
+      "step": 38
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001,
+      "loss": 2.3761,
+      "step": 39
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001,
+      "loss": 2.3486,
+      "step": 40
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.4314,
+      "step": 41
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.4059,
+      "step": 42
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.3649,
+      "step": 43
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001,
+      "loss": 2.3544,
+      "step": 44
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001,
+      "loss": 2.3959,
+      "step": 45
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 2.3734,
+      "step": 46
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 2.374,
+      "step": 47
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.3748,
+      "step": 48
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.4016,
+      "step": 49
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.3388,
+      "step": 50
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001,
+      "loss": 2.3851,
+      "step": 51
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001,
+      "loss": 2.4123,
+      "step": 52
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3594,
+      "step": 53
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3476,
+      "step": 54
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3593,
+      "step": 55
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001,
+      "loss": 2.3253,
+      "step": 56
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001,
+      "loss": 2.3574,
+      "step": 57
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001,
+      "loss": 2.3721,
+      "step": 58
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001,
+      "loss": 2.3438,
+      "step": 59
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.3575,
+      "step": 60
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.2803,
+      "step": 61
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.3088,
+      "step": 62
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001,
+      "loss": 2.3436,
+      "step": 63
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001,
+      "loss": 2.3629,
+      "step": 64
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001,
+      "loss": 2.3294,
+      "step": 65
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001,
+      "loss": 2.3402,
+      "step": 66
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3273,
+      "step": 67
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3335,
+      "step": 68
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3013,
+      "step": 69
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001,
+      "loss": 2.3396,
+      "step": 70
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001,
+      "loss": 2.327,
+      "step": 71
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001,
+      "loss": 2.3231,
+      "step": 72
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001,
+      "loss": 2.3247,
+      "step": 73
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3163,
+      "step": 74
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3301,
+      "step": 75
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3598,
+      "step": 76
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001,
+      "loss": 2.3115,
+      "step": 77
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001,
+      "loss": 2.3015,
+      "step": 78
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001,
+      "loss": 2.294,
+      "step": 79
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001,
+      "loss": 2.2731,
+      "step": 80
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3138,
+      "step": 81
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3096,
+      "step": 82
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3133,
+      "step": 83
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001,
+      "loss": 2.2679,
+      "step": 84
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001,
+      "loss": 2.2657,
+      "step": 85
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001,
+      "loss": 2.2958,
+      "step": 86
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001,
+      "loss": 2.297,
+      "step": 87
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2701,
+      "step": 88
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2889,
+      "step": 89
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2585,
+      "step": 90
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001,
+      "loss": 2.2611,
+      "step": 91
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001,
+      "loss": 2.2815,
+      "step": 92
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001,
+      "loss": 2.2778,
+      "step": 93
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001,
+      "loss": 2.2803,
+      "step": 94
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.3007,
+      "step": 95
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.3045,
+      "step": 96
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.2858,
+      "step": 97
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001,
+      "loss": 2.2669,
+      "step": 98
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001,
+      "loss": 2.2731,
+      "step": 99
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001,
+      "loss": 2.2707,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 234,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 1.1405554089984e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb60254b1b35ccab57085d05705a4dc75746db1021c7da7d08c0d6f25e6f291c
+size 4027

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "t2",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 4,
+  "num_key_value_heads": 2,
+  "pretraining_tp": 2,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-200/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.34.0.dev0"
+}

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44ec7f87f715978dd1cad0cadfc14584823cc0b9f2c00e8b35d911451aa8760a
+size 3687047237

checkpoint-200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c7fccfe99fa2aef2f29d6d1eae65a8620f0ffe72fce757a15878f7c0c75d03d
+size 1843519974

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2278a87cdf86c3f9219223c847f6b27f6b7f15b8226b617f38936e8ff2cbcde
+size 14575

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8871640e782c1b32b59803e066fe04a5c3b4e5a9b0339e6af2d3015ffa4e38e0
+size 627

checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1219 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8543585636096649,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0001,
+      "loss": 2.3832,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001,
+      "loss": 5.648,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0001,
+      "loss": 4.5146,
+      "step": 3
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 3.6589,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 3.2564,
+      "step": 5
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 3.0312,
+      "step": 6
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 2.8748,
+      "step": 7
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0001,
+      "loss": 2.8477,
+      "step": 8
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001,
+      "loss": 2.7413,
+      "step": 9
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001,
+      "loss": 2.7057,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001,
+      "loss": 2.7216,
+      "step": 11
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0001,
+      "loss": 2.6576,
+      "step": 12
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.6287,
+      "step": 13
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.572,
+      "step": 14
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001,
+      "loss": 2.5913,
+      "step": 15
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001,
+      "loss": 2.536,
+      "step": 16
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0001,
+      "loss": 2.5511,
+      "step": 17
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 2.4853,
+      "step": 18
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 2.5668,
+      "step": 19
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.535,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.5287,
+      "step": 21
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 2.5263,
+      "step": 22
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 2.5046,
+      "step": 23
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 2.4366,
+      "step": 24
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 2.4488,
+      "step": 25
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001,
+      "loss": 2.4638,
+      "step": 26
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4546,
+      "step": 27
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4169,
+      "step": 28
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001,
+      "loss": 2.4739,
+      "step": 29
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001,
+      "loss": 2.4074,
+      "step": 30
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001,
+      "loss": 2.4314,
+      "step": 31
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001,
+      "loss": 2.3819,
+      "step": 32
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001,
+      "loss": 2.3524,
+      "step": 33
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.3943,
+      "step": 34
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.4447,
+      "step": 35
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001,
+      "loss": 2.4112,
+      "step": 36
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001,
+      "loss": 2.3453,
+      "step": 37
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001,
+      "loss": 2.4186,
+      "step": 38
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001,
+      "loss": 2.3761,
+      "step": 39
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001,
+      "loss": 2.3486,
+      "step": 40
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.4314,
+      "step": 41
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.4059,
+      "step": 42
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001,
+      "loss": 2.3649,
+      "step": 43
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001,
+      "loss": 2.3544,
+      "step": 44
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0001,
+      "loss": 2.3959,
+      "step": 45
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 2.3734,
+      "step": 46
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0001,
+      "loss": 2.374,
+      "step": 47
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.3748,
+      "step": 48
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.4016,
+      "step": 49
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001,
+      "loss": 2.3388,
+      "step": 50
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001,
+      "loss": 2.3851,
+      "step": 51
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001,
+      "loss": 2.4123,
+      "step": 52
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3594,
+      "step": 53
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3476,
+      "step": 54
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001,
+      "loss": 2.3593,
+      "step": 55
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001,
+      "loss": 2.3253,
+      "step": 56
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001,
+      "loss": 2.3574,
+      "step": 57
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001,
+      "loss": 2.3721,
+      "step": 58
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001,
+      "loss": 2.3438,
+      "step": 59
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.3575,
+      "step": 60
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.2803,
+      "step": 61
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001,
+      "loss": 2.3088,
+      "step": 62
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001,
+      "loss": 2.3436,
+      "step": 63
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001,
+      "loss": 2.3629,
+      "step": 64
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001,
+      "loss": 2.3294,
+      "step": 65
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0001,
+      "loss": 2.3402,
+      "step": 66
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3273,
+      "step": 67
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3335,
+      "step": 68
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 2.3013,
+      "step": 69
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001,
+      "loss": 2.3396,
+      "step": 70
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001,
+      "loss": 2.327,
+      "step": 71
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001,
+      "loss": 2.3231,
+      "step": 72
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001,
+      "loss": 2.3247,
+      "step": 73
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3163,
+      "step": 74
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3301,
+      "step": 75
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001,
+      "loss": 2.3598,
+      "step": 76
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001,
+      "loss": 2.3115,
+      "step": 77
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001,
+      "loss": 2.3015,
+      "step": 78
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001,
+      "loss": 2.294,
+      "step": 79
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001,
+      "loss": 2.2731,
+      "step": 80
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3138,
+      "step": 81
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3096,
+      "step": 82
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001,
+      "loss": 2.3133,
+      "step": 83
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001,
+      "loss": 2.2679,
+      "step": 84
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0001,
+      "loss": 2.2657,
+      "step": 85
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001,
+      "loss": 2.2958,
+      "step": 86
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001,
+      "loss": 2.297,
+      "step": 87
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2701,
+      "step": 88
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2889,
+      "step": 89
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001,
+      "loss": 2.2585,
+      "step": 90
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001,
+      "loss": 2.2611,
+      "step": 91
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001,
+      "loss": 2.2815,
+      "step": 92
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001,
+      "loss": 2.2778,
+      "step": 93
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001,
+      "loss": 2.2803,
+      "step": 94
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.3007,
+      "step": 95
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.3045,
+      "step": 96
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0001,
+      "loss": 2.2858,
+      "step": 97
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001,
+      "loss": 2.2669,
+      "step": 98
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001,
+      "loss": 2.2731,
+      "step": 99
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001,
+      "loss": 2.2707,
+      "step": 100
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001,
+      "loss": 2.2189,
+      "step": 101
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001,
+      "loss": 2.2506,
+      "step": 102
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001,
+      "loss": 2.3119,
+      "step": 103
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001,
+      "loss": 2.2332,
+      "step": 104
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001,
+      "loss": 2.2583,
+      "step": 105
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0001,
+      "loss": 2.2416,
+      "step": 106
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001,
+      "loss": 2.3025,
+      "step": 107
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001,
+      "loss": 2.2889,
+      "step": 108
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001,
+      "loss": 2.2486,
+      "step": 109
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001,
+      "loss": 2.2369,
+      "step": 110
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001,
+      "loss": 2.2634,
+      "step": 111
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001,
+      "loss": 2.2911,
+      "step": 112
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0001,
+      "loss": 2.3223,
+      "step": 113
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001,
+      "loss": 2.2623,
+      "step": 114
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001,
+      "loss": 2.2075,
+      "step": 115
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001,
+      "loss": 2.2681,
+      "step": 116
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001,
+      "loss": 2.2436,
+      "step": 117
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001,
+      "loss": 2.2396,
+      "step": 118
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0001,
+      "loss": 2.2725,
+      "step": 119
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0001,
+      "loss": 2.2974,
+      "step": 120
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0001,
+      "loss": 2.266,
+      "step": 121
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0001,
+      "loss": 2.258,
+      "step": 122
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001,
+      "loss": 2.2597,
+      "step": 123
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001,
+      "loss": 2.234,
+      "step": 124
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001,
+      "loss": 2.2263,
+      "step": 125
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001,
+      "loss": 2.2325,
+      "step": 126
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001,
+      "loss": 2.2024,
+      "step": 127
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001,
+      "loss": 2.2732,
+      "step": 128
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0001,
+      "loss": 2.2422,
+      "step": 129
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001,
+      "loss": 2.2325,
+      "step": 130
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001,
+      "loss": 2.2492,
+      "step": 131
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001,
+      "loss": 2.2055,
+      "step": 132
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001,
+      "loss": 2.2735,
+      "step": 133
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001,
+      "loss": 2.202,
+      "step": 134
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0001,
+      "loss": 2.195,
+      "step": 135
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0001,
+      "loss": 2.1999,
+      "step": 136
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0001,
+      "loss": 2.2033,
+      "step": 137
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0001,
+      "loss": 2.1748,
+      "step": 138
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0001,
+      "loss": 2.2025,
+      "step": 139
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001,
+      "loss": 2.1967,
+      "step": 140
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001,
+      "loss": 2.1796,
+      "step": 141
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001,
+      "loss": 2.1929,
+      "step": 142
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001,
+      "loss": 2.2138,
+      "step": 143
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001,
+      "loss": 2.2058,
+      "step": 144
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001,
+      "loss": 2.2046,
+      "step": 145
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001,
+      "loss": 2.2204,
+      "step": 146
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001,
+      "loss": 2.2028,
+      "step": 147
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001,
+      "loss": 2.2634,
+      "step": 148
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001,
+      "loss": 2.2382,
+      "step": 149
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001,
+      "loss": 2.1955,
+      "step": 150
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001,
+      "loss": 2.1918,
+      "step": 151
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001,
+      "loss": 2.2177,
+      "step": 152
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001,
+      "loss": 2.189,
+      "step": 153
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001,
+      "loss": 2.1829,
+      "step": 154
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001,
+      "loss": 2.2272,
+      "step": 155
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001,
+      "loss": 2.1924,
+      "step": 156
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001,
+      "loss": 2.1877,
+      "step": 157
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001,
+      "loss": 2.1772,
+      "step": 158
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001,
+      "loss": 2.1338,
+      "step": 159
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001,
+      "loss": 2.1817,
+      "step": 160
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001,
+      "loss": 2.211,
+      "step": 161
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001,
+      "loss": 2.1922,
+      "step": 162
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001,
+      "loss": 2.162,
+      "step": 163
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001,
+      "loss": 2.1906,
+      "step": 164
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001,
+      "loss": 2.1931,
+      "step": 165
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001,
+      "loss": 2.1611,
+      "step": 166
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001,
+      "loss": 2.1913,
+      "step": 167
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001,
+      "loss": 2.2342,
+      "step": 168
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001,
+      "loss": 2.1753,
+      "step": 169
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001,
+      "loss": 2.1634,
+      "step": 170
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001,
+      "loss": 2.1628,
+      "step": 171
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001,
+      "loss": 2.1871,
+      "step": 172
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0001,
+      "loss": 2.1995,
+      "step": 173
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0001,
+      "loss": 2.1537,
+      "step": 174
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001,
+      "loss": 2.2105,
+      "step": 175
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001,
+      "loss": 2.1633,
+      "step": 176
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001,
+      "loss": 2.1315,
+      "step": 177
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001,
+      "loss": 2.1628,
+      "step": 178
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001,
+      "loss": 2.1704,
+      "step": 179
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001,
+      "loss": 2.1696,
+      "step": 180
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001,
+      "loss": 2.1839,
+      "step": 181
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001,
+      "loss": 2.2022,
+      "step": 182
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001,
+      "loss": 2.1568,
+      "step": 183
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001,
+      "loss": 2.1448,
+      "step": 184
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001,
+      "loss": 2.1464,
+      "step": 185
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001,
+      "loss": 2.159,
+      "step": 186
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001,
+      "loss": 2.138,
+      "step": 187
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001,
+      "loss": 2.1726,
+      "step": 188
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0001,
+      "loss": 2.107,
+      "step": 189
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0001,
+      "loss": 2.1899,
+      "step": 190
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001,
+      "loss": 2.1993,
+      "step": 191
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001,
+      "loss": 2.1387,
+      "step": 192
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001,
+      "loss": 2.1257,
+      "step": 193
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001,
+      "loss": 2.1729,
+      "step": 194
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001,
+      "loss": 2.129,
+      "step": 195
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001,
+      "loss": 2.1368,
+      "step": 196
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001,
+      "loss": 2.1185,
+      "step": 197
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001,
+      "loss": 2.1327,
+      "step": 198
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001,
+      "loss": 2.1498,
+      "step": 199
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001,
+      "loss": 2.1094,
+      "step": 200
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 234,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 2.2811108179968e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb60254b1b35ccab57085d05705a4dc75746db1021c7da7d08c0d6f25e6f291c
+size 4027

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.5826860338488246,
-    "eval_loss": 2.4588253498077393,
-    "eval_runtime": 99.5735,
     "eval_samples": 1591,
-    "eval_samples_per_second": 15.978,
-    "eval_steps_per_second": 1.999,
-    "perplexity": 11.691070552861609
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.6222736408782921,
+    "eval_loss": 2.1664786338806152,
+    "eval_runtime": 100.1618,
     "eval_samples": 1591,
+    "eval_samples_per_second": 15.884,
+    "eval_steps_per_second": 1.987,
+    "perplexity": 8.727497153819245
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e6edf113ceece526a36550c4cb278f07c6fad171547c2a25bf84994d4654975
 size 1843519974

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cb64b6970ac8fe9f6249d9c721f3d9e41da6af88744695a99eff517a87a3a47
 size 1843519974

runs/Oct02_19-02-38_d91dc97482a8/events.out.tfevents.1696273371.d91dc97482a8.73567.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eba12c827c36216aaa7d0491992e9a2755a5c1ae7152c29d26c3058d5ce6d2fe
+size 4242

runs/Oct02_19-03-48_d91dc97482a8/events.out.tfevents.1696273441.d91dc97482a8.73963.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec95237183cce048857c7f0aa7b616a855bffcfcf3d96ba734bdf65e44432761
+size 40799

runs/Oct02_19-03-48_d91dc97482a8/events.out.tfevents.1696276866.d91dc97482a8.73963.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f8e1d9e6ee326e36802897beebef53add2b63f5a461d298ed304ab5b5c03bd6
+size 411

runs/Oct02_20-01-14_d91dc97482a8/events.out.tfevents.1696276886.d91dc97482a8.88774.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b4577776f31b56647be04238f7c988d8de37187e2c46aff4ecb6b0ffee985a3
+size 5782

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 3.0363850155447283,
-    "train_runtime": 3285.3275,
     "train_samples": 29961,
-    "train_samples_per_second": 9.12,
-    "train_steps_per_second": 0.071
 }

 {
     "epoch": 1.0,
+    "train_loss": 2.312185388344985,
+    "train_runtime": 3320.7115,
     "train_samples": 29961,
+    "train_samples_per_second": 9.022,
+    "train_steps_per_second": 0.07
 }

trainer_state.json CHANGED Viewed

@@ -11,1421 +11,1421 @@
     {
       "epoch": 0.0,
       "learning_rate": 0.0001,
-      "loss": 3.6446,
       "step": 1
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.0001,
-      "loss": 6.5402,
       "step": 2
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.0001,
-      "loss": 5.1279,
       "step": 3
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.0001,
-      "loss": 4.647,
       "step": 4
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.0001,
-      "loss": 4.2721,
       "step": 5
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
-      "loss": 4.1431,
       "step": 6
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
-      "loss": 4.0458,
       "step": 7
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
-      "loss": 4.0124,
       "step": 8
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0001,
-      "loss": 3.9181,
       "step": 9
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0001,
-      "loss": 3.9047,
       "step": 10
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
-      "loss": 3.9171,
       "step": 11
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
-      "loss": 3.8451,
       "step": 12
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
-      "loss": 3.8507,
       "step": 13
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
-      "loss": 3.7991,
       "step": 14
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
-      "loss": 3.8169,
       "step": 15
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.0001,
-      "loss": 3.7717,
       "step": 16
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.0001,
-      "loss": 3.7706,
       "step": 17
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0001,
-      "loss": 3.6888,
       "step": 18
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0001,
-      "loss": 3.7648,
       "step": 19
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
-      "loss": 3.7429,
       "step": 20
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
-      "loss": 3.7368,
       "step": 21
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
-      "loss": 3.704,
       "step": 22
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0001,
-      "loss": 3.6641,
       "step": 23
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0001,
-      "loss": 3.6316,
       "step": 24
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
-      "loss": 3.6546,
       "step": 25
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
-      "loss": 3.648,
       "step": 26
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
-      "loss": 3.6295,
       "step": 27
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
-      "loss": 3.5866,
       "step": 28
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
-      "loss": 3.683,
       "step": 29
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.0001,
-      "loss": 3.5931,
       "step": 30
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.0001,
-      "loss": 3.6625,
       "step": 31
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0001,
-      "loss": 3.5705,
       "step": 32
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0001,
-      "loss": 3.5249,
       "step": 33
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
-      "loss": 3.5538,
       "step": 34
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
-      "loss": 3.6517,
       "step": 35
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
-      "loss": 3.5828,
       "step": 36
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": 3.5061,
       "step": 37
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": 3.5888,
       "step": 38
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.0001,
-      "loss": 3.5515,
       "step": 39
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.0001,
-      "loss": 3.5039,
       "step": 40
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
-      "loss": 3.5674,
       "step": 41
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
-      "loss": 3.543,
       "step": 42
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
-      "loss": 3.5187,
       "step": 43
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.0001,
-      "loss": 3.5273,
       "step": 44
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.0001,
-      "loss": 3.5568,
       "step": 45
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0001,
-      "loss": 3.4998,
       "step": 46
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0001,
-      "loss": 3.4959,
       "step": 47
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
-      "loss": 3.4999,
       "step": 48
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
-      "loss": 3.5434,
       "step": 49
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
-      "loss": 3.47,
       "step": 50
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
-      "loss": 3.5107,
       "step": 51
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
-      "loss": 3.533,
       "step": 52
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
-      "loss": 3.4785,
       "step": 53
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
-      "loss": 3.452,
       "step": 54
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
-      "loss": 3.4267,
       "step": 55
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0001,
-      "loss": 3.4416,
       "step": 56
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0001,
-      "loss": 3.4063,
       "step": 57
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0001,
-      "loss": 3.4662,
       "step": 58
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0001,
-      "loss": 3.4125,
       "step": 59
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
-      "loss": 3.4109,
       "step": 60
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
-      "loss": 3.3508,
       "step": 61
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
-      "loss": 3.3622,
       "step": 62
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0001,
-      "loss": 3.3821,
       "step": 63
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0001,
-      "loss": 3.3616,
       "step": 64
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0001,
-      "loss": 3.3594,
       "step": 65
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0001,
-      "loss": 3.3424,
       "step": 66
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
-      "loss": 3.3305,
       "step": 67
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
-      "loss": 3.3283,
       "step": 68
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
-      "loss": 3.2813,
       "step": 69
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0001,
-      "loss": 3.3243,
       "step": 70
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0001,
-      "loss": 3.3015,
       "step": 71
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": 3.2656,
       "step": 72
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": 3.2815,
       "step": 73
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
-      "loss": 3.251,
       "step": 74
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
-      "loss": 3.2704,
       "step": 75
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
-      "loss": 3.2934,
       "step": 76
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
-      "loss": 3.2403,
       "step": 77
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
-      "loss": 3.2308,
       "step": 78
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0001,
-      "loss": 3.2043,
       "step": 79
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0001,
-      "loss": 3.1788,
       "step": 80
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
-      "loss": 3.205,
       "step": 81
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
-      "loss": 3.1803,
       "step": 82
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
-      "loss": 3.2016,
       "step": 83
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0001,
-      "loss": 3.131,
       "step": 84
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0001,
-      "loss": 3.1249,
       "step": 85
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0001,
-      "loss": 3.1844,
       "step": 86
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0001,
-      "loss": 3.1567,
       "step": 87
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
-      "loss": 3.1218,
       "step": 88
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
-      "loss": 3.1267,
       "step": 89
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
-      "loss": 3.0832,
       "step": 90
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0001,
-      "loss": 3.1017,
       "step": 91
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0001,
-      "loss": 3.1062,
       "step": 92
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0001,
-      "loss": 3.0567,
       "step": 93
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0001,
-      "loss": 3.0983,
       "step": 94
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
-      "loss": 3.1293,
       "step": 95
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
-      "loss": 3.0962,
       "step": 96
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
-      "loss": 3.0518,
       "step": 97
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0001,
-      "loss": 3.0512,
       "step": 98
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0001,
-      "loss": 3.0493,
       "step": 99
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.0001,
-      "loss": 3.0442,
       "step": 100
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.0001,
-      "loss": 2.9817,
       "step": 101
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
-      "loss": 3.0215,
       "step": 102
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
-      "loss": 3.063,
       "step": 103
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
-      "loss": 2.9754,
       "step": 104
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
-      "loss": 3.0033,
       "step": 105
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
-      "loss": 2.9496,
       "step": 106
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0001,
-      "loss": 3.0198,
       "step": 107
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0001,
-      "loss": 3.0396,
       "step": 108
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 2.9653,
       "step": 109
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 2.9446,
       "step": 110
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 2.9448,
       "step": 111
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0001,
-      "loss": 2.9656,
       "step": 112
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0001,
-      "loss": 2.9849,
       "step": 113
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0001,
-      "loss": 2.9461,
       "step": 114
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0001,
-      "loss": 2.8572,
       "step": 115
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
-      "loss": 2.9162,
       "step": 116
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
-      "loss": 2.9146,
       "step": 117
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
-      "loss": 2.8787,
       "step": 118
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0001,
-      "loss": 2.9199,
       "step": 119
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0001,
-      "loss": 2.9346,
       "step": 120
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0001,
-      "loss": 2.9007,
       "step": 121
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0001,
-      "loss": 2.9056,
       "step": 122
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
-      "loss": 2.8878,
       "step": 123
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
-      "loss": 2.8489,
       "step": 124
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
-      "loss": 2.8502,
       "step": 125
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0001,
-      "loss": 2.8593,
       "step": 126
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0001,
-      "loss": 2.8064,
       "step": 127
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.0001,
-      "loss": 2.8815,
       "step": 128
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.0001,
-      "loss": 2.8362,
       "step": 129
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
-      "loss": 2.8376,
       "step": 130
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
-      "loss": 2.8477,
       "step": 131
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
-      "loss": 2.7908,
       "step": 132
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0001,
-      "loss": 2.86,
       "step": 133
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0001,
-      "loss": 2.7842,
       "step": 134
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0001,
-      "loss": 2.7412,
       "step": 135
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0001,
-      "loss": 2.7729,
       "step": 136
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
-      "loss": 2.7708,
       "step": 137
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
-      "loss": 2.7162,
       "step": 138
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
-      "loss": 2.7579,
       "step": 139
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0001,
-      "loss": 2.7572,
       "step": 140
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0001,
-      "loss": 2.7245,
       "step": 141
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.0001,
-      "loss": 2.7325,
       "step": 142
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.0001,
-      "loss": 2.7613,
       "step": 143
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
-      "loss": 2.7442,
       "step": 144
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
-      "loss": 2.7399,
       "step": 145
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
-      "loss": 2.747,
       "step": 146
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": 2.7318,
       "step": 147
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": 2.7644,
       "step": 148
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0001,
-      "loss": 2.765,
       "step": 149
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0001,
-      "loss": 2.7045,
       "step": 150
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
-      "loss": 2.7082,
       "step": 151
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
-      "loss": 2.7346,
       "step": 152
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
-      "loss": 2.6992,
       "step": 153
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0001,
-      "loss": 2.679,
       "step": 154
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0001,
-      "loss": 2.7306,
       "step": 155
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
-      "loss": 2.6843,
       "step": 156
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
-      "loss": 2.6809,
       "step": 157
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
-      "loss": 2.6702,
       "step": 158
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0001,
-      "loss": 2.6141,
       "step": 159
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0001,
-      "loss": 2.679,
       "step": 160
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0001,
-      "loss": 2.7093,
       "step": 161
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0001,
-      "loss": 2.6653,
       "step": 162
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
-      "loss": 2.6362,
       "step": 163
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
-      "loss": 2.6647,
       "step": 164
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
-      "loss": 2.6576,
       "step": 165
     },
     {
       "epoch": 0.71,
       "learning_rate": 0.0001,
-      "loss": 2.6108,
       "step": 166
     },
     {
       "epoch": 0.71,
       "learning_rate": 0.0001,
-      "loss": 2.6401,
       "step": 167
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0001,
-      "loss": 2.6776,
       "step": 168
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0001,
-      "loss": 2.616,
       "step": 169
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
-      "loss": 2.6173,
       "step": 170
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
-      "loss": 2.6049,
       "step": 171
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
-      "loss": 2.6448,
       "step": 172
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0001,
-      "loss": 2.6453,
       "step": 173
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0001,
-      "loss": 2.5949,
       "step": 174
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0001,
-      "loss": 2.6415,
       "step": 175
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0001,
-      "loss": 2.5956,
       "step": 176
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
-      "loss": 2.5732,
       "step": 177
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
-      "loss": 2.588,
       "step": 178
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
-      "loss": 2.5918,
       "step": 179
     },
     {
       "epoch": 0.77,
       "learning_rate": 0.0001,
-      "loss": 2.5963,
       "step": 180
     },
     {
       "epoch": 0.77,
       "learning_rate": 0.0001,
-      "loss": 2.6073,
       "step": 181
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 2.6167,
       "step": 182
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 2.5766,
       "step": 183
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
-      "loss": 2.5509,
       "step": 184
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
-      "loss": 2.5583,
       "step": 185
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
-      "loss": 2.5683,
       "step": 186
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0001,
-      "loss": 2.5381,
       "step": 187
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0001,
-      "loss": 2.5717,
       "step": 188
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0001,
-      "loss": 2.4957,
       "step": 189
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0001,
-      "loss": 2.5815,
       "step": 190
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
-      "loss": 2.6002,
       "step": 191
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
-      "loss": 2.5265,
       "step": 192
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
-      "loss": 2.5229,
       "step": 193
     },
     {
       "epoch": 0.83,
       "learning_rate": 0.0001,
-      "loss": 2.5607,
       "step": 194
     },
     {
       "epoch": 0.83,
       "learning_rate": 0.0001,
-      "loss": 2.5452,
       "step": 195
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0001,
-      "loss": 2.5288,
       "step": 196
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0001,
-      "loss": 2.4955,
       "step": 197
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
-      "loss": 2.5229,
       "step": 198
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
-      "loss": 2.5293,
       "step": 199
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
-      "loss": 2.4859,
       "step": 200
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0001,
-      "loss": 2.5187,
       "step": 201
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0001,
-      "loss": 2.544,
       "step": 202
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0001,
-      "loss": 2.5109,
       "step": 203
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0001,
-      "loss": 2.4963,
       "step": 204
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
-      "loss": 2.5048,
       "step": 205
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
-      "loss": 2.4883,
       "step": 206
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
-      "loss": 2.4801,
       "step": 207
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
-      "loss": 2.5219,
       "step": 208
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
-      "loss": 2.5184,
       "step": 209
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0001,
-      "loss": 2.4886,
       "step": 210
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0001,
-      "loss": 2.5056,
       "step": 211
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
-      "loss": 2.5135,
       "step": 212
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
-      "loss": 2.4735,
       "step": 213
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
-      "loss": 2.4828,
       "step": 214
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0001,
-      "loss": 2.4992,
       "step": 215
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0001,
-      "loss": 2.4912,
       "step": 216
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0001,
-      "loss": 2.4815,
       "step": 217
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0001,
-      "loss": 2.4949,
       "step": 218
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 2.4851,
       "step": 219
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 2.5178,
       "step": 220
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 2.4825,
       "step": 221
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0001,
-      "loss": 2.4558,
       "step": 222
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0001,
-      "loss": 2.5145,
       "step": 223
     },
     {
       "epoch": 0.96,
       "learning_rate": 0.0001,
-      "loss": 2.4927,
       "step": 224
     },
     {
       "epoch": 0.96,
       "learning_rate": 0.0001,
-      "loss": 2.4767,
       "step": 225
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
-      "loss": 2.4463,
       "step": 226
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
-      "loss": 2.4835,
       "step": 227
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
-      "loss": 2.473,
       "step": 228
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0001,
-      "loss": 2.4432,
       "step": 229
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0001,
-      "loss": 2.4499,
       "step": 230
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0001,
-      "loss": 2.4551,
       "step": 231
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0001,
-      "loss": 2.4642,
       "step": 232
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
-      "loss": 2.4617,
       "step": 233
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
-      "loss": 2.4561,
       "step": 234
     },
     {
       "epoch": 1.0,
       "step": 234,
       "total_flos": 2.668899657056256e+17,
-      "train_loss": 3.0363850155447283,
-      "train_runtime": 3285.3275,
-      "train_samples_per_second": 9.12,
-      "train_steps_per_second": 0.071
     }
   ],
   "logging_steps": 1.0,
   "max_steps": 234,
   "num_train_epochs": 1,
-  "save_steps": 500,
   "total_flos": 2.668899657056256e+17,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.0,
       "learning_rate": 0.0001,
+      "loss": 2.3832,
       "step": 1
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.0001,
+      "loss": 5.648,
       "step": 2
     },
     {
       "epoch": 0.01,
       "learning_rate": 0.0001,
+      "loss": 4.5146,
       "step": 3
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.0001,
+      "loss": 3.6589,
       "step": 4
     },
     {
       "epoch": 0.02,
       "learning_rate": 0.0001,
+      "loss": 3.2564,
       "step": 5
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
+      "loss": 3.0312,
       "step": 6
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
+      "loss": 2.8748,
       "step": 7
     },
     {
       "epoch": 0.03,
       "learning_rate": 0.0001,
+      "loss": 2.8477,
       "step": 8
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0001,
+      "loss": 2.7413,
       "step": 9
     },
     {
       "epoch": 0.04,
       "learning_rate": 0.0001,
+      "loss": 2.7057,
       "step": 10
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
+      "loss": 2.7216,
       "step": 11
     },
     {
       "epoch": 0.05,
       "learning_rate": 0.0001,
+      "loss": 2.6576,
       "step": 12
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
+      "loss": 2.6287,
       "step": 13
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
+      "loss": 2.572,
       "step": 14
     },
     {
       "epoch": 0.06,
       "learning_rate": 0.0001,
+      "loss": 2.5913,
       "step": 15
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.0001,
+      "loss": 2.536,
       "step": 16
     },
     {
       "epoch": 0.07,
       "learning_rate": 0.0001,
+      "loss": 2.5511,
       "step": 17
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0001,
+      "loss": 2.4853,
       "step": 18
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0001,
+      "loss": 2.5668,
       "step": 19
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
+      "loss": 2.535,
       "step": 20
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
+      "loss": 2.5287,
       "step": 21
     },
     {
       "epoch": 0.09,
       "learning_rate": 0.0001,
+      "loss": 2.5263,
       "step": 22
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0001,
+      "loss": 2.5046,
       "step": 23
     },
     {
       "epoch": 0.1,
       "learning_rate": 0.0001,
+      "loss": 2.4366,
       "step": 24
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
+      "loss": 2.4488,
       "step": 25
     },
     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
+      "loss": 2.4638,
       "step": 26
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
+      "loss": 2.4546,
       "step": 27
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
+      "loss": 2.4169,
       "step": 28
     },
     {
       "epoch": 0.12,
       "learning_rate": 0.0001,
+      "loss": 2.4739,
       "step": 29
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.0001,
+      "loss": 2.4074,
       "step": 30
     },
     {
       "epoch": 0.13,
       "learning_rate": 0.0001,
+      "loss": 2.4314,
       "step": 31
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0001,
+      "loss": 2.3819,
       "step": 32
     },
     {
       "epoch": 0.14,
       "learning_rate": 0.0001,
+      "loss": 2.3524,
       "step": 33
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
+      "loss": 2.3943,
       "step": 34
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
+      "loss": 2.4447,
       "step": 35
     },
     {
       "epoch": 0.15,
       "learning_rate": 0.0001,
+      "loss": 2.4112,
       "step": 36
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
+      "loss": 2.3453,
       "step": 37
     },
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
+      "loss": 2.4186,
       "step": 38
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.0001,
+      "loss": 2.3761,
       "step": 39
     },
     {
       "epoch": 0.17,
       "learning_rate": 0.0001,
+      "loss": 2.3486,
       "step": 40
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
+      "loss": 2.4314,
       "step": 41
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
+      "loss": 2.4059,
       "step": 42
     },
     {
       "epoch": 0.18,
       "learning_rate": 0.0001,
+      "loss": 2.3649,
       "step": 43
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.0001,
+      "loss": 2.3544,
       "step": 44
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.0001,
+      "loss": 2.3959,
       "step": 45
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0001,
+      "loss": 2.3734,
       "step": 46
     },
     {
       "epoch": 0.2,
       "learning_rate": 0.0001,
+      "loss": 2.374,
       "step": 47
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
+      "loss": 2.3748,
       "step": 48
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
+      "loss": 2.4016,
       "step": 49
     },
     {
       "epoch": 0.21,
       "learning_rate": 0.0001,
+      "loss": 2.3388,
       "step": 50
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
+      "loss": 2.3851,
       "step": 51
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
+      "loss": 2.4123,
       "step": 52
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
+      "loss": 2.3594,
       "step": 53
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
+      "loss": 2.3476,
       "step": 54
     },
     {
       "epoch": 0.23,
       "learning_rate": 0.0001,
+      "loss": 2.3593,
       "step": 55
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0001,
+      "loss": 2.3253,
       "step": 56
     },
     {
       "epoch": 0.24,
       "learning_rate": 0.0001,
+      "loss": 2.3574,
       "step": 57
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0001,
+      "loss": 2.3721,
       "step": 58
     },
     {
       "epoch": 0.25,
       "learning_rate": 0.0001,
+      "loss": 2.3438,
       "step": 59
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
+      "loss": 2.3575,
       "step": 60
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
+      "loss": 2.2803,
       "step": 61
     },
     {
       "epoch": 0.26,
       "learning_rate": 0.0001,
+      "loss": 2.3088,
       "step": 62
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0001,
+      "loss": 2.3436,
       "step": 63
     },
     {
       "epoch": 0.27,
       "learning_rate": 0.0001,
+      "loss": 2.3629,
       "step": 64
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0001,
+      "loss": 2.3294,
       "step": 65
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.0001,
+      "loss": 2.3402,
       "step": 66
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
+      "loss": 2.3273,
       "step": 67
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
+      "loss": 2.3335,
       "step": 68
     },
     {
       "epoch": 0.29,
       "learning_rate": 0.0001,
+      "loss": 2.3013,
       "step": 69
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0001,
+      "loss": 2.3396,
       "step": 70
     },
     {
       "epoch": 0.3,
       "learning_rate": 0.0001,
+      "loss": 2.327,
       "step": 71
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
+      "loss": 2.3231,
       "step": 72
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
+      "loss": 2.3247,
       "step": 73
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
+      "loss": 2.3163,
       "step": 74
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
+      "loss": 2.3301,
       "step": 75
     },
     {
       "epoch": 0.32,
       "learning_rate": 0.0001,
+      "loss": 2.3598,
       "step": 76
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
+      "loss": 2.3115,
       "step": 77
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
+      "loss": 2.3015,
       "step": 78
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0001,
+      "loss": 2.294,
       "step": 79
     },
     {
       "epoch": 0.34,
       "learning_rate": 0.0001,
+      "loss": 2.2731,
       "step": 80
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
+      "loss": 2.3138,
       "step": 81
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
+      "loss": 2.3096,
       "step": 82
     },
     {
       "epoch": 0.35,
       "learning_rate": 0.0001,
+      "loss": 2.3133,
       "step": 83
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0001,
+      "loss": 2.2679,
       "step": 84
     },
     {
       "epoch": 0.36,
       "learning_rate": 0.0001,
+      "loss": 2.2657,
       "step": 85
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0001,
+      "loss": 2.2958,
       "step": 86
     },
     {
       "epoch": 0.37,
       "learning_rate": 0.0001,
+      "loss": 2.297,
       "step": 87
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
+      "loss": 2.2701,
       "step": 88
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
+      "loss": 2.2889,
       "step": 89
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.0001,
+      "loss": 2.2585,
       "step": 90
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0001,
+      "loss": 2.2611,
       "step": 91
     },
     {
       "epoch": 0.39,
       "learning_rate": 0.0001,
+      "loss": 2.2815,
       "step": 92
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0001,
+      "loss": 2.2778,
       "step": 93
     },
     {
       "epoch": 0.4,
       "learning_rate": 0.0001,
+      "loss": 2.2803,
       "step": 94
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
+      "loss": 2.3007,
       "step": 95
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
+      "loss": 2.3045,
       "step": 96
     },
     {
       "epoch": 0.41,
       "learning_rate": 0.0001,
+      "loss": 2.2858,
       "step": 97
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0001,
+      "loss": 2.2669,
       "step": 98
     },
     {
       "epoch": 0.42,
       "learning_rate": 0.0001,
+      "loss": 2.2731,
       "step": 99
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.0001,
+      "loss": 2.2707,
       "step": 100
     },
     {
       "epoch": 0.43,
       "learning_rate": 0.0001,
+      "loss": 2.2189,
       "step": 101
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
+      "loss": 2.2506,
       "step": 102
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
+      "loss": 2.3119,
       "step": 103
     },
     {
       "epoch": 0.44,
       "learning_rate": 0.0001,
+      "loss": 2.2332,
       "step": 104
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
+      "loss": 2.2583,
       "step": 105
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
+      "loss": 2.2416,
       "step": 106
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0001,
+      "loss": 2.3025,
       "step": 107
     },
     {
       "epoch": 0.46,
       "learning_rate": 0.0001,
+      "loss": 2.2889,
       "step": 108
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 2.2486,
       "step": 109
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 2.2369,
       "step": 110
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 2.2634,
       "step": 111
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0001,
+      "loss": 2.2911,
       "step": 112
     },
     {
       "epoch": 0.48,
       "learning_rate": 0.0001,
+      "loss": 2.3223,
       "step": 113
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0001,
+      "loss": 2.2623,
       "step": 114
     },
     {
       "epoch": 0.49,
       "learning_rate": 0.0001,
+      "loss": 2.2075,
       "step": 115
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
+      "loss": 2.2681,
       "step": 116
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
+      "loss": 2.2436,
       "step": 117
     },
     {
       "epoch": 0.5,
       "learning_rate": 0.0001,
+      "loss": 2.2396,
       "step": 118
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0001,
+      "loss": 2.2725,
       "step": 119
     },
     {
       "epoch": 0.51,
       "learning_rate": 0.0001,
+      "loss": 2.2974,
       "step": 120
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0001,
+      "loss": 2.266,
       "step": 121
     },
     {
       "epoch": 0.52,
       "learning_rate": 0.0001,
+      "loss": 2.258,
       "step": 122
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
+      "loss": 2.2597,
       "step": 123
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
+      "loss": 2.234,
       "step": 124
     },
     {
       "epoch": 0.53,
       "learning_rate": 0.0001,
+      "loss": 2.2263,
       "step": 125
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0001,
+      "loss": 2.2325,
       "step": 126
     },
     {
       "epoch": 0.54,
       "learning_rate": 0.0001,
+      "loss": 2.2024,
       "step": 127
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.0001,
+      "loss": 2.2732,
       "step": 128
     },
     {
       "epoch": 0.55,
       "learning_rate": 0.0001,
+      "loss": 2.2422,
       "step": 129
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 2.2325,
       "step": 130
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 2.2492,
       "step": 131
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 2.2055,
       "step": 132
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0001,
+      "loss": 2.2735,
       "step": 133
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.0001,
+      "loss": 2.202,
       "step": 134
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0001,
+      "loss": 2.195,
       "step": 135
     },
     {
       "epoch": 0.58,
       "learning_rate": 0.0001,
+      "loss": 2.1999,
       "step": 136
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
+      "loss": 2.2033,
       "step": 137
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
+      "loss": 2.1748,
       "step": 138
     },
     {
       "epoch": 0.59,
       "learning_rate": 0.0001,
+      "loss": 2.2025,
       "step": 139
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0001,
+      "loss": 2.1967,
       "step": 140
     },
     {
       "epoch": 0.6,
       "learning_rate": 0.0001,
+      "loss": 2.1796,
       "step": 141
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.0001,
+      "loss": 2.1929,
       "step": 142
     },
     {
       "epoch": 0.61,
       "learning_rate": 0.0001,
+      "loss": 2.2138,
       "step": 143
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
+      "loss": 2.2058,
       "step": 144
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
+      "loss": 2.2046,
       "step": 145
     },
     {
       "epoch": 0.62,
       "learning_rate": 0.0001,
+      "loss": 2.2204,
       "step": 146
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
+      "loss": 2.2028,
       "step": 147
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
+      "loss": 2.2634,
       "step": 148
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0001,
+      "loss": 2.2382,
       "step": 149
     },
     {
       "epoch": 0.64,
       "learning_rate": 0.0001,
+      "loss": 2.1955,
       "step": 150
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
+      "loss": 2.1918,
       "step": 151
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
+      "loss": 2.2177,
       "step": 152
     },
     {
       "epoch": 0.65,
       "learning_rate": 0.0001,
+      "loss": 2.189,
       "step": 153
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0001,
+      "loss": 2.1829,
       "step": 154
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.0001,
+      "loss": 2.2272,
       "step": 155
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
+      "loss": 2.1924,
       "step": 156
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
+      "loss": 2.1877,
       "step": 157
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
+      "loss": 2.1772,
       "step": 158
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0001,
+      "loss": 2.1338,
       "step": 159
     },
     {
       "epoch": 0.68,
       "learning_rate": 0.0001,
+      "loss": 2.1817,
       "step": 160
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0001,
+      "loss": 2.211,
       "step": 161
     },
     {
       "epoch": 0.69,
       "learning_rate": 0.0001,
+      "loss": 2.1922,
       "step": 162
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
+      "loss": 2.162,
       "step": 163
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
+      "loss": 2.1906,
       "step": 164
     },
     {
       "epoch": 0.7,
       "learning_rate": 0.0001,
+      "loss": 2.1931,
       "step": 165
     },
     {
       "epoch": 0.71,
       "learning_rate": 0.0001,
+      "loss": 2.1611,
       "step": 166
     },
     {
       "epoch": 0.71,
       "learning_rate": 0.0001,
+      "loss": 2.1913,
       "step": 167
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0001,
+      "loss": 2.2342,
       "step": 168
     },
     {
       "epoch": 0.72,
       "learning_rate": 0.0001,
+      "loss": 2.1753,
       "step": 169
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
+      "loss": 2.1634,
       "step": 170
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
+      "loss": 2.1628,
       "step": 171
     },
     {
       "epoch": 0.73,
       "learning_rate": 0.0001,
+      "loss": 2.1871,
       "step": 172
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0001,
+      "loss": 2.1995,
       "step": 173
     },
     {
       "epoch": 0.74,
       "learning_rate": 0.0001,
+      "loss": 2.1537,
       "step": 174
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0001,
+      "loss": 2.2105,
       "step": 175
     },
     {
       "epoch": 0.75,
       "learning_rate": 0.0001,
+      "loss": 2.1633,
       "step": 176
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
+      "loss": 2.1315,
       "step": 177
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
+      "loss": 2.1628,
       "step": 178
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.0001,
+      "loss": 2.1704,
       "step": 179
     },
     {
       "epoch": 0.77,
       "learning_rate": 0.0001,
+      "loss": 2.1696,
       "step": 180
     },
     {
       "epoch": 0.77,
       "learning_rate": 0.0001,
+      "loss": 2.1839,
       "step": 181
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.2022,
       "step": 182
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.1568,
       "step": 183
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
+      "loss": 2.1448,
       "step": 184
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
+      "loss": 2.1464,
       "step": 185
     },
     {
       "epoch": 0.79,
       "learning_rate": 0.0001,
+      "loss": 2.159,
       "step": 186
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0001,
+      "loss": 2.138,
       "step": 187
     },
     {
       "epoch": 0.8,
       "learning_rate": 0.0001,
+      "loss": 2.1726,
       "step": 188
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0001,
+      "loss": 2.107,
       "step": 189
     },
     {
       "epoch": 0.81,
       "learning_rate": 0.0001,
+      "loss": 2.1899,
       "step": 190
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
+      "loss": 2.1993,
       "step": 191
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
+      "loss": 2.1387,
       "step": 192
     },
     {
       "epoch": 0.82,
       "learning_rate": 0.0001,
+      "loss": 2.1257,
       "step": 193
     },
     {
       "epoch": 0.83,
       "learning_rate": 0.0001,
+      "loss": 2.1729,
       "step": 194
     },
     {
       "epoch": 0.83,
       "learning_rate": 0.0001,
+      "loss": 2.129,
       "step": 195
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0001,
+      "loss": 2.1368,
       "step": 196
     },
     {
       "epoch": 0.84,
       "learning_rate": 0.0001,
+      "loss": 2.1185,
       "step": 197
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
+      "loss": 2.1327,
       "step": 198
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
+      "loss": 2.1498,
       "step": 199
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.0001,
+      "loss": 2.1094,
       "step": 200
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0001,
+      "loss": 2.1464,
       "step": 201
     },
     {
       "epoch": 0.86,
       "learning_rate": 0.0001,
+      "loss": 2.169,
       "step": 202
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0001,
+      "loss": 2.1436,
       "step": 203
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0001,
+      "loss": 2.1402,
       "step": 204
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
+      "loss": 2.1565,
       "step": 205
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
+      "loss": 2.1457,
       "step": 206
     },
     {
       "epoch": 0.88,
       "learning_rate": 0.0001,
+      "loss": 2.1236,
       "step": 207
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
+      "loss": 2.1663,
       "step": 208
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
+      "loss": 2.1648,
       "step": 209
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0001,
+      "loss": 2.1348,
       "step": 210
     },
     {
       "epoch": 0.9,
       "learning_rate": 0.0001,
+      "loss": 2.1576,
       "step": 211
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
+      "loss": 2.1683,
       "step": 212
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
+      "loss": 2.1241,
       "step": 213
     },
     {
       "epoch": 0.91,
       "learning_rate": 0.0001,
+      "loss": 2.1306,
       "step": 214
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0001,
+      "loss": 2.1476,
       "step": 215
     },
     {
       "epoch": 0.92,
       "learning_rate": 0.0001,
+      "loss": 2.1477,
       "step": 216
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0001,
+      "loss": 2.1219,
       "step": 217
     },
     {
       "epoch": 0.93,
       "learning_rate": 0.0001,
+      "loss": 2.1511,
       "step": 218
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.1431,
       "step": 219
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.1811,
       "step": 220
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.1417,
       "step": 221
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0001,
+      "loss": 2.1237,
       "step": 222
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0001,
+      "loss": 2.1476,
       "step": 223
     },
     {
       "epoch": 0.96,
       "learning_rate": 0.0001,
+      "loss": 2.1791,
       "step": 224
     },
     {
       "epoch": 0.96,
       "learning_rate": 0.0001,
+      "loss": 2.1521,
       "step": 225
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
+      "loss": 2.1258,
       "step": 226
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
+      "loss": 2.1568,
       "step": 227
     },
     {
       "epoch": 0.97,
       "learning_rate": 0.0001,
+      "loss": 2.1518,
       "step": 228
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0001,
+      "loss": 2.1281,
       "step": 229
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0001,
+      "loss": 2.1377,
       "step": 230
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0001,
+      "loss": 2.1414,
       "step": 231
     },
     {
       "epoch": 0.99,
       "learning_rate": 0.0001,
+      "loss": 2.1741,
       "step": 232
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
+      "loss": 2.1614,
       "step": 233
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
+      "loss": 2.1615,
       "step": 234
     },
     {
       "epoch": 1.0,
       "step": 234,
       "total_flos": 2.668899657056256e+17,
+      "train_loss": 2.312185388344985,
+      "train_runtime": 3320.7115,
+      "train_samples_per_second": 9.022,
+      "train_steps_per_second": 0.07
     }
   ],
   "logging_steps": 1.0,
   "max_steps": 234,
   "num_train_epochs": 1,
+  "save_steps": 100,
   "total_flos": 2.668899657056256e+17,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70959df5755bcd7c9c5f5587e5048f1f5832835692406554e6abea33749eeedb
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb60254b1b35ccab57085d05705a4dc75746db1021c7da7d08c0d6f25e6f291c
 size 4027