latest training checkpoint

Browse files

not all the files were pushed to huggingface after training

Files changed (9) hide show

adapter_config.json +27 -27
generation_config.json +9 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +23 -23
tokenizer.json +2 -2
tokenizer_config.json +195 -195
trainer_state.json +563 -0

adapter_config.json CHANGED Viewed

@@ -1,28 +1,28 @@
-{
-  "alpha_pattern": {},
-  "auto_mapping": null,
-  "base_model_name_or_path": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
-  "bias": "none",
-  "fan_in_fan_out": false,
-  "inference_mode": false,
-  "init_lora_weights": true,
-  "layers_pattern": null,
-  "layers_to_transform": null,
-  "loftq_config": {},
-  "lora_alpha": 16,
-  "lora_dropout": 0.1,
-  "megatron_config": null,
-  "megatron_core": "megatron.core",
-  "modules_to_save": null,
-  "peft_type": "LORA",
-  "r": 64,
-  "rank_pattern": {},
-  "revision": null,
-  "target_modules": [
-    "v_proj",
-    "k_proj",
-    "o_proj",
-    "q_proj"
-  ],
-  "task_type": "CAUSAL_LM"
 }

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": false,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "o_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM"
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151646,
+  "do_sample": true,
+  "eos_token_id": 151643,
+  "temperature": 0.6,
+  "top_p": 0.95,
+  "transformers_version": "4.48.1"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ccbfc43bd01ba12dab30c58e7339048877e7ae60f576ce22eb9e47a3e4a95407
+size 35674618

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfddc12c09ed68ce102a9ef57f981c5e4cedd262ad7aee169a63e2dbf351ac69
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31b716b23b3a1c16554a0f288cd041670104f4c187deb0150cab279be98f0445
+size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,23 +1,23 @@
-{
-  "bos_token": {
-    "content": "<｜begin▁of▁sentence｜>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<｜end▁of▁sentence｜>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<｜end▁of▁sentence｜>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e20ddafc659ba90242154b55275402edeca0715e5dbb30f56815a4ce081f4893
-size 11422778

 version https://git-lfs.github.com/spec/v1
+oid sha256:253accc92cf719c21724d425d5158ff4ee96a808ba33dbf033067f5df9633eff
+size 12180269

tokenizer_config.json CHANGED Viewed

@@ -1,195 +1,195 @@
-{
-  "add_bos_token": true,
-  "add_eos_token": false,
-  "add_prefix_space": null,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<｜end▁of▁sentence｜>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<｜User｜>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151645": {
-      "content": "<｜Assistant｜>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151646": {
-      "content": "<｜begin▁of▁sentence｜>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|EOT|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151648": {
-      "content": "<think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151649": {
-      "content": "</think>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "bos_token": "<｜begin▁of▁sentence｜>",
-  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<｜end▁of▁sentence｜>",
-  "extra_special_tokens": {},
-  "legacy": true,
-  "model_max_length": 16384,
-  "pad_token": "<｜end▁of▁sentence｜>",
-  "sp_model_kwargs": {},
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": null,
-  "use_default_system_prompt": false
-}

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<｜User｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151645": {
+      "content": "<｜Assistant｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151646": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151648": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151649": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<｜end▁of▁sentence｜>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,563 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.695652173913043,
+  "eval_steps": 500,
+  "global_step": 70,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06956521739130435,
+      "grad_norm": 0.027621353045105934,
+      "learning_rate": 1.9989930665413148e-05,
+      "loss": 0.6357,
+      "step": 1
+    },
+    {
+      "epoch": 0.1391304347826087,
+      "grad_norm": 0.027610378339886665,
+      "learning_rate": 1.9959742939952393e-05,
+      "loss": 0.6181,
+      "step": 2
+    },
+    {
+      "epoch": 0.20869565217391303,
+      "grad_norm": 0.029305126518011093,
+      "learning_rate": 1.990949761767935e-05,
+      "loss": 0.642,
+      "step": 3
+    },
+    {
+      "epoch": 0.2782608695652174,
+      "grad_norm": 0.028681788593530655,
+      "learning_rate": 1.98392958859863e-05,
+      "loss": 0.646,
+      "step": 4
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "grad_norm": 0.028845500200986862,
+      "learning_rate": 1.9749279121818235e-05,
+      "loss": 0.6416,
+      "step": 5
+    },
+    {
+      "epoch": 0.41739130434782606,
+      "grad_norm": 0.03184295445680618,
+      "learning_rate": 1.9639628606958535e-05,
+      "loss": 0.6625,
+      "step": 6
+    },
+    {
+      "epoch": 0.48695652173913045,
+      "grad_norm": 0.030502479523420334,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 0.645,
+      "step": 7
+    },
+    {
+      "epoch": 0.5565217391304348,
+      "grad_norm": 0.030076082795858383,
+      "learning_rate": 1.9362348706397374e-05,
+      "loss": 0.6285,
+      "step": 8
+    },
+    {
+      "epoch": 0.6260869565217392,
+      "grad_norm": 0.032947439700365067,
+      "learning_rate": 1.919527772551451e-05,
+      "loss": 0.6641,
+      "step": 9
+    },
+    {
+      "epoch": 0.6956521739130435,
+      "grad_norm": 0.03192123770713806,
+      "learning_rate": 1.900968867902419e-05,
+      "loss": 0.6508,
+      "step": 10
+    },
+    {
+      "epoch": 0.7652173913043478,
+      "grad_norm": 0.0321270152926445,
+      "learning_rate": 1.880595531856738e-05,
+      "loss": 0.6436,
+      "step": 11
+    },
+    {
+      "epoch": 0.8347826086956521,
+      "grad_norm": 0.03189520537853241,
+      "learning_rate": 1.8584487936018663e-05,
+      "loss": 0.6653,
+      "step": 12
+    },
+    {
+      "epoch": 0.9043478260869565,
+      "grad_norm": 0.03357314690947533,
+      "learning_rate": 1.834573253721303e-05,
+      "loss": 0.636,
+      "step": 13
+    },
+    {
+      "epoch": 0.9739130434782609,
+      "grad_norm": 0.031242311000823975,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.6537,
+      "step": 14
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.03731789439916611,
+      "learning_rate": 1.78183148246803e-05,
+      "loss": 0.6894,
+      "step": 15
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.6298047304153442,
+      "eval_runtime": 2.6261,
+      "eval_samples_per_second": 1.523,
+      "eval_steps_per_second": 1.523,
+      "step": 15
+    },
+    {
+      "epoch": 1.0695652173913044,
+      "grad_norm": 0.0358547680079937,
+      "learning_rate": 1.7530714660036112e-05,
+      "loss": 0.6516,
+      "step": 16
+    },
+    {
+      "epoch": 1.1391304347826088,
+      "grad_norm": 0.0324733592569828,
+      "learning_rate": 1.7227948638273918e-05,
+      "loss": 0.6244,
+      "step": 17
+    },
+    {
+      "epoch": 1.208695652173913,
+      "grad_norm": 0.03361370787024498,
+      "learning_rate": 1.691062648986865e-05,
+      "loss": 0.6417,
+      "step": 18
+    },
+    {
+      "epoch": 1.2782608695652173,
+      "grad_norm": 0.033928435295820236,
+      "learning_rate": 1.657938725939713e-05,
+      "loss": 0.6601,
+      "step": 19
+    },
+    {
+      "epoch": 1.3478260869565217,
+      "grad_norm": 0.03608125448226929,
+      "learning_rate": 1.6234898018587336e-05,
+      "loss": 0.6532,
+      "step": 20
+    },
+    {
+      "epoch": 1.4173913043478261,
+      "grad_norm": 0.03397082909941673,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.6205,
+      "step": 21
+    },
+    {
+      "epoch": 1.4869565217391305,
+      "grad_norm": 0.03406910225749016,
+      "learning_rate": 1.5508969814521026e-05,
+      "loss": 0.6256,
+      "step": 22
+    },
+    {
+      "epoch": 1.5565217391304347,
+      "grad_norm": 0.034135762602090836,
+      "learning_rate": 1.5128992774059063e-05,
+      "loss": 0.6332,
+      "step": 23
+    },
+    {
+      "epoch": 1.626086956521739,
+      "grad_norm": 0.03473026305437088,
+      "learning_rate": 1.4738686624729987e-05,
+      "loss": 0.6561,
+      "step": 24
+    },
+    {
+      "epoch": 1.6956521739130435,
+      "grad_norm": 0.03459230437874794,
+      "learning_rate": 1.4338837391175582e-05,
+      "loss": 0.6391,
+      "step": 25
+    },
+    {
+      "epoch": 1.7652173913043478,
+      "grad_norm": 0.0341939777135849,
+      "learning_rate": 1.3930250316539237e-05,
+      "loss": 0.6393,
+      "step": 26
+    },
+    {
+      "epoch": 1.8347826086956522,
+      "grad_norm": 0.03445998951792717,
+      "learning_rate": 1.3513748240813429e-05,
+      "loss": 0.6429,
+      "step": 27
+    },
+    {
+      "epoch": 1.9043478260869566,
+      "grad_norm": 0.03501657024025917,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.6483,
+      "step": 28
+    },
+    {
+      "epoch": 1.973913043478261,
+      "grad_norm": 0.03379024565219879,
+      "learning_rate": 1.2660368455666752e-05,
+      "loss": 0.6247,
+      "step": 29
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.034777939319610596,
+      "learning_rate": 1.2225209339563144e-05,
+      "loss": 0.6324,
+      "step": 30
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.620289146900177,
+      "eval_runtime": 2.6255,
+      "eval_samples_per_second": 1.524,
+      "eval_steps_per_second": 1.524,
+      "step": 30
+    },
+    {
+      "epoch": 2.0695652173913044,
+      "grad_norm": 0.035359956324100494,
+      "learning_rate": 1.1785568947986368e-05,
+      "loss": 0.6416,
+      "step": 31
+    },
+    {
+      "epoch": 2.139130434782609,
+      "grad_norm": 0.03541162610054016,
+      "learning_rate": 1.1342332658176556e-05,
+      "loss": 0.6432,
+      "step": 32
+    },
+    {
+      "epoch": 2.208695652173913,
+      "grad_norm": 0.03285665437579155,
+      "learning_rate": 1.0896393089034336e-05,
+      "loss": 0.6128,
+      "step": 33
+    },
+    {
+      "epoch": 2.2782608695652176,
+      "grad_norm": 0.03517802432179451,
+      "learning_rate": 1.044864830350515e-05,
+      "loss": 0.6557,
+      "step": 34
+    },
+    {
+      "epoch": 2.3478260869565215,
+      "grad_norm": 0.03373734652996063,
+      "learning_rate": 1e-05,
+      "loss": 0.6298,
+      "step": 35
+    },
+    {
+      "epoch": 2.417391304347826,
+      "grad_norm": 0.0340682752430439,
+      "learning_rate": 9.551351696494854e-06,
+      "loss": 0.6192,
+      "step": 36
+    },
+    {
+      "epoch": 2.4869565217391303,
+      "grad_norm": 0.03553012013435364,
+      "learning_rate": 9.103606910965666e-06,
+      "loss": 0.637,
+      "step": 37
+    },
+    {
+      "epoch": 2.5565217391304347,
+      "grad_norm": 0.036372989416122437,
+      "learning_rate": 8.657667341823449e-06,
+      "loss": 0.6286,
+      "step": 38
+    },
+    {
+      "epoch": 2.626086956521739,
+      "grad_norm": 0.03410479426383972,
+      "learning_rate": 8.214431052013636e-06,
+      "loss": 0.602,
+      "step": 39
+    },
+    {
+      "epoch": 2.6956521739130435,
+      "grad_norm": 0.035654351115226746,
+      "learning_rate": 7.774790660436857e-06,
+      "loss": 0.6282,
+      "step": 40
+    },
+    {
+      "epoch": 2.765217391304348,
+      "grad_norm": 0.03418293967843056,
+      "learning_rate": 7.33963154433325e-06,
+      "loss": 0.6384,
+      "step": 41
+    },
+    {
+      "epoch": 2.8347826086956522,
+      "grad_norm": 0.035010650753974915,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 0.6232,
+      "step": 42
+    },
+    {
+      "epoch": 2.9043478260869566,
+      "grad_norm": 0.03416571021080017,
+      "learning_rate": 6.486251759186573e-06,
+      "loss": 0.6533,
+      "step": 43
+    },
+    {
+      "epoch": 2.973913043478261,
+      "grad_norm": 0.03395598754286766,
+      "learning_rate": 6.069749683460765e-06,
+      "loss": 0.6205,
+      "step": 44
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.0333721823990345,
+      "learning_rate": 5.66116260882442e-06,
+      "loss": 0.6163,
+      "step": 45
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.6122885942459106,
+      "eval_runtime": 2.6295,
+      "eval_samples_per_second": 1.521,
+      "eval_steps_per_second": 1.521,
+      "step": 45
+    },
+    {
+      "epoch": 3.0695652173913044,
+      "grad_norm": 0.033700425177812576,
+      "learning_rate": 5.2613133752700145e-06,
+      "loss": 0.6408,
+      "step": 46
+    },
+    {
+      "epoch": 3.139130434782609,
+      "grad_norm": 0.03324361890554428,
+      "learning_rate": 4.87100722594094e-06,
+      "loss": 0.62,
+      "step": 47
+    },
+    {
+      "epoch": 3.208695652173913,
+      "grad_norm": 0.03405730798840523,
+      "learning_rate": 4.491030185478976e-06,
+      "loss": 0.6257,
+      "step": 48
+    },
+    {
+      "epoch": 3.2782608695652176,
+      "grad_norm": 0.03492354601621628,
+      "learning_rate": 4.12214747707527e-06,
+      "loss": 0.6349,
+      "step": 49
+    },
+    {
+      "epoch": 3.3478260869565215,
+      "grad_norm": 0.034349583089351654,
+      "learning_rate": 3.7651019814126656e-06,
+      "loss": 0.6282,
+      "step": 50
+    },
+    {
+      "epoch": 3.417391304347826,
+      "grad_norm": 0.03548488765954971,
+      "learning_rate": 3.4206127406028744e-06,
+      "loss": 0.6427,
+      "step": 51
+    },
+    {
+      "epoch": 3.4869565217391303,
+      "grad_norm": 0.03456812724471092,
+      "learning_rate": 3.089373510131354e-06,
+      "loss": 0.62,
+      "step": 52
+    },
+    {
+      "epoch": 3.5565217391304347,
+      "grad_norm": 0.03488166257739067,
+      "learning_rate": 2.7720513617260857e-06,
+      "loss": 0.6263,
+      "step": 53
+    },
+    {
+      "epoch": 3.626086956521739,
+      "grad_norm": 0.0336606539785862,
+      "learning_rate": 2.469285339963892e-06,
+      "loss": 0.63,
+      "step": 54
+    },
+    {
+      "epoch": 3.6956521739130435,
+      "grad_norm": 0.03267661854624748,
+      "learning_rate": 2.1816851753197023e-06,
+      "loss": 0.6297,
+      "step": 55
+    },
+    {
+      "epoch": 3.765217391304348,
+      "grad_norm": 0.0337102934718132,
+      "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.5945,
+      "step": 56
+    },
+    {
+      "epoch": 3.8347826086956522,
+      "grad_norm": 0.035517044365406036,
+      "learning_rate": 1.6542674627869738e-06,
+      "loss": 0.6343,
+      "step": 57
+    },
+    {
+      "epoch": 3.9043478260869566,
+      "grad_norm": 0.03479280695319176,
+      "learning_rate": 1.4155120639813392e-06,
+      "loss": 0.6163,
+      "step": 58
+    },
+    {
+      "epoch": 3.973913043478261,
+      "grad_norm": 0.035013146698474884,
+      "learning_rate": 1.19404468143262e-06,
+      "loss": 0.6114,
+      "step": 59
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.03396342694759369,
+      "learning_rate": 9.903113209758098e-07,
+      "loss": 0.6191,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.609683632850647,
+      "eval_runtime": 2.6229,
+      "eval_samples_per_second": 1.525,
+      "eval_steps_per_second": 1.525,
+      "step": 60
+    },
+    {
+      "epoch": 4.069565217391304,
+      "grad_norm": 0.03345245122909546,
+      "learning_rate": 8.047222744854943e-07,
+      "loss": 0.6416,
+      "step": 61
+    },
+    {
+      "epoch": 4.139130434782609,
+      "grad_norm": 0.03468826040625572,
+      "learning_rate": 6.37651293602628e-07,
+      "loss": 0.6269,
+      "step": 62
+    },
+    {
+      "epoch": 4.208695652173913,
+      "grad_norm": 0.031891003251075745,
+      "learning_rate": 4.894348370484648e-07,
+      "loss": 0.6147,
+      "step": 63
+    },
+    {
+      "epoch": 4.278260869565218,
+      "grad_norm": 0.033924877643585205,
+      "learning_rate": 3.603713930414676e-07,
+      "loss": 0.611,
+      "step": 64
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "grad_norm": 0.033348944038152695,
+      "learning_rate": 2.507208781817638e-07,
+      "loss": 0.6372,
+      "step": 65
+    },
+    {
+      "epoch": 4.417391304347826,
+      "grad_norm": 0.03544296696782112,
+      "learning_rate": 1.6070411401370335e-07,
+      "loss": 0.6176,
+      "step": 66
+    },
+    {
+      "epoch": 4.48695652173913,
+      "grad_norm": 0.03346049040555954,
+      "learning_rate": 9.0502382320653e-08,
+      "loss": 0.6282,
+      "step": 67
+    },
+    {
+      "epoch": 4.556521739130435,
+      "grad_norm": 0.03482738509774208,
+      "learning_rate": 4.025706004760932e-08,
+      "loss": 0.6432,
+      "step": 68
+    },
+    {
+      "epoch": 4.626086956521739,
+      "grad_norm": 0.03497692570090294,
+      "learning_rate": 1.0069334586854106e-08,
+      "loss": 0.6121,
+      "step": 69
+    },
+    {
+      "epoch": 4.695652173913043,
+      "grad_norm": 0.034334901720285416,
+      "learning_rate": 0.0,
+      "loss": 0.6054,
+      "step": 70
+    },
+    {
+      "epoch": 4.695652173913043,
+      "eval_loss": 0.609480619430542,
+      "eval_runtime": 2.628,
+      "eval_samples_per_second": 1.522,
+      "eval_steps_per_second": 1.522,
+      "step": 70
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 70,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.657443415228416e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}