adding model files

Browse files

Files changed (16) hide show

added_tokens.json +11 -0
config.json +28 -0
generation_config.json +10 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +298 -0
special_tokens_map.json +82 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +124 -0
trainer_state.json +3029 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "</headline>": 32008,
+  "</scratchpad>": 32006,
+  "<</SYS>>": 32004,
+  "<<SYS>>": 32003,
+  "<headline>": 32007,
+  "<pad>": 32000,
+  "<scratchpad>": 32005,
+  "[/INST]": 32002,
+  "[INST]": 32001
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.2",
+  "use_cache": true,
+  "vocab_size": 32016
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 1,
+  "do_sample": true,
+  "eos_token_id": 2,
+  "max_length": 4096,
+  "pad_token_id": 0,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.40.2"
+}

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef5b38c0ca54fa84b53d9ab32d974ff4bc82c2d2cb01054b3c138c61081c8e8b
+size 4840658560

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eff08ad3b693819f87043dfa9ab884cdd38d4fa6aa552d0da4f036435329cdca
+size 4857206856

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:707d0665067ed0830431713ea52d2d1888a8d6866b595fe1bac3990d6baa8fbb
+size 4857206904

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:461d41217ca8b22a8884124ac82b2039dd623693f71597d8464c86d3fab50a9d
+size 4857206904

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6073c030c7217a921c6f888c2d9c13ff190bab38d41d3c1305d76f869b45124d
+size 4857206904

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03e7b36ff0fa3beb6214a77ab863f0dbd02db5f1ff646aff3a43130cbc202918
+size 2684734256

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 26954186752
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00006-of-00006.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.norm.weight": "model-00006-of-00006.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,82 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "[INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "[/INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<<SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<</SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "</scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "<headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    },
+    {
+      "content": "</headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true
+    }
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,124 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "[INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32002": {
+      "content": "[/INST]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32003": {
+      "content": "<<SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32004": {
+      "content": "<</SYS>>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32005": {
+      "content": "<scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32006": {
+      "content": "</scratchpad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32007": {
+      "content": "<headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "32008": {
+      "content": "</headline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "[INST]",
+    "[/INST]",
+    "<<SYS>>",
+    "<</SYS>>",
+    "<scratchpad>",
+    "</scratchpad>",
+    "<headline>",
+    "</headline>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": 8,
+  "pad_token": "<pad>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3029 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.153846153846154,
+  "eval_steps": 10,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006153846153846154,
+      "eval_loss": 1.4892182350158691,
+      "eval_runtime": 1.2847,
+      "eval_samples_per_second": 88.739,
+      "eval_steps_per_second": 4.67,
+      "step": 2
+    },
+    {
+      "epoch": 0.03076923076923077,
+      "grad_norm": 17.313547134399414,
+      "learning_rate": 8.771929824561404e-07,
+      "loss": 1.572,
+      "step": 10
+    },
+    {
+      "epoch": 0.03076923076923077,
+      "eval_loss": 1.385959267616272,
+      "eval_runtime": 1.1707,
+      "eval_samples_per_second": 97.379,
+      "eval_steps_per_second": 5.125,
+      "step": 10
+    },
+    {
+      "epoch": 0.06153846153846154,
+      "grad_norm": 21.881710052490234,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 1.3941,
+      "step": 20
+    },
+    {
+      "epoch": 0.06153846153846154,
+      "eval_loss": 1.10025155544281,
+      "eval_runtime": 1.1693,
+      "eval_samples_per_second": 97.493,
+      "eval_steps_per_second": 5.131,
+      "step": 20
+    },
+    {
+      "epoch": 0.09230769230769231,
+      "grad_norm": 16.852941513061523,
+      "learning_rate": 2.631578947368421e-06,
+      "loss": 1.0668,
+      "step": 30
+    },
+    {
+      "epoch": 0.09230769230769231,
+      "eval_loss": 0.804200291633606,
+      "eval_runtime": 1.1689,
+      "eval_samples_per_second": 97.524,
+      "eval_steps_per_second": 5.133,
+      "step": 30
+    },
+    {
+      "epoch": 0.12307692307692308,
+      "grad_norm": 7.562952518463135,
+      "learning_rate": 3.5087719298245615e-06,
+      "loss": 0.7994,
+      "step": 40
+    },
+    {
+      "epoch": 0.12307692307692308,
+      "eval_loss": 0.7087894678115845,
+      "eval_runtime": 1.1695,
+      "eval_samples_per_second": 97.479,
+      "eval_steps_per_second": 5.13,
+      "step": 40
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "grad_norm": 5.54578161239624,
+      "learning_rate": 4.385964912280702e-06,
+      "loss": 0.7771,
+      "step": 50
+    },
+    {
+      "epoch": 0.15384615384615385,
+      "eval_loss": 0.6771284341812134,
+      "eval_runtime": 1.1712,
+      "eval_samples_per_second": 97.335,
+      "eval_steps_per_second": 5.123,
+      "step": 50
+    },
+    {
+      "epoch": 0.18461538461538463,
+      "grad_norm": 4.25554895401001,
+      "learning_rate": 5.263157894736842e-06,
+      "loss": 0.6186,
+      "step": 60
+    },
+    {
+      "epoch": 0.18461538461538463,
+      "eval_loss": 0.6684637665748596,
+      "eval_runtime": 1.172,
+      "eval_samples_per_second": 97.271,
+      "eval_steps_per_second": 5.12,
+      "step": 60
+    },
+    {
+      "epoch": 0.2153846153846154,
+      "grad_norm": 2.6787993907928467,
+      "learning_rate": 6.140350877192983e-06,
+      "loss": 0.7682,
+      "step": 70
+    },
+    {
+      "epoch": 0.2153846153846154,
+      "eval_loss": 0.6650386452674866,
+      "eval_runtime": 1.168,
+      "eval_samples_per_second": 97.602,
+      "eval_steps_per_second": 5.137,
+      "step": 70
+    },
+    {
+      "epoch": 0.24615384615384617,
+      "grad_norm": 4.6247687339782715,
+      "learning_rate": 7.017543859649123e-06,
+      "loss": 0.6332,
+      "step": 80
+    },
+    {
+      "epoch": 0.24615384615384617,
+      "eval_loss": 0.6602365374565125,
+      "eval_runtime": 1.1727,
+      "eval_samples_per_second": 97.215,
+      "eval_steps_per_second": 5.117,
+      "step": 80
+    },
+    {
+      "epoch": 0.27692307692307694,
+      "grad_norm": 5.9723076820373535,
+      "learning_rate": 7.894736842105265e-06,
+      "loss": 0.6295,
+      "step": 90
+    },
+    {
+      "epoch": 0.27692307692307694,
+      "eval_loss": 0.6601566672325134,
+      "eval_runtime": 1.1749,
+      "eval_samples_per_second": 97.03,
+      "eval_steps_per_second": 5.107,
+      "step": 90
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "grad_norm": 2.9546303749084473,
+      "learning_rate": 8.771929824561405e-06,
+      "loss": 0.6066,
+      "step": 100
+    },
+    {
+      "epoch": 0.3076923076923077,
+      "eval_loss": 0.662584662437439,
+      "eval_runtime": 1.1692,
+      "eval_samples_per_second": 97.503,
+      "eval_steps_per_second": 5.132,
+      "step": 100
+    },
+    {
+      "epoch": 0.3384615384615385,
+      "grad_norm": 5.117960453033447,
+      "learning_rate": 9.649122807017545e-06,
+      "loss": 0.7036,
+      "step": 110
+    },
+    {
+      "epoch": 0.3384615384615385,
+      "eval_loss": 0.6623690128326416,
+      "eval_runtime": 1.1758,
+      "eval_samples_per_second": 96.957,
+      "eval_steps_per_second": 5.103,
+      "step": 110
+    },
+    {
+      "epoch": 0.36923076923076925,
+      "grad_norm": 3.4088516235351562,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.7392,
+      "step": 120
+    },
+    {
+      "epoch": 0.36923076923076925,
+      "eval_loss": 0.6659641861915588,
+      "eval_runtime": 1.1722,
+      "eval_samples_per_second": 97.254,
+      "eval_steps_per_second": 5.119,
+      "step": 120
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.8306267261505127,
+      "learning_rate": 1.1403508771929826e-05,
+      "loss": 0.6521,
+      "step": 130
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6673299670219421,
+      "eval_runtime": 1.17,
+      "eval_samples_per_second": 97.438,
+      "eval_steps_per_second": 5.128,
+      "step": 130
+    },
+    {
+      "epoch": 0.4307692307692308,
+      "grad_norm": 2.4628746509552,
+      "learning_rate": 1.2280701754385966e-05,
+      "loss": 0.7004,
+      "step": 140
+    },
+    {
+      "epoch": 0.4307692307692308,
+      "eval_loss": 0.6659048199653625,
+      "eval_runtime": 1.1687,
+      "eval_samples_per_second": 97.542,
+      "eval_steps_per_second": 5.134,
+      "step": 140
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "grad_norm": 2.1854593753814697,
+      "learning_rate": 1.3157894736842108e-05,
+      "loss": 0.6058,
+      "step": 150
+    },
+    {
+      "epoch": 0.46153846153846156,
+      "eval_loss": 0.6683692336082458,
+      "eval_runtime": 1.1678,
+      "eval_samples_per_second": 97.617,
+      "eval_steps_per_second": 5.138,
+      "step": 150
+    },
+    {
+      "epoch": 0.49230769230769234,
+      "grad_norm": 3.1387569904327393,
+      "learning_rate": 1.4035087719298246e-05,
+      "loss": 0.6496,
+      "step": 160
+    },
+    {
+      "epoch": 0.49230769230769234,
+      "eval_loss": 0.6698135733604431,
+      "eval_runtime": 1.1772,
+      "eval_samples_per_second": 96.838,
+      "eval_steps_per_second": 5.097,
+      "step": 160
+    },
+    {
+      "epoch": 0.5230769230769231,
+      "grad_norm": 3.011075496673584,
+      "learning_rate": 1.4912280701754388e-05,
+      "loss": 0.7052,
+      "step": 170
+    },
+    {
+      "epoch": 0.5230769230769231,
+      "eval_loss": 0.6731959581375122,
+      "eval_runtime": 1.1698,
+      "eval_samples_per_second": 97.452,
+      "eval_steps_per_second": 5.129,
+      "step": 170
+    },
+    {
+      "epoch": 0.5538461538461539,
+      "grad_norm": 2.2358617782592773,
+      "learning_rate": 1.578947368421053e-05,
+      "loss": 0.6697,
+      "step": 180
+    },
+    {
+      "epoch": 0.5538461538461539,
+      "eval_loss": 0.6745336651802063,
+      "eval_runtime": 1.1688,
+      "eval_samples_per_second": 97.539,
+      "eval_steps_per_second": 5.134,
+      "step": 180
+    },
+    {
+      "epoch": 0.5846153846153846,
+      "grad_norm": 2.3286333084106445,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.6849,
+      "step": 190
+    },
+    {
+      "epoch": 0.5846153846153846,
+      "eval_loss": 0.6806548237800598,
+      "eval_runtime": 1.173,
+      "eval_samples_per_second": 97.185,
+      "eval_steps_per_second": 5.115,
+      "step": 190
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "grad_norm": 4.495949745178223,
+      "learning_rate": 1.754385964912281e-05,
+      "loss": 0.6983,
+      "step": 200
+    },
+    {
+      "epoch": 0.6153846153846154,
+      "eval_loss": 0.6886388063430786,
+      "eval_runtime": 1.1742,
+      "eval_samples_per_second": 97.085,
+      "eval_steps_per_second": 5.11,
+      "step": 200
+    },
+    {
+      "epoch": 0.6461538461538462,
+      "grad_norm": 4.136720657348633,
+      "learning_rate": 1.8421052631578947e-05,
+      "loss": 0.6762,
+      "step": 210
+    },
+    {
+      "epoch": 0.6461538461538462,
+      "eval_loss": 0.7002557516098022,
+      "eval_runtime": 1.171,
+      "eval_samples_per_second": 97.353,
+      "eval_steps_per_second": 5.124,
+      "step": 210
+    },
+    {
+      "epoch": 0.676923076923077,
+      "grad_norm": 2.267035722732544,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 0.6672,
+      "step": 220
+    },
+    {
+      "epoch": 0.676923076923077,
+      "eval_loss": 0.6988265514373779,
+      "eval_runtime": 1.1681,
+      "eval_samples_per_second": 97.594,
+      "eval_steps_per_second": 5.137,
+      "step": 220
+    },
+    {
+      "epoch": 0.7076923076923077,
+      "grad_norm": 6.048120021820068,
+      "learning_rate": 1.9999952892103225e-05,
+      "loss": 0.7665,
+      "step": 230
+    },
+    {
+      "epoch": 0.7076923076923077,
+      "eval_loss": 0.698064386844635,
+      "eval_runtime": 1.171,
+      "eval_samples_per_second": 97.349,
+      "eval_steps_per_second": 5.124,
+      "step": 230
+    },
+    {
+      "epoch": 0.7384615384615385,
+      "grad_norm": 3.8385283946990967,
+      "learning_rate": 1.999830416231782e-05,
+      "loss": 0.6417,
+      "step": 240
+    },
+    {
+      "epoch": 0.7384615384615385,
+      "eval_loss": 0.7051577568054199,
+      "eval_runtime": 1.183,
+      "eval_samples_per_second": 96.362,
+      "eval_steps_per_second": 5.072,
+      "step": 240
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 2.434706449508667,
+      "learning_rate": 1.9994300481505595e-05,
+      "loss": 0.6091,
+      "step": 250
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "eval_loss": 0.7045093774795532,
+      "eval_runtime": 1.1719,
+      "eval_samples_per_second": 97.279,
+      "eval_steps_per_second": 5.12,
+      "step": 250
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 5.316197395324707,
+      "learning_rate": 1.998794279267369e-05,
+      "loss": 0.6315,
+      "step": 260
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.7110965847969055,
+      "eval_runtime": 1.1785,
+      "eval_samples_per_second": 96.732,
+      "eval_steps_per_second": 5.091,
+      "step": 260
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "grad_norm": 2.894521474838257,
+      "learning_rate": 1.9979232593280637e-05,
+      "loss": 0.5962,
+      "step": 270
+    },
+    {
+      "epoch": 0.8307692307692308,
+      "eval_loss": 0.7120622396469116,
+      "eval_runtime": 1.1719,
+      "eval_samples_per_second": 97.276,
+      "eval_steps_per_second": 5.12,
+      "step": 270
+    },
+    {
+      "epoch": 0.8615384615384616,
+      "grad_norm": 1.9003833532333374,
+      "learning_rate": 1.9968171934883647e-05,
+      "loss": 0.6756,
+      "step": 280
+    },
+    {
+      "epoch": 0.8615384615384616,
+      "eval_loss": 0.7107533812522888,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 97.393,
+      "eval_steps_per_second": 5.126,
+      "step": 280
+    },
+    {
+      "epoch": 0.8923076923076924,
+      "grad_norm": 2.804659128189087,
+      "learning_rate": 1.9954763422655396e-05,
+      "loss": 0.6527,
+      "step": 290
+    },
+    {
+      "epoch": 0.8923076923076924,
+      "eval_loss": 0.7120778560638428,
+      "eval_runtime": 1.17,
+      "eval_samples_per_second": 97.437,
+      "eval_steps_per_second": 5.128,
+      "step": 290
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "grad_norm": 2.411785364151001,
+      "learning_rate": 1.9939010214770426e-05,
+      "loss": 0.5518,
+      "step": 300
+    },
+    {
+      "epoch": 0.9230769230769231,
+      "eval_loss": 0.713731586933136,
+      "eval_runtime": 1.1681,
+      "eval_samples_per_second": 97.591,
+      "eval_steps_per_second": 5.136,
+      "step": 300
+    },
+    {
+      "epoch": 0.9538461538461539,
+      "grad_norm": 3.123478412628174,
+      "learning_rate": 1.9920916021661277e-05,
+      "loss": 0.7426,
+      "step": 310
+    },
+    {
+      "epoch": 0.9538461538461539,
+      "eval_loss": 0.7215016484260559,
+      "eval_runtime": 1.1691,
+      "eval_samples_per_second": 97.51,
+      "eval_steps_per_second": 5.132,
+      "step": 310
+    },
+    {
+      "epoch": 0.9846153846153847,
+      "grad_norm": 2.1090810298919678,
+      "learning_rate": 1.9900485105144544e-05,
+      "loss": 0.6328,
+      "step": 320
+    },
+    {
+      "epoch": 0.9846153846153847,
+      "eval_loss": 0.7235060334205627,
+      "eval_runtime": 1.1716,
+      "eval_samples_per_second": 97.305,
+      "eval_steps_per_second": 5.121,
+      "step": 320
+    },
+    {
+      "epoch": 1.0153846153846153,
+      "grad_norm": 1.8441556692123413,
+      "learning_rate": 1.9877722277417085e-05,
+      "loss": 0.4761,
+      "step": 330
+    },
+    {
+      "epoch": 1.0153846153846153,
+      "eval_loss": 0.7358619570732117,
+      "eval_runtime": 1.1751,
+      "eval_samples_per_second": 97.01,
+      "eval_steps_per_second": 5.106,
+      "step": 330
+    },
+    {
+      "epoch": 1.0461538461538462,
+      "grad_norm": 4.554534435272217,
+      "learning_rate": 1.985263289992256e-05,
+      "loss": 0.4589,
+      "step": 340
+    },
+    {
+      "epoch": 1.0461538461538462,
+      "eval_loss": 0.7409096360206604,
+      "eval_runtime": 1.1688,
+      "eval_samples_per_second": 97.534,
+      "eval_steps_per_second": 5.133,
+      "step": 340
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "grad_norm": 4.1748576164245605,
+      "learning_rate": 1.9825222882088647e-05,
+      "loss": 0.3755,
+      "step": 350
+    },
+    {
+      "epoch": 1.0769230769230769,
+      "eval_loss": 0.7663678526878357,
+      "eval_runtime": 1.1718,
+      "eval_samples_per_second": 97.288,
+      "eval_steps_per_second": 5.12,
+      "step": 350
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "grad_norm": 3.8304669857025146,
+      "learning_rate": 1.9795498679935144e-05,
+      "loss": 0.3855,
+      "step": 360
+    },
+    {
+      "epoch": 1.1076923076923078,
+      "eval_loss": 0.7899073958396912,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.466,
+      "eval_steps_per_second": 5.13,
+      "step": 360
+    },
+    {
+      "epoch": 1.1384615384615384,
+      "grad_norm": 2.3955495357513428,
+      "learning_rate": 1.9763467294553364e-05,
+      "loss": 0.3523,
+      "step": 370
+    },
+    {
+      "epoch": 1.1384615384615384,
+      "eval_loss": 0.7637619972229004,
+      "eval_runtime": 1.1742,
+      "eval_samples_per_second": 97.087,
+      "eval_steps_per_second": 5.11,
+      "step": 370
+    },
+    {
+      "epoch": 1.1692307692307693,
+      "grad_norm": 2.1324350833892822,
+      "learning_rate": 1.9729136270457118e-05,
+      "loss": 0.4018,
+      "step": 380
+    },
+    {
+      "epoch": 1.1692307692307693,
+      "eval_loss": 0.7637792229652405,
+      "eval_runtime": 1.1697,
+      "eval_samples_per_second": 97.462,
+      "eval_steps_per_second": 5.13,
+      "step": 380
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 1.8559616804122925,
+      "learning_rate": 1.9692513693805738e-05,
+      "loss": 0.3435,
+      "step": 390
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.7770301699638367,
+      "eval_runtime": 1.1816,
+      "eval_samples_per_second": 96.477,
+      "eval_steps_per_second": 5.078,
+      "step": 390
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "grad_norm": 2.877528429031372,
+      "learning_rate": 1.965360819049948e-05,
+      "loss": 0.4316,
+      "step": 400
+    },
+    {
+      "epoch": 1.2307692307692308,
+      "eval_loss": 0.7579295039176941,
+      "eval_runtime": 1.1701,
+      "eval_samples_per_second": 97.429,
+      "eval_steps_per_second": 5.128,
+      "step": 400
+    },
+    {
+      "epoch": 1.2615384615384615,
+      "grad_norm": 3.5643234252929688,
+      "learning_rate": 1.9612428924147842e-05,
+      "loss": 0.4915,
+      "step": 410
+    },
+    {
+      "epoch": 1.2615384615384615,
+      "eval_loss": 0.7461956143379211,
+      "eval_runtime": 1.1737,
+      "eval_samples_per_second": 97.131,
+      "eval_steps_per_second": 5.112,
+      "step": 410
+    },
+    {
+      "epoch": 1.2923076923076924,
+      "grad_norm": 1.4231064319610596,
+      "learning_rate": 1.9568985593911206e-05,
+      "loss": 0.4217,
+      "step": 420
+    },
+    {
+      "epoch": 1.2923076923076924,
+      "eval_loss": 0.7627905011177063,
+      "eval_runtime": 1.1736,
+      "eval_samples_per_second": 97.135,
+      "eval_steps_per_second": 5.112,
+      "step": 420
+    },
+    {
+      "epoch": 1.323076923076923,
+      "grad_norm": 2.6112747192382812,
+      "learning_rate": 1.9523288432216333e-05,
+      "loss": 0.4203,
+      "step": 430
+    },
+    {
+      "epoch": 1.323076923076923,
+      "eval_loss": 0.7757404446601868,
+      "eval_runtime": 1.1762,
+      "eval_samples_per_second": 96.921,
+      "eval_steps_per_second": 5.101,
+      "step": 430
+    },
+    {
+      "epoch": 1.353846153846154,
+      "grad_norm": 1.9299876689910889,
+      "learning_rate": 1.9475348202346292e-05,
+      "loss": 0.4072,
+      "step": 440
+    },
+    {
+      "epoch": 1.353846153846154,
+      "eval_loss": 0.7622942328453064,
+      "eval_runtime": 1.1727,
+      "eval_samples_per_second": 97.209,
+      "eval_steps_per_second": 5.116,
+      "step": 440
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "grad_norm": 2.2166357040405273,
+      "learning_rate": 1.942517619590531e-05,
+      "loss": 0.4183,
+      "step": 450
+    },
+    {
+      "epoch": 1.3846153846153846,
+      "eval_loss": 0.7615118026733398,
+      "eval_runtime": 1.1695,
+      "eval_samples_per_second": 97.476,
+      "eval_steps_per_second": 5.13,
+      "step": 450
+    },
+    {
+      "epoch": 1.4153846153846155,
+      "grad_norm": 3.119537830352783,
+      "learning_rate": 1.9372784230159213e-05,
+      "loss": 0.4078,
+      "step": 460
+    },
+    {
+      "epoch": 1.4153846153846155,
+      "eval_loss": 0.7884109020233154,
+      "eval_runtime": 1.1827,
+      "eval_samples_per_second": 96.388,
+      "eval_steps_per_second": 5.073,
+      "step": 460
+    },
+    {
+      "epoch": 1.4461538461538461,
+      "grad_norm": 2.5665481090545654,
+      "learning_rate": 1.9318184645252037e-05,
+      "loss": 0.3671,
+      "step": 470
+    },
+    {
+      "epoch": 1.4461538461538461,
+      "eval_loss": 0.7814936637878418,
+      "eval_runtime": 1.1703,
+      "eval_samples_per_second": 97.409,
+      "eval_steps_per_second": 5.127,
+      "step": 470
+    },
+    {
+      "epoch": 1.476923076923077,
+      "grad_norm": 2.6278116703033447,
+      "learning_rate": 1.926139030129951e-05,
+      "loss": 0.4115,
+      "step": 480
+    },
+    {
+      "epoch": 1.476923076923077,
+      "eval_loss": 0.7802095413208008,
+      "eval_runtime": 1.1738,
+      "eval_samples_per_second": 97.124,
+      "eval_steps_per_second": 5.112,
+      "step": 480
+    },
+    {
+      "epoch": 1.5076923076923077,
+      "grad_norm": 1.6692028045654297,
+      "learning_rate": 1.9202414575360024e-05,
+      "loss": 0.4225,
+      "step": 490
+    },
+    {
+      "epoch": 1.5076923076923077,
+      "eval_loss": 0.7765858769416809,
+      "eval_runtime": 1.174,
+      "eval_samples_per_second": 97.102,
+      "eval_steps_per_second": 5.111,
+      "step": 490
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 1.6276028156280518,
+      "learning_rate": 1.9141271358283874e-05,
+      "loss": 0.401,
+      "step": 500
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "eval_loss": 0.7787917256355286,
+      "eval_runtime": 1.1732,
+      "eval_samples_per_second": 97.168,
+      "eval_steps_per_second": 5.114,
+      "step": 500
+    },
+    {
+      "epoch": 1.5692307692307692,
+      "grad_norm": 2.080925703048706,
+      "learning_rate": 1.9077975051441487e-05,
+      "loss": 0.3814,
+      "step": 510
+    },
+    {
+      "epoch": 1.5692307692307692,
+      "eval_loss": 0.7954160571098328,
+      "eval_runtime": 1.1803,
+      "eval_samples_per_second": 96.582,
+      "eval_steps_per_second": 5.083,
+      "step": 510
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.555667757987976,
+      "learning_rate": 1.9012540563331375e-05,
+      "loss": 0.3924,
+      "step": 520
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.76812744140625,
+      "eval_runtime": 1.1726,
+      "eval_samples_per_second": 97.216,
+      "eval_steps_per_second": 5.117,
+      "step": 520
+    },
+    {
+      "epoch": 1.6307692307692307,
+      "grad_norm": 3.089402914047241,
+      "learning_rate": 1.8944983306068683e-05,
+      "loss": 0.3796,
+      "step": 530
+    },
+    {
+      "epoch": 1.6307692307692307,
+      "eval_loss": 0.7760912775993347,
+      "eval_runtime": 1.1727,
+      "eval_samples_per_second": 97.215,
+      "eval_steps_per_second": 5.117,
+      "step": 530
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "grad_norm": 1.8314533233642578,
+      "learning_rate": 1.8875319191755083e-05,
+      "loss": 0.3872,
+      "step": 540
+    },
+    {
+      "epoch": 1.6615384615384614,
+      "eval_loss": 0.7767414450645447,
+      "eval_runtime": 1.1711,
+      "eval_samples_per_second": 97.342,
+      "eval_steps_per_second": 5.123,
+      "step": 540
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "grad_norm": 3.055037021636963,
+      "learning_rate": 1.8803564628730916e-05,
+      "loss": 0.416,
+      "step": 550
+    },
+    {
+      "epoch": 1.6923076923076923,
+      "eval_loss": 0.7749797105789185,
+      "eval_runtime": 1.1708,
+      "eval_samples_per_second": 97.372,
+      "eval_steps_per_second": 5.125,
+      "step": 550
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "grad_norm": 2.6149818897247314,
+      "learning_rate": 1.8729736517710454e-05,
+      "loss": 0.3795,
+      "step": 560
+    },
+    {
+      "epoch": 1.7230769230769232,
+      "eval_loss": 0.7806265950202942,
+      "eval_runtime": 1.1719,
+      "eval_samples_per_second": 97.274,
+      "eval_steps_per_second": 5.12,
+      "step": 560
+    },
+    {
+      "epoch": 1.7538461538461538,
+      "grad_norm": 1.4809927940368652,
+      "learning_rate": 1.865385224780119e-05,
+      "loss": 0.3996,
+      "step": 570
+    },
+    {
+      "epoch": 1.7538461538461538,
+      "eval_loss": 0.7677830457687378,
+      "eval_runtime": 1.1656,
+      "eval_samples_per_second": 97.807,
+      "eval_steps_per_second": 5.148,
+      "step": 570
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "grad_norm": 1.2982226610183716,
+      "learning_rate": 1.8575929692408105e-05,
+      "loss": 0.357,
+      "step": 580
+    },
+    {
+      "epoch": 1.7846153846153845,
+      "eval_loss": 0.7659456133842468,
+      "eval_runtime": 1.1734,
+      "eval_samples_per_second": 97.154,
+      "eval_steps_per_second": 5.113,
+      "step": 580
+    },
+    {
+      "epoch": 1.8153846153846154,
+      "grad_norm": 2.6157357692718506,
+      "learning_rate": 1.8495987205023832e-05,
+      "loss": 0.4143,
+      "step": 590
+    },
+    {
+      "epoch": 1.8153846153846154,
+      "eval_loss": 0.7643088698387146,
+      "eval_runtime": 1.1728,
+      "eval_samples_per_second": 97.203,
+      "eval_steps_per_second": 5.116,
+      "step": 590
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "grad_norm": 2.0857839584350586,
+      "learning_rate": 1.8414043614905782e-05,
+      "loss": 0.3831,
+      "step": 600
+    },
+    {
+      "epoch": 1.8461538461538463,
+      "eval_loss": 0.7795936465263367,
+      "eval_runtime": 1.1697,
+      "eval_samples_per_second": 97.464,
+      "eval_steps_per_second": 5.13,
+      "step": 600
+    },
+    {
+      "epoch": 1.876923076923077,
+      "grad_norm": 2.6175503730773926,
+      "learning_rate": 1.8330118222641192e-05,
+      "loss": 0.4971,
+      "step": 610
+    },
+    {
+      "epoch": 1.876923076923077,
+      "eval_loss": 0.7608400583267212,
+      "eval_runtime": 1.1742,
+      "eval_samples_per_second": 97.09,
+      "eval_steps_per_second": 5.11,
+      "step": 610
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "grad_norm": 2.832794427871704,
+      "learning_rate": 1.824423079560116e-05,
+      "loss": 0.484,
+      "step": 620
+    },
+    {
+      "epoch": 1.9076923076923076,
+      "eval_loss": 0.7615236639976501,
+      "eval_runtime": 1.1692,
+      "eval_samples_per_second": 97.502,
+      "eval_steps_per_second": 5.132,
+      "step": 620
+    },
+    {
+      "epoch": 1.9384615384615385,
+      "grad_norm": 2.3481552600860596,
+      "learning_rate": 1.8156401563284724e-05,
+      "loss": 0.4265,
+      "step": 630
+    },
+    {
+      "epoch": 1.9384615384615385,
+      "eval_loss": 0.7705041766166687,
+      "eval_runtime": 1.17,
+      "eval_samples_per_second": 97.437,
+      "eval_steps_per_second": 5.128,
+      "step": 630
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "grad_norm": 2.046593427658081,
+      "learning_rate": 1.8066651212554126e-05,
+      "loss": 0.4358,
+      "step": 640
+    },
+    {
+      "epoch": 1.9692307692307693,
+      "eval_loss": 0.7682511210441589,
+      "eval_runtime": 1.173,
+      "eval_samples_per_second": 97.187,
+      "eval_steps_per_second": 5.115,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 1.419567346572876,
+      "learning_rate": 1.797500088276232e-05,
+      "loss": 0.3873,
+      "step": 650
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.7592375874519348,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.468,
+      "eval_steps_per_second": 5.13,
+      "step": 650
+    },
+    {
+      "epoch": 2.0307692307692307,
+      "grad_norm": 1.8520524501800537,
+      "learning_rate": 1.7881472160773912e-05,
+      "loss": 0.2238,
+      "step": 660
+    },
+    {
+      "epoch": 2.0307692307692307,
+      "eval_loss": 0.8353765606880188,
+      "eval_runtime": 1.1722,
+      "eval_samples_per_second": 97.252,
+      "eval_steps_per_second": 5.119,
+      "step": 660
+    },
+    {
+      "epoch": 2.0615384615384613,
+      "grad_norm": 1.4460442066192627,
+      "learning_rate": 1.7786087075880698e-05,
+      "loss": 0.1634,
+      "step": 670
+    },
+    {
+      "epoch": 2.0615384615384613,
+      "eval_loss": 0.8635606169700623,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.466,
+      "eval_steps_per_second": 5.13,
+      "step": 670
+    },
+    {
+      "epoch": 2.0923076923076924,
+      "grad_norm": 1.7724570035934448,
+      "learning_rate": 1.7688868094613e-05,
+      "loss": 0.1981,
+      "step": 680
+    },
+    {
+      "epoch": 2.0923076923076924,
+      "eval_loss": 0.8443431258201599,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 97.392,
+      "eval_steps_per_second": 5.126,
+      "step": 680
+    },
+    {
+      "epoch": 2.123076923076923,
+      "grad_norm": 1.2010449171066284,
+      "learning_rate": 1.7589838115448005e-05,
+      "loss": 0.1757,
+      "step": 690
+    },
+    {
+      "epoch": 2.123076923076923,
+      "eval_loss": 0.8511707186698914,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.467,
+      "eval_steps_per_second": 5.13,
+      "step": 690
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "grad_norm": 1.1759637594223022,
+      "learning_rate": 1.748902046341637e-05,
+      "loss": 0.1783,
+      "step": 700
+    },
+    {
+      "epoch": 2.1538461538461537,
+      "eval_loss": 0.8592740893363953,
+      "eval_runtime": 1.1717,
+      "eval_samples_per_second": 97.298,
+      "eval_steps_per_second": 5.121,
+      "step": 700
+    },
+    {
+      "epoch": 2.184615384615385,
+      "grad_norm": 1.3862695693969727,
+      "learning_rate": 1.7386438884608366e-05,
+      "loss": 0.1543,
+      "step": 710
+    },
+    {
+      "epoch": 2.184615384615385,
+      "eval_loss": 0.8644909858703613,
+      "eval_runtime": 1.1732,
+      "eval_samples_per_second": 97.17,
+      "eval_steps_per_second": 5.114,
+      "step": 710
+    },
+    {
+      "epoch": 2.2153846153846155,
+      "grad_norm": 1.7466557025909424,
+      "learning_rate": 1.7282117540580833e-05,
+      "loss": 0.1767,
+      "step": 720
+    },
+    {
+      "epoch": 2.2153846153846155,
+      "eval_loss": 0.8709841370582581,
+      "eval_runtime": 1.1735,
+      "eval_samples_per_second": 97.147,
+      "eval_steps_per_second": 5.113,
+      "step": 720
+    },
+    {
+      "epoch": 2.246153846153846,
+      "grad_norm": 4.032138347625732,
+      "learning_rate": 1.7176081002666295e-05,
+      "loss": 0.1857,
+      "step": 730
+    },
+    {
+      "epoch": 2.246153846153846,
+      "eval_loss": 0.8654486536979675,
+      "eval_runtime": 1.1725,
+      "eval_samples_per_second": 97.227,
+      "eval_steps_per_second": 5.117,
+      "step": 730
+    },
+    {
+      "epoch": 2.276923076923077,
+      "grad_norm": 1.5742976665496826,
+      "learning_rate": 1.706835424618555e-05,
+      "loss": 0.1856,
+      "step": 740
+    },
+    {
+      "epoch": 2.276923076923077,
+      "eval_loss": 0.8758478164672852,
+      "eval_runtime": 1.1777,
+      "eval_samples_per_second": 96.795,
+      "eval_steps_per_second": 5.094,
+      "step": 740
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 1.977587342262268,
+      "learning_rate": 1.695896264456509e-05,
+      "loss": 0.193,
+      "step": 750
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "eval_loss": 0.8773635029792786,
+      "eval_runtime": 1.1712,
+      "eval_samples_per_second": 97.336,
+      "eval_steps_per_second": 5.123,
+      "step": 750
+    },
+    {
+      "epoch": 2.3384615384615386,
+      "grad_norm": 1.7548459768295288,
+      "learning_rate": 1.6847931963360796e-05,
+      "loss": 0.1998,
+      "step": 760
+    },
+    {
+      "epoch": 2.3384615384615386,
+      "eval_loss": 0.881720781326294,
+      "eval_runtime": 1.1724,
+      "eval_samples_per_second": 97.235,
+      "eval_steps_per_second": 5.118,
+      "step": 760
+    },
+    {
+      "epoch": 2.3692307692307693,
+      "grad_norm": 1.8824084997177124,
+      "learning_rate": 1.6735288354189225e-05,
+      "loss": 0.1901,
+      "step": 770
+    },
+    {
+      "epoch": 2.3692307692307693,
+      "eval_loss": 0.882941484451294,
+      "eval_runtime": 1.1722,
+      "eval_samples_per_second": 97.255,
+      "eval_steps_per_second": 5.119,
+      "step": 770
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.8505690097808838,
+      "learning_rate": 1.6621058348568008e-05,
+      "loss": 0.2,
+      "step": 780
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 0.8739311099052429,
+      "eval_runtime": 1.1727,
+      "eval_samples_per_second": 97.213,
+      "eval_steps_per_second": 5.116,
+      "step": 780
+    },
+    {
+      "epoch": 2.430769230769231,
+      "grad_norm": 2.2948224544525146,
+      "learning_rate": 1.6505268851666717e-05,
+      "loss": 0.2133,
+      "step": 790
+    },
+    {
+      "epoch": 2.430769230769231,
+      "eval_loss": 0.8677226901054382,
+      "eval_runtime": 1.1704,
+      "eval_samples_per_second": 97.401,
+      "eval_steps_per_second": 5.126,
+      "step": 790
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": 2.8984503746032715,
+      "learning_rate": 1.6387947135969796e-05,
+      "loss": 0.2172,
+      "step": 800
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "eval_loss": 0.8845260739326477,
+      "eval_runtime": 1.1802,
+      "eval_samples_per_second": 96.592,
+      "eval_steps_per_second": 5.084,
+      "step": 800
+    },
+    {
+      "epoch": 2.4923076923076923,
+      "grad_norm": 1.368379831314087,
+      "learning_rate": 1.6269120834852892e-05,
+      "loss": 0.1785,
+      "step": 810
+    },
+    {
+      "epoch": 2.4923076923076923,
+      "eval_loss": 0.8744987845420837,
+      "eval_runtime": 1.1728,
+      "eval_samples_per_second": 97.2,
+      "eval_steps_per_second": 5.116,
+      "step": 810
+    },
+    {
+      "epoch": 2.523076923076923,
+      "grad_norm": 2.054267644882202,
+      "learning_rate": 1.6148817936074267e-05,
+      "loss": 0.1836,
+      "step": 820
+    },
+    {
+      "epoch": 2.523076923076923,
+      "eval_loss": 0.8717979788780212,
+      "eval_runtime": 1.1692,
+      "eval_samples_per_second": 97.504,
+      "eval_steps_per_second": 5.132,
+      "step": 820
+    },
+    {
+      "epoch": 2.5538461538461537,
+      "grad_norm": 2.0253634452819824,
+      "learning_rate": 1.6027066775182664e-05,
+      "loss": 0.2076,
+      "step": 830
+    },
+    {
+      "epoch": 2.5538461538461537,
+      "eval_loss": 0.8786882758140564,
+      "eval_runtime": 1.1722,
+      "eval_samples_per_second": 97.25,
+      "eval_steps_per_second": 5.118,
+      "step": 830
+    },
+    {
+      "epoch": 2.5846153846153848,
+      "grad_norm": 2.058828592300415,
+      "learning_rate": 1.5903896028843316e-05,
+      "loss": 0.2044,
+      "step": 840
+    },
+    {
+      "epoch": 2.5846153846153848,
+      "eval_loss": 0.8811537623405457,
+      "eval_runtime": 1.1762,
+      "eval_samples_per_second": 96.92,
+      "eval_steps_per_second": 5.101,
+      "step": 840
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": 2.651844024658203,
+      "learning_rate": 1.5779334708083585e-05,
+      "loss": 0.2098,
+      "step": 850
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "eval_loss": 0.8713807463645935,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.361,
+      "eval_steps_per_second": 5.124,
+      "step": 850
+    },
+    {
+      "epoch": 2.646153846153846,
+      "grad_norm": 1.020337700843811,
+      "learning_rate": 1.565341215145983e-05,
+      "loss": 0.1996,
+      "step": 860
+    },
+    {
+      "epoch": 2.646153846153846,
+      "eval_loss": 0.8767628073692322,
+      "eval_runtime": 1.1713,
+      "eval_samples_per_second": 97.327,
+      "eval_steps_per_second": 5.122,
+      "step": 860
+    },
+    {
+      "epoch": 2.676923076923077,
+      "grad_norm": 2.1759965419769287,
+      "learning_rate": 1.5526158018147168e-05,
+      "loss": 0.181,
+      "step": 870
+    },
+    {
+      "epoch": 2.676923076923077,
+      "eval_loss": 0.8914039731025696,
+      "eval_runtime": 1.1762,
+      "eval_samples_per_second": 96.925,
+      "eval_steps_per_second": 5.101,
+      "step": 870
+    },
+    {
+      "epoch": 2.707692307692308,
+      "grad_norm": 1.934272050857544,
+      "learning_rate": 1.5397602280953695e-05,
+      "loss": 0.1932,
+      "step": 880
+    },
+    {
+      "epoch": 2.707692307692308,
+      "eval_loss": 0.8776417374610901,
+      "eval_runtime": 1.1715,
+      "eval_samples_per_second": 97.314,
+      "eval_steps_per_second": 5.122,
+      "step": 880
+    },
+    {
+      "epoch": 2.7384615384615385,
+      "grad_norm": 1.4871325492858887,
+      "learning_rate": 1.526777521926084e-05,
+      "loss": 0.1919,
+      "step": 890
+    },
+    {
+      "epoch": 2.7384615384615385,
+      "eval_loss": 0.8814923763275146,
+      "eval_runtime": 1.1718,
+      "eval_samples_per_second": 97.284,
+      "eval_steps_per_second": 5.12,
+      "step": 890
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": 1.791063666343689,
+      "learning_rate": 1.5136707411891483e-05,
+      "loss": 0.1919,
+      "step": 900
+    },
+    {
+      "epoch": 2.769230769230769,
+      "eval_loss": 0.8827292323112488,
+      "eval_runtime": 1.1701,
+      "eval_samples_per_second": 97.431,
+      "eval_steps_per_second": 5.128,
+      "step": 900
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 1.5822559595108032,
+      "learning_rate": 1.5004429729907619e-05,
+      "loss": 0.1983,
+      "step": 910
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.8821640610694885,
+      "eval_runtime": 1.1922,
+      "eval_samples_per_second": 95.622,
+      "eval_steps_per_second": 5.033,
+      "step": 910
+    },
+    {
+      "epoch": 2.830769230769231,
+      "grad_norm": 1.4563673734664917,
+      "learning_rate": 1.4870973329339112e-05,
+      "loss": 0.1862,
+      "step": 920
+    },
+    {
+      "epoch": 2.830769230769231,
+      "eval_loss": 0.8727363348007202,
+      "eval_runtime": 1.1717,
+      "eval_samples_per_second": 97.294,
+      "eval_steps_per_second": 5.121,
+      "step": 920
+    },
+    {
+      "epoch": 2.8615384615384616,
+      "grad_norm": 1.736898422241211,
+      "learning_rate": 1.4736369643845346e-05,
+      "loss": 0.1951,
+      "step": 930
+    },
+    {
+      "epoch": 2.8615384615384616,
+      "eval_loss": 0.8904104232788086,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 97.392,
+      "eval_steps_per_second": 5.126,
+      "step": 930
+    },
+    {
+      "epoch": 2.8923076923076922,
+      "grad_norm": 2.34383225440979,
+      "learning_rate": 1.4600650377311523e-05,
+      "loss": 0.1873,
+      "step": 940
+    },
+    {
+      "epoch": 2.8923076923076922,
+      "eval_loss": 0.8865243196487427,
+      "eval_runtime": 1.1736,
+      "eval_samples_per_second": 97.138,
+      "eval_steps_per_second": 5.113,
+      "step": 940
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": 1.5528696775436401,
+      "learning_rate": 1.446384749638128e-05,
+      "loss": 0.1899,
+      "step": 950
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "eval_loss": 0.8732267618179321,
+      "eval_runtime": 1.1697,
+      "eval_samples_per_second": 97.457,
+      "eval_steps_per_second": 5.129,
+      "step": 950
+    },
+    {
+      "epoch": 2.953846153846154,
+      "grad_norm": 1.8076763153076172,
+      "learning_rate": 1.4325993222927414e-05,
+      "loss": 0.2193,
+      "step": 960
+    },
+    {
+      "epoch": 2.953846153846154,
+      "eval_loss": 0.8682700991630554,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.473,
+      "eval_steps_per_second": 5.13,
+      "step": 960
+    },
+    {
+      "epoch": 2.9846153846153847,
+      "grad_norm": 1.7734702825546265,
+      "learning_rate": 1.4187120026462508e-05,
+      "loss": 0.2088,
+      "step": 970
+    },
+    {
+      "epoch": 2.9846153846153847,
+      "eval_loss": 0.8668603897094727,
+      "eval_runtime": 1.1699,
+      "eval_samples_per_second": 97.446,
+      "eval_steps_per_second": 5.129,
+      "step": 970
+    },
+    {
+      "epoch": 3.0153846153846153,
+      "grad_norm": 1.4820784330368042,
+      "learning_rate": 1.4047260616491225e-05,
+      "loss": 0.1625,
+      "step": 980
+    },
+    {
+      "epoch": 3.0153846153846153,
+      "eval_loss": 0.9053574800491333,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.359,
+      "eval_steps_per_second": 5.124,
+      "step": 980
+    },
+    {
+      "epoch": 3.046153846153846,
+      "grad_norm": 1.5260536670684814,
+      "learning_rate": 1.3906447934806074e-05,
+      "loss": 0.1039,
+      "step": 990
+    },
+    {
+      "epoch": 3.046153846153846,
+      "eval_loss": 0.9698213934898376,
+      "eval_runtime": 1.1697,
+      "eval_samples_per_second": 97.463,
+      "eval_steps_per_second": 5.13,
+      "step": 990
+    },
+    {
+      "epoch": 3.076923076923077,
+      "grad_norm": 1.9143565893173218,
+      "learning_rate": 1.3764715147728451e-05,
+      "loss": 0.1092,
+      "step": 1000
+    },
+    {
+      "epoch": 3.076923076923077,
+      "eval_loss": 0.9716460108757019,
+      "eval_runtime": 1.1699,
+      "eval_samples_per_second": 97.443,
+      "eval_steps_per_second": 5.129,
+      "step": 1000
+    },
+    {
+      "epoch": 3.1076923076923078,
+      "grad_norm": 3.71049165725708,
+      "learning_rate": 1.3622095638296827e-05,
+      "loss": 0.1086,
+      "step": 1010
+    },
+    {
+      "epoch": 3.1076923076923078,
+      "eval_loss": 0.9398794770240784,
+      "eval_runtime": 1.1699,
+      "eval_samples_per_second": 97.444,
+      "eval_steps_per_second": 5.129,
+      "step": 1010
+    },
+    {
+      "epoch": 3.1384615384615384,
+      "grad_norm": 1.802106499671936,
+      "learning_rate": 1.3478622998403861e-05,
+      "loss": 0.108,
+      "step": 1020
+    },
+    {
+      "epoch": 3.1384615384615384,
+      "eval_loss": 0.9435946941375732,
+      "eval_runtime": 1.1664,
+      "eval_samples_per_second": 97.738,
+      "eval_steps_per_second": 5.144,
+      "step": 1020
+    },
+    {
+      "epoch": 3.169230769230769,
+      "grad_norm": 1.0307475328445435,
+      "learning_rate": 1.3334331020884328e-05,
+      "loss": 0.0971,
+      "step": 1030
+    },
+    {
+      "epoch": 3.169230769230769,
+      "eval_loss": 0.9706019163131714,
+      "eval_runtime": 1.1667,
+      "eval_samples_per_second": 97.714,
+      "eval_steps_per_second": 5.143,
+      "step": 1030
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 1.9099889993667603,
+      "learning_rate": 1.318925369155574e-05,
+      "loss": 0.1094,
+      "step": 1040
+    },
+    {
+      "epoch": 3.2,
+      "eval_loss": 0.9682909846305847,
+      "eval_runtime": 1.181,
+      "eval_samples_per_second": 96.532,
+      "eval_steps_per_second": 5.081,
+      "step": 1040
+    },
+    {
+      "epoch": 3.230769230769231,
+      "grad_norm": 1.44503653049469,
+      "learning_rate": 1.3043425181213471e-05,
+      "loss": 0.1068,
+      "step": 1050
+    },
+    {
+      "epoch": 3.230769230769231,
+      "eval_loss": 0.9612134695053101,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.473,
+      "eval_steps_per_second": 5.13,
+      "step": 1050
+    },
+    {
+      "epoch": 3.2615384615384615,
+      "grad_norm": 3.1043527126312256,
+      "learning_rate": 1.2896879837582356e-05,
+      "loss": 0.1013,
+      "step": 1060
+    },
+    {
+      "epoch": 3.2615384615384615,
+      "eval_loss": 0.9546095132827759,
+      "eval_runtime": 1.1706,
+      "eval_samples_per_second": 97.383,
+      "eval_steps_per_second": 5.125,
+      "step": 1060
+    },
+    {
+      "epoch": 3.292307692307692,
+      "grad_norm": 1.3835999965667725,
+      "learning_rate": 1.2749652177226592e-05,
+      "loss": 0.1057,
+      "step": 1070
+    },
+    {
+      "epoch": 3.292307692307692,
+      "eval_loss": 0.9469552040100098,
+      "eval_runtime": 1.1679,
+      "eval_samples_per_second": 97.615,
+      "eval_steps_per_second": 5.138,
+      "step": 1070
+    },
+    {
+      "epoch": 3.3230769230769233,
+      "grad_norm": 1.0009269714355469,
+      "learning_rate": 1.2601776877419876e-05,
+      "loss": 0.1001,
+      "step": 1080
+    },
+    {
+      "epoch": 3.3230769230769233,
+      "eval_loss": 0.9397399425506592,
+      "eval_runtime": 1.1685,
+      "eval_samples_per_second": 97.559,
+      "eval_steps_per_second": 5.135,
+      "step": 1080
+    },
+    {
+      "epoch": 3.353846153846154,
+      "grad_norm": 1.363376498222351,
+      "learning_rate": 1.2453288767977686e-05,
+      "loss": 0.1027,
+      "step": 1090
+    },
+    {
+      "epoch": 3.353846153846154,
+      "eval_loss": 0.9450347423553467,
+      "eval_runtime": 1.1676,
+      "eval_samples_per_second": 97.635,
+      "eval_steps_per_second": 5.139,
+      "step": 1090
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "grad_norm": 1.0153303146362305,
+      "learning_rate": 1.2304222823053653e-05,
+      "loss": 0.0955,
+      "step": 1100
+    },
+    {
+      "epoch": 3.3846153846153846,
+      "eval_loss": 0.9450714588165283,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.466,
+      "eval_steps_per_second": 5.13,
+      "step": 1100
+    },
+    {
+      "epoch": 3.4153846153846152,
+      "grad_norm": 1.4852946996688843,
+      "learning_rate": 1.2154614152901916e-05,
+      "loss": 0.112,
+      "step": 1110
+    },
+    {
+      "epoch": 3.4153846153846152,
+      "eval_loss": 0.9556564092636108,
+      "eval_runtime": 1.169,
+      "eval_samples_per_second": 97.522,
+      "eval_steps_per_second": 5.133,
+      "step": 1110
+    },
+    {
+      "epoch": 3.4461538461538463,
+      "grad_norm": 1.436240315437317,
+      "learning_rate": 1.2004497995607415e-05,
+      "loss": 0.1111,
+      "step": 1120
+    },
+    {
+      "epoch": 3.4461538461538463,
+      "eval_loss": 0.9517717957496643,
+      "eval_runtime": 1.1669,
+      "eval_samples_per_second": 97.698,
+      "eval_steps_per_second": 5.142,
+      "step": 1120
+    },
+    {
+      "epoch": 3.476923076923077,
+      "grad_norm": 1.0315356254577637,
+      "learning_rate": 1.1853909708786111e-05,
+      "loss": 0.1068,
+      "step": 1130
+    },
+    {
+      "epoch": 3.476923076923077,
+      "eval_loss": 0.9484620094299316,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.358,
+      "eval_steps_per_second": 5.124,
+      "step": 1130
+    },
+    {
+      "epoch": 3.5076923076923077,
+      "grad_norm": 2.449739694595337,
+      "learning_rate": 1.1702884761257003e-05,
+      "loss": 0.1083,
+      "step": 1140
+    },
+    {
+      "epoch": 3.5076923076923077,
+      "eval_loss": 0.9486011862754822,
+      "eval_runtime": 1.171,
+      "eval_samples_per_second": 97.351,
+      "eval_steps_per_second": 5.124,
+      "step": 1140
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "grad_norm": 1.3720005750656128,
+      "learning_rate": 1.1551458724688e-05,
+      "loss": 0.1041,
+      "step": 1150
+    },
+    {
+      "epoch": 3.5384615384615383,
+      "eval_loss": 0.9491356015205383,
+      "eval_runtime": 1.1713,
+      "eval_samples_per_second": 97.331,
+      "eval_steps_per_second": 5.123,
+      "step": 1150
+    },
+    {
+      "epoch": 3.569230769230769,
+      "grad_norm": 1.0272101163864136,
+      "learning_rate": 1.1399667265217522e-05,
+      "loss": 0.1053,
+      "step": 1160
+    },
+    {
+      "epoch": 3.569230769230769,
+      "eval_loss": 0.9491347670555115,
+      "eval_runtime": 1.1684,
+      "eval_samples_per_second": 97.565,
+      "eval_steps_per_second": 5.135,
+      "step": 1160
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 1.0658726692199707,
+      "learning_rate": 1.1247546135053904e-05,
+      "loss": 0.1033,
+      "step": 1170
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 0.9673336148262024,
+      "eval_runtime": 1.1715,
+      "eval_samples_per_second": 97.309,
+      "eval_steps_per_second": 5.122,
+      "step": 1170
+    },
+    {
+      "epoch": 3.6307692307692307,
+      "grad_norm": 1.3125324249267578,
+      "learning_rate": 1.1095131164054476e-05,
+      "loss": 0.1129,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6307692307692307,
+      "eval_loss": 0.97517329454422,
+      "eval_runtime": 1.1712,
+      "eval_samples_per_second": 97.335,
+      "eval_steps_per_second": 5.123,
+      "step": 1180
+    },
+    {
+      "epoch": 3.6615384615384614,
+      "grad_norm": 1.3487167358398438,
+      "learning_rate": 1.0942458251286384e-05,
+      "loss": 0.1036,
+      "step": 1190
+    },
+    {
+      "epoch": 3.6615384615384614,
+      "eval_loss": 0.9631505608558655,
+      "eval_runtime": 1.1711,
+      "eval_samples_per_second": 97.345,
+      "eval_steps_per_second": 5.123,
+      "step": 1190
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "grad_norm": 0.7562450170516968,
+      "learning_rate": 1.078956335657109e-05,
+      "loss": 0.0978,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6923076923076925,
+      "eval_loss": 0.9508676528930664,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 97.394,
+      "eval_steps_per_second": 5.126,
+      "step": 1200
+    },
+    {
+      "epoch": 3.723076923076923,
+      "grad_norm": 0.6648198962211609,
+      "learning_rate": 1.0636482492014603e-05,
+      "loss": 0.1,
+      "step": 1210
+    },
+    {
+      "epoch": 3.723076923076923,
+      "eval_loss": 0.9435186386108398,
+      "eval_runtime": 1.168,
+      "eval_samples_per_second": 97.599,
+      "eval_steps_per_second": 5.137,
+      "step": 1210
+    },
+    {
+      "epoch": 3.753846153846154,
+      "grad_norm": 1.0020407438278198,
+      "learning_rate": 1.0483251713525335e-05,
+      "loss": 0.1045,
+      "step": 1220
+    },
+    {
+      "epoch": 3.753846153846154,
+      "eval_loss": 0.9503720998764038,
+      "eval_runtime": 1.1729,
+      "eval_samples_per_second": 97.192,
+      "eval_steps_per_second": 5.115,
+      "step": 1220
+    },
+    {
+      "epoch": 3.7846153846153845,
+      "grad_norm": 1.0947405099868774,
+      "learning_rate": 1.0329907112321685e-05,
+      "loss": 0.1062,
+      "step": 1230
+    },
+    {
+      "epoch": 3.7846153846153845,
+      "eval_loss": 0.9526187777519226,
+      "eval_runtime": 1.1695,
+      "eval_samples_per_second": 97.479,
+      "eval_steps_per_second": 5.13,
+      "step": 1230
+    },
+    {
+      "epoch": 3.815384615384615,
+      "grad_norm": 1.4495724439620972,
+      "learning_rate": 1.0176484806431288e-05,
+      "loss": 0.1117,
+      "step": 1240
+    },
+    {
+      "epoch": 3.815384615384615,
+      "eval_loss": 0.9412961006164551,
+      "eval_runtime": 1.17,
+      "eval_samples_per_second": 97.438,
+      "eval_steps_per_second": 5.128,
+      "step": 1240
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 1.7869362831115723,
+      "learning_rate": 1.002302093218396e-05,
+      "loss": 0.1069,
+      "step": 1250
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "eval_loss": 0.9391104578971863,
+      "eval_runtime": 1.1741,
+      "eval_samples_per_second": 97.093,
+      "eval_steps_per_second": 5.11,
+      "step": 1250
+    },
+    {
+      "epoch": 3.876923076923077,
+      "grad_norm": 1.1298882961273193,
+      "learning_rate": 9.869551635700321e-06,
+      "loss": 0.1002,
+      "step": 1260
+    },
+    {
+      "epoch": 3.876923076923077,
+      "eval_loss": 0.9372419118881226,
+      "eval_runtime": 1.1844,
+      "eval_samples_per_second": 96.251,
+      "eval_steps_per_second": 5.066,
+      "step": 1260
+    },
+    {
+      "epoch": 3.9076923076923076,
+      "grad_norm": 1.4218522310256958,
+      "learning_rate": 9.716113064378113e-06,
+      "loss": 0.106,
+      "step": 1270
+    },
+    {
+      "epoch": 3.9076923076923076,
+      "eval_loss": 0.9379148483276367,
+      "eval_runtime": 1.1696,
+      "eval_samples_per_second": 97.465,
+      "eval_steps_per_second": 5.13,
+      "step": 1270
+    },
+    {
+      "epoch": 3.9384615384615387,
+      "grad_norm": 1.4040753841400146,
+      "learning_rate": 9.562741358378239e-06,
+      "loss": 0.114,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9384615384615387,
+      "eval_loss": 0.9377250671386719,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.364,
+      "eval_steps_per_second": 5.124,
+      "step": 1280
+    },
+    {
+      "epoch": 3.9692307692307693,
+      "grad_norm": 0.8223766088485718,
+      "learning_rate": 9.409472642112454e-06,
+      "loss": 0.0902,
+      "step": 1290
+    },
+    {
+      "epoch": 3.9692307692307693,
+      "eval_loss": 0.9435003399848938,
+      "eval_runtime": 1.1712,
+      "eval_samples_per_second": 97.333,
+      "eval_steps_per_second": 5.123,
+      "step": 1290
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.54679274559021,
+      "learning_rate": 9.256343015734842e-06,
+      "loss": 0.1113,
+      "step": 1300
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.9493169188499451,
+      "eval_runtime": 1.1684,
+      "eval_samples_per_second": 97.569,
+      "eval_steps_per_second": 5.135,
+      "step": 1300
+    },
+    {
+      "epoch": 4.030769230769231,
+      "grad_norm": 0.7335414290428162,
+      "learning_rate": 9.103388546638929e-06,
+      "loss": 0.0652,
+      "step": 1310
+    },
+    {
+      "epoch": 4.030769230769231,
+      "eval_loss": 0.9685525298118591,
+      "eval_runtime": 1.17,
+      "eval_samples_per_second": 97.435,
+      "eval_steps_per_second": 5.128,
+      "step": 1310
+    },
+    {
+      "epoch": 4.061538461538461,
+      "grad_norm": 0.6657086610794067,
+      "learning_rate": 8.950645260962572e-06,
+      "loss": 0.0709,
+      "step": 1320
+    },
+    {
+      "epoch": 4.061538461538461,
+      "eval_loss": 1.001549243927002,
+      "eval_runtime": 1.1677,
+      "eval_samples_per_second": 97.629,
+      "eval_steps_per_second": 5.138,
+      "step": 1320
+    },
+    {
+      "epoch": 4.092307692307692,
+      "grad_norm": 0.7355430126190186,
+      "learning_rate": 8.798149135102528e-06,
+      "loss": 0.0598,
+      "step": 1330
+    },
+    {
+      "epoch": 4.092307692307692,
+      "eval_loss": 1.0257222652435303,
+      "eval_runtime": 1.1692,
+      "eval_samples_per_second": 97.505,
+      "eval_steps_per_second": 5.132,
+      "step": 1330
+    },
+    {
+      "epoch": 4.123076923076923,
+      "grad_norm": 0.9535174369812012,
+      "learning_rate": 8.645936087240758e-06,
+      "loss": 0.0639,
+      "step": 1340
+    },
+    {
+      "epoch": 4.123076923076923,
+      "eval_loss": 1.02472722530365,
+      "eval_runtime": 1.1746,
+      "eval_samples_per_second": 97.052,
+      "eval_steps_per_second": 5.108,
+      "step": 1340
+    },
+    {
+      "epoch": 4.153846153846154,
+      "grad_norm": 1.2183341979980469,
+      "learning_rate": 8.494041968884423e-06,
+      "loss": 0.0678,
+      "step": 1350
+    },
+    {
+      "epoch": 4.153846153846154,
+      "eval_loss": 1.01518976688385,
+      "eval_runtime": 1.1752,
+      "eval_samples_per_second": 97.005,
+      "eval_steps_per_second": 5.106,
+      "step": 1350
+    },
+    {
+      "epoch": 4.184615384615385,
+      "grad_norm": 1.0535281896591187,
+      "learning_rate": 8.342502556421627e-06,
+      "loss": 0.0683,
+      "step": 1360
+    },
+    {
+      "epoch": 4.184615384615385,
+      "eval_loss": 1.011572241783142,
+      "eval_runtime": 1.1711,
+      "eval_samples_per_second": 97.349,
+      "eval_steps_per_second": 5.124,
+      "step": 1360
+    },
+    {
+      "epoch": 4.2153846153846155,
+      "grad_norm": 0.8160733580589294,
+      "learning_rate": 8.19135354269479e-06,
+      "loss": 0.0635,
+      "step": 1370
+    },
+    {
+      "epoch": 4.2153846153846155,
+      "eval_loss": 1.0144906044006348,
+      "eval_runtime": 1.1716,
+      "eval_samples_per_second": 97.303,
+      "eval_steps_per_second": 5.121,
+      "step": 1370
+    },
+    {
+      "epoch": 4.246153846153846,
+      "grad_norm": 0.7165587544441223,
+      "learning_rate": 8.040630528593753e-06,
+      "loss": 0.0727,
+      "step": 1380
+    },
+    {
+      "epoch": 4.246153846153846,
+      "eval_loss": 1.0147422552108765,
+      "eval_runtime": 1.1734,
+      "eval_samples_per_second": 97.154,
+      "eval_steps_per_second": 5.113,
+      "step": 1380
+    },
+    {
+      "epoch": 4.276923076923077,
+      "grad_norm": 0.5108652114868164,
+      "learning_rate": 7.890369014670512e-06,
+      "loss": 0.0568,
+      "step": 1390
+    },
+    {
+      "epoch": 4.276923076923077,
+      "eval_loss": 1.0228266716003418,
+      "eval_runtime": 1.1752,
+      "eval_samples_per_second": 97.005,
+      "eval_steps_per_second": 5.106,
+      "step": 1390
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "grad_norm": 0.9953749775886536,
+      "learning_rate": 7.740604392777612e-06,
+      "loss": 0.0739,
+      "step": 1400
+    },
+    {
+      "epoch": 4.3076923076923075,
+      "eval_loss": 1.0229958295822144,
+      "eval_runtime": 1.1704,
+      "eval_samples_per_second": 97.403,
+      "eval_steps_per_second": 5.126,
+      "step": 1400
+    },
+    {
+      "epoch": 4.338461538461538,
+      "grad_norm": 0.6794481873512268,
+      "learning_rate": 7.591371937732091e-06,
+      "loss": 0.0631,
+      "step": 1410
+    },
+    {
+      "epoch": 4.338461538461538,
+      "eval_loss": 1.0221363306045532,
+      "eval_runtime": 1.1734,
+      "eval_samples_per_second": 97.152,
+      "eval_steps_per_second": 5.113,
+      "step": 1410
+    },
+    {
+      "epoch": 4.36923076923077,
+      "grad_norm": 0.9968973398208618,
+      "learning_rate": 7.442706799007056e-06,
+      "loss": 0.0692,
+      "step": 1420
+    },
+    {
+      "epoch": 4.36923076923077,
+      "eval_loss": 1.0264593362808228,
+      "eval_runtime": 1.172,
+      "eval_samples_per_second": 97.269,
+      "eval_steps_per_second": 5.119,
+      "step": 1420
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 1.3695619106292725,
+      "learning_rate": 7.294643992452735e-06,
+      "loss": 0.0738,
+      "step": 1430
+    },
+    {
+      "epoch": 4.4,
+      "eval_loss": 1.0297492742538452,
+      "eval_runtime": 1.1714,
+      "eval_samples_per_second": 97.322,
+      "eval_steps_per_second": 5.122,
+      "step": 1430
+    },
+    {
+      "epoch": 4.430769230769231,
+      "grad_norm": 0.5754280090332031,
+      "learning_rate": 7.147218392049026e-06,
+      "loss": 0.0655,
+      "step": 1440
+    },
+    {
+      "epoch": 4.430769230769231,
+      "eval_loss": 1.0193074941635132,
+      "eval_runtime": 1.1734,
+      "eval_samples_per_second": 97.157,
+      "eval_steps_per_second": 5.114,
+      "step": 1440
+    },
+    {
+      "epoch": 4.461538461538462,
+      "grad_norm": 0.792294442653656,
+      "learning_rate": 7.000464721691438e-06,
+      "loss": 0.0682,
+      "step": 1450
+    },
+    {
+      "epoch": 4.461538461538462,
+      "eval_loss": 1.0121448040008545,
+      "eval_runtime": 1.1708,
+      "eval_samples_per_second": 97.366,
+      "eval_steps_per_second": 5.125,
+      "step": 1450
+    },
+    {
+      "epoch": 4.492307692307692,
+      "grad_norm": 0.7349876165390015,
+      "learning_rate": 6.854417547012415e-06,
+      "loss": 0.0604,
+      "step": 1460
+    },
+    {
+      "epoch": 4.492307692307692,
+      "eval_loss": 1.016451120376587,
+      "eval_runtime": 1.1724,
+      "eval_samples_per_second": 97.234,
+      "eval_steps_per_second": 5.118,
+      "step": 1460
+    },
+    {
+      "epoch": 4.523076923076923,
+      "grad_norm": 0.7504643201828003,
+      "learning_rate": 6.7091112672399e-06,
+      "loss": 0.0633,
+      "step": 1470
+    },
+    {
+      "epoch": 4.523076923076923,
+      "eval_loss": 1.0219779014587402,
+      "eval_runtime": 1.1798,
+      "eval_samples_per_second": 96.624,
+      "eval_steps_per_second": 5.085,
+      "step": 1470
+    },
+    {
+      "epoch": 4.553846153846154,
+      "grad_norm": 1.2857098579406738,
+      "learning_rate": 6.564580107095133e-06,
+      "loss": 0.0678,
+      "step": 1480
+    },
+    {
+      "epoch": 4.553846153846154,
+      "eval_loss": 1.0191960334777832,
+      "eval_runtime": 1.1708,
+      "eval_samples_per_second": 97.371,
+      "eval_steps_per_second": 5.125,
+      "step": 1480
+    },
+    {
+      "epoch": 4.584615384615384,
+      "grad_norm": 0.9134919047355652,
+      "learning_rate": 6.4208581087315035e-06,
+      "loss": 0.0631,
+      "step": 1490
+    },
+    {
+      "epoch": 4.584615384615384,
+      "eval_loss": 1.0170596837997437,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.363,
+      "eval_steps_per_second": 5.124,
+      "step": 1490
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 1.1198382377624512,
+      "learning_rate": 6.277979123716455e-06,
+      "loss": 0.0659,
+      "step": 1500
+    },
+    {
+      "epoch": 4.615384615384615,
+      "eval_loss": 1.0086171627044678,
+      "eval_runtime": 1.1714,
+      "eval_samples_per_second": 97.317,
+      "eval_steps_per_second": 5.122,
+      "step": 1500
+    },
+    {
+      "epoch": 4.6461538461538465,
+      "grad_norm": 0.6104535460472107,
+      "learning_rate": 6.13597680505823e-06,
+      "loss": 0.0708,
+      "step": 1510
+    },
+    {
+      "epoch": 4.6461538461538465,
+      "eval_loss": 1.0133336782455444,
+      "eval_runtime": 1.1722,
+      "eval_samples_per_second": 97.249,
+      "eval_steps_per_second": 5.118,
+      "step": 1510
+    },
+    {
+      "epoch": 4.676923076923077,
+      "grad_norm": 1.2413326501846313,
+      "learning_rate": 5.994884599279443e-06,
+      "loss": 0.0677,
+      "step": 1520
+    },
+    {
+      "epoch": 4.676923076923077,
+      "eval_loss": 1.0255297422409058,
+      "eval_runtime": 1.1693,
+      "eval_samples_per_second": 97.498,
+      "eval_steps_per_second": 5.131,
+      "step": 1520
+    },
+    {
+      "epoch": 4.707692307692308,
+      "grad_norm": 0.7606931924819946,
+      "learning_rate": 5.854735738539203e-06,
+      "loss": 0.0673,
+      "step": 1530
+    },
+    {
+      "epoch": 4.707692307692308,
+      "eval_loss": 1.0231595039367676,
+      "eval_runtime": 1.1661,
+      "eval_samples_per_second": 97.758,
+      "eval_steps_per_second": 5.145,
+      "step": 1530
+    },
+    {
+      "epoch": 4.7384615384615385,
+      "grad_norm": 0.7244937419891357,
+      "learning_rate": 5.715563232805825e-06,
+      "loss": 0.0636,
+      "step": 1540
+    },
+    {
+      "epoch": 4.7384615384615385,
+      "eval_loss": 1.021304726600647,
+      "eval_runtime": 1.1699,
+      "eval_samples_per_second": 97.448,
+      "eval_steps_per_second": 5.129,
+      "step": 1540
+    },
+    {
+      "epoch": 4.769230769230769,
+      "grad_norm": 0.9156585335731506,
+      "learning_rate": 5.577399862081789e-06,
+      "loss": 0.0622,
+      "step": 1550
+    },
+    {
+      "epoch": 4.769230769230769,
+      "eval_loss": 1.0218665599822998,
+      "eval_runtime": 1.1725,
+      "eval_samples_per_second": 97.228,
+      "eval_steps_per_second": 5.117,
+      "step": 1550
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.7938739061355591,
+      "learning_rate": 5.4402781686829184e-06,
+      "loss": 0.0708,
+      "step": 1560
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 1.0239921808242798,
+      "eval_runtime": 1.1698,
+      "eval_samples_per_second": 97.456,
+      "eval_steps_per_second": 5.129,
+      "step": 1560
+    },
+    {
+      "epoch": 4.8307692307692305,
+      "grad_norm": 0.6187343001365662,
+      "learning_rate": 5.304230449573523e-06,
+      "loss": 0.0673,
+      "step": 1570
+    },
+    {
+      "epoch": 4.8307692307692305,
+      "eval_loss": 1.0255112648010254,
+      "eval_runtime": 1.1709,
+      "eval_samples_per_second": 97.36,
+      "eval_steps_per_second": 5.124,
+      "step": 1570
+    },
+    {
+      "epoch": 4.861538461538462,
+      "grad_norm": 0.9313326478004456,
+      "learning_rate": 5.169288748759327e-06,
+      "loss": 0.0719,
+      "step": 1580
+    },
+    {
+      "epoch": 4.861538461538462,
+      "eval_loss": 1.030735731124878,
+      "eval_runtime": 1.1763,
+      "eval_samples_per_second": 96.91,
+      "eval_steps_per_second": 5.101,
+      "step": 1580
+    },
+    {
+      "epoch": 4.892307692307693,
+      "grad_norm": 0.8160267472267151,
+      "learning_rate": 5.0354848497399865e-06,
+      "loss": 0.0601,
+      "step": 1590
+    },
+    {
+      "epoch": 4.892307692307693,
+      "eval_loss": 1.0354409217834473,
+      "eval_runtime": 1.1748,
+      "eval_samples_per_second": 97.039,
+      "eval_steps_per_second": 5.107,
+      "step": 1590
+    },
+    {
+      "epoch": 4.923076923076923,
+      "grad_norm": 0.4827396273612976,
+      "learning_rate": 4.902850268022959e-06,
+      "loss": 0.0656,
+      "step": 1600
+    },
+    {
+      "epoch": 4.923076923076923,
+      "eval_loss": 1.0407545566558838,
+      "eval_runtime": 1.1702,
+      "eval_samples_per_second": 97.417,
+      "eval_steps_per_second": 5.127,
+      "step": 1600
+    },
+    {
+      "epoch": 4.953846153846154,
+      "grad_norm": 0.5780770182609558,
+      "learning_rate": 4.771416243700495e-06,
+      "loss": 0.0683,
+      "step": 1610
+    },
+    {
+      "epoch": 4.953846153846154,
+      "eval_loss": 1.042207956314087,
+      "eval_runtime": 1.172,
+      "eval_samples_per_second": 97.272,
+      "eval_steps_per_second": 5.12,
+      "step": 1610
+    },
+    {
+      "epoch": 4.984615384615385,
+      "grad_norm": 0.629173755645752,
+      "learning_rate": 4.641213734091507e-06,
+      "loss": 0.0611,
+      "step": 1620
+    },
+    {
+      "epoch": 4.984615384615385,
+      "eval_loss": 1.0396348237991333,
+      "eval_runtime": 1.174,
+      "eval_samples_per_second": 97.104,
+      "eval_steps_per_second": 5.111,
+      "step": 1620
+    },
+    {
+      "epoch": 5.015384615384615,
+      "grad_norm": 0.5161557197570801,
+      "learning_rate": 4.5122734064500365e-06,
+      "loss": 0.0545,
+      "step": 1630
+    },
+    {
+      "epoch": 5.015384615384615,
+      "eval_loss": 1.0406357049942017,
+      "eval_runtime": 1.1719,
+      "eval_samples_per_second": 97.276,
+      "eval_steps_per_second": 5.12,
+      "step": 1630
+    },
+    {
+      "epoch": 5.046153846153846,
+      "grad_norm": 0.5921193361282349,
+      "learning_rate": 4.384625630742031e-06,
+      "loss": 0.0459,
+      "step": 1640
+    },
+    {
+      "epoch": 5.046153846153846,
+      "eval_loss": 1.0513570308685303,
+      "eval_runtime": 1.1736,
+      "eval_samples_per_second": 97.14,
+      "eval_steps_per_second": 5.113,
+      "step": 1640
+    },
+    {
+      "epoch": 5.076923076923077,
+      "grad_norm": 0.42699378728866577,
+      "learning_rate": 4.258300472492165e-06,
+      "loss": 0.0464,
+      "step": 1650
+    },
+    {
+      "epoch": 5.076923076923077,
+      "eval_loss": 1.0643454790115356,
+      "eval_runtime": 1.1791,
+      "eval_samples_per_second": 96.68,
+      "eval_steps_per_second": 5.088,
+      "step": 1650
+    },
+    {
+      "epoch": 5.107692307692307,
+      "grad_norm": 0.30781152844429016,
+      "learning_rate": 4.1333276857023515e-06,
+      "loss": 0.0501,
+      "step": 1660
+    },
+    {
+      "epoch": 5.107692307692307,
+      "eval_loss": 1.0711394548416138,
+      "eval_runtime": 1.1721,
+      "eval_samples_per_second": 97.26,
+      "eval_steps_per_second": 5.119,
+      "step": 1660
+    },
+    {
+      "epoch": 5.138461538461539,
+      "grad_norm": 0.755979061126709,
+      "learning_rate": 4.0097367058436156e-06,
+      "loss": 0.05,
+      "step": 1670
+    },
+    {
+      "epoch": 5.138461538461539,
+      "eval_loss": 1.0776441097259521,
+      "eval_runtime": 1.1703,
+      "eval_samples_per_second": 97.412,
+      "eval_steps_per_second": 5.127,
+      "step": 1670
+    },
+    {
+      "epoch": 5.1692307692307695,
+      "grad_norm": 0.5750260353088379,
+      "learning_rate": 3.887556642923047e-06,
+      "loss": 0.0471,
+      "step": 1680
+    },
+    {
+      "epoch": 5.1692307692307695,
+      "eval_loss": 1.0839452743530273,
+      "eval_runtime": 1.1728,
+      "eval_samples_per_second": 97.205,
+      "eval_steps_per_second": 5.116,
+      "step": 1680
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.3392394781112671,
+      "learning_rate": 3.7668162746273283e-06,
+      "loss": 0.0456,
+      "step": 1690
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 1.0858458280563354,
+      "eval_runtime": 1.1705,
+      "eval_samples_per_second": 97.396,
+      "eval_steps_per_second": 5.126,
+      "step": 1690
+    },
+    {
+      "epoch": 5.230769230769231,
+      "grad_norm": 0.4785156846046448,
+      "learning_rate": 3.647544039544615e-06,
+      "loss": 0.0501,
+      "step": 1700
+    },
+    {
+      "epoch": 5.230769230769231,
+      "eval_loss": 1.090858817100525,
+      "eval_runtime": 1.1746,
+      "eval_samples_per_second": 97.053,
+      "eval_steps_per_second": 5.108,
+      "step": 1700
+    },
+    {
+      "epoch": 5.2615384615384615,
+      "grad_norm": 0.5162041187286377,
+      "learning_rate": 3.5297680304662374e-06,
+      "loss": 0.0468,
+      "step": 1710
+    },
+    {
+      "epoch": 5.2615384615384615,
+      "eval_loss": 1.098139762878418,
+      "eval_runtime": 1.173,
+      "eval_samples_per_second": 97.19,
+      "eval_steps_per_second": 5.115,
+      "step": 1710
+    },
+    {
+      "epoch": 5.292307692307692,
+      "grad_norm": 1.2355681657791138,
+      "learning_rate": 3.4135159877698633e-06,
+      "loss": 0.0487,
+      "step": 1720
+    },
+    {
+      "epoch": 5.292307692307692,
+      "eval_loss": 1.1019906997680664,
+      "eval_runtime": 1.1699,
+      "eval_samples_per_second": 97.446,
+      "eval_steps_per_second": 5.129,
+      "step": 1720
+    },
+    {
+      "epoch": 5.323076923076923,
+      "grad_norm": 0.3961953818798065,
+      "learning_rate": 3.29881529288567e-06,
+      "loss": 0.0436,
+      "step": 1730
+    },
+    {
+      "epoch": 5.323076923076923,
+      "eval_loss": 1.1054892539978027,
+      "eval_runtime": 1.1694,
+      "eval_samples_per_second": 97.482,
+      "eval_steps_per_second": 5.131,
+      "step": 1730
+    },
+    {
+      "epoch": 5.3538461538461535,
+      "grad_norm": 0.37250494956970215,
+      "learning_rate": 3.1856929618470635e-06,
+      "loss": 0.0446,
+      "step": 1740
+    },
+    {
+      "epoch": 5.3538461538461535,
+      "eval_loss": 1.1086246967315674,
+      "eval_runtime": 1.1735,
+      "eval_samples_per_second": 97.148,
+      "eval_steps_per_second": 5.113,
+      "step": 1740
+    },
+    {
+      "epoch": 5.384615384615385,
+      "grad_norm": 0.7893737554550171,
+      "learning_rate": 3.0741756389274325e-06,
+      "loss": 0.0526,
+      "step": 1750
+    },
+    {
+      "epoch": 5.384615384615385,
+      "eval_loss": 1.111236810684204,
+      "eval_runtime": 1.1741,
+      "eval_samples_per_second": 97.093,
+      "eval_steps_per_second": 5.11,
+      "step": 1750
+    },
+    {
+      "epoch": 5.415384615384616,
+      "grad_norm": 0.3612951636314392,
+      "learning_rate": 2.9642895903645285e-06,
+      "loss": 0.0502,
+      "step": 1760
+    },
+    {
+      "epoch": 5.415384615384616,
+      "eval_loss": 1.110849380493164,
+      "eval_runtime": 1.1718,
+      "eval_samples_per_second": 97.286,
+      "eval_steps_per_second": 5.12,
+      "step": 1760
+    },
+    {
+      "epoch": 5.446153846153846,
+      "grad_norm": 0.5314794778823853,
+      "learning_rate": 2.8560606981738027e-06,
+      "loss": 0.0462,
+      "step": 1770
+    },
+    {
+      "epoch": 5.446153846153846,
+      "eval_loss": 1.1077501773834229,
+      "eval_runtime": 1.1777,
+      "eval_samples_per_second": 96.795,
+      "eval_steps_per_second": 5.094,
+      "step": 1770
+    },
+    {
+      "epoch": 5.476923076923077,
+      "grad_norm": 1.180082082748413,
+      "learning_rate": 2.7495144540523155e-06,
+      "loss": 0.0538,
+      "step": 1780
+    },
+    {
+      "epoch": 5.476923076923077,
+      "eval_loss": 1.1068705320358276,
+      "eval_runtime": 1.19,
+      "eval_samples_per_second": 95.795,
+      "eval_steps_per_second": 5.042,
+      "step": 1780
+    },
+    {
+      "epoch": 5.507692307692308,
+      "grad_norm": 0.2578332722187042,
+      "learning_rate": 2.6446759533745336e-06,
+      "loss": 0.0502,
+      "step": 1790
+    },
+    {
+      "epoch": 5.507692307692308,
+      "eval_loss": 1.1029876470565796,
+      "eval_runtime": 1.171,
+      "eval_samples_per_second": 97.354,
+      "eval_steps_per_second": 5.124,
+      "step": 1790
+    },
+    {
+      "epoch": 5.538461538461538,
+      "grad_norm": 0.561208963394165,
+      "learning_rate": 2.5415698892814977e-06,
+      "loss": 0.0506,
+      "step": 1800
+    },
+    {
+      "epoch": 5.538461538461538,
+      "eval_loss": 1.1023054122924805,
+      "eval_runtime": 1.1788,
+      "eval_samples_per_second": 96.709,
+      "eval_steps_per_second": 5.09,
+      "step": 1800
+    },
+    {
+      "epoch": 5.569230769230769,
+      "grad_norm": 0.438042551279068,
+      "learning_rate": 2.4402205468647132e-06,
+      "loss": 0.0487,
+      "step": 1810
+    },
+    {
+      "epoch": 5.569230769230769,
+      "eval_loss": 1.103076457977295,
+      "eval_runtime": 1.1721,
+      "eval_samples_per_second": 97.263,
+      "eval_steps_per_second": 5.119,
+      "step": 1810
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 0.3108803927898407,
+      "learning_rate": 2.340651797446172e-06,
+      "loss": 0.055,
+      "step": 1820
+    },
+    {
+      "epoch": 5.6,
+      "eval_loss": 1.10109281539917,
+      "eval_runtime": 1.174,
+      "eval_samples_per_second": 97.101,
+      "eval_steps_per_second": 5.111,
+      "step": 1820
+    },
+    {
+      "epoch": 5.63076923076923,
+      "grad_norm": 0.2623070180416107,
+      "learning_rate": 2.2428870929558012e-06,
+      "loss": 0.0439,
+      "step": 1830
+    },
+    {
+      "epoch": 5.63076923076923,
+      "eval_loss": 1.0998822450637817,
+      "eval_runtime": 1.1749,
+      "eval_samples_per_second": 97.028,
+      "eval_steps_per_second": 5.107,
+      "step": 1830
+    },
+    {
+      "epoch": 5.661538461538462,
+      "grad_norm": 0.34751322865486145,
+      "learning_rate": 2.1469494604077413e-06,
+      "loss": 0.0538,
+      "step": 1840
+    },
+    {
+      "epoch": 5.661538461538462,
+      "eval_loss": 1.1003050804138184,
+      "eval_runtime": 1.1723,
+      "eval_samples_per_second": 97.242,
+      "eval_steps_per_second": 5.118,
+      "step": 1840
+    },
+    {
+      "epoch": 5.6923076923076925,
+      "grad_norm": 0.4125511050224304,
+      "learning_rate": 2.0528614964766415e-06,
+      "loss": 0.0488,
+      "step": 1850
+    },
+    {
+      "epoch": 5.6923076923076925,
+      "eval_loss": 1.102521300315857,
+      "eval_runtime": 1.1747,
+      "eval_samples_per_second": 97.047,
+      "eval_steps_per_second": 5.108,
+      "step": 1850
+    },
+    {
+      "epoch": 5.723076923076923,
+      "grad_norm": 0.2644173502922058,
+      "learning_rate": 1.96064536217538e-06,
+      "loss": 0.0496,
+      "step": 1860
+    },
+    {
+      "epoch": 5.723076923076923,
+      "eval_loss": 1.1030890941619873,
+      "eval_runtime": 1.1801,
+      "eval_samples_per_second": 96.602,
+      "eval_steps_per_second": 5.084,
+      "step": 1860
+    },
+    {
+      "epoch": 5.753846153846154,
+      "grad_norm": 0.37266063690185547,
+      "learning_rate": 1.870322777635355e-06,
+      "loss": 0.0461,
+      "step": 1870
+    },
+    {
+      "epoch": 5.753846153846154,
+      "eval_loss": 1.103859305381775,
+      "eval_runtime": 1.1717,
+      "eval_samples_per_second": 97.29,
+      "eval_steps_per_second": 5.121,
+      "step": 1870
+    },
+    {
+      "epoch": 5.7846153846153845,
+      "grad_norm": 0.7826457619667053,
+      "learning_rate": 1.7819150169906341e-06,
+      "loss": 0.0504,
+      "step": 1880
+    },
+    {
+      "epoch": 5.7846153846153845,
+      "eval_loss": 1.1057465076446533,
+      "eval_runtime": 1.1715,
+      "eval_samples_per_second": 97.313,
+      "eval_steps_per_second": 5.122,
+      "step": 1880
+    },
+    {
+      "epoch": 5.815384615384615,
+      "grad_norm": 0.5954816937446594,
+      "learning_rate": 1.6954429033671538e-06,
+      "loss": 0.0513,
+      "step": 1890
+    },
+    {
+      "epoch": 5.815384615384615,
+      "eval_loss": 1.1074589490890503,
+      "eval_runtime": 1.172,
+      "eval_samples_per_second": 97.266,
+      "eval_steps_per_second": 5.119,
+      "step": 1890
+    },
+    {
+      "epoch": 5.846153846153846,
+      "grad_norm": 0.35823380947113037,
+      "learning_rate": 1.6109268039781412e-06,
+      "loss": 0.052,
+      "step": 1900
+    },
+    {
+      "epoch": 5.846153846153846,
+      "eval_loss": 1.1079963445663452,
+      "eval_runtime": 1.1732,
+      "eval_samples_per_second": 97.17,
+      "eval_steps_per_second": 5.114,
+      "step": 1900
+    },
+    {
+      "epoch": 5.876923076923077,
+      "grad_norm": 0.44982820749282837,
+      "learning_rate": 1.5283866253269131e-06,
+      "loss": 0.0473,
+      "step": 1910
+    },
+    {
+      "epoch": 5.876923076923077,
+      "eval_loss": 1.1086143255233765,
+      "eval_runtime": 1.1735,
+      "eval_samples_per_second": 97.143,
+      "eval_steps_per_second": 5.113,
+      "step": 1910
+    },
+    {
+      "epoch": 5.907692307692308,
+      "grad_norm": 0.5381768345832825,
+      "learning_rate": 1.447841808518221e-06,
+      "loss": 0.0536,
+      "step": 1920
+    },
+    {
+      "epoch": 5.907692307692308,
+      "eval_loss": 1.110061526298523,
+      "eval_runtime": 1.1683,
+      "eval_samples_per_second": 97.577,
+      "eval_steps_per_second": 5.136,
+      "step": 1920
+    },
+    {
+      "epoch": 5.938461538461539,
+      "grad_norm": 0.3894329071044922,
+      "learning_rate": 1.369311324679159e-06,
+      "loss": 0.0492,
+      "step": 1930
+    },
+    {
+      "epoch": 5.938461538461539,
+      "eval_loss": 1.110526204109192,
+      "eval_runtime": 1.1713,
+      "eval_samples_per_second": 97.328,
+      "eval_steps_per_second": 5.123,
+      "step": 1930
+    },
+    {
+      "epoch": 5.969230769230769,
+      "grad_norm": 0.3406825363636017,
+      "learning_rate": 1.2928136704908213e-06,
+      "loss": 0.0469,
+      "step": 1940
+    },
+    {
+      "epoch": 5.969230769230769,
+      "eval_loss": 1.1113979816436768,
+      "eval_runtime": 1.1723,
+      "eval_samples_per_second": 97.241,
+      "eval_steps_per_second": 5.118,
+      "step": 1940
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.42858174443244934,
+      "learning_rate": 1.2183668638316758e-06,
+      "loss": 0.0484,
+      "step": 1950
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.1121678352355957,
+      "eval_runtime": 1.173,
+      "eval_samples_per_second": 97.184,
+      "eval_steps_per_second": 5.115,
+      "step": 1950
+    },
+    {
+      "epoch": 6.030769230769231,
+      "grad_norm": 0.30075138807296753,
+      "learning_rate": 1.1459884395337263e-06,
+      "loss": 0.0426,
+      "step": 1960
+    },
+    {
+      "epoch": 6.030769230769231,
+      "eval_loss": 1.1148163080215454,
+      "eval_runtime": 1.171,
+      "eval_samples_per_second": 97.355,
+      "eval_steps_per_second": 5.124,
+      "step": 1960
+    },
+    {
+      "epoch": 6.061538461538461,
+      "grad_norm": 0.32117027044296265,
+      "learning_rate": 1.0756954452524326e-06,
+      "loss": 0.0421,
+      "step": 1970
+    },
+    {
+      "epoch": 6.061538461538461,
+      "eval_loss": 1.1180472373962402,
+      "eval_runtime": 1.1701,
+      "eval_samples_per_second": 97.427,
+      "eval_steps_per_second": 5.128,
+      "step": 1970
+    },
+    {
+      "epoch": 6.092307692307692,
+      "grad_norm": 0.29631751775741577,
+      "learning_rate": 1.0075044374514186e-06,
+      "loss": 0.0431,
+      "step": 1980
+    },
+    {
+      "epoch": 6.092307692307692,
+      "eval_loss": 1.121903896331787,
+      "eval_runtime": 1.1692,
+      "eval_samples_per_second": 97.501,
+      "eval_steps_per_second": 5.132,
+      "step": 1980
+    },
+    {
+      "epoch": 6.123076923076923,
+      "grad_norm": 0.46093621850013733,
+      "learning_rate": 9.414314775028089e-07,
+      "loss": 0.0486,
+      "step": 1990
+    },
+    {
+      "epoch": 6.123076923076923,
+      "eval_loss": 1.1249831914901733,
+      "eval_runtime": 1.1701,
+      "eval_samples_per_second": 97.427,
+      "eval_steps_per_second": 5.128,
+      "step": 1990
+    },
+    {
+      "epoch": 6.153846153846154,
+      "grad_norm": 1.0216187238693237,
+      "learning_rate": 8.774921279042403e-07,
+      "loss": 0.0435,
+      "step": 2000
+    },
+    {
+      "epoch": 6.153846153846154,
+      "eval_loss": 1.1268821954727173,
+      "eval_runtime": 1.1716,
+      "eval_samples_per_second": 97.302,
+      "eval_steps_per_second": 5.121,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2275,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 1000,
+  "total_flos": 1.2392995998610227e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88e88ab8a404b7fce98c3ff5ca9f37cd1903ef19eff6b5bd93208f3c0fde901d
+size 5112