Training in progress, step 220, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e8b163ef36cc7e57a8ee15a6ebe44a66dd7b467f2cc54f8de9f11808fbf4a74
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1687d42b6c8fc20fba69955ada5c36a016df8b97c35e2197e9cefb81565a448
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e11899b82d3568219c123451efb8f9c3baa4ecaaf187d3d8094ff509232f7bf
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:a11756c6f7f6e54186c62470b3c672e88950e155939dddf52de8c5061bb695f5
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:578c17b2105d3c6bea4883770e5007551a3f2302d9968187a7d2ba2aece88a9c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d87c59ed120a2ee66d7021d83c6d58b1559824c8ca94cb61ee05deb92e21229f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99f3078781d07b22b8aceece06e9b1a7abc294ae09750b1339d4cf73fa58b867
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ce5266a3e298d4cec8a8c6eda5afc2b0bfc8277ce078fdf7b96388fe070633d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.02186393737793,
-  "best_model_checkpoint": "miner_id_24/checkpoint-210",
-  "epoch": 0.009491310930826422,
   "eval_steps": 5,
-  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1821,6 +1821,92 @@
       "eval_samples_per_second": 52.802,
       "eval_steps_per_second": 26.404,
       "step": 210
     }
   ],
   "logging_steps": 1,
@@ -1849,7 +1935,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2206413619200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.021401405334473,
+  "best_model_checkpoint": "miner_id_24/checkpoint-220",
+  "epoch": 0.009943278118008632,
   "eval_steps": 5,
+  "global_step": 220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.802,
       "eval_steps_per_second": 26.404,
       "step": 210
+    },
+    {
+      "epoch": 0.009536507649544643,
+      "grad_norm": 0.5239633321762085,
+      "learning_rate": 0.00012783753647424635,
+      "loss": 44.1326,
+      "step": 211
+    },
+    {
+      "epoch": 0.009581704368262865,
+      "grad_norm": 0.4532044231891632,
+      "learning_rate": 0.00012722116999329712,
+      "loss": 44.1039,
+      "step": 212
+    },
+    {
+      "epoch": 0.009626901086981086,
+      "grad_norm": 0.5784953832626343,
+      "learning_rate": 0.00012660368455666752,
+      "loss": 44.0902,
+      "step": 213
+    },
+    {
+      "epoch": 0.009672097805699307,
+      "grad_norm": 0.46399155259132385,
+      "learning_rate": 0.0001259851055467653,
+      "loss": 44.0665,
+      "step": 214
+    },
+    {
+      "epoch": 0.009717294524417528,
+      "grad_norm": 0.5353842973709106,
+      "learning_rate": 0.00012536545839095074,
+      "loss": 44.0339,
+      "step": 215
+    },
+    {
+      "epoch": 0.009717294524417528,
+      "eval_loss": 11.021649360656738,
+      "eval_runtime": 176.1431,
+      "eval_samples_per_second": 52.895,
+      "eval_steps_per_second": 26.45,
+      "step": 215
+    },
+    {
+      "epoch": 0.009762491243135748,
+      "grad_norm": 0.4887973666191101,
+      "learning_rate": 0.00012474476856049144,
+      "loss": 44.074,
+      "step": 216
+    },
+    {
+      "epoch": 0.009807687961853969,
+      "grad_norm": 0.44021403789520264,
+      "learning_rate": 0.00012412306156951526,
+      "loss": 44.0695,
+      "step": 217
+    },
+    {
+      "epoch": 0.00985288468057219,
+      "grad_norm": 0.5092349052429199,
+      "learning_rate": 0.00012350036297396154,
+      "loss": 44.0596,
+      "step": 218
+    },
+    {
+      "epoch": 0.009898081399290411,
+      "grad_norm": 0.47505757212638855,
+      "learning_rate": 0.00012287669837053055,
+      "loss": 44.0435,
+      "step": 219
+    },
+    {
+      "epoch": 0.009943278118008632,
+      "grad_norm": 0.4098033308982849,
+      "learning_rate": 0.00012225209339563145,
+      "loss": 44.1334,
+      "step": 220
+    },
+    {
+      "epoch": 0.009943278118008632,
+      "eval_loss": 11.021401405334473,
+      "eval_runtime": 176.2917,
+      "eval_samples_per_second": 52.85,
+      "eval_steps_per_second": 26.428,
+      "step": 220
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2311480934400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null