Training in progress, step 360, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f2f0a76da24a1ad81dcda706248e253d52a191704ea53265b6d9465df517e2d
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:3da1bc8e78d62a43f5fc08c54b7da66788aab90b181d1cce0dc0e44a0c7ead64
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:501e40adaa4f70964a8cd6a1dfdb25bf4ad0f9592e59902ac2cdb07292b6512f
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9f5ab26f7ae0259dbc2872ec134c30afd17bf2cb254c9c4159232de93a6a4c
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17a037725bec0a8d6f8f48eff9706f34e57cf5ea36d4c0fe1640235ccea83807
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:63df2ca6f0708e85ea13f7c75a1ee020a6142b982449338d6d6d3a95d80f4533
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c35e24dc9e28d5479cc0116b5a139eadfaf05e8ad587dfecd6be3b09104334b7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:89431c5d37cecda04572e69a3e5ff0abc04241564413b5510718a518a469399c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.018669128417969,
-  "best_model_checkpoint": "miner_id_24/checkpoint-350",
-  "epoch": 0.01581885155137737,
   "eval_steps": 5,
-  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3025,6 +3025,92 @@
       "eval_samples_per_second": 52.869,
       "eval_steps_per_second": 26.437,
       "step": 350
     }
   ],
   "logging_steps": 1,
@@ -3053,7 +3139,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3677356032000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.018574714660645,
+  "best_model_checkpoint": "miner_id_24/checkpoint-360",
+  "epoch": 0.01627081873855958,
   "eval_steps": 5,
+  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.869,
       "eval_steps_per_second": 26.437,
       "step": 350
+    },
+    {
+      "epoch": 0.01586404827009559,
+      "grad_norm": 0.4974361062049866,
+      "learning_rate": 4.2263667111118074e-05,
+      "loss": 44.0836,
+      "step": 351
+    },
+    {
+      "epoch": 0.01590924498881381,
+      "grad_norm": 0.4839700162410736,
+      "learning_rate": 4.174137354896039e-05,
+      "loss": 44.0984,
+      "step": 352
+    },
+    {
+      "epoch": 0.015954441707532033,
+      "grad_norm": 0.4186987578868866,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 44.0672,
+      "step": 353
+    },
+    {
+      "epoch": 0.015999638426250254,
+      "grad_norm": 0.5234962701797485,
+      "learning_rate": 4.0703992147497425e-05,
+      "loss": 44.0376,
+      "step": 354
+    },
+    {
+      "epoch": 0.016044835144968475,
+      "grad_norm": 0.47532570362091064,
+      "learning_rate": 4.0188946950878404e-05,
+      "loss": 44.0386,
+      "step": 355
+    },
+    {
+      "epoch": 0.016044835144968475,
+      "eval_loss": 11.018640518188477,
+      "eval_runtime": 176.1029,
+      "eval_samples_per_second": 52.907,
+      "eval_steps_per_second": 26.456,
+      "step": 355
+    },
+    {
+      "epoch": 0.016090031863686696,
+      "grad_norm": 0.397630900144577,
+      "learning_rate": 3.9676360352386356e-05,
+      "loss": 44.1375,
+      "step": 356
+    },
+    {
+      "epoch": 0.016135228582404917,
+      "grad_norm": 0.530908465385437,
+      "learning_rate": 3.9166253422448686e-05,
+      "loss": 44.1015,
+      "step": 357
+    },
+    {
+      "epoch": 0.01618042530112314,
+      "grad_norm": 0.41138243675231934,
+      "learning_rate": 3.8658647129563364e-05,
+      "loss": 44.0516,
+      "step": 358
+    },
+    {
+      "epoch": 0.01622562201984136,
+      "grad_norm": 0.5258074402809143,
+      "learning_rate": 3.8153562339436855e-05,
+      "loss": 44.1157,
+      "step": 359
+    },
+    {
+      "epoch": 0.01627081873855958,
+      "grad_norm": 0.3948734402656555,
+      "learning_rate": 3.7651019814126654e-05,
+      "loss": 44.0478,
+      "step": 360
+    },
+    {
+      "epoch": 0.01627081873855958,
+      "eval_loss": 11.018574714660645,
+      "eval_runtime": 176.3307,
+      "eval_samples_per_second": 52.838,
+      "eval_steps_per_second": 26.422,
+      "step": 360
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3782423347200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null