Training in progress, step 320, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8043d411e54c3df1ebca409696347b8e9a385dabbcffd552e858ae07b989cbf
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:e47c5e37aeb9ba7c9d351cd6d3f2d34e7a16fbc5e8e214fa50df6016a912f81e
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8fc14c40c058613fe56fd7b9d5397288001f7e3fc116344b43062f632ff8265
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c8676f7ad327b1a667c04cbff92a64401964795cdbde06f9afb0439e5da7b66
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:314e02efe1b3db288f9e9c8ca583964838ea24b3581864ee7ae9f30730c12eb3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6d096910032d49eddb6029582f1caa936c833fef6de52cfa0342e08b8dcfcd2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c463750d3752994b4ac9a5cae2d97850942d858f0130dada5f5e81e74ee4daf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2c4b5b0b5a3cd85dde69bc18b7d6ada534f4917a21cce1323408aed5ed9b4ef
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.018967628479004,
-  "best_model_checkpoint": "miner_id_24/checkpoint-310",
-  "epoch": 0.014010982802648527,
   "eval_steps": 5,
-  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2681,6 +2681,92 @@
       "eval_samples_per_second": 52.817,
       "eval_steps_per_second": 26.411,
       "step": 310
     }
   ],
   "logging_steps": 1,
@@ -2709,7 +2795,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3257086771200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.018913269042969,
+  "best_model_checkpoint": "miner_id_24/checkpoint-320",
+  "epoch": 0.014462949989830737,
   "eval_steps": 5,
+  "global_step": 320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.817,
       "eval_steps_per_second": 26.411,
       "step": 310
+    },
+    {
+      "epoch": 0.014056179521366749,
+      "grad_norm": 0.5137606859207153,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 44.1158,
+      "step": 311
+    },
+    {
+      "epoch": 0.01410137624008497,
+      "grad_norm": 0.5155542492866516,
+      "learning_rate": 6.426298499013994e-05,
+      "loss": 44.1199,
+      "step": 312
+    },
+    {
+      "epoch": 0.014146572958803191,
+      "grad_norm": 0.37395790219306946,
+      "learning_rate": 6.366492139712886e-05,
+      "loss": 44.0457,
+      "step": 313
+    },
+    {
+      "epoch": 0.014191769677521412,
+      "grad_norm": 0.6116747260093689,
+      "learning_rate": 6.306835139688438e-05,
+      "loss": 44.1012,
+      "step": 314
+    },
+    {
+      "epoch": 0.014236966396239633,
+      "grad_norm": 0.5333120822906494,
+      "learning_rate": 6.24732995120626e-05,
+      "loss": 44.1035,
+      "step": 315
+    },
+    {
+      "epoch": 0.014236966396239633,
+      "eval_loss": 11.018932342529297,
+      "eval_runtime": 176.1972,
+      "eval_samples_per_second": 52.878,
+      "eval_steps_per_second": 26.442,
+      "step": 315
+    },
+    {
+      "epoch": 0.014282163114957854,
+      "grad_norm": 0.43927499651908875,
+      "learning_rate": 6.187979020291583e-05,
+      "loss": 44.0191,
+      "step": 316
+    },
+    {
+      "epoch": 0.014327359833676076,
+      "grad_norm": 0.4511764347553253,
+      "learning_rate": 6.12878478662872e-05,
+      "loss": 44.036,
+      "step": 317
+    },
+    {
+      "epoch": 0.014372556552394297,
+      "grad_norm": 0.4678284823894501,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 44.1023,
+      "step": 318
+    },
+    {
+      "epoch": 0.014417753271112518,
+      "grad_norm": 0.4449803829193115,
+      "learning_rate": 6.010876137489584e-05,
+      "loss": 44.0835,
+      "step": 319
+    },
+    {
+      "epoch": 0.014462949989830737,
+      "grad_norm": 0.42860502004623413,
+      "learning_rate": 5.952166568776062e-05,
+      "loss": 44.0725,
+      "step": 320
+    },
+    {
+      "epoch": 0.014462949989830737,
+      "eval_loss": 11.018913269042969,
+      "eval_runtime": 176.3627,
+      "eval_samples_per_second": 52.829,
+      "eval_steps_per_second": 26.417,
+      "step": 320
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3362154086400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null