Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0288bde0e0adee15a0cc1db17a7449a8eca313277f1482d1ff0cfd7cab7bec74
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef0fe17d2ab3da4040a3c7977b8c6f341f08d2b05df764b34ad276ac546fa5f1
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4f2703fce501b87978e19b3c7bea6d1358a28ff7aa7dadc828ac8570470d59c
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:347185a8a18472d85b591d6c60188bd66fadd6135ef8c34f34376e84d00d9080
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ab1cc6b91f586f7f2f0ee2f276603d7276cb565be5c7500e1ed6a5a0584bb2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:472f6fb72bea35702df9d08ef02dd4970a6ff81a3410e842d1e8a245dcd7f271
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:161da1490be78a40723a580aa2c4f8fdf6c7186d93d25be9a77bba0a93a1a4c9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8626d0d5c57fc88c3d7f36cad001868cddc459f981786e9f1343c59e21cde7ac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.020767211914062,
-  "best_model_checkpoint": "miner_id_24/checkpoint-240",
-  "epoch": 0.010847212492373054,
   "eval_steps": 5,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2079,6 +2079,92 @@
       "eval_samples_per_second": 52.828,
       "eval_steps_per_second": 26.417,
       "step": 240
     }
   ],
   "logging_steps": 1,
@@ -2107,7 +2193,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2521615564800.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.020323753356934,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.011299179679555264,
   "eval_steps": 5,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.828,
       "eval_steps_per_second": 26.417,
       "step": 240
+    },
+    {
+      "epoch": 0.010892409211091275,
+      "grad_norm": 0.47256338596343994,
+      "learning_rate": 0.00010896393089034336,
+      "loss": 44.0513,
+      "step": 241
+    },
+    {
+      "epoch": 0.010937605929809496,
+      "grad_norm": 0.42103204131126404,
+      "learning_rate": 0.00010832519071782894,
+      "loss": 44.0399,
+      "step": 242
+    },
+    {
+      "epoch": 0.010982802648527717,
+      "grad_norm": 0.49555832147598267,
+      "learning_rate": 0.00010768610832933168,
+      "loss": 44.1504,
+      "step": 243
+    },
+    {
+      "epoch": 0.011027999367245939,
+      "grad_norm": 0.42800289392471313,
+      "learning_rate": 0.0001070467099950254,
+      "loss": 44.0886,
+      "step": 244
+    },
+    {
+      "epoch": 0.01107319608596416,
+      "grad_norm": 0.6031785607337952,
+      "learning_rate": 0.0001064070219980713,
+      "loss": 44.0548,
+      "step": 245
+    },
+    {
+      "epoch": 0.01107319608596416,
+      "eval_loss": 11.020543098449707,
+      "eval_runtime": 176.1913,
+      "eval_samples_per_second": 52.88,
+      "eval_steps_per_second": 26.443,
+      "step": 245
+    },
+    {
+      "epoch": 0.01111839280468238,
+      "grad_norm": 0.4927026629447937,
+      "learning_rate": 0.00010576707063353746,
+      "loss": 44.0813,
+      "step": 246
+    },
+    {
+      "epoch": 0.0111635895234006,
+      "grad_norm": 0.6148269772529602,
+      "learning_rate": 0.00010512688220731792,
+      "loss": 44.0928,
+      "step": 247
+    },
+    {
+      "epoch": 0.011208786242118822,
+      "grad_norm": 0.4395325779914856,
+      "learning_rate": 0.00010448648303505151,
+      "loss": 44.047,
+      "step": 248
+    },
+    {
+      "epoch": 0.011253982960837043,
+      "grad_norm": 0.4433494806289673,
+      "learning_rate": 0.00010384589944103984,
+      "loss": 44.1,
+      "step": 249
+    },
+    {
+      "epoch": 0.011299179679555264,
+      "grad_norm": 0.6447661519050598,
+      "learning_rate": 0.00010320515775716555,
+      "loss": 44.0861,
+      "step": 250
+    },
+    {
+      "epoch": 0.011299179679555264,
+      "eval_loss": 11.020323753356934,
+      "eval_runtime": 176.3276,
+      "eval_samples_per_second": 52.839,
+      "eval_steps_per_second": 26.422,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2626682880000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null