Training in progress, step 260, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef0fe17d2ab3da4040a3c7977b8c6f341f08d2b05df764b34ad276ac546fa5f1
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c81d175e794ab238d63b2a692ce503c5c4dfef3174dfee2601e03d21ee7e7ff
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347185a8a18472d85b591d6c60188bd66fadd6135ef8c34f34376e84d00d9080
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:6588d9206907a6c00235f951ec1e76bb5c61306e975035df3959233feba0de44
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:472f6fb72bea35702df9d08ef02dd4970a6ff81a3410e842d1e8a245dcd7f271
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1be1448f42a3a082b7043ab2c191269d82518d2f41873081925d363ddc8352ea
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8626d0d5c57fc88c3d7f36cad001868cddc459f981786e9f1343c59e21cde7ac
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac612e1de34a13e54762dd7927b1179494a688e77b41a80ece98fe382c45710
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.020323753356934,
-  "best_model_checkpoint": "miner_id_24/checkpoint-250",
-  "epoch": 0.011299179679555264,
   "eval_steps": 5,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2165,6 +2165,92 @@
       "eval_samples_per_second": 52.839,
       "eval_steps_per_second": 26.422,
       "step": 250
     }
   ],
   "logging_steps": 1,
@@ -2193,7 +2279,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2626682880000.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.020062446594238,
+  "best_model_checkpoint": "miner_id_24/checkpoint-260",
+  "epoch": 0.011751146866737476,
   "eval_steps": 5,
+  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.839,
       "eval_steps_per_second": 26.422,
       "step": 250
+    },
+    {
+      "epoch": 0.011344376398273485,
+      "grad_norm": 0.5418515801429749,
+      "learning_rate": 0.00010256428432180956,
+      "loss": 44.0602,
+      "step": 251
+    },
+    {
+      "epoch": 0.011389573116991706,
+      "grad_norm": 0.45757991075515747,
+      "learning_rate": 0.00010192330547876871,
+      "loss": 44.0788,
+      "step": 252
+    },
+    {
+      "epoch": 0.011434769835709927,
+      "grad_norm": 0.5210107564926147,
+      "learning_rate": 0.00010128224757617274,
+      "loss": 44.0517,
+      "step": 253
+    },
+    {
+      "epoch": 0.011479966554428149,
+      "grad_norm": 0.39198753237724304,
+      "learning_rate": 0.00010064113696540111,
+      "loss": 44.0776,
+      "step": 254
+    },
+    {
+      "epoch": 0.01152516327314637,
+      "grad_norm": 0.4305363893508911,
+      "learning_rate": 0.0001,
+      "loss": 44.1121,
+      "step": 255
+    },
+    {
+      "epoch": 0.01152516327314637,
+      "eval_loss": 11.02021312713623,
+      "eval_runtime": 176.1601,
+      "eval_samples_per_second": 52.889,
+      "eval_steps_per_second": 26.448,
+      "step": 255
+    },
+    {
+      "epoch": 0.011570359991864591,
+      "grad_norm": 0.4909750521183014,
+      "learning_rate": 9.93588630345989e-05,
+      "loss": 44.0858,
+      "step": 256
+    },
+    {
+      "epoch": 0.011615556710582812,
+      "grad_norm": 0.4016626477241516,
+      "learning_rate": 9.871775242382727e-05,
+      "loss": 44.0732,
+      "step": 257
+    },
+    {
+      "epoch": 0.011660753429301033,
+      "grad_norm": 0.5827097296714783,
+      "learning_rate": 9.80766945212313e-05,
+      "loss": 44.0957,
+      "step": 258
+    },
+    {
+      "epoch": 0.011705950148019255,
+      "grad_norm": 0.48728469014167786,
+      "learning_rate": 9.743571567819046e-05,
+      "loss": 44.0648,
+      "step": 259
+    },
+    {
+      "epoch": 0.011751146866737476,
+      "grad_norm": 0.455342173576355,
+      "learning_rate": 9.679484224283449e-05,
+      "loss": 44.0327,
+      "step": 260
+    },
+    {
+      "epoch": 0.011751146866737476,
+      "eval_loss": 11.020062446594238,
+      "eval_runtime": 176.2853,
+      "eval_samples_per_second": 52.852,
+      "eval_steps_per_second": 26.429,
+      "step": 260
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2731750195200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null