Training in progress, step 190, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30c8aadcc25f22b5bd1fff3362f07043a38073d83188469ddb5bce8d545b884f
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:a639c0dd8d46132adc0b16337b5a1ff36e268cf252a3de28258698f829ef7ce6
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc3ccfb8c5981089a4b8c855ecc6afb5559dd1e01e57ce3254eff726ed1e7efb
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:53ecb0ea5d82d22db059b7add3506c06a0cd8eeb38fa9e49da520bca058f53e6
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db28645e3a5ed38f3c725d595cee3c53b367101eca9d631abd8e1db85596d3f2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:14f613e9aa4b1eff57e81d3c847842d7ccd502bc7cfeef73e08e7430e2140097
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05495c329a0a59adfbdcbe310642bb4a2adcb593713c0b96973034e9930bed7e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb7ebe91aa688ab052f1c015d887206a7b417ef70ab8e5d1552c4ac1b55fa0b6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.023147583007812,
-  "best_model_checkpoint": "miner_id_24/checkpoint-180",
-  "epoch": 0.00813540936927979,
   "eval_steps": 5,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1563,6 +1563,92 @@
       "eval_samples_per_second": 52.833,
       "eval_steps_per_second": 26.419,
       "step": 180
     }
   ],
   "logging_steps": 1,
@@ -1591,7 +1677,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1891211673600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.02279281616211,
+  "best_model_checkpoint": "miner_id_24/checkpoint-190",
+  "epoch": 0.008587376556462,
   "eval_steps": 5,
+  "global_step": 190,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.833,
       "eval_steps_per_second": 26.419,
       "step": 180
+    },
+    {
+      "epoch": 0.008180606087998012,
+      "grad_norm": 0.5716975927352905,
+      "learning_rate": 0.00014568444677839516,
+      "loss": 44.1164,
+      "step": 181
+    },
+    {
+      "epoch": 0.008225802806716233,
+      "grad_norm": 0.6961561441421509,
+      "learning_rate": 0.00014511318662403347,
+      "loss": 44.1024,
+      "step": 182
+    },
+    {
+      "epoch": 0.008270999525434454,
+      "grad_norm": 0.5740232467651367,
+      "learning_rate": 0.0001445400720432659,
+      "loss": 44.1379,
+      "step": 183
+    },
+    {
+      "epoch": 0.008316196244152675,
+      "grad_norm": 0.5687277913093567,
+      "learning_rate": 0.00014396512659458824,
+      "loss": 44.1165,
+      "step": 184
+    },
+    {
+      "epoch": 0.008361392962870896,
+      "grad_norm": 0.6230690479278564,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 44.118,
+      "step": 185
+    },
+    {
+      "epoch": 0.008361392962870896,
+      "eval_loss": 11.022916793823242,
+      "eval_runtime": 176.0405,
+      "eval_samples_per_second": 52.925,
+      "eval_steps_per_second": 26.465,
+      "step": 185
+    },
+    {
+      "epoch": 0.008406589681589116,
+      "grad_norm": 0.48787158727645874,
+      "learning_rate": 0.0001428098377028126,
+      "loss": 44.0875,
+      "step": 186
+    },
+    {
+      "epoch": 0.008451786400307337,
+      "grad_norm": 0.44323569536209106,
+      "learning_rate": 0.000142229541749116,
+      "loss": 44.143,
+      "step": 187
+    },
+    {
+      "epoch": 0.008496983119025558,
+      "grad_norm": 0.47104522585868835,
+      "learning_rate": 0.0001416475099043599,
+      "loss": 44.0804,
+      "step": 188
+    },
+    {
+      "epoch": 0.00854217983774378,
+      "grad_norm": 0.549055814743042,
+      "learning_rate": 0.0001410637660935938,
+      "loss": 44.0923,
+      "step": 189
+    },
+    {
+      "epoch": 0.008587376556462,
+      "grad_norm": 0.4136901795864105,
+      "learning_rate": 0.00014047833431223938,
+      "loss": 44.0967,
+      "step": 190
+    },
+    {
+      "epoch": 0.008587376556462,
+      "eval_loss": 11.02279281616211,
+      "eval_runtime": 176.1885,
+      "eval_samples_per_second": 52.881,
+      "eval_steps_per_second": 26.443,
+      "step": 190
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1996278988800.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null