Training in progress, step 180, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cae35da49136aca031719c5ca8f8f823b595f9a54cfcebd96d23b76072493171
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:30c8aadcc25f22b5bd1fff3362f07043a38073d83188469ddb5bce8d545b884f
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:448ae083d060668e44056b69653fdd0049338729d1b521feb302ee22f924cb46
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc3ccfb8c5981089a4b8c855ecc6afb5559dd1e01e57ce3254eff726ed1e7efb
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:844207f7fc1f250f3c3227664c738804581a7c64524623dea4b56e1bb8b53b4b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:db28645e3a5ed38f3c725d595cee3c53b367101eca9d631abd8e1db85596d3f2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28dc6e77e7615b07bf838112784b57c68045402225387150827a3ab1f6905779
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:05495c329a0a59adfbdcbe310642bb4a2adcb593713c0b96973034e9930bed7e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.023889541625977,
-  "best_model_checkpoint": "miner_id_24/checkpoint-170",
-  "epoch": 0.00768344218209758,
   "eval_steps": 5,
-  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1477,6 +1477,92 @@
       "eval_samples_per_second": 52.863,
       "eval_steps_per_second": 26.434,
       "step": 170
     }
   ],
   "logging_steps": 1,
@@ -1505,7 +1591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1786144358400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.023147583007812,
+  "best_model_checkpoint": "miner_id_24/checkpoint-180",
+  "epoch": 0.00813540936927979,
   "eval_steps": 5,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.863,
       "eval_steps_per_second": 26.434,
       "step": 170
+    },
+    {
+      "epoch": 0.007728638900815801,
+      "grad_norm": 0.6309311389923096,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 44.1244,
+      "step": 171
+    },
+    {
+      "epoch": 0.007773835619534022,
+      "grad_norm": 0.4494941830635071,
+      "learning_rate": 0.00015073849032208822,
+      "loss": 44.1336,
+      "step": 172
+    },
+    {
+      "epoch": 0.007819032338252242,
+      "grad_norm": 0.5996090173721313,
+      "learning_rate": 0.00015018496724297778,
+      "loss": 44.1116,
+      "step": 173
+    },
+    {
+      "epoch": 0.007864229056970463,
+      "grad_norm": 0.73329097032547,
+      "learning_rate": 0.00014962938125642503,
+      "loss": 44.1541,
+      "step": 174
+    },
+    {
+      "epoch": 0.007909425775688685,
+      "grad_norm": 0.5808178186416626,
+      "learning_rate": 0.0001490717552003938,
+      "loss": 44.114,
+      "step": 175
+    },
+    {
+      "epoch": 0.007909425775688685,
+      "eval_loss": 11.023494720458984,
+      "eval_runtime": 175.9386,
+      "eval_samples_per_second": 52.956,
+      "eval_steps_per_second": 26.481,
+      "step": 175
+    },
+    {
+      "epoch": 0.007954622494406906,
+      "grad_norm": 0.46136102080345154,
+      "learning_rate": 0.00014851211199670721,
+      "loss": 44.0922,
+      "step": 176
+    },
+    {
+      "epoch": 0.007999819213125127,
+      "grad_norm": 0.4197680354118347,
+      "learning_rate": 0.0001479504746501054,
+      "loss": 44.0494,
+      "step": 177
+    },
+    {
+      "epoch": 0.008045015931843348,
+      "grad_norm": 0.4883246421813965,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 44.0914,
+      "step": 178
+    },
+    {
+      "epoch": 0.00809021265056157,
+      "grad_norm": 0.4930349588394165,
+      "learning_rate": 0.0001468213099560246,
+      "loss": 44.0695,
+      "step": 179
+    },
+    {
+      "epoch": 0.00813540936927979,
+      "grad_norm": 0.5016703009605408,
+      "learning_rate": 0.00014625382902408356,
+      "loss": 44.0501,
+      "step": 180
+    },
+    {
+      "epoch": 0.00813540936927979,
+      "eval_loss": 11.023147583007812,
+      "eval_runtime": 176.3497,
+      "eval_samples_per_second": 52.833,
+      "eval_steps_per_second": 26.419,
+      "step": 180
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1891211673600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null