Training in progress, step 170, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ab93c62897f662d4d38ac81ba6722525a4a131aab584b861fa9fe9595eaa00d
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:cae35da49136aca031719c5ca8f8f823b595f9a54cfcebd96d23b76072493171
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e5b4457d78966297bba2691418c3f2a52643bb3d30071b52983a78ba77d6829
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:448ae083d060668e44056b69653fdd0049338729d1b521feb302ee22f924cb46
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f70c79d838c6ac44cd657014b2c5e6d9665e7b30e4720655ef5f14c685c34ba
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:844207f7fc1f250f3c3227664c738804581a7c64524623dea4b56e1bb8b53b4b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac2f052986474c47aa92ee09f81c986cf5cd3c01bde827e5d887e85b2bbda4c2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:28dc6e77e7615b07bf838112784b57c68045402225387150827a3ab1f6905779
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.024553298950195,
-  "best_model_checkpoint": "miner_id_24/checkpoint-160",
-  "epoch": 0.007231474994915369,
   "eval_steps": 5,
-  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1391,6 +1391,92 @@
       "eval_samples_per_second": 52.873,
       "eval_steps_per_second": 26.439,
       "step": 160
     }
   ],
   "logging_steps": 1,
@@ -1419,7 +1505,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1681077043200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.023889541625977,
+  "best_model_checkpoint": "miner_id_24/checkpoint-170",
+  "epoch": 0.00768344218209758,
   "eval_steps": 5,
+  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.873,
       "eval_steps_per_second": 26.439,
       "step": 160
+    },
+    {
+      "epoch": 0.00727667171363359,
+      "grad_norm": 0.5078541040420532,
+      "learning_rate": 0.000156684647388045,
+      "loss": 44.0764,
+      "step": 161
+    },
+    {
+      "epoch": 0.007321868432351811,
+      "grad_norm": 0.46269139647483826,
+      "learning_rate": 0.0001561552986800375,
+      "loss": 44.0991,
+      "step": 162
+    },
+    {
+      "epoch": 0.007367065151070032,
+      "grad_norm": 0.5498519539833069,
+      "learning_rate": 0.0001556236416476465,
+      "loss": 44.1389,
+      "step": 163
+    },
+    {
+      "epoch": 0.007412261869788253,
+      "grad_norm": 0.8603391647338867,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 44.1567,
+      "step": 164
+    },
+    {
+      "epoch": 0.007457458588506475,
+      "grad_norm": 0.6750001907348633,
+      "learning_rate": 0.00015455349012105486,
+      "loss": 44.1007,
+      "step": 165
+    },
+    {
+      "epoch": 0.007457458588506475,
+      "eval_loss": 11.024243354797363,
+      "eval_runtime": 175.9806,
+      "eval_samples_per_second": 52.943,
+      "eval_steps_per_second": 26.475,
+      "step": 165
+    },
+    {
+      "epoch": 0.007502655307224696,
+      "grad_norm": 0.5474929809570312,
+      "learning_rate": 0.00015401503961659204,
+      "loss": 44.0842,
+      "step": 166
+    },
+    {
+      "epoch": 0.007547852025942917,
+      "grad_norm": 0.5558362603187561,
+      "learning_rate": 0.00015347436876541297,
+      "loss": 44.1025,
+      "step": 167
+    },
+    {
+      "epoch": 0.007593048744661137,
+      "grad_norm": 0.5435320138931274,
+      "learning_rate": 0.00015293149979237876,
+      "loss": 44.073,
+      "step": 168
+    },
+    {
+      "epoch": 0.007638245463379358,
+      "grad_norm": 0.41495761275291443,
+      "learning_rate": 0.00015238645501270654,
+      "loss": 44.0608,
+      "step": 169
+    },
+    {
+      "epoch": 0.00768344218209758,
+      "grad_norm": 0.4491158127784729,
+      "learning_rate": 0.00015183925683105254,
+      "loss": 44.0995,
+      "step": 170
+    },
+    {
+      "epoch": 0.00768344218209758,
+      "eval_loss": 11.023889541625977,
+      "eval_runtime": 176.2494,
+      "eval_samples_per_second": 52.863,
+      "eval_steps_per_second": 26.434,
+      "step": 170
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1786144358400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null