Training in progress, step 230, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +91 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1687d42b6c8fc20fba69955ada5c36a016df8b97c35e2197e9cefb81565a448
 size 125048

 version https://git-lfs.github.com/spec/v1
+oid sha256:28ca0f5984758b0a6bc98d2b9fa3a918322dfc9def650fc2cedeb7b80033ea95
 size 125048

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a11756c6f7f6e54186c62470b3c672e88950e155939dddf52de8c5061bb695f5
 size 162868

 version https://git-lfs.github.com/spec/v1
+oid sha256:206af652e7f3377e6c0aecfa1c36bcdf508e6b891b0a50e079a3425838b06728
 size 162868

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d87c59ed120a2ee66d7021d83c6d58b1559824c8ca94cb61ee05deb92e21229f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c41bdc40b014e3f55ca8563ea9de673fa395c6cc93a6cb821cfa7f874d5565c3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ce5266a3e298d4cec8a8c6eda5afc2b0bfc8277ce078fdf7b96388fe070633d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:95105769f4fba521c26686a89d84be3ea680f62dc39a9c9254e214e0a5a6bc5e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 11.021401405334473,
-  "best_model_checkpoint": "miner_id_24/checkpoint-220",
-  "epoch": 0.009943278118008632,
   "eval_steps": 5,
-  "global_step": 220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1907,6 +1907,92 @@
       "eval_samples_per_second": 52.85,
       "eval_steps_per_second": 26.428,
       "step": 220
     }
   ],
   "logging_steps": 1,
@@ -1935,7 +2021,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2311480934400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 11.021036148071289,
+  "best_model_checkpoint": "miner_id_24/checkpoint-230",
+  "epoch": 0.010395245305190844,
   "eval_steps": 5,
+  "global_step": 230,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 52.85,
       "eval_steps_per_second": 26.428,
       "step": 220
+    },
+    {
+      "epoch": 0.009988474836726853,
+      "grad_norm": 0.5452781915664673,
+      "learning_rate": 0.00012162657372432836,
+      "loss": 44.0602,
+      "step": 221
+    },
+    {
+      "epoch": 0.010033671555445075,
+      "grad_norm": 0.5344114303588867,
+      "learning_rate": 0.00012100016506928493,
+      "loss": 44.045,
+      "step": 222
+    },
+    {
+      "epoch": 0.010078868274163296,
+      "grad_norm": 0.4083841145038605,
+      "learning_rate": 0.00012037289317970757,
+      "loss": 44.0642,
+      "step": 223
+    },
+    {
+      "epoch": 0.010124064992881517,
+      "grad_norm": 0.4382067918777466,
+      "learning_rate": 0.00011974478384028672,
+      "loss": 44.0648,
+      "step": 224
+    },
+    {
+      "epoch": 0.010169261711599738,
+      "grad_norm": 0.42340517044067383,
+      "learning_rate": 0.00011911586287013725,
+      "loss": 44.1315,
+      "step": 225
+    },
+    {
+      "epoch": 0.010169261711599738,
+      "eval_loss": 11.021224975585938,
+      "eval_runtime": 176.0622,
+      "eval_samples_per_second": 52.919,
+      "eval_steps_per_second": 26.462,
+      "step": 225
+    },
+    {
+      "epoch": 0.01021445843031796,
+      "grad_norm": 0.5047578811645508,
+      "learning_rate": 0.00011848615612173688,
+      "loss": 44.123,
+      "step": 226
+    },
+    {
+      "epoch": 0.01025965514903618,
+      "grad_norm": 0.5647579431533813,
+      "learning_rate": 0.00011785568947986367,
+      "loss": 44.0525,
+      "step": 227
+    },
+    {
+      "epoch": 0.010304851867754402,
+      "grad_norm": 0.48243632912635803,
+      "learning_rate": 0.0001172244888605319,
+      "loss": 44.1143,
+      "step": 228
+    },
+    {
+      "epoch": 0.010350048586472623,
+      "grad_norm": 0.5492759943008423,
+      "learning_rate": 0.0001165925802099268,
+      "loss": 44.0494,
+      "step": 229
+    },
+    {
+      "epoch": 0.010395245305190844,
+      "grad_norm": 0.5804261565208435,
+      "learning_rate": 0.00011595998950333793,
+      "loss": 44.0785,
+      "step": 230
+    },
+    {
+      "epoch": 0.010395245305190844,
+      "eval_loss": 11.021036148071289,
+      "eval_runtime": 176.2523,
+      "eval_samples_per_second": 52.862,
+      "eval_steps_per_second": 26.434,
+      "step": 230
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2416548249600.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null