Training in progress, step 187, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +263 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13d1e3ef421515e7402bcc1c29665e7ed7cd93fea2246bce756e11ecbf541006
 size 478211024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ebefe4723f943b5f9e84b2b96441bdcb43beaad4e54fae3a539e81a2158591d
 size 478211024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:269413e1297d1566721dba19e9ed3e697d0c2c4a55fa6e447d38affd848f0273
 size 243337876

 version https://git-lfs.github.com/spec/v1
+oid sha256:5975e7d7fd4807ee1871401af774c097434e2a30eb961d17234332d46e112d71
 size 243337876

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a234d88496d7a8e82585416645fca8e4d944c6cde79d02fa3cbf309031911f4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6cb43a5bd9c7e834b5537f6c3a927e687f296f232d0ca0ec88fd4df23196657
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9fe8004c8f6d6407f8607c14c640df815a3d2f0ac0214bc2a59f44ed0abb635
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:668ec8597c3f420a63a11711389ba814235340c6b18085fdcc8191e9cdf0a8c6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.1385369300842285,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 2.4096385542168672,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,265 @@
       "eval_samples_per_second": 20.423,
       "eval_steps_per_second": 5.252,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1371,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.1297814580769587e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.1385369300842285,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 3.004016064257028,
   "eval_steps": 50,
+  "global_step": 187,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.423,
       "eval_steps_per_second": 5.252,
       "step": 150
+    },
+    {
+      "epoch": 2.42570281124498,
+      "grad_norm": 5.148977279663086,
+      "learning_rate": 9.864418103451828e-06,
+      "loss": 2.2449,
+      "step": 151
+    },
+    {
+      "epoch": 2.4417670682730925,
+      "grad_norm": 4.7471466064453125,
+      "learning_rate": 9.34151817719166e-06,
+      "loss": 1.7333,
+      "step": 152
+    },
+    {
+      "epoch": 2.4578313253012047,
+      "grad_norm": 5.056032180786133,
+      "learning_rate": 8.831426594527975e-06,
+      "loss": 1.7489,
+      "step": 153
+    },
+    {
+      "epoch": 2.4738955823293174,
+      "grad_norm": 5.261003017425537,
+      "learning_rate": 8.334304045874247e-06,
+      "loss": 1.6044,
+      "step": 154
+    },
+    {
+      "epoch": 2.4899598393574296,
+      "grad_norm": 5.535795211791992,
+      "learning_rate": 7.850307136104247e-06,
+      "loss": 2.2367,
+      "step": 155
+    },
+    {
+      "epoch": 2.5060240963855422,
+      "grad_norm": 5.856411933898926,
+      "learning_rate": 7.379588335217874e-06,
+      "loss": 3.0989,
+      "step": 156
+    },
+    {
+      "epoch": 2.522088353413655,
+      "grad_norm": 5.084694862365723,
+      "learning_rate": 6.922295930309691e-06,
+      "loss": 2.7171,
+      "step": 157
+    },
+    {
+      "epoch": 2.538152610441767,
+      "grad_norm": 6.212282657623291,
+      "learning_rate": 6.478573978855146e-06,
+      "loss": 2.8528,
+      "step": 158
+    },
+    {
+      "epoch": 2.5542168674698793,
+      "grad_norm": 4.591296195983887,
+      "learning_rate": 6.048562263329138e-06,
+      "loss": 2.0066,
+      "step": 159
+    },
+    {
+      "epoch": 2.570281124497992,
+      "grad_norm": 5.471847057342529,
+      "learning_rate": 5.6323962471714286e-06,
+      "loss": 2.6712,
+      "step": 160
+    },
+    {
+      "epoch": 2.5863453815261046,
+      "grad_norm": 6.344399929046631,
+      "learning_rate": 5.23020703211255e-06,
+      "loss": 2.3738,
+      "step": 161
+    },
+    {
+      "epoch": 2.602409638554217,
+      "grad_norm": 4.858112335205078,
+      "learning_rate": 4.842121316873821e-06,
+      "loss": 2.2417,
+      "step": 162
+    },
+    {
+      "epoch": 2.6184738955823295,
+      "grad_norm": 5.603279113769531,
+      "learning_rate": 4.468261357254339e-06,
+      "loss": 2.6957,
+      "step": 163
+    },
+    {
+      "epoch": 2.6345381526104417,
+      "grad_norm": 5.545329570770264,
+      "learning_rate": 4.108744927617669e-06,
+      "loss": 2.2776,
+      "step": 164
+    },
+    {
+      "epoch": 2.6506024096385543,
+      "grad_norm": 4.7836222648620605,
+      "learning_rate": 3.763685283790208e-06,
+      "loss": 2.0821,
+      "step": 165
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 4.492027282714844,
+      "learning_rate": 3.4331911273830784e-06,
+      "loss": 2.031,
+      "step": 166
+    },
+    {
+      "epoch": 2.682730923694779,
+      "grad_norm": 6.321730136871338,
+      "learning_rate": 3.117366571548608e-06,
+      "loss": 2.5016,
+      "step": 167
+    },
+    {
+      "epoch": 2.6987951807228914,
+      "grad_norm": 8.664602279663086,
+      "learning_rate": 2.816311108182368e-06,
+      "loss": 2.1106,
+      "step": 168
+    },
+    {
+      "epoch": 2.714859437751004,
+      "grad_norm": 5.606003284454346,
+      "learning_rate": 2.530119576580936e-06,
+      "loss": 2.185,
+      "step": 169
+    },
+    {
+      "epoch": 2.7309236947791167,
+      "grad_norm": 5.336299896240234,
+      "learning_rate": 2.258882133565404e-06,
+      "loss": 2.0902,
+      "step": 170
+    },
+    {
+      "epoch": 2.746987951807229,
+      "grad_norm": 5.943612575531006,
+      "learning_rate": 2.0026842250799038e-06,
+      "loss": 3.1001,
+      "step": 171
+    },
+    {
+      "epoch": 2.7630522088353415,
+      "grad_norm": 5.235433101654053,
+      "learning_rate": 1.7616065592742038e-06,
+      "loss": 2.7069,
+      "step": 172
+    },
+    {
+      "epoch": 2.7791164658634537,
+      "grad_norm": 4.886165142059326,
+      "learning_rate": 1.5357250810788314e-06,
+      "loss": 2.3469,
+      "step": 173
+    },
+    {
+      "epoch": 2.7951807228915664,
+      "grad_norm": 5.185632228851318,
+      "learning_rate": 1.3251109482806666e-06,
+      "loss": 2.7937,
+      "step": 174
+    },
+    {
+      "epoch": 2.8112449799196786,
+      "grad_norm": 5.091357231140137,
+      "learning_rate": 1.1298305091066664e-06,
+      "loss": 2.5354,
+      "step": 175
+    },
+    {
+      "epoch": 2.8273092369477912,
+      "grad_norm": 4.6926774978637695,
+      "learning_rate": 9.499452813226284e-07,
+      "loss": 2.2616,
+      "step": 176
+    },
+    {
+      "epoch": 2.8433734939759034,
+      "grad_norm": 4.782034397125244,
+      "learning_rate": 7.855119328537109e-07,
+      "loss": 2.0711,
+      "step": 177
+    },
+    {
+      "epoch": 2.859437751004016,
+      "grad_norm": 5.071019172668457,
+      "learning_rate": 6.365822639327723e-07,
+      "loss": 2.1635,
+      "step": 178
+    },
+    {
+      "epoch": 2.8755020080321287,
+      "grad_norm": 4.6255974769592285,
+      "learning_rate": 5.032031907821089e-07,
+      "loss": 2.1709,
+      "step": 179
+    },
+    {
+      "epoch": 2.891566265060241,
+      "grad_norm": 5.228384494781494,
+      "learning_rate": 3.854167308337708e-07,
+      "loss": 2.1617,
+      "step": 180
+    },
+    {
+      "epoch": 2.907630522088353,
+      "grad_norm": 5.127053260803223,
+      "learning_rate": 2.8325998949314536e-07,
+      "loss": 2.1208,
+      "step": 181
+    },
+    {
+      "epoch": 2.923694779116466,
+      "grad_norm": 4.4402055740356445,
+      "learning_rate": 1.9676514844987337e-07,
+      "loss": 1.9813,
+      "step": 182
+    },
+    {
+      "epoch": 2.9397590361445785,
+      "grad_norm": 6.084360122680664,
+      "learning_rate": 1.2595945553992573e-07,
+      "loss": 2.1314,
+      "step": 183
+    },
+    {
+      "epoch": 2.9558232931726907,
+      "grad_norm": 4.875538349151611,
+      "learning_rate": 7.086521616190279e-08,
+      "loss": 1.9403,
+      "step": 184
+    },
+    {
+      "epoch": 2.9718875502008033,
+      "grad_norm": 4.680423736572266,
+      "learning_rate": 3.149978625032191e-08,
+      "loss": 1.7237,
+      "step": 185
+    },
+    {
+      "epoch": 2.9879518072289155,
+      "grad_norm": 5.582780838012695,
+      "learning_rate": 7.875566808107637e-09,
+      "loss": 2.8136,
+      "step": 186
+    },
+    {
+      "epoch": 3.004016064257028,
+      "grad_norm": 5.710657596588135,
+      "learning_rate": 0.0,
+      "loss": 1.9331,
+      "step": 187
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.4076236595304858e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null