Training in progress, step 200, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1acc445b926a0d4edaf78f8c18f240dcd30b02fb089379d8cf4f958da7575830
 size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b67963153a5d3bc117daf66186259b3c91e5dd38a9c295859a31adcdb74badf
 size 102864548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc283f79da84836f55e832508291147fba829e663b4889ab023f0e23be93df36
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcc4ccc77bd9544ac21c61b3d87789b0d28f32fdcd5d4c70ee696a0350d370f0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f9770e3a7852f4b129741223b0e57ffa93ef2ee0171b22f701ae2c830323988
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4af3b1b4fa156d60adeec70df709d1741ac2f3147c676ab2805007313fc707
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.02112973658261727,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 11.157,
       "eval_steps_per_second": 2.79,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1103,7 +1461,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.2157203876020224e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.02817298211015636,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.157,
       "eval_steps_per_second": 2.79,
       "step": 150
+    },
+    {
+      "epoch": 0.02127060149316805,
+      "grad_norm": NaN,
+      "learning_rate": 1.5687652839512427e-05,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.021411466403718833,
+      "grad_norm": NaN,
+      "learning_rate": 1.5087542394239326e-05,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.021552331314269615,
+      "grad_norm": NaN,
+      "learning_rate": 1.449711336128445e-05,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.021693196224820396,
+      "grad_norm": NaN,
+      "learning_rate": 1.3916527158050007e-05,
+      "loss": 0.0,
+      "step": 154
+    },
+    {
+      "epoch": 0.021834061135371178,
+      "grad_norm": NaN,
+      "learning_rate": 1.3345942511006854e-05,
+      "loss": 0.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.02197492604592196,
+      "grad_norm": NaN,
+      "learning_rate": 1.2785515412300245e-05,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.02211579095647274,
+      "grad_norm": NaN,
+      "learning_rate": 1.2235399077103106e-05,
+      "loss": 0.0,
+      "step": 157
+    },
+    {
+      "epoch": 0.022256655867023526,
+      "grad_norm": NaN,
+      "learning_rate": 1.1695743901728631e-05,
+      "loss": 0.0,
+      "step": 158
+    },
+    {
+      "epoch": 0.022397520777574308,
+      "grad_norm": NaN,
+      "learning_rate": 1.1166697422513329e-05,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.02253838568812509,
+      "grad_norm": NaN,
+      "learning_rate": 1.064840427548213e-05,
+      "loss": 0.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.02267925059867587,
+      "grad_norm": NaN,
+      "learning_rate": 1.0141006156806303e-05,
+      "loss": 0.0,
+      "step": 161
+    },
+    {
+      "epoch": 0.022820115509226652,
+      "grad_norm": NaN,
+      "learning_rate": 9.64464178406516e-06,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.022960980419777434,
+      "grad_norm": NaN,
+      "learning_rate": 9.159446858322036e-06,
+      "loss": 0.0,
+      "step": 163
+    },
+    {
+      "epoch": 0.023101845330328215,
+      "grad_norm": NaN,
+      "learning_rate": 8.685554027024989e-06,
+      "loss": 0.0,
+      "step": 164
+    },
+    {
+      "epoch": 0.023242710240878997,
+      "grad_norm": NaN,
+      "learning_rate": 8.22309284774231e-06,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.02338357515142978,
+      "grad_norm": NaN,
+      "learning_rate": 7.772189752742756e-06,
+      "loss": 0.0,
+      "step": 166
+    },
+    {
+      "epoch": 0.02352444006198056,
+      "grad_norm": NaN,
+      "learning_rate": 7.332968014430274e-06,
+      "loss": 0.0,
+      "step": 167
+    },
+    {
+      "epoch": 0.023665304972531342,
+      "grad_norm": NaN,
+      "learning_rate": 6.905547711642518e-06,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.023806169883082123,
+      "grad_norm": NaN,
+      "learning_rate": 6.490045696822492e-06,
+      "loss": 0.0,
+      "step": 169
+    },
+    {
+      "epoch": 0.023947034793632905,
+      "grad_norm": NaN,
+      "learning_rate": 6.086575564072307e-06,
+      "loss": 0.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.024087899704183686,
+      "grad_norm": NaN,
+      "learning_rate": 5.6952476180976035e-06,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.024228764614734468,
+      "grad_norm": NaN,
+      "learning_rate": 5.316168844051445e-06,
+      "loss": 0.0,
+      "step": 172
+    },
+    {
+      "epoch": 0.024369629525285253,
+      "grad_norm": NaN,
+      "learning_rate": 4.949442878285576e-06,
+      "loss": 0.0,
+      "step": 173
+    },
+    {
+      "epoch": 0.024510494435836035,
+      "grad_norm": NaN,
+      "learning_rate": 4.5951699800172935e-06,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.024651359346386816,
+      "grad_norm": NaN,
+      "learning_rate": 4.253447003919596e-06,
+      "loss": 0.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.024792224256937598,
+      "grad_norm": NaN,
+      "learning_rate": 3.924367373642071e-06,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 0.02493308916748838,
+      "grad_norm": NaN,
+      "learning_rate": 3.6080210562697984e-06,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.02507395407803916,
+      "grad_norm": NaN,
+      "learning_rate": 3.3044945377272327e-06,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 0.025214818988589943,
+      "grad_norm": NaN,
+      "learning_rate": 3.013870799133861e-06,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 0.025355683899140724,
+      "grad_norm": NaN,
+      "learning_rate": 2.736229294117951e-06,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.025496548809691506,
+      "grad_norm": NaN,
+      "learning_rate": 2.4716459270947466e-06,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 0.025637413720242287,
+      "grad_norm": NaN,
+      "learning_rate": 2.220193032514939e-06,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 0.02577827863079307,
+      "grad_norm": NaN,
+      "learning_rate": 1.9819393550891686e-06,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.02591914354134385,
+      "grad_norm": NaN,
+      "learning_rate": 1.7569500309938975e-06,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 0.026060008451894632,
+      "grad_norm": NaN,
+      "learning_rate": 1.5452865700638161e-06,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.026200873362445413,
+      "grad_norm": NaN,
+      "learning_rate": 1.34700683897571e-06,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.026341738272996195,
+      "grad_norm": NaN,
+      "learning_rate": 1.162165045428237e-06,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 0.02648260318354698,
+      "grad_norm": NaN,
+      "learning_rate": 9.908117233221274e-07,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 0.02662346809409776,
+      "grad_norm": NaN,
+      "learning_rate": 8.329937189446904e-07,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.026764333004648543,
+      "grad_norm": NaN,
+      "learning_rate": 6.887541781625227e-07,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.026905197915199325,
+      "grad_norm": NaN,
+      "learning_rate": 5.581325346258412e-07,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 0.027046062825750106,
+      "grad_norm": NaN,
+      "learning_rate": 4.411644989877527e-07,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.027186927736300888,
+      "grad_norm": NaN,
+      "learning_rate": 3.378820491412738e-07,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 0.02732779264685167,
+      "grad_norm": NaN,
+      "learning_rate": 2.483134214769235e-07,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 0.02746865755740245,
+      "grad_norm": NaN,
+      "learning_rate": 1.7248310316317272e-07,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.027609522467953233,
+      "grad_norm": NaN,
+      "learning_rate": 1.10411825451886e-07,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 0.027750387378504014,
+      "grad_norm": NaN,
+      "learning_rate": 6.211655801061078e-08,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 0.027891252289054796,
+      "grad_norm": NaN,
+      "learning_rate": 2.761050428323453e-08,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.028032117199605577,
+      "grad_norm": NaN,
+      "learning_rate": 6.90309788031529e-09,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 0.02817298211015636,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.02817298211015636,
+      "eval_loss": NaN,
+      "eval_runtime": 1347.7679,
+      "eval_samples_per_second": 8.872,
+      "eval_steps_per_second": 2.218,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.287627183469363e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null