Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a60529656d6befcae175dc02e9cd1009e35f601caea28e3e111ca70cd2c5558
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:f65b146918d021220752f65440f179345116f149d6c3efb9f0e45759ca7c63c3
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1c23a6cafbf177a518f02c054e5e1bfe078e6cd161d69f827bc91c234b06774
 size 102864548

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3807e9b51612e40ebf772f45d36539109c77b9398381b360c7295fee27d309e
 size 102864548

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4103b955ce62bc0d2fa1cb6bc864371200f09e995de3f991fb3c6453a2bb34f5
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4ffb701c2f7b82d37d66c78b82347c99411b95c5c981d1b06bc49af5f43173d
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6405f9fabb3d2e45adcc13758e2849ef278b423e1ee939354d45ffa4e9327204
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a032dcbe590e69725a7fa9cedb5934521429cb4c18983c09c5035cbcaaeebd93
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7057402729988098,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.02786809103576405,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1089,6 +1089,364 @@
       "eval_samples_per_second": 42.976,
       "eval_steps_per_second": 10.746,
       "step": 150
     }
   ],
   "logging_steps": 1,
@@ -1112,12 +1470,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.66901430625239e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.696293830871582,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.03715745471435207,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.976,
       "eval_steps_per_second": 10.746,
       "step": 150
+    },
+    {
+      "epoch": 0.02805387830933581,
+      "grad_norm": 0.8277557492256165,
+      "learning_rate": 1.242586363525737e-05,
+      "loss": 0.6744,
+      "step": 151
+    },
+    {
+      "epoch": 0.02823966558290757,
+      "grad_norm": 1.129407286643982,
+      "learning_rate": 1.1950528629100457e-05,
+      "loss": 0.8988,
+      "step": 152
+    },
+    {
+      "epoch": 0.028425452856479332,
+      "grad_norm": 1.1117703914642334,
+      "learning_rate": 1.1482862068344121e-05,
+      "loss": 0.8987,
+      "step": 153
+    },
+    {
+      "epoch": 0.02861124013005109,
+      "grad_norm": 1.274944543838501,
+      "learning_rate": 1.1022991808356442e-05,
+      "loss": 0.9714,
+      "step": 154
+    },
+    {
+      "epoch": 0.028797027403622853,
+      "grad_norm": 1.413684368133545,
+      "learning_rate": 1.0571043573074737e-05,
+      "loss": 1.0464,
+      "step": 155
+    },
+    {
+      "epoch": 0.028982814677194612,
+      "grad_norm": 1.2533186674118042,
+      "learning_rate": 1.0127140920633857e-05,
+      "loss": 0.8553,
+      "step": 156
+    },
+    {
+      "epoch": 0.029168601950766374,
+      "grad_norm": 0.9504323601722717,
+      "learning_rate": 9.69140520958662e-06,
+      "loss": 0.6454,
+      "step": 157
+    },
+    {
+      "epoch": 0.029354389224338133,
+      "grad_norm": 0.9204007387161255,
+      "learning_rate": 9.263955565725648e-06,
+      "loss": 0.733,
+      "step": 158
+    },
+    {
+      "epoch": 0.02954017649790989,
+      "grad_norm": 0.8115749359130859,
+      "learning_rate": 8.844908849515509e-06,
+      "loss": 0.6411,
+      "step": 159
+    },
+    {
+      "epoch": 0.029725963771481654,
+      "grad_norm": 0.7680659294128418,
+      "learning_rate": 8.434379624144261e-06,
+      "loss": 0.6213,
+      "step": 160
+    },
+    {
+      "epoch": 0.029911751045053413,
+      "grad_norm": 0.7348408699035645,
+      "learning_rate": 8.032480124203013e-06,
+      "loss": 0.608,
+      "step": 161
+    },
+    {
+      "epoch": 0.030097538318625175,
+      "grad_norm": 0.690196692943573,
+      "learning_rate": 7.639320225002106e-06,
+      "loss": 0.5074,
+      "step": 162
+    },
+    {
+      "epoch": 0.030283325592196934,
+      "grad_norm": 0.7912430167198181,
+      "learning_rate": 7.255007412532307e-06,
+      "loss": 0.6236,
+      "step": 163
+    },
+    {
+      "epoch": 0.030469112865768696,
+      "grad_norm": 0.8454386591911316,
+      "learning_rate": 6.8796467540791986e-06,
+      "loss": 0.773,
+      "step": 164
+    },
+    {
+      "epoch": 0.030654900139340455,
+      "grad_norm": 0.7565322518348694,
+      "learning_rate": 6.513340869498859e-06,
+      "loss": 0.5278,
+      "step": 165
+    },
+    {
+      "epoch": 0.030840687412912217,
+      "grad_norm": 0.7427991032600403,
+      "learning_rate": 6.1561899031625794e-06,
+      "loss": 0.5895,
+      "step": 166
+    },
+    {
+      "epoch": 0.031026474686483976,
+      "grad_norm": 0.72712242603302,
+      "learning_rate": 5.808291496578435e-06,
+      "loss": 0.554,
+      "step": 167
+    },
+    {
+      "epoch": 0.031212261960055738,
+      "grad_norm": 0.8168418407440186,
+      "learning_rate": 5.469740761697044e-06,
+      "loss": 0.5795,
+      "step": 168
+    },
+    {
+      "epoch": 0.0313980492336275,
+      "grad_norm": 0.7900062203407288,
+      "learning_rate": 5.140630254908905e-06,
+      "loss": 0.6155,
+      "step": 169
+    },
+    {
+      "epoch": 0.03158383650719926,
+      "grad_norm": 0.7631322741508484,
+      "learning_rate": 4.821049951740442e-06,
+      "loss": 0.6395,
+      "step": 170
+    },
+    {
+      "epoch": 0.031769623780771014,
+      "grad_norm": 0.8723105788230896,
+      "learning_rate": 4.511087222255528e-06,
+      "loss": 0.7083,
+      "step": 171
+    },
+    {
+      "epoch": 0.031955411054342776,
+      "grad_norm": 0.8694934248924255,
+      "learning_rate": 4.2108268071694616e-06,
+      "loss": 0.6848,
+      "step": 172
+    },
+    {
+      "epoch": 0.03214119832791454,
+      "grad_norm": 0.8055874109268188,
+      "learning_rate": 3.9203507946816445e-06,
+      "loss": 0.6301,
+      "step": 173
+    },
+    {
+      "epoch": 0.0323269856014863,
+      "grad_norm": 0.782102644443512,
+      "learning_rate": 3.6397385980335e-06,
+      "loss": 0.5799,
+      "step": 174
+    },
+    {
+      "epoch": 0.032512772875058056,
+      "grad_norm": 0.9123784303665161,
+      "learning_rate": 3.3690669337977e-06,
+      "loss": 0.6572,
+      "step": 175
+    },
+    {
+      "epoch": 0.03269856014862982,
+      "grad_norm": 0.8065102100372314,
+      "learning_rate": 3.1084098009046106e-06,
+      "loss": 0.6309,
+      "step": 176
+    },
+    {
+      "epoch": 0.03288434742220158,
+      "grad_norm": 0.7722126841545105,
+      "learning_rate": 2.8578384604117217e-06,
+      "loss": 0.5781,
+      "step": 177
+    },
+    {
+      "epoch": 0.03307013469577334,
+      "grad_norm": 0.8441624641418457,
+      "learning_rate": 2.6174214160215704e-06,
+      "loss": 0.625,
+      "step": 178
+    },
+    {
+      "epoch": 0.0332559219693451,
+      "grad_norm": 0.7183513045310974,
+      "learning_rate": 2.3872243953535535e-06,
+      "loss": 0.5938,
+      "step": 179
+    },
+    {
+      "epoch": 0.03344170924291686,
+      "grad_norm": 0.8442609310150146,
+      "learning_rate": 2.1673103319746146e-06,
+      "loss": 0.6409,
+      "step": 180
+    },
+    {
+      "epoch": 0.03362749651648862,
+      "grad_norm": 0.7444936633110046,
+      "learning_rate": 1.957739348193859e-06,
+      "loss": 0.6137,
+      "step": 181
+    },
+    {
+      "epoch": 0.03381328379006038,
+      "grad_norm": 0.851841390132904,
+      "learning_rate": 1.7585687386256944e-06,
+      "loss": 0.5644,
+      "step": 182
+    },
+    {
+      "epoch": 0.03399907106363214,
+      "grad_norm": 0.7763927578926086,
+      "learning_rate": 1.5698529545260744e-06,
+      "loss": 0.556,
+      "step": 183
+    },
+    {
+      "epoch": 0.0341848583372039,
+      "grad_norm": 0.7218007445335388,
+      "learning_rate": 1.3916435889060575e-06,
+      "loss": 0.5211,
+      "step": 184
+    },
+    {
+      "epoch": 0.034370645610775664,
+      "grad_norm": 0.8408937454223633,
+      "learning_rate": 1.2239893624267852e-06,
+      "loss": 0.6682,
+      "step": 185
+    },
+    {
+      "epoch": 0.03455643288434742,
+      "grad_norm": 0.8628000020980835,
+      "learning_rate": 1.0669361100797704e-06,
+      "loss": 0.6878,
+      "step": 186
+    },
+    {
+      "epoch": 0.03474222015791918,
+      "grad_norm": 0.8714439272880554,
+      "learning_rate": 9.205267686560293e-07,
+      "loss": 0.6547,
+      "step": 187
+    },
+    {
+      "epoch": 0.034928007431490944,
+      "grad_norm": 0.7619119882583618,
+      "learning_rate": 7.848013650076258e-07,
+      "loss": 0.5769,
+      "step": 188
+    },
+    {
+      "epoch": 0.035113794705062706,
+      "grad_norm": 0.9454699158668518,
+      "learning_rate": 6.597970051047053e-07,
+      "loss": 0.6948,
+      "step": 189
+    },
+    {
+      "epoch": 0.03529958197863446,
+      "grad_norm": 0.7809498906135559,
+      "learning_rate": 5.455478638911071e-07,
+      "loss": 0.657,
+      "step": 190
+    },
+    {
+      "epoch": 0.035485369252206224,
+      "grad_norm": 0.9400784373283386,
+      "learning_rate": 4.420851759412603e-07,
+      "loss": 0.723,
+      "step": 191
+    },
+    {
+      "epoch": 0.035671156525777986,
+      "grad_norm": 1.0285460948944092,
+      "learning_rate": 3.4943722692099224e-07,
+      "loss": 0.8145,
+      "step": 192
+    },
+    {
+      "epoch": 0.03585694379934974,
+      "grad_norm": 1.0024358034133911,
+      "learning_rate": 2.676293458544743e-07,
+      "loss": 0.8062,
+      "step": 193
+    },
+    {
+      "epoch": 0.036042731072921504,
+      "grad_norm": 0.9210175275802612,
+      "learning_rate": 1.9668389819954338e-07,
+      "loss": 0.7595,
+      "step": 194
+    },
+    {
+      "epoch": 0.036228518346493266,
+      "grad_norm": 1.0221508741378784,
+      "learning_rate": 1.3662027973320614e-07,
+      "loss": 0.7836,
+      "step": 195
+    },
+    {
+      "epoch": 0.03641430562006503,
+      "grad_norm": 0.9825165271759033,
+      "learning_rate": 8.745491124901861e-08,
+      "loss": 0.8122,
+      "step": 196
+    },
+    {
+      "epoch": 0.03660009289363678,
+      "grad_norm": 1.2274169921875,
+      "learning_rate": 4.920123406781052e-08,
+      "loss": 0.9055,
+      "step": 197
+    },
+    {
+      "epoch": 0.036785880167208546,
+      "grad_norm": 1.0650230646133423,
+      "learning_rate": 2.1869706362958044e-08,
+      "loss": 0.7219,
+      "step": 198
+    },
+    {
+      "epoch": 0.03697166744078031,
+      "grad_norm": 1.0528210401535034,
+      "learning_rate": 5.467800301239834e-09,
+      "loss": 0.6992,
+      "step": 199
+    },
+    {
+      "epoch": 0.03715745471435207,
+      "grad_norm": 1.143416166305542,
+      "learning_rate": 0.0,
+      "loss": 0.808,
+      "step": 200
+    },
+    {
+      "epoch": 0.03715745471435207,
+      "eval_loss": 0.696293830871582,
+      "eval_runtime": 210.9668,
+      "eval_samples_per_second": 42.974,
+      "eval_steps_per_second": 10.746,
+      "step": 200
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.895574321423974e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null