Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18fe49e9417b99ce6c776bdfc9bc98e835ce876ec876396d18bc528860bd5afc
 size 201892112

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fef308b8921bdaa4b3462e88f1c7c0ade05615f1ab91ad36b5610d3f5b3c17d
 size 201892112

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9187cf23ffa688abda57e93e50617b6d17917ac42c67df1542ec8253ba4e2c77
 size 403961210

 version https://git-lfs.github.com/spec/v1
+oid sha256:a90254e302ec8b6d14e289c29594d11ebf0d484538ff3c10b69180beee9fbee6
 size 403961210

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab7ae01c632cf4a9eea703dbce890c0dc572c63819fc76789d81ce59e76600e8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b3a0b8ae4b1ef3d273ffeb9e44259fa1cdfe737176b54fe581e2c5bb5beb35e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d91efca010f12a32bdc7d1c787424022430eaf3f7cc0cdd2c9645acb3fd16b80
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0f2082f8ae2500626171b5f3c174135f50005132f4fb0d89617e1b5f611c23e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2823649644851685,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 2.2346368715083798,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1447,6 +1447,364 @@
       "eval_samples_per_second": 42.613,
       "eval_steps_per_second": 21.448,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1475,7 +1833,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.26629570494464e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2524751424789429,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 2.793296089385475,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.613,
       "eval_steps_per_second": 21.448,
       "step": 200
+    },
+    {
+      "epoch": 2.2458100558659218,
+      "grad_norm": 2.0551750659942627,
+      "learning_rate": 1.8678916237581522e-05,
+      "loss": 1.0606,
+      "step": 201
+    },
+    {
+      "epoch": 2.2569832402234637,
+      "grad_norm": 1.3848985433578491,
+      "learning_rate": 1.816933090929055e-05,
+      "loss": 1.2715,
+      "step": 202
+    },
+    {
+      "epoch": 2.2681564245810057,
+      "grad_norm": 1.1580418348312378,
+      "learning_rate": 1.7665245337452368e-05,
+      "loss": 1.1072,
+      "step": 203
+    },
+    {
+      "epoch": 2.2793296089385473,
+      "grad_norm": 1.1287815570831299,
+      "learning_rate": 1.716674661881848e-05,
+      "loss": 1.1187,
+      "step": 204
+    },
+    {
+      "epoch": 2.2905027932960893,
+      "grad_norm": 1.1857539415359497,
+      "learning_rate": 1.667392088483456e-05,
+      "loss": 1.3102,
+      "step": 205
+    },
+    {
+      "epoch": 2.3016759776536313,
+      "grad_norm": 1.0973467826843262,
+      "learning_rate": 1.6186853286758397e-05,
+      "loss": 1.2696,
+      "step": 206
+    },
+    {
+      "epoch": 2.3128491620111733,
+      "grad_norm": 1.0390197038650513,
+      "learning_rate": 1.570562798094747e-05,
+      "loss": 1.2218,
+      "step": 207
+    },
+    {
+      "epoch": 2.3240223463687153,
+      "grad_norm": 1.2470310926437378,
+      "learning_rate": 1.5230328114318127e-05,
+      "loss": 1.3041,
+      "step": 208
+    },
+    {
+      "epoch": 2.335195530726257,
+      "grad_norm": 1.1841509342193604,
+      "learning_rate": 1.4761035809979395e-05,
+      "loss": 1.2008,
+      "step": 209
+    },
+    {
+      "epoch": 2.346368715083799,
+      "grad_norm": 1.027030110359192,
+      "learning_rate": 1.4297832153043656e-05,
+      "loss": 1.0652,
+      "step": 210
+    },
+    {
+      "epoch": 2.357541899441341,
+      "grad_norm": 1.1887884140014648,
+      "learning_rate": 1.3840797176616466e-05,
+      "loss": 1.1927,
+      "step": 211
+    },
+    {
+      "epoch": 2.368715083798883,
+      "grad_norm": 1.1091079711914062,
+      "learning_rate": 1.3390009847968504e-05,
+      "loss": 1.157,
+      "step": 212
+    },
+    {
+      "epoch": 2.3798882681564244,
+      "grad_norm": 1.1894493103027344,
+      "learning_rate": 1.2945548054891321e-05,
+      "loss": 1.1287,
+      "step": 213
+    },
+    {
+      "epoch": 2.3910614525139664,
+      "grad_norm": 1.2934393882751465,
+      "learning_rate": 1.2507488592239847e-05,
+      "loss": 1.127,
+      "step": 214
+    },
+    {
+      "epoch": 2.4022346368715084,
+      "grad_norm": 1.1570240259170532,
+      "learning_rate": 1.2075907148663579e-05,
+      "loss": 1.0553,
+      "step": 215
+    },
+    {
+      "epoch": 2.4134078212290504,
+      "grad_norm": 1.172692060470581,
+      "learning_rate": 1.1650878293528994e-05,
+      "loss": 1.0155,
+      "step": 216
+    },
+    {
+      "epoch": 2.4245810055865924,
+      "grad_norm": 1.197474718093872,
+      "learning_rate": 1.1232475464035385e-05,
+      "loss": 1.135,
+      "step": 217
+    },
+    {
+      "epoch": 2.435754189944134,
+      "grad_norm": 1.1875431537628174,
+      "learning_rate": 1.0820770952526155e-05,
+      "loss": 1.1129,
+      "step": 218
+    },
+    {
+      "epoch": 2.446927374301676,
+      "grad_norm": 1.4438897371292114,
+      "learning_rate": 1.0415835893998116e-05,
+      "loss": 1.2491,
+      "step": 219
+    },
+    {
+      "epoch": 2.458100558659218,
+      "grad_norm": 1.3826245069503784,
+      "learning_rate": 1.0017740253810609e-05,
+      "loss": 1.1198,
+      "step": 220
+    },
+    {
+      "epoch": 2.46927374301676,
+      "grad_norm": 1.3730559349060059,
+      "learning_rate": 9.62655281559679e-06,
+      "loss": 1.0396,
+      "step": 221
+    },
+    {
+      "epoch": 2.4804469273743015,
+      "grad_norm": 1.6272450685501099,
+      "learning_rate": 9.242341169379076e-06,
+      "loss": 1.1171,
+      "step": 222
+    },
+    {
+      "epoch": 2.4916201117318435,
+      "grad_norm": 1.9734584093093872,
+      "learning_rate": 8.865171699890834e-06,
+      "loss": 1.1374,
+      "step": 223
+    },
+    {
+      "epoch": 2.5027932960893855,
+      "grad_norm": 1.3264243602752686,
+      "learning_rate": 8.49510957510633e-06,
+      "loss": 1.3275,
+      "step": 224
+    },
+    {
+      "epoch": 2.5139664804469275,
+      "grad_norm": 1.3713715076446533,
+      "learning_rate": 8.132218734980852e-06,
+      "loss": 1.2514,
+      "step": 225
+    },
+    {
+      "epoch": 2.5251396648044695,
+      "grad_norm": 1.2266292572021484,
+      "learning_rate": 7.776561880403072e-06,
+      "loss": 1.1443,
+      "step": 226
+    },
+    {
+      "epoch": 2.536312849162011,
+      "grad_norm": 1.2601666450500488,
+      "learning_rate": 7.4282004623615396e-06,
+      "loss": 1.2684,
+      "step": 227
+    },
+    {
+      "epoch": 2.547486033519553,
+      "grad_norm": 1.222358226776123,
+      "learning_rate": 7.0871946713269856e-06,
+      "loss": 1.1953,
+      "step": 228
+    },
+    {
+      "epoch": 2.558659217877095,
+      "grad_norm": 1.1266566514968872,
+      "learning_rate": 6.753603426852589e-06,
+      "loss": 1.1542,
+      "step": 229
+    },
+    {
+      "epoch": 2.5698324022346366,
+      "grad_norm": 1.035483479499817,
+      "learning_rate": 6.427484367393699e-06,
+      "loss": 1.1903,
+      "step": 230
+    },
+    {
+      "epoch": 2.5810055865921786,
+      "grad_norm": 1.0014451742172241,
+      "learning_rate": 6.108893840348995e-06,
+      "loss": 1.0823,
+      "step": 231
+    },
+    {
+      "epoch": 2.5921787709497206,
+      "grad_norm": 1.1314361095428467,
+      "learning_rate": 5.797886892324694e-06,
+      "loss": 1.2311,
+      "step": 232
+    },
+    {
+      "epoch": 2.6033519553072626,
+      "grad_norm": 1.0532621145248413,
+      "learning_rate": 5.494517259623477e-06,
+      "loss": 1.1181,
+      "step": 233
+    },
+    {
+      "epoch": 2.6145251396648046,
+      "grad_norm": 1.0458093881607056,
+      "learning_rate": 5.198837358959901e-06,
+      "loss": 1.1474,
+      "step": 234
+    },
+    {
+      "epoch": 2.6256983240223466,
+      "grad_norm": 1.1469138860702515,
+      "learning_rate": 4.910898278403669e-06,
+      "loss": 1.1677,
+      "step": 235
+    },
+    {
+      "epoch": 2.636871508379888,
+      "grad_norm": 1.135291337966919,
+      "learning_rate": 4.630749768552589e-06,
+      "loss": 1.1351,
+      "step": 236
+    },
+    {
+      "epoch": 2.64804469273743,
+      "grad_norm": 1.09344482421875,
+      "learning_rate": 4.358440233936617e-06,
+      "loss": 1.1221,
+      "step": 237
+    },
+    {
+      "epoch": 2.659217877094972,
+      "grad_norm": 1.190507411956787,
+      "learning_rate": 4.094016724654359e-06,
+      "loss": 1.0893,
+      "step": 238
+    },
+    {
+      "epoch": 2.6703910614525137,
+      "grad_norm": 1.1962109804153442,
+      "learning_rate": 3.837524928243774e-06,
+      "loss": 1.0827,
+      "step": 239
+    },
+    {
+      "epoch": 2.6815642458100557,
+      "grad_norm": 1.3094158172607422,
+      "learning_rate": 3.589009161788104e-06,
+      "loss": 1.0457,
+      "step": 240
+    },
+    {
+      "epoch": 2.6927374301675977,
+      "grad_norm": 1.3989758491516113,
+      "learning_rate": 3.3485123642587658e-06,
+      "loss": 1.0812,
+      "step": 241
+    },
+    {
+      "epoch": 2.7039106145251397,
+      "grad_norm": 1.4350848197937012,
+      "learning_rate": 3.116076089096265e-06,
+      "loss": 1.0437,
+      "step": 242
+    },
+    {
+      "epoch": 2.7150837988826817,
+      "grad_norm": 1.4926385879516602,
+      "learning_rate": 2.8917404970305097e-06,
+      "loss": 1.0832,
+      "step": 243
+    },
+    {
+      "epoch": 2.7262569832402237,
+      "grad_norm": 1.7393081188201904,
+      "learning_rate": 2.675544349141779e-06,
+      "loss": 1.0668,
+      "step": 244
+    },
+    {
+      "epoch": 2.7374301675977653,
+      "grad_norm": 1.9382210969924927,
+      "learning_rate": 2.4675250001635232e-06,
+      "loss": 1.0107,
+      "step": 245
+    },
+    {
+      "epoch": 2.7486033519553073,
+      "grad_norm": 0.7568252086639404,
+      "learning_rate": 2.2677183920281343e-06,
+      "loss": 1.0928,
+      "step": 246
+    },
+    {
+      "epoch": 2.7597765363128492,
+      "grad_norm": 0.9040629267692566,
+      "learning_rate": 2.076159047656889e-06,
+      "loss": 1.3023,
+      "step": 247
+    },
+    {
+      "epoch": 2.770949720670391,
+      "grad_norm": 0.9287111163139343,
+      "learning_rate": 1.892880064994934e-06,
+      "loss": 1.1539,
+      "step": 248
+    },
+    {
+      "epoch": 2.782122905027933,
+      "grad_norm": 0.9362537860870361,
+      "learning_rate": 1.7179131112926627e-06,
+      "loss": 1.1163,
+      "step": 249
+    },
+    {
+      "epoch": 2.793296089385475,
+      "grad_norm": 0.9989909529685974,
+      "learning_rate": 1.551288417634106e-06,
+      "loss": 1.1343,
+      "step": 250
+    },
+    {
+      "epoch": 2.793296089385475,
+      "eval_loss": 1.2524751424789429,
+      "eval_runtime": 3.5444,
+      "eval_samples_per_second": 42.603,
+      "eval_steps_per_second": 21.442,
+      "step": 250
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.3328696311808e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null