Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +364 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9598c34d290d33f59ed4c36a5bfec4f3d4ef2e65104963fae719efff72177a2
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:f038908ee1e6bce579213b26168a4a65ba92da16f4e991715ee3bb1c57fee506
 size 645975704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fb4af2954b19ed0a719daf45e5e64123f00af1549bd60df67dbc97944f70cb4
 size 1292176234

 version https://git-lfs.github.com/spec/v1
+oid sha256:21393f53eed92ec51919c14ed4319b84ecac0bda539f37818e1cf683c749b2b7
 size 1292176234

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e220440da3ddad7e10ff3e8bc3997c291a55d6f0fc1fed03c1f9fd8ecd557f4b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:99032dabf6b270bcb5bd2ca11324b4c65917e3bfed3dcfa7831f161360f61130
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d90116c540b4ff0066495fbccc9c914a568905fb44c6564f227952cc4231b00
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:03ad66011cfc1fc727a51190602a41adc332b48eeef62a5ee87c2ca9f9b90b2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.168055772781372,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.011405109489051095,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 13.558,
       "eval_steps_per_second": 3.393,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -396,12 +754,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.7773608566784e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.8177692890167236,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.02281021897810219,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.558,
       "eval_steps_per_second": 3.393,
       "step": 50
+    },
+    {
+      "epoch": 0.011633211678832116,
+      "grad_norm": 3.1397337913513184,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 2.6269,
+      "step": 51
+    },
+    {
+      "epoch": 0.011861313868613138,
+      "grad_norm": 3.8837239742279053,
+      "learning_rate": 2.3263454721781537e-05,
+      "loss": 2.659,
+      "step": 52
+    },
+    {
+      "epoch": 0.012089416058394161,
+      "grad_norm": 2.5559301376342773,
+      "learning_rate": 2.2693489161088592e-05,
+      "loss": 2.673,
+      "step": 53
+    },
+    {
+      "epoch": 0.012317518248175183,
+      "grad_norm": 3.1925735473632812,
+      "learning_rate": 2.210802993709498e-05,
+      "loss": 3.6881,
+      "step": 54
+    },
+    {
+      "epoch": 0.012545620437956205,
+      "grad_norm": 3.198943853378296,
+      "learning_rate": 2.1508256086763372e-05,
+      "loss": 3.2548,
+      "step": 55
+    },
+    {
+      "epoch": 0.012773722627737226,
+      "grad_norm": 3.387331247329712,
+      "learning_rate": 2.0895375474808857e-05,
+      "loss": 3.309,
+      "step": 56
+    },
+    {
+      "epoch": 0.013001824817518248,
+      "grad_norm": 3.3846280574798584,
+      "learning_rate": 2.0270622361220143e-05,
+      "loss": 2.9128,
+      "step": 57
+    },
+    {
+      "epoch": 0.01322992700729927,
+      "grad_norm": 2.4778828620910645,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 2.9132,
+      "step": 58
+    },
+    {
+      "epoch": 0.013458029197080291,
+      "grad_norm": 2.3157122135162354,
+      "learning_rate": 1.8990552683500128e-05,
+      "loss": 3.1024,
+      "step": 59
+    },
+    {
+      "epoch": 0.013686131386861315,
+      "grad_norm": 2.9606316089630127,
+      "learning_rate": 1.8337814009344716e-05,
+      "loss": 3.257,
+      "step": 60
+    },
+    {
+      "epoch": 0.013914233576642336,
+      "grad_norm": 3.081721544265747,
+      "learning_rate": 1.767835342197955e-05,
+      "loss": 3.4598,
+      "step": 61
+    },
+    {
+      "epoch": 0.014142335766423358,
+      "grad_norm": 2.55774188041687,
+      "learning_rate": 1.7013498987264832e-05,
+      "loss": 2.5796,
+      "step": 62
+    },
+    {
+      "epoch": 0.01437043795620438,
+      "grad_norm": 3.0532684326171875,
+      "learning_rate": 1.6344589633551502e-05,
+      "loss": 2.8908,
+      "step": 63
+    },
+    {
+      "epoch": 0.014598540145985401,
+      "grad_norm": 3.0447752475738525,
+      "learning_rate": 1.5672972455257726e-05,
+      "loss": 2.5719,
+      "step": 64
+    },
+    {
+      "epoch": 0.014826642335766423,
+      "grad_norm": 2.345266342163086,
+      "learning_rate": 1.5e-05,
+      "loss": 2.2287,
+      "step": 65
+    },
+    {
+      "epoch": 0.015054744525547446,
+      "grad_norm": 2.88517165184021,
+      "learning_rate": 1.4327027544742281e-05,
+      "loss": 2.8392,
+      "step": 66
+    },
+    {
+      "epoch": 0.015282846715328468,
+      "grad_norm": 3.2894341945648193,
+      "learning_rate": 1.36554103664485e-05,
+      "loss": 2.8951,
+      "step": 67
+    },
+    {
+      "epoch": 0.01551094890510949,
+      "grad_norm": 2.849522590637207,
+      "learning_rate": 1.2986501012735174e-05,
+      "loss": 3.4252,
+      "step": 68
+    },
+    {
+      "epoch": 0.015739051094890513,
+      "grad_norm": 2.4793972969055176,
+      "learning_rate": 1.2321646578020452e-05,
+      "loss": 2.5789,
+      "step": 69
+    },
+    {
+      "epoch": 0.015967153284671534,
+      "grad_norm": 2.9547505378723145,
+      "learning_rate": 1.1662185990655285e-05,
+      "loss": 2.3135,
+      "step": 70
+    },
+    {
+      "epoch": 0.016195255474452556,
+      "grad_norm": 2.916900873184204,
+      "learning_rate": 1.1009447316499875e-05,
+      "loss": 2.5639,
+      "step": 71
+    },
+    {
+      "epoch": 0.016423357664233577,
+      "grad_norm": 3.0820090770721436,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 3.4815,
+      "step": 72
+    },
+    {
+      "epoch": 0.0166514598540146,
+      "grad_norm": 3.0195086002349854,
+      "learning_rate": 9.729377638779859e-06,
+      "loss": 2.8625,
+      "step": 73
+    },
+    {
+      "epoch": 0.01687956204379562,
+      "grad_norm": 3.220219135284424,
+      "learning_rate": 9.104624525191147e-06,
+      "loss": 3.2246,
+      "step": 74
+    },
+    {
+      "epoch": 0.017107664233576642,
+      "grad_norm": 2.8594460487365723,
+      "learning_rate": 8.491743913236629e-06,
+      "loss": 2.6431,
+      "step": 75
+    },
+    {
+      "epoch": 0.017335766423357664,
+      "grad_norm": 2.5265841484069824,
+      "learning_rate": 7.89197006290502e-06,
+      "loss": 2.2384,
+      "step": 76
+    },
+    {
+      "epoch": 0.017563868613138685,
+      "grad_norm": 3.3408143520355225,
+      "learning_rate": 7.30651083891141e-06,
+      "loss": 3.3305,
+      "step": 77
+    },
+    {
+      "epoch": 0.017791970802919707,
+      "grad_norm": 2.876171827316284,
+      "learning_rate": 6.736545278218464e-06,
+      "loss": 2.4874,
+      "step": 78
+    },
+    {
+      "epoch": 0.01802007299270073,
+      "grad_norm": 3.5863444805145264,
+      "learning_rate": 6.1832212156129045e-06,
+      "loss": 3.169,
+      "step": 79
+    },
+    {
+      "epoch": 0.01824817518248175,
+      "grad_norm": 3.1643543243408203,
+      "learning_rate": 5.647652972118998e-06,
+      "loss": 2.3471,
+      "step": 80
+    },
+    {
+      "epoch": 0.018476277372262775,
+      "grad_norm": 2.9702963829040527,
+      "learning_rate": 5.130919110904311e-06,
+      "loss": 2.9979,
+      "step": 81
+    },
+    {
+      "epoch": 0.018704379562043797,
+      "grad_norm": 3.493462562561035,
+      "learning_rate": 4.6340602651970304e-06,
+      "loss": 3.2916,
+      "step": 82
+    },
+    {
+      "epoch": 0.01893248175182482,
+      "grad_norm": 2.6931052207946777,
+      "learning_rate": 4.158077042589129e-06,
+      "loss": 1.6962,
+      "step": 83
+    },
+    {
+      "epoch": 0.01916058394160584,
+      "grad_norm": 3.283498764038086,
+      "learning_rate": 3.7039280099458373e-06,
+      "loss": 2.8184,
+      "step": 84
+    },
+    {
+      "epoch": 0.019388686131386862,
+      "grad_norm": 3.6052558422088623,
+      "learning_rate": 3.272527762979553e-06,
+      "loss": 2.0974,
+      "step": 85
+    },
+    {
+      "epoch": 0.019616788321167884,
+      "grad_norm": 3.23093843460083,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 2.9964,
+      "step": 86
+    },
+    {
+      "epoch": 0.019844890510948905,
+      "grad_norm": 3.0622687339782715,
+      "learning_rate": 2.4814011941804603e-06,
+      "loss": 1.357,
+      "step": 87
+    },
+    {
+      "epoch": 0.020072992700729927,
+      "grad_norm": 3.1525626182556152,
+      "learning_rate": 2.1232680959720085e-06,
+      "loss": 3.2513,
+      "step": 88
+    },
+    {
+      "epoch": 0.02030109489051095,
+      "grad_norm": 3.4928739070892334,
+      "learning_rate": 1.79106702214893e-06,
+      "loss": 2.9197,
+      "step": 89
+    },
+    {
+      "epoch": 0.02052919708029197,
+      "grad_norm": 3.3078725337982178,
+      "learning_rate": 1.4854669814637145e-06,
+      "loss": 3.596,
+      "step": 90
+    },
+    {
+      "epoch": 0.02075729927007299,
+      "grad_norm": 3.477189302444458,
+      "learning_rate": 1.2070834117282414e-06,
+      "loss": 2.9744,
+      "step": 91
+    },
+    {
+      "epoch": 0.020985401459854013,
+      "grad_norm": 4.029712677001953,
+      "learning_rate": 9.56476940403942e-07,
+      "loss": 3.7937,
+      "step": 92
+    },
+    {
+      "epoch": 0.021213503649635035,
+      "grad_norm": 3.265688896179199,
+      "learning_rate": 7.341522555726971e-07,
+      "loss": 2.7467,
+      "step": 93
+    },
+    {
+      "epoch": 0.02144160583941606,
+      "grad_norm": 3.596331834793091,
+      "learning_rate": 5.405570895622014e-07,
+      "loss": 2.9271,
+      "step": 94
+    },
+    {
+      "epoch": 0.02166970802919708,
+      "grad_norm": 3.568763017654419,
+      "learning_rate": 3.760813172726457e-07,
+      "loss": 2.9056,
+      "step": 95
+    },
+    {
+      "epoch": 0.021897810218978103,
+      "grad_norm": 3.8037092685699463,
+      "learning_rate": 2.41056171020555e-07,
+      "loss": 2.5589,
+      "step": 96
+    },
+    {
+      "epoch": 0.022125912408759125,
+      "grad_norm": 3.655153751373291,
+      "learning_rate": 1.357535734809795e-07,
+      "loss": 3.5771,
+      "step": 97
+    },
+    {
+      "epoch": 0.022354014598540146,
+      "grad_norm": 4.204318046569824,
+      "learning_rate": 6.038559007141397e-08,
+      "loss": 4.5171,
+      "step": 98
+    },
+    {
+      "epoch": 0.022582116788321168,
+      "grad_norm": 4.529815673828125,
+      "learning_rate": 1.510400188028116e-08,
+      "loss": 2.8799,
+      "step": 99
+    },
+    {
+      "epoch": 0.02281021897810219,
+      "grad_norm": 5.45184850692749,
+      "learning_rate": 0.0,
+      "loss": 3.2544,
+      "step": 100
+    },
+    {
+      "epoch": 0.02281021897810219,
+      "eval_loss": 2.8177692890167236,
+      "eval_runtime": 136.1386,
+      "eval_samples_per_second": 13.56,
+      "eval_steps_per_second": 3.394,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.5547217133568e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null