Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22e6c623b0fd99aea96791b1c7579a3940aa477dae840f3d4564cc35a11568b4
 size 389074464

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d946dd9f75c184d2d10a552d66b6922ed5aab9ccf269243dd17a69545147a02
 size 389074464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3cb9b7c2a28951da6bb8f567a5c72742ac997818d45c89d299cac84c055134f
 size 198011252

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee937e8ae62148cfd2a6c6fa057fe62ed3be6ac17267e091247e4f6e2b007f29
 size 198011252

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8414aba1ec3a7fa995a2efa6118e65b1ecda17963deb127da568df86a1b8385
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eab3e1de516733706ff249ef94ca14b9678da30ec8666cfabeef3fdcb1e1896
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8ce05761f46e7cf72fb17a02e3a0ca15c9d25ce3babf590eeb40568923b8bac
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4495928883552551,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.061330880098129405,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 22.0,
       "eval_steps_per_second": 5.504,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.034082294346547e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4375690817832947,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.09199632014719411,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.0,
       "eval_steps_per_second": 5.504,
       "step": 100
+    },
+    {
+      "epoch": 0.0619441888991107,
+      "grad_norm": 0.13820692896842957,
+      "learning_rate": 5.330452921628497e-05,
+      "loss": 0.2335,
+      "step": 101
+    },
+    {
+      "epoch": 0.062557497700092,
+      "grad_norm": 0.15970581769943237,
+      "learning_rate": 5.247918773366112e-05,
+      "loss": 0.3074,
+      "step": 102
+    },
+    {
+      "epoch": 0.06317080650107329,
+      "grad_norm": 0.16852283477783203,
+      "learning_rate": 5.165316846586541e-05,
+      "loss": 0.3129,
+      "step": 103
+    },
+    {
+      "epoch": 0.06378411530205458,
+      "grad_norm": 0.186995267868042,
+      "learning_rate": 5.0826697238317935e-05,
+      "loss": 0.3784,
+      "step": 104
+    },
+    {
+      "epoch": 0.06439742410303588,
+      "grad_norm": 0.18915972113609314,
+      "learning_rate": 5e-05,
+      "loss": 0.3873,
+      "step": 105
+    },
+    {
+      "epoch": 0.06501073290401717,
+      "grad_norm": 0.18387651443481445,
+      "learning_rate": 4.917330276168208e-05,
+      "loss": 0.3466,
+      "step": 106
+    },
+    {
+      "epoch": 0.06562404170499847,
+      "grad_norm": 0.1880526840686798,
+      "learning_rate": 4.834683153413459e-05,
+      "loss": 0.3757,
+      "step": 107
+    },
+    {
+      "epoch": 0.06623735050597976,
+      "grad_norm": 0.20776034891605377,
+      "learning_rate": 4.7520812266338885e-05,
+      "loss": 0.383,
+      "step": 108
+    },
+    {
+      "epoch": 0.06685065930696106,
+      "grad_norm": 0.20975472033023834,
+      "learning_rate": 4.669547078371504e-05,
+      "loss": 0.3832,
+      "step": 109
+    },
+    {
+      "epoch": 0.06746396810794235,
+      "grad_norm": 0.2040434628725052,
+      "learning_rate": 4.5871032726383386e-05,
+      "loss": 0.3771,
+      "step": 110
+    },
+    {
+      "epoch": 0.06807727690892364,
+      "grad_norm": 0.21643058955669403,
+      "learning_rate": 4.504772348747687e-05,
+      "loss": 0.4538,
+      "step": 111
+    },
+    {
+      "epoch": 0.06869058570990494,
+      "grad_norm": 0.21091769635677338,
+      "learning_rate": 4.4225768151520694e-05,
+      "loss": 0.436,
+      "step": 112
+    },
+    {
+      "epoch": 0.06930389451088623,
+      "grad_norm": 0.20999422669410706,
+      "learning_rate": 4.3405391432896555e-05,
+      "loss": 0.4308,
+      "step": 113
+    },
+    {
+      "epoch": 0.06991720331186753,
+      "grad_norm": 0.21258579194545746,
+      "learning_rate": 4.2586817614407895e-05,
+      "loss": 0.4014,
+      "step": 114
+    },
+    {
+      "epoch": 0.07053051211284882,
+      "grad_norm": 0.21637636423110962,
+      "learning_rate": 4.17702704859633e-05,
+      "loss": 0.4809,
+      "step": 115
+    },
+    {
+      "epoch": 0.07114382091383012,
+      "grad_norm": 0.21233373880386353,
+      "learning_rate": 4.095597328339452e-05,
+      "loss": 0.4203,
+      "step": 116
+    },
+    {
+      "epoch": 0.07175712971481141,
+      "grad_norm": 0.237503319978714,
+      "learning_rate": 4.0144148627425993e-05,
+      "loss": 0.4637,
+      "step": 117
+    },
+    {
+      "epoch": 0.0723704385157927,
+      "grad_norm": 0.22309862077236176,
+      "learning_rate": 3.933501846281267e-05,
+      "loss": 0.4511,
+      "step": 118
+    },
+    {
+      "epoch": 0.072983747316774,
+      "grad_norm": 0.22739574313163757,
+      "learning_rate": 3.852880399766243e-05,
+      "loss": 0.4748,
+      "step": 119
+    },
+    {
+      "epoch": 0.07359705611775529,
+      "grad_norm": 0.2267841249704361,
+      "learning_rate": 3.772572564296005e-05,
+      "loss": 0.4304,
+      "step": 120
+    },
+    {
+      "epoch": 0.07421036491873659,
+      "grad_norm": 0.2511299252510071,
+      "learning_rate": 3.6926002952309016e-05,
+      "loss": 0.4857,
+      "step": 121
+    },
+    {
+      "epoch": 0.07482367371971788,
+      "grad_norm": 0.24376587569713593,
+      "learning_rate": 3.612985456190778e-05,
+      "loss": 0.4783,
+      "step": 122
+    },
+    {
+      "epoch": 0.07543698252069918,
+      "grad_norm": 0.2278592735528946,
+      "learning_rate": 3.533749813077677e-05,
+      "loss": 0.4165,
+      "step": 123
+    },
+    {
+      "epoch": 0.07605029132168047,
+      "grad_norm": 0.24655112624168396,
+      "learning_rate": 3.4549150281252636e-05,
+      "loss": 0.4645,
+      "step": 124
+    },
+    {
+      "epoch": 0.07666360012266175,
+      "grad_norm": 0.24547237157821655,
+      "learning_rate": 3.3765026539765834e-05,
+      "loss": 0.4616,
+      "step": 125
+    },
+    {
+      "epoch": 0.07727690892364306,
+      "grad_norm": 0.25290432572364807,
+      "learning_rate": 3.298534127791785e-05,
+      "loss": 0.4812,
+      "step": 126
+    },
+    {
+      "epoch": 0.07789021772462434,
+      "grad_norm": 0.2659919857978821,
+      "learning_rate": 3.221030765387417e-05,
+      "loss": 0.4692,
+      "step": 127
+    },
+    {
+      "epoch": 0.07850352652560565,
+      "grad_norm": 0.2477710098028183,
+      "learning_rate": 3.144013755408895e-05,
+      "loss": 0.448,
+      "step": 128
+    },
+    {
+      "epoch": 0.07911683532658693,
+      "grad_norm": 0.2507416307926178,
+      "learning_rate": 3.0675041535377405e-05,
+      "loss": 0.457,
+      "step": 129
+    },
+    {
+      "epoch": 0.07973014412756824,
+      "grad_norm": 0.2850281298160553,
+      "learning_rate": 2.991522876735154e-05,
+      "loss": 0.4653,
+      "step": 130
+    },
+    {
+      "epoch": 0.08034345292854952,
+      "grad_norm": 0.28637468814849854,
+      "learning_rate": 2.916090697523549e-05,
+      "loss": 0.4791,
+      "step": 131
+    },
+    {
+      "epoch": 0.08095676172953081,
+      "grad_norm": 0.28194430470466614,
+      "learning_rate": 2.8412282383075363e-05,
+      "loss": 0.4968,
+      "step": 132
+    },
+    {
+      "epoch": 0.08157007053051211,
+      "grad_norm": 0.2719290256500244,
+      "learning_rate": 2.766955965735968e-05,
+      "loss": 0.478,
+      "step": 133
+    },
+    {
+      "epoch": 0.0821833793314934,
+      "grad_norm": 0.2803453505039215,
+      "learning_rate": 2.693294185106562e-05,
+      "loss": 0.5198,
+      "step": 134
+    },
+    {
+      "epoch": 0.0827966881324747,
+      "grad_norm": 0.2790117561817169,
+      "learning_rate": 2.6202630348146324e-05,
+      "loss": 0.5038,
+      "step": 135
+    },
+    {
+      "epoch": 0.083409996933456,
+      "grad_norm": 0.2771505117416382,
+      "learning_rate": 2.547882480847461e-05,
+      "loss": 0.4928,
+      "step": 136
+    },
+    {
+      "epoch": 0.0840233057344373,
+      "grad_norm": 0.2789715528488159,
+      "learning_rate": 2.476172311325783e-05,
+      "loss": 0.5003,
+      "step": 137
+    },
+    {
+      "epoch": 0.08463661453541858,
+      "grad_norm": 0.287927508354187,
+      "learning_rate": 2.405152131093926e-05,
+      "loss": 0.503,
+      "step": 138
+    },
+    {
+      "epoch": 0.08524992333639987,
+      "grad_norm": 0.29686397314071655,
+      "learning_rate": 2.3348413563600325e-05,
+      "loss": 0.5219,
+      "step": 139
+    },
+    {
+      "epoch": 0.08586323213738117,
+      "grad_norm": 0.2793833911418915,
+      "learning_rate": 2.2652592093878666e-05,
+      "loss": 0.4567,
+      "step": 140
+    },
+    {
+      "epoch": 0.08647654093836246,
+      "grad_norm": 0.30153486132621765,
+      "learning_rate": 2.196424713241637e-05,
+      "loss": 0.5139,
+      "step": 141
+    },
+    {
+      "epoch": 0.08708984973934376,
+      "grad_norm": 0.2981930077075958,
+      "learning_rate": 2.128356686585282e-05,
+      "loss": 0.494,
+      "step": 142
+    },
+    {
+      "epoch": 0.08770315854032505,
+      "grad_norm": 0.31565627455711365,
+      "learning_rate": 2.061073738537635e-05,
+      "loss": 0.4924,
+      "step": 143
+    },
+    {
+      "epoch": 0.08831646734130635,
+      "grad_norm": 0.308817595243454,
+      "learning_rate": 1.9945942635848748e-05,
+      "loss": 0.4985,
+      "step": 144
+    },
+    {
+      "epoch": 0.08892977614228764,
+      "grad_norm": 0.3203525245189667,
+      "learning_rate": 1.928936436551661e-05,
+      "loss": 0.5204,
+      "step": 145
+    },
+    {
+      "epoch": 0.08954308494326893,
+      "grad_norm": 0.3342001140117645,
+      "learning_rate": 1.8641182076323148e-05,
+      "loss": 0.4901,
+      "step": 146
+    },
+    {
+      "epoch": 0.09015639374425023,
+      "grad_norm": 0.3472585082054138,
+      "learning_rate": 1.800157297483417e-05,
+      "loss": 0.5282,
+      "step": 147
+    },
+    {
+      "epoch": 0.09076970254523152,
+      "grad_norm": 0.366403728723526,
+      "learning_rate": 1.7370711923791567e-05,
+      "loss": 0.5312,
+      "step": 148
+    },
+    {
+      "epoch": 0.09138301134621282,
+      "grad_norm": 0.3766753673553467,
+      "learning_rate": 1.6748771394307585e-05,
+      "loss": 0.498,
+      "step": 149
+    },
+    {
+      "epoch": 0.09199632014719411,
+      "grad_norm": 0.45133519172668457,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.498,
+      "step": 150
+    },
+    {
+      "epoch": 0.09199632014719411,
+      "eval_loss": 0.4375690817832947,
+      "eval_runtime": 124.4888,
+      "eval_samples_per_second": 22.058,
+      "eval_steps_per_second": 5.519,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.029624335958016e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null