Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b271712254e01f3a756f80c9d91649a68f589f8083c68e28efa6bf81649af5f
 size 13587864

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b0d11a0c9563fc9b309894a3ea72052d18d47c5d2c7383d7f135a6f7e75bbf6
 size 13587864

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d70e0c506c43b6dd7bfc52aa23ed7049ddf97443e93d45fefb733a105c2b0c8
 size 27273018

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccc19d3760e42bf952fe3f4416369525889e94276e27e85715f534215e6d1fbc
 size 27273018

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4fea74c51f4405caaaae971a4ccfc94a699f62e8257c2d08259a26bff3fc4eb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:80ad0144eca33b04b3d4f2b29d4af62fc22d673739ee2272250b1b21f6f349c2
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8287c8e13a42f467f666595aef17b0751f60576eb55d01ba59d28223687d2973
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5f01b3d4386ea634ed6767aa1edfa6779ba81e1725f3e3e0c0b9a9f92776b83
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b840cecfb7dec70c76a70327d64f5f23b2d66b0b6a1f665ecb2134abed6ccdbb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a5bb99b77e13ee757e01e8e860bc41eebc1421459e9c89d0a23b81def884f78
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841574a58757d90b95116e1fd5d2951f131533acbad72a77bcd1a82810ab44b9
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e625baf0c17e4ad56e8b11a83cbda177c07e59a3d18f926b7eb718549b22f65
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b421b30093a741efda571bdeb6770d480a0573a9ee33dd469ec29cc944e02e2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a56f9e526fbefceff44eaa8fd41d4c73340d4c2a80ffbd5f860cb7089f42cc1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.9786142110824585,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 1.3034623217922607,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 179.386,
       "eval_steps_per_second": 46.64,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.44280275468288e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.9268525838851929,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 1.955193482688391,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 179.386,
       "eval_steps_per_second": 46.64,
       "step": 100
+    },
+    {
+      "epoch": 1.3164969450101833,
+      "grad_norm": 0.7522782683372498,
+      "learning_rate": 0.00010497425081003482,
+      "loss": 2.1272,
+      "step": 101
+    },
+    {
+      "epoch": 1.329531568228106,
+      "grad_norm": 0.7502726316452026,
+      "learning_rate": 0.0001024550352588187,
+      "loss": 2.2586,
+      "step": 102
+    },
+    {
+      "epoch": 1.3425661914460285,
+      "grad_norm": 0.4233168661594391,
+      "learning_rate": 9.996325399626841e-05,
+      "loss": 1.871,
+      "step": 103
+    },
+    {
+      "epoch": 1.355600814663951,
+      "grad_norm": 0.5849415063858032,
+      "learning_rate": 9.750000000000003e-05,
+      "loss": 1.9998,
+      "step": 104
+    },
+    {
+      "epoch": 1.3686354378818737,
+      "grad_norm": 0.5961419343948364,
+      "learning_rate": 9.506635373462745e-05,
+      "loss": 2.0286,
+      "step": 105
+    },
+    {
+      "epoch": 1.3816700610997963,
+      "grad_norm": 0.5850256085395813,
+      "learning_rate": 9.266338267783541e-05,
+      "loss": 1.9748,
+      "step": 106
+    },
+    {
+      "epoch": 1.3947046843177189,
+      "grad_norm": 0.5355044007301331,
+      "learning_rate": 9.029214085214857e-05,
+      "loss": 1.9777,
+      "step": 107
+    },
+    {
+      "epoch": 1.4077393075356415,
+      "grad_norm": 0.40355584025382996,
+      "learning_rate": 8.795366836260173e-05,
+      "loss": 1.9819,
+      "step": 108
+    },
+    {
+      "epoch": 1.420773930753564,
+      "grad_norm": 0.30112820863723755,
+      "learning_rate": 8.564899094051614e-05,
+      "loss": 1.9478,
+      "step": 109
+    },
+    {
+      "epoch": 1.4338085539714869,
+      "grad_norm": 0.286545068025589,
+      "learning_rate": 8.33791194935794e-05,
+      "loss": 1.9474,
+      "step": 110
+    },
+    {
+      "epoch": 1.4468431771894092,
+      "grad_norm": 0.3926275372505188,
+      "learning_rate": 8.11450496624281e-05,
+      "loss": 1.9474,
+      "step": 111
+    },
+    {
+      "epoch": 1.459877800407332,
+      "grad_norm": 0.5009521245956421,
+      "learning_rate": 7.894776138392688e-05,
+      "loss": 2.0219,
+      "step": 112
+    },
+    {
+      "epoch": 1.4729124236252547,
+      "grad_norm": 0.6338520646095276,
+      "learning_rate": 7.678821846133576e-05,
+      "loss": 2.0353,
+      "step": 113
+    },
+    {
+      "epoch": 1.4859470468431772,
+      "grad_norm": 0.7013182044029236,
+      "learning_rate": 7.466736814155418e-05,
+      "loss": 1.62,
+      "step": 114
+    },
+    {
+      "epoch": 1.4989816700610998,
+      "grad_norm": 0.40693536400794983,
+      "learning_rate": 7.258614069962701e-05,
+      "loss": 2.5179,
+      "step": 115
+    },
+    {
+      "epoch": 1.5120162932790224,
+      "grad_norm": 0.31738847494125366,
+      "learning_rate": 7.054544903069565e-05,
+      "loss": 1.9209,
+      "step": 116
+    },
+    {
+      "epoch": 1.525050916496945,
+      "grad_norm": 0.3408113718032837,
+      "learning_rate": 6.854618824957157e-05,
+      "loss": 1.9408,
+      "step": 117
+    },
+    {
+      "epoch": 1.5380855397148676,
+      "grad_norm": 0.30903321504592896,
+      "learning_rate": 6.658923529810946e-05,
+      "loss": 1.9548,
+      "step": 118
+    },
+    {
+      "epoch": 1.5511201629327902,
+      "grad_norm": 0.30865398049354553,
+      "learning_rate": 6.467544856055175e-05,
+      "loss": 1.9355,
+      "step": 119
+    },
+    {
+      "epoch": 1.5641547861507128,
+      "grad_norm": 0.2949885427951813,
+      "learning_rate": 6.28056674870129e-05,
+      "loss": 1.9534,
+      "step": 120
+    },
+    {
+      "epoch": 1.5771894093686354,
+      "grad_norm": 0.28894004225730896,
+      "learning_rate": 6.098071222526847e-05,
+      "loss": 1.9511,
+      "step": 121
+    },
+    {
+      "epoch": 1.590224032586558,
+      "grad_norm": 0.2710161507129669,
+      "learning_rate": 5.9201383261011636e-05,
+      "loss": 1.9424,
+      "step": 122
+    },
+    {
+      "epoch": 1.6032586558044808,
+      "grad_norm": 0.30530881881713867,
+      "learning_rate": 5.7468461066733505e-05,
+      "loss": 1.9794,
+      "step": 123
+    },
+    {
+      "epoch": 1.6162932790224032,
+      "grad_norm": 0.3637678027153015,
+      "learning_rate": 5.578270575938211e-05,
+      "loss": 1.9562,
+      "step": 124
+    },
+    {
+      "epoch": 1.629327902240326,
+      "grad_norm": 0.4117651581764221,
+      "learning_rate": 5.4144856766949957e-05,
+      "loss": 1.9505,
+      "step": 125
+    },
+    {
+      "epoch": 1.629327902240326,
+      "eval_loss": 1.9424113035202026,
+      "eval_runtime": 0.2795,
+      "eval_samples_per_second": 178.903,
+      "eval_steps_per_second": 46.515,
+      "step": 125
+    },
+    {
+      "epoch": 1.6423625254582483,
+      "grad_norm": 0.5891804695129395,
+      "learning_rate": 5.255563250413657e-05,
+      "loss": 2.0759,
+      "step": 126
+    },
+    {
+      "epoch": 1.6553971486761712,
+      "grad_norm": 0.6447423696517944,
+      "learning_rate": 5.1015730057227994e-05,
+      "loss": 2.2958,
+      "step": 127
+    },
+    {
+      "epoch": 1.6684317718940935,
+      "grad_norm": 0.3930685818195343,
+      "learning_rate": 4.952582487833161e-05,
+      "loss": 1.817,
+      "step": 128
+    },
+    {
+      "epoch": 1.6814663951120163,
+      "grad_norm": 0.43411514163017273,
+      "learning_rate": 4.808657048910077e-05,
+      "loss": 1.9874,
+      "step": 129
+    },
+    {
+      "epoch": 1.694501018329939,
+      "grad_norm": 0.4237060546875,
+      "learning_rate": 4.669859819407844e-05,
+      "loss": 1.9388,
+      "step": 130
+    },
+    {
+      "epoch": 1.7075356415478615,
+      "grad_norm": 0.3899717926979065,
+      "learning_rate": 4.536251680378601e-05,
+      "loss": 1.9506,
+      "step": 131
+    },
+    {
+      "epoch": 1.7205702647657841,
+      "grad_norm": 0.3600156009197235,
+      "learning_rate": 4.407891236767926e-05,
+      "loss": 1.9307,
+      "step": 132
+    },
+    {
+      "epoch": 1.7336048879837067,
+      "grad_norm": 0.29930025339126587,
+      "learning_rate": 4.2848347917087386e-05,
+      "loss": 1.9395,
+      "step": 133
+    },
+    {
+      "epoch": 1.7466395112016293,
+      "grad_norm": 0.28485575318336487,
+      "learning_rate": 4.167136321824887e-05,
+      "loss": 1.9331,
+      "step": 134
+    },
+    {
+      "epoch": 1.759674134419552,
+      "grad_norm": 0.28593364357948303,
+      "learning_rate": 4.054847453555244e-05,
+      "loss": 1.9109,
+      "step": 135
+    },
+    {
+      "epoch": 1.7727087576374747,
+      "grad_norm": 0.33563509583473206,
+      "learning_rate": 3.948017440508607e-05,
+      "loss": 1.94,
+      "step": 136
+    },
+    {
+      "epoch": 1.785743380855397,
+      "grad_norm": 0.41171127557754517,
+      "learning_rate": 3.846693141859465e-05,
+      "loss": 1.9329,
+      "step": 137
+    },
+    {
+      "epoch": 1.79877800407332,
+      "grad_norm": 0.5771033763885498,
+      "learning_rate": 3.7509190017940066e-05,
+      "loss": 2.0034,
+      "step": 138
+    },
+    {
+      "epoch": 1.8118126272912423,
+      "grad_norm": 0.566257655620575,
+      "learning_rate": 3.660737030015427e-05,
+      "loss": 1.5604,
+      "step": 139
+    },
+    {
+      "epoch": 1.824847250509165,
+      "grad_norm": 0.44189655780792236,
+      "learning_rate": 3.576186783317092e-05,
+      "loss": 2.4998,
+      "step": 140
+    },
+    {
+      "epoch": 1.8378818737270874,
+      "grad_norm": 0.3839716911315918,
+      "learning_rate": 3.4973053482316156e-05,
+      "loss": 1.9946,
+      "step": 141
+    },
+    {
+      "epoch": 1.8509164969450103,
+      "grad_norm": 0.3798718750476837,
+      "learning_rate": 3.4241273247634805e-05,
+      "loss": 1.9378,
+      "step": 142
+    },
+    {
+      "epoch": 1.8639511201629326,
+      "grad_norm": 0.33077380061149597,
+      "learning_rate": 3.356684811212336e-05,
+      "loss": 1.9503,
+      "step": 143
+    },
+    {
+      "epoch": 1.8769857433808554,
+      "grad_norm": 0.3309776186943054,
+      "learning_rate": 3.2950073900936234e-05,
+      "loss": 1.9187,
+      "step": 144
+    },
+    {
+      "epoch": 1.890020366598778,
+      "grad_norm": 0.2614622116088867,
+      "learning_rate": 3.2391221151627036e-05,
+      "loss": 1.9367,
+      "step": 145
+    },
+    {
+      "epoch": 1.9030549898167006,
+      "grad_norm": 0.27304932475090027,
+      "learning_rate": 3.1890534995481836e-05,
+      "loss": 1.9302,
+      "step": 146
+    },
+    {
+      "epoch": 1.9160896130346232,
+      "grad_norm": 0.26790907979011536,
+      "learning_rate": 3.144823504999658e-05,
+      "loss": 1.9228,
+      "step": 147
+    },
+    {
+      "epoch": 1.9291242362525458,
+      "grad_norm": 0.3259439468383789,
+      "learning_rate": 3.10645153225455e-05,
+      "loss": 1.9133,
+      "step": 148
+    },
+    {
+      "epoch": 1.9421588594704684,
+      "grad_norm": 0.40042850375175476,
+      "learning_rate": 3.0739544125283105e-05,
+      "loss": 1.9946,
+      "step": 149
+    },
+    {
+      "epoch": 1.955193482688391,
+      "grad_norm": 0.49017587304115295,
+      "learning_rate": 3.047346400131691e-05,
+      "loss": 1.9776,
+      "step": 150
+    },
+    {
+      "epoch": 1.955193482688391,
+      "eval_loss": 1.9268525838851929,
+      "eval_runtime": 0.2825,
+      "eval_samples_per_second": 176.994,
+      "eval_steps_per_second": 46.019,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6.66420413202432e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null