Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:477787f0091dfa39fe42e3d3310641f356cd39f35e7f63585a0fc22ad89b9b03
 size 1163996488

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dfa465ab0d6a7ee1a5443d1f016e9786a54258aba51cd36e992ad31a9eaac8f
 size 1163996488

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:479c9998037fc283f3e87a23cbe1e0f3a5fb74dc11348ae1c957e2335c0f30ba
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:03a533d1d085cf1b3df57990fa640bbe394dc80ef7daa57990bae1ab1de7abd8
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37c70ebce371973b6337c0835ee569c037ff160e244f9f1dea899dcbd48d8007
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a41a4031cb916a2a7b0de28c019f731f8ce660dfb48251aeba95615e7cabf3e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49ec0190ac34c757a155eb68c88baf326e3bb9c4f0972c60aacd4f72225da731
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b06d9dbca2d2e799f64e5db9a242e7689df5f48f98c30d95b246a79b74d68c80
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3956009149551392,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.0851063829787234,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 13.345,
       "eval_steps_per_second": 3.338,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.333822821016535e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3873642683029175,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.1276595744680851,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.345,
       "eval_steps_per_second": 3.338,
       "step": 100
+    },
+    {
+      "epoch": 0.08595744680851064,
+      "grad_norm": 0.27041178941726685,
+      "learning_rate": 2.6652264608142484e-05,
+      "loss": 1.3885,
+      "step": 101
+    },
+    {
+      "epoch": 0.08680851063829788,
+      "grad_norm": 0.31925514340400696,
+      "learning_rate": 2.623959386683056e-05,
+      "loss": 1.3813,
+      "step": 102
+    },
+    {
+      "epoch": 0.0876595744680851,
+      "grad_norm": 0.30088451504707336,
+      "learning_rate": 2.5826584232932706e-05,
+      "loss": 1.4019,
+      "step": 103
+    },
+    {
+      "epoch": 0.08851063829787234,
+      "grad_norm": 0.3145081698894501,
+      "learning_rate": 2.5413348619158967e-05,
+      "loss": 1.4248,
+      "step": 104
+    },
+    {
+      "epoch": 0.08936170212765958,
+      "grad_norm": 0.3168075978755951,
+      "learning_rate": 2.5e-05,
+      "loss": 1.4345,
+      "step": 105
+    },
+    {
+      "epoch": 0.0902127659574468,
+      "grad_norm": 0.29053518176078796,
+      "learning_rate": 2.458665138084104e-05,
+      "loss": 1.4627,
+      "step": 106
+    },
+    {
+      "epoch": 0.09106382978723404,
+      "grad_norm": 0.30581197142601013,
+      "learning_rate": 2.4173415767067297e-05,
+      "loss": 1.4763,
+      "step": 107
+    },
+    {
+      "epoch": 0.09191489361702128,
+      "grad_norm": 0.30414462089538574,
+      "learning_rate": 2.3760406133169443e-05,
+      "loss": 1.4436,
+      "step": 108
+    },
+    {
+      "epoch": 0.09276595744680852,
+      "grad_norm": 0.2863653898239136,
+      "learning_rate": 2.334773539185752e-05,
+      "loss": 1.3724,
+      "step": 109
+    },
+    {
+      "epoch": 0.09361702127659574,
+      "grad_norm": 0.30382198095321655,
+      "learning_rate": 2.2935516363191693e-05,
+      "loss": 1.504,
+      "step": 110
+    },
+    {
+      "epoch": 0.09446808510638298,
+      "grad_norm": 0.28875938057899475,
+      "learning_rate": 2.2523861743738434e-05,
+      "loss": 1.4195,
+      "step": 111
+    },
+    {
+      "epoch": 0.09531914893617022,
+      "grad_norm": 0.2905210256576538,
+      "learning_rate": 2.2112884075760347e-05,
+      "loss": 1.3817,
+      "step": 112
+    },
+    {
+      "epoch": 0.09617021276595744,
+      "grad_norm": 0.2973273694515228,
+      "learning_rate": 2.1702695716448278e-05,
+      "loss": 1.449,
+      "step": 113
+    },
+    {
+      "epoch": 0.09702127659574468,
+      "grad_norm": 0.3027838468551636,
+      "learning_rate": 2.1293408807203947e-05,
+      "loss": 1.3952,
+      "step": 114
+    },
+    {
+      "epoch": 0.09787234042553192,
+      "grad_norm": 0.2990623116493225,
+      "learning_rate": 2.088513524298165e-05,
+      "loss": 1.3883,
+      "step": 115
+    },
+    {
+      "epoch": 0.09872340425531916,
+      "grad_norm": 0.3011668920516968,
+      "learning_rate": 2.047798664169726e-05,
+      "loss": 1.3987,
+      "step": 116
+    },
+    {
+      "epoch": 0.09957446808510638,
+      "grad_norm": 0.31969380378723145,
+      "learning_rate": 2.0072074313712997e-05,
+      "loss": 1.3518,
+      "step": 117
+    },
+    {
+      "epoch": 0.10042553191489362,
+      "grad_norm": 0.30738529562950134,
+      "learning_rate": 1.9667509231406334e-05,
+      "loss": 1.3921,
+      "step": 118
+    },
+    {
+      "epoch": 0.10127659574468086,
+      "grad_norm": 0.3225458562374115,
+      "learning_rate": 1.9264401998831213e-05,
+      "loss": 1.3496,
+      "step": 119
+    },
+    {
+      "epoch": 0.10212765957446808,
+      "grad_norm": 0.3203943371772766,
+      "learning_rate": 1.8862862821480025e-05,
+      "loss": 1.3435,
+      "step": 120
+    },
+    {
+      "epoch": 0.10297872340425532,
+      "grad_norm": 0.33085933327674866,
+      "learning_rate": 1.8463001476154508e-05,
+      "loss": 1.3375,
+      "step": 121
+    },
+    {
+      "epoch": 0.10382978723404256,
+      "grad_norm": 0.3215438425540924,
+      "learning_rate": 1.806492728095389e-05,
+      "loss": 1.3917,
+      "step": 122
+    },
+    {
+      "epoch": 0.1046808510638298,
+      "grad_norm": 0.37878575921058655,
+      "learning_rate": 1.7668749065388385e-05,
+      "loss": 1.3855,
+      "step": 123
+    },
+    {
+      "epoch": 0.10553191489361702,
+      "grad_norm": 0.33293992280960083,
+      "learning_rate": 1.7274575140626318e-05,
+      "loss": 1.3998,
+      "step": 124
+    },
+    {
+      "epoch": 0.10638297872340426,
+      "grad_norm": 0.3338032066822052,
+      "learning_rate": 1.6882513269882917e-05,
+      "loss": 1.3869,
+      "step": 125
+    },
+    {
+      "epoch": 0.1072340425531915,
+      "grad_norm": 0.33053869009017944,
+      "learning_rate": 1.6492670638958924e-05,
+      "loss": 1.332,
+      "step": 126
+    },
+    {
+      "epoch": 0.10808510638297872,
+      "grad_norm": 0.3593829870223999,
+      "learning_rate": 1.6105153826937085e-05,
+      "loss": 1.3798,
+      "step": 127
+    },
+    {
+      "epoch": 0.10893617021276596,
+      "grad_norm": 0.3623925745487213,
+      "learning_rate": 1.5720068777044476e-05,
+      "loss": 1.4084,
+      "step": 128
+    },
+    {
+      "epoch": 0.1097872340425532,
+      "grad_norm": 0.3388347625732422,
+      "learning_rate": 1.5337520767688703e-05,
+      "loss": 1.3867,
+      "step": 129
+    },
+    {
+      "epoch": 0.11063829787234042,
+      "grad_norm": 0.3582272231578827,
+      "learning_rate": 1.495761438367577e-05,
+      "loss": 1.3665,
+      "step": 130
+    },
+    {
+      "epoch": 0.11148936170212766,
+      "grad_norm": 0.34170177578926086,
+      "learning_rate": 1.4580453487617745e-05,
+      "loss": 1.3961,
+      "step": 131
+    },
+    {
+      "epoch": 0.1123404255319149,
+      "grad_norm": 0.3400873839855194,
+      "learning_rate": 1.4206141191537682e-05,
+      "loss": 1.33,
+      "step": 132
+    },
+    {
+      "epoch": 0.11319148936170213,
+      "grad_norm": 0.33887210488319397,
+      "learning_rate": 1.383477982867984e-05,
+      "loss": 1.4032,
+      "step": 133
+    },
+    {
+      "epoch": 0.11404255319148936,
+      "grad_norm": 0.3536789119243622,
+      "learning_rate": 1.346647092553281e-05,
+      "loss": 1.3669,
+      "step": 134
+    },
+    {
+      "epoch": 0.1148936170212766,
+      "grad_norm": 0.35396888852119446,
+      "learning_rate": 1.3101315174073162e-05,
+      "loss": 1.4562,
+      "step": 135
+    },
+    {
+      "epoch": 0.11574468085106383,
+      "grad_norm": 0.34278711676597595,
+      "learning_rate": 1.2739412404237306e-05,
+      "loss": 1.3872,
+      "step": 136
+    },
+    {
+      "epoch": 0.11659574468085106,
+      "grad_norm": 0.37762826681137085,
+      "learning_rate": 1.2380861556628915e-05,
+      "loss": 1.4036,
+      "step": 137
+    },
+    {
+      "epoch": 0.1174468085106383,
+      "grad_norm": 0.36072713136672974,
+      "learning_rate": 1.202576065546963e-05,
+      "loss": 1.4366,
+      "step": 138
+    },
+    {
+      "epoch": 0.11829787234042553,
+      "grad_norm": 0.3776477575302124,
+      "learning_rate": 1.1674206781800162e-05,
+      "loss": 1.3829,
+      "step": 139
+    },
+    {
+      "epoch": 0.11914893617021277,
+      "grad_norm": 0.36730504035949707,
+      "learning_rate": 1.1326296046939333e-05,
+      "loss": 1.4613,
+      "step": 140
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.3442761301994324,
+      "learning_rate": 1.0982123566208185e-05,
+      "loss": 1.4083,
+      "step": 141
+    },
+    {
+      "epoch": 0.12085106382978723,
+      "grad_norm": 0.34520068764686584,
+      "learning_rate": 1.064178343292641e-05,
+      "loss": 1.4079,
+      "step": 142
+    },
+    {
+      "epoch": 0.12170212765957447,
+      "grad_norm": 0.3773599863052368,
+      "learning_rate": 1.0305368692688174e-05,
+      "loss": 1.4554,
+      "step": 143
+    },
+    {
+      "epoch": 0.1225531914893617,
+      "grad_norm": 0.3831958770751953,
+      "learning_rate": 9.972971317924374e-06,
+      "loss": 1.535,
+      "step": 144
+    },
+    {
+      "epoch": 0.12340425531914893,
+      "grad_norm": 0.3772953748703003,
+      "learning_rate": 9.644682182758306e-06,
+      "loss": 1.5186,
+      "step": 145
+    },
+    {
+      "epoch": 0.12425531914893617,
+      "grad_norm": 0.38657766580581665,
+      "learning_rate": 9.320591038161574e-06,
+      "loss": 1.4555,
+      "step": 146
+    },
+    {
+      "epoch": 0.1251063829787234,
+      "grad_norm": 0.3840479552745819,
+      "learning_rate": 9.000786487417085e-06,
+      "loss": 1.4507,
+      "step": 147
+    },
+    {
+      "epoch": 0.12595744680851065,
+      "grad_norm": 0.402510404586792,
+      "learning_rate": 8.685355961895784e-06,
+      "loss": 1.4325,
+      "step": 148
+    },
+    {
+      "epoch": 0.12680851063829787,
+      "grad_norm": 0.4714600443840027,
+      "learning_rate": 8.374385697153792e-06,
+      "loss": 1.5102,
+      "step": 149
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "grad_norm": 0.8784300088882446,
+      "learning_rate": 8.067960709356478e-06,
+      "loss": 1.4858,
+      "step": 150
+    },
+    {
+      "epoch": 0.1276595744680851,
+      "eval_loss": 1.3873642683029175,
+      "eval_runtime": 148.2667,
+      "eval_samples_per_second": 13.348,
+      "eval_steps_per_second": 3.339,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.002397352249262e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null