Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75e689f87e4bb0d03531191a98e4b9c3e08d8402d2cbc85bfa7b7bb3b74eb6c9
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b85eb6a3d7bda3e6dfdd6a6fd5b18b7e3567513fa7bb7e7125b4f1487431aa7
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a1ca0cfb40a075c73c307904e19dc4a15a9f2114c1889997b80a1a1582031dc
 size 325339796

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e06358f2fc8fad9da99f05e1d5bcf5a11df12a6fedde3df08d34cf1689daf97
 size 325339796

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9ed5ee635d70032f95728ae976e099258cc23201b74915b80cab7242313f3ef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:df7396f1ae858cac6cf44d64ee7a80546fa73c7f9c0e8d765e0c769fa1156556
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ab3d2b0401484126213dd055d9044edf00d7b06db4fe9dbad6027ee8b5d34b1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:123ecf29cfd4fe3b008c987ce1ef9f63c2ad00365e06a3691aa36827aaded381
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7202425003051758,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.05683432793407218,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 19.76,
       "eval_steps_per_second": 4.96,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.409395421544448e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6460583209991455,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.08525149190110827,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 19.76,
       "eval_steps_per_second": 4.96,
       "step": 100
+    },
+    {
+      "epoch": 0.0574026712134129,
+      "grad_norm": 0.5151413083076477,
+      "learning_rate": 5.3043157894736836e-05,
+      "loss": 1.817,
+      "step": 101
+    },
+    {
+      "epoch": 0.057971014492753624,
+      "grad_norm": 0.5496950745582581,
+      "learning_rate": 5.2507368421052635e-05,
+      "loss": 1.6748,
+      "step": 102
+    },
+    {
+      "epoch": 0.05853935777209435,
+      "grad_norm": 0.6355785727500916,
+      "learning_rate": 5.197157894736842e-05,
+      "loss": 1.7064,
+      "step": 103
+    },
+    {
+      "epoch": 0.05910770105143507,
+      "grad_norm": 0.593001127243042,
+      "learning_rate": 5.143578947368421e-05,
+      "loss": 1.7486,
+      "step": 104
+    },
+    {
+      "epoch": 0.059676044330775786,
+      "grad_norm": 0.5528516173362732,
+      "learning_rate": 5.09e-05,
+      "loss": 1.7127,
+      "step": 105
+    },
+    {
+      "epoch": 0.06024438761011651,
+      "grad_norm": 0.5531303286552429,
+      "learning_rate": 5.036421052631578e-05,
+      "loss": 1.8465,
+      "step": 106
+    },
+    {
+      "epoch": 0.06081273088945723,
+      "grad_norm": 0.5014846324920654,
+      "learning_rate": 4.982842105263158e-05,
+      "loss": 1.6323,
+      "step": 107
+    },
+    {
+      "epoch": 0.061381074168797956,
+      "grad_norm": 0.5050337910652161,
+      "learning_rate": 4.9292631578947366e-05,
+      "loss": 1.5039,
+      "step": 108
+    },
+    {
+      "epoch": 0.06194941744813868,
+      "grad_norm": 0.5129539370536804,
+      "learning_rate": 4.875684210526315e-05,
+      "loss": 1.6314,
+      "step": 109
+    },
+    {
+      "epoch": 0.0625177607274794,
+      "grad_norm": 0.5408539175987244,
+      "learning_rate": 4.822105263157894e-05,
+      "loss": 1.6182,
+      "step": 110
+    },
+    {
+      "epoch": 0.06308610400682012,
+      "grad_norm": 0.5475476384162903,
+      "learning_rate": 4.7685263157894735e-05,
+      "loss": 1.4697,
+      "step": 111
+    },
+    {
+      "epoch": 0.06365444728616085,
+      "grad_norm": 0.5478246808052063,
+      "learning_rate": 4.714947368421052e-05,
+      "loss": 1.5738,
+      "step": 112
+    },
+    {
+      "epoch": 0.06422279056550156,
+      "grad_norm": 0.5796051621437073,
+      "learning_rate": 4.661368421052631e-05,
+      "loss": 1.5052,
+      "step": 113
+    },
+    {
+      "epoch": 0.06479113384484228,
+      "grad_norm": 0.5977994799613953,
+      "learning_rate": 4.6077894736842104e-05,
+      "loss": 1.526,
+      "step": 114
+    },
+    {
+      "epoch": 0.06535947712418301,
+      "grad_norm": 0.5993626713752747,
+      "learning_rate": 4.554210526315789e-05,
+      "loss": 1.4977,
+      "step": 115
+    },
+    {
+      "epoch": 0.06592782040352373,
+      "grad_norm": 0.6900733113288879,
+      "learning_rate": 4.500631578947368e-05,
+      "loss": 1.6882,
+      "step": 116
+    },
+    {
+      "epoch": 0.06649616368286446,
+      "grad_norm": 0.6961638331413269,
+      "learning_rate": 4.447052631578947e-05,
+      "loss": 1.5659,
+      "step": 117
+    },
+    {
+      "epoch": 0.06706450696220517,
+      "grad_norm": 0.6532340049743652,
+      "learning_rate": 4.393473684210526e-05,
+      "loss": 1.7786,
+      "step": 118
+    },
+    {
+      "epoch": 0.06763285024154589,
+      "grad_norm": 0.7710056900978088,
+      "learning_rate": 4.339894736842105e-05,
+      "loss": 1.7923,
+      "step": 119
+    },
+    {
+      "epoch": 0.06820119352088662,
+      "grad_norm": 0.6924229264259338,
+      "learning_rate": 4.2863157894736835e-05,
+      "loss": 1.5977,
+      "step": 120
+    },
+    {
+      "epoch": 0.06876953680022733,
+      "grad_norm": 0.7953075170516968,
+      "learning_rate": 4.2327368421052634e-05,
+      "loss": 1.4162,
+      "step": 121
+    },
+    {
+      "epoch": 0.06933788007956806,
+      "grad_norm": 0.6938318014144897,
+      "learning_rate": 4.179157894736842e-05,
+      "loss": 1.4258,
+      "step": 122
+    },
+    {
+      "epoch": 0.06990622335890878,
+      "grad_norm": 0.7798824310302734,
+      "learning_rate": 4.1255789473684204e-05,
+      "loss": 1.4765,
+      "step": 123
+    },
+    {
+      "epoch": 0.0704745666382495,
+      "grad_norm": 0.8481230139732361,
+      "learning_rate": 4.072e-05,
+      "loss": 1.4541,
+      "step": 124
+    },
+    {
+      "epoch": 0.07104290991759023,
+      "grad_norm": 0.7436756491661072,
+      "learning_rate": 4.018421052631579e-05,
+      "loss": 1.6289,
+      "step": 125
+    },
+    {
+      "epoch": 0.07161125319693094,
+      "grad_norm": 0.802385151386261,
+      "learning_rate": 3.9648421052631573e-05,
+      "loss": 1.4059,
+      "step": 126
+    },
+    {
+      "epoch": 0.07217959647627167,
+      "grad_norm": 0.9276831150054932,
+      "learning_rate": 3.9112631578947365e-05,
+      "loss": 1.5148,
+      "step": 127
+    },
+    {
+      "epoch": 0.07274793975561239,
+      "grad_norm": 0.8872740268707275,
+      "learning_rate": 3.857684210526316e-05,
+      "loss": 1.556,
+      "step": 128
+    },
+    {
+      "epoch": 0.0733162830349531,
+      "grad_norm": 0.8716956973075867,
+      "learning_rate": 3.804105263157894e-05,
+      "loss": 1.562,
+      "step": 129
+    },
+    {
+      "epoch": 0.07388462631429384,
+      "grad_norm": 1.0244389772415161,
+      "learning_rate": 3.7505263157894734e-05,
+      "loss": 1.3268,
+      "step": 130
+    },
+    {
+      "epoch": 0.07445296959363455,
+      "grad_norm": 0.9489229917526245,
+      "learning_rate": 3.6969473684210526e-05,
+      "loss": 1.5957,
+      "step": 131
+    },
+    {
+      "epoch": 0.07502131287297528,
+      "grad_norm": 1.275113582611084,
+      "learning_rate": 3.643368421052631e-05,
+      "loss": 1.6578,
+      "step": 132
+    },
+    {
+      "epoch": 0.075589656152316,
+      "grad_norm": 1.0766980648040771,
+      "learning_rate": 3.5897894736842103e-05,
+      "loss": 1.7832,
+      "step": 133
+    },
+    {
+      "epoch": 0.07615799943165671,
+      "grad_norm": 1.1330690383911133,
+      "learning_rate": 3.5362105263157895e-05,
+      "loss": 1.2917,
+      "step": 134
+    },
+    {
+      "epoch": 0.07672634271099744,
+      "grad_norm": 1.1914342641830444,
+      "learning_rate": 3.482631578947368e-05,
+      "loss": 1.6503,
+      "step": 135
+    },
+    {
+      "epoch": 0.07729468599033816,
+      "grad_norm": 1.1140198707580566,
+      "learning_rate": 3.429052631578947e-05,
+      "loss": 1.5326,
+      "step": 136
+    },
+    {
+      "epoch": 0.07786302926967889,
+      "grad_norm": 1.1322687864303589,
+      "learning_rate": 3.375473684210526e-05,
+      "loss": 1.5365,
+      "step": 137
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": 1.012017011642456,
+      "learning_rate": 3.321894736842105e-05,
+      "loss": 1.4869,
+      "step": 138
+    },
+    {
+      "epoch": 0.07899971582836032,
+      "grad_norm": 1.404184103012085,
+      "learning_rate": 3.268315789473684e-05,
+      "loss": 1.3593,
+      "step": 139
+    },
+    {
+      "epoch": 0.07956805910770105,
+      "grad_norm": 1.4041898250579834,
+      "learning_rate": 3.2147368421052627e-05,
+      "loss": 1.6974,
+      "step": 140
+    },
+    {
+      "epoch": 0.08013640238704177,
+      "grad_norm": 1.6375192403793335,
+      "learning_rate": 3.161157894736842e-05,
+      "loss": 1.4095,
+      "step": 141
+    },
+    {
+      "epoch": 0.0807047456663825,
+      "grad_norm": 1.7191766500473022,
+      "learning_rate": 3.107578947368421e-05,
+      "loss": 1.6655,
+      "step": 142
+    },
+    {
+      "epoch": 0.08127308894572322,
+      "grad_norm": 1.5540755987167358,
+      "learning_rate": 3.0539999999999996e-05,
+      "loss": 1.6224,
+      "step": 143
+    },
+    {
+      "epoch": 0.08184143222506395,
+      "grad_norm": 1.3428224325180054,
+      "learning_rate": 3.0004210526315784e-05,
+      "loss": 1.0397,
+      "step": 144
+    },
+    {
+      "epoch": 0.08240977550440466,
+      "grad_norm": 1.6207056045532227,
+      "learning_rate": 2.946842105263158e-05,
+      "loss": 1.2121,
+      "step": 145
+    },
+    {
+      "epoch": 0.08297811878374538,
+      "grad_norm": 1.900486946105957,
+      "learning_rate": 2.8932631578947368e-05,
+      "loss": 1.9168,
+      "step": 146
+    },
+    {
+      "epoch": 0.08354646206308611,
+      "grad_norm": 1.903605341911316,
+      "learning_rate": 2.8396842105263153e-05,
+      "loss": 1.2044,
+      "step": 147
+    },
+    {
+      "epoch": 0.08411480534242682,
+      "grad_norm": 2.0578088760375977,
+      "learning_rate": 2.786105263157895e-05,
+      "loss": 1.5255,
+      "step": 148
+    },
+    {
+      "epoch": 0.08468314862176755,
+      "grad_norm": 2.299281358718872,
+      "learning_rate": 2.7325263157894737e-05,
+      "loss": 1.5899,
+      "step": 149
+    },
+    {
+      "epoch": 0.08525149190110827,
+      "grad_norm": 3.6123387813568115,
+      "learning_rate": 2.6789473684210522e-05,
+      "loss": 1.6884,
+      "step": 150
+    },
+    {
+      "epoch": 0.08525149190110827,
+      "eval_loss": 1.6460583209991455,
+      "eval_runtime": 37.4635,
+      "eval_samples_per_second": 19.779,
+      "eval_steps_per_second": 4.965,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 5.105777533727539e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null