Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85d39358d34033562f001cd4970f06a678cd8c57164fc59ef506d431c2bb9417
 size 295488936

 version https://git-lfs.github.com/spec/v1
+oid sha256:66bfa8ce3bee9a8c57dc049b1e01d18bfadaa583d19c879576c378a54efb11c5
 size 295488936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aff62f3771632ea627d02cbed2e9b0f73ebf0b53feafce8e3e36799eb97719ed
 size 150486964

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9f91102a5841c0698324a23ff25752c26935d0aebe16912525cd78fc6e006a6
 size 150486964

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b09d699b7743f2fb4e87459a00c2a66302d0df8968856f27872b1a9a685e5e36
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbad62572bb8b62aab046919f8707183cb5ad16e2693807a09b0d274e992dbb7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6da931a425e1a2517e12e4e92e5527637ffeeadbe51a85a949dc53b89acf0af
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ba1abeedc944b50dfc9c3bffbf774b90111e900acad34ff55445cc0c42e5cd9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.4861719608306885,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0008418783990840363,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 23.226,
       "eval_steps_per_second": 5.807,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3435827224903680.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4122529029846191,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.0016837567981680727,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 23.226,
       "eval_steps_per_second": 5.807,
       "step": 50
+    },
+    {
+      "epoch": 0.000858715967065717,
+      "grad_norm": 4.5934367179870605,
+      "learning_rate": 7.85778947368421e-05,
+      "loss": 1.5141,
+      "step": 51
+    },
+    {
+      "epoch": 0.0008755535350473977,
+      "grad_norm": 2.2590882778167725,
+      "learning_rate": 7.805052631578947e-05,
+      "loss": 1.0027,
+      "step": 52
+    },
+    {
+      "epoch": 0.0008923911030290785,
+      "grad_norm": 2.4307925701141357,
+      "learning_rate": 7.752315789473683e-05,
+      "loss": 1.0923,
+      "step": 53
+    },
+    {
+      "epoch": 0.0009092286710107592,
+      "grad_norm": 4.569330215454102,
+      "learning_rate": 7.69957894736842e-05,
+      "loss": 1.2634,
+      "step": 54
+    },
+    {
+      "epoch": 0.0009260662389924399,
+      "grad_norm": 2.3689849376678467,
+      "learning_rate": 7.646842105263158e-05,
+      "loss": 1.1724,
+      "step": 55
+    },
+    {
+      "epoch": 0.0009429038069741207,
+      "grad_norm": 2.9993743896484375,
+      "learning_rate": 7.594105263157894e-05,
+      "loss": 1.4869,
+      "step": 56
+    },
+    {
+      "epoch": 0.0009597413749558014,
+      "grad_norm": 2.52467942237854,
+      "learning_rate": 7.541368421052631e-05,
+      "loss": 1.7681,
+      "step": 57
+    },
+    {
+      "epoch": 0.000976578942937482,
+      "grad_norm": 2.1674141883850098,
+      "learning_rate": 7.488631578947369e-05,
+      "loss": 1.265,
+      "step": 58
+    },
+    {
+      "epoch": 0.0009934165109191629,
+      "grad_norm": 2.996170997619629,
+      "learning_rate": 7.435894736842105e-05,
+      "loss": 1.3146,
+      "step": 59
+    },
+    {
+      "epoch": 0.0010102540789008435,
+      "grad_norm": 2.4902849197387695,
+      "learning_rate": 7.383157894736842e-05,
+      "loss": 1.3909,
+      "step": 60
+    },
+    {
+      "epoch": 0.0010270916468825243,
+      "grad_norm": 2.4440338611602783,
+      "learning_rate": 7.33042105263158e-05,
+      "loss": 1.0591,
+      "step": 61
+    },
+    {
+      "epoch": 0.001043929214864205,
+      "grad_norm": 2.58357834815979,
+      "learning_rate": 7.277684210526316e-05,
+      "loss": 1.7086,
+      "step": 62
+    },
+    {
+      "epoch": 0.0010607667828458857,
+      "grad_norm": 2.20978045463562,
+      "learning_rate": 7.224947368421053e-05,
+      "loss": 1.2718,
+      "step": 63
+    },
+    {
+      "epoch": 0.0010776043508275665,
+      "grad_norm": 2.3872764110565186,
+      "learning_rate": 7.172210526315789e-05,
+      "loss": 1.3063,
+      "step": 64
+    },
+    {
+      "epoch": 0.0010944419188092473,
+      "grad_norm": 2.3353686332702637,
+      "learning_rate": 7.119473684210526e-05,
+      "loss": 1.394,
+      "step": 65
+    },
+    {
+      "epoch": 0.0011112794867909278,
+      "grad_norm": 4.137941837310791,
+      "learning_rate": 7.066736842105262e-05,
+      "loss": 1.6868,
+      "step": 66
+    },
+    {
+      "epoch": 0.0011281170547726086,
+      "grad_norm": 2.9827768802642822,
+      "learning_rate": 7.013999999999999e-05,
+      "loss": 1.7168,
+      "step": 67
+    },
+    {
+      "epoch": 0.0011449546227542894,
+      "grad_norm": 2.142432928085327,
+      "learning_rate": 6.961263157894737e-05,
+      "loss": 1.3172,
+      "step": 68
+    },
+    {
+      "epoch": 0.00116179219073597,
+      "grad_norm": 2.022672414779663,
+      "learning_rate": 6.908526315789473e-05,
+      "loss": 1.2852,
+      "step": 69
+    },
+    {
+      "epoch": 0.0011786297587176508,
+      "grad_norm": 2.539156198501587,
+      "learning_rate": 6.85578947368421e-05,
+      "loss": 1.5417,
+      "step": 70
+    },
+    {
+      "epoch": 0.0011954673266993316,
+      "grad_norm": 2.637662887573242,
+      "learning_rate": 6.803052631578946e-05,
+      "loss": 1.4392,
+      "step": 71
+    },
+    {
+      "epoch": 0.0012123048946810122,
+      "grad_norm": 2.2341175079345703,
+      "learning_rate": 6.750315789473684e-05,
+      "loss": 1.4049,
+      "step": 72
+    },
+    {
+      "epoch": 0.001229142462662693,
+      "grad_norm": 2.2582802772521973,
+      "learning_rate": 6.697578947368421e-05,
+      "loss": 1.3465,
+      "step": 73
+    },
+    {
+      "epoch": 0.0012459800306443738,
+      "grad_norm": 2.781930923461914,
+      "learning_rate": 6.644842105263157e-05,
+      "loss": 1.4692,
+      "step": 74
+    },
+    {
+      "epoch": 0.0012628175986260544,
+      "grad_norm": 2.596421957015991,
+      "learning_rate": 6.592105263157895e-05,
+      "loss": 1.7602,
+      "step": 75
+    },
+    {
+      "epoch": 0.0012796551666077352,
+      "grad_norm": 2.116238594055176,
+      "learning_rate": 6.539368421052632e-05,
+      "loss": 1.2029,
+      "step": 76
+    },
+    {
+      "epoch": 0.001296492734589416,
+      "grad_norm": 3.9173460006713867,
+      "learning_rate": 6.486631578947368e-05,
+      "loss": 1.6201,
+      "step": 77
+    },
+    {
+      "epoch": 0.0013133303025710966,
+      "grad_norm": 2.327167272567749,
+      "learning_rate": 6.433894736842105e-05,
+      "loss": 1.4733,
+      "step": 78
+    },
+    {
+      "epoch": 0.0013301678705527774,
+      "grad_norm": 2.6510813236236572,
+      "learning_rate": 6.381157894736842e-05,
+      "loss": 1.4754,
+      "step": 79
+    },
+    {
+      "epoch": 0.0013470054385344582,
+      "grad_norm": 3.711254119873047,
+      "learning_rate": 6.328421052631578e-05,
+      "loss": 2.1011,
+      "step": 80
+    },
+    {
+      "epoch": 0.0013638430065161388,
+      "grad_norm": 2.670668840408325,
+      "learning_rate": 6.275684210526315e-05,
+      "loss": 1.0381,
+      "step": 81
+    },
+    {
+      "epoch": 0.0013806805744978196,
+      "grad_norm": 2.776033401489258,
+      "learning_rate": 6.222947368421053e-05,
+      "loss": 1.496,
+      "step": 82
+    },
+    {
+      "epoch": 0.0013975181424795004,
+      "grad_norm": 3.6561427116394043,
+      "learning_rate": 6.170210526315789e-05,
+      "loss": 1.6738,
+      "step": 83
+    },
+    {
+      "epoch": 0.001414355710461181,
+      "grad_norm": 2.9641172885894775,
+      "learning_rate": 6.117473684210526e-05,
+      "loss": 0.9949,
+      "step": 84
+    },
+    {
+      "epoch": 0.0014311932784428617,
+      "grad_norm": 2.4028921127319336,
+      "learning_rate": 6.064736842105263e-05,
+      "loss": 1.1722,
+      "step": 85
+    },
+    {
+      "epoch": 0.0014480308464245425,
+      "grad_norm": 3.3796043395996094,
+      "learning_rate": 6.0119999999999994e-05,
+      "loss": 1.5237,
+      "step": 86
+    },
+    {
+      "epoch": 0.0014648684144062231,
+      "grad_norm": 3.0940074920654297,
+      "learning_rate": 5.959263157894736e-05,
+      "loss": 1.5104,
+      "step": 87
+    },
+    {
+      "epoch": 0.001481705982387904,
+      "grad_norm": 3.486140251159668,
+      "learning_rate": 5.906526315789473e-05,
+      "loss": 1.2832,
+      "step": 88
+    },
+    {
+      "epoch": 0.0014985435503695845,
+      "grad_norm": 3.9877243041992188,
+      "learning_rate": 5.853789473684211e-05,
+      "loss": 1.4576,
+      "step": 89
+    },
+    {
+      "epoch": 0.0015153811183512653,
+      "grad_norm": 2.9244778156280518,
+      "learning_rate": 5.8010526315789476e-05,
+      "loss": 1.6941,
+      "step": 90
+    },
+    {
+      "epoch": 0.0015322186863329461,
+      "grad_norm": 4.34598970413208,
+      "learning_rate": 5.748315789473684e-05,
+      "loss": 2.0928,
+      "step": 91
+    },
+    {
+      "epoch": 0.0015490562543146267,
+      "grad_norm": 3.355473756790161,
+      "learning_rate": 5.6955789473684207e-05,
+      "loss": 1.3159,
+      "step": 92
+    },
+    {
+      "epoch": 0.0015658938222963075,
+      "grad_norm": 3.85603928565979,
+      "learning_rate": 5.642842105263157e-05,
+      "loss": 1.846,
+      "step": 93
+    },
+    {
+      "epoch": 0.0015827313902779883,
+      "grad_norm": 3.5386862754821777,
+      "learning_rate": 5.5901052631578944e-05,
+      "loss": 1.5301,
+      "step": 94
+    },
+    {
+      "epoch": 0.0015995689582596689,
+      "grad_norm": 4.031479835510254,
+      "learning_rate": 5.5373684210526316e-05,
+      "loss": 2.0078,
+      "step": 95
+    },
+    {
+      "epoch": 0.0016164065262413497,
+      "grad_norm": 3.196629524230957,
+      "learning_rate": 5.484631578947369e-05,
+      "loss": 1.7842,
+      "step": 96
+    },
+    {
+      "epoch": 0.0016332440942230305,
+      "grad_norm": 2.8968214988708496,
+      "learning_rate": 5.4318947368421054e-05,
+      "loss": 1.1119,
+      "step": 97
+    },
+    {
+      "epoch": 0.001650081662204711,
+      "grad_norm": 4.223515510559082,
+      "learning_rate": 5.379157894736842e-05,
+      "loss": 1.8077,
+      "step": 98
+    },
+    {
+      "epoch": 0.0016669192301863919,
+      "grad_norm": 3.419590711593628,
+      "learning_rate": 5.3264210526315785e-05,
+      "loss": 1.158,
+      "step": 99
+    },
+    {
+      "epoch": 0.0016837567981680727,
+      "grad_norm": 5.4764628410339355,
+      "learning_rate": 5.273684210526315e-05,
+      "loss": 1.3783,
+      "step": 100
+    },
+    {
+      "epoch": 0.0016837567981680727,
+      "eval_loss": 1.4122529029846191,
+      "eval_runtime": 1076.0209,
+      "eval_samples_per_second": 23.24,
+      "eval_steps_per_second": 5.81,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6871654449807360.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null