Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3896cd4d1ce1cfb3fbb9bbc964ecd6dedaf148033fc1b63dec6f7a3eae53523c
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:39dac2aa916041c4fd6010091bf180a55156a3a5861f8cccf177c44454099d46
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fe65c5c227e033ace55cfb54530646d5f262331020e4ac81773ea1e86d408d7
 size 1279641042

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd02baf3ac2e0185a3be091e44ef2e69560e99ce0d216350eeac5de9955f4eb9
 size 1279641042

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:594a2cfe90bccfefb5a578195b629fb6c22e3753cb17872b47078036f4522885
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:51976e59481e843efd8941870fae785ef575a7aa0bbeceaf5008a9abf204dd11
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5335737b4b4d079cdec612fe6ee661ed4d29f9e0e55eb4eada44a9677240228
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9707683324813843,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.014164305949008499,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 12.183,
       "eval_steps_per_second": 6.091,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.8634147815424e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8943002223968506,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.028328611898016998,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.183,
       "eval_steps_per_second": 6.091,
       "step": 50
+    },
+    {
+      "epoch": 0.014447592067988669,
+      "grad_norm": 0.31635814905166626,
+      "learning_rate": 9.285836503510562e-05,
+      "loss": 0.7657,
+      "step": 51
+    },
+    {
+      "epoch": 0.014730878186968839,
+      "grad_norm": 0.3915429711341858,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.8888,
+      "step": 52
+    },
+    {
+      "epoch": 0.01501416430594901,
+      "grad_norm": 0.37524592876434326,
+      "learning_rate": 9.193352839727121e-05,
+      "loss": 0.8045,
+      "step": 53
+    },
+    {
+      "epoch": 0.01529745042492918,
+      "grad_norm": 0.32623764872550964,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 0.8345,
+      "step": 54
+    },
+    {
+      "epoch": 0.015580736543909348,
+      "grad_norm": 0.2912946939468384,
+      "learning_rate": 9.09576022144496e-05,
+      "loss": 0.8638,
+      "step": 55
+    },
+    {
+      "epoch": 0.01586402266288952,
+      "grad_norm": 0.28338658809661865,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.8685,
+      "step": 56
+    },
+    {
+      "epoch": 0.01614730878186969,
+      "grad_norm": 0.2784612476825714,
+      "learning_rate": 8.993177550236464e-05,
+      "loss": 0.8542,
+      "step": 57
+    },
+    {
+      "epoch": 0.01643059490084986,
+      "grad_norm": 0.273578405380249,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.8186,
+      "step": 58
+    },
+    {
+      "epoch": 0.01671388101983003,
+      "grad_norm": 0.27225029468536377,
+      "learning_rate": 8.885729807284856e-05,
+      "loss": 0.8194,
+      "step": 59
+    },
+    {
+      "epoch": 0.0169971671388102,
+      "grad_norm": 0.2823231816291809,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.8064,
+      "step": 60
+    },
+    {
+      "epoch": 0.017280453257790367,
+      "grad_norm": 0.27315282821655273,
+      "learning_rate": 8.773547901113862e-05,
+      "loss": 0.7767,
+      "step": 61
+    },
+    {
+      "epoch": 0.017563739376770537,
+      "grad_norm": 0.3057181239128113,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.8559,
+      "step": 62
+    },
+    {
+      "epoch": 0.017847025495750707,
+      "grad_norm": 0.25322389602661133,
+      "learning_rate": 8.656768508095853e-05,
+      "loss": 0.7594,
+      "step": 63
+    },
+    {
+      "epoch": 0.018130311614730877,
+      "grad_norm": 0.2614225149154663,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.8225,
+      "step": 64
+    },
+    {
+      "epoch": 0.018413597733711047,
+      "grad_norm": 0.23576407134532928,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 0.8388,
+      "step": 65
+    },
+    {
+      "epoch": 0.018696883852691217,
+      "grad_norm": 0.24987991154193878,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.782,
+      "step": 66
+    },
+    {
+      "epoch": 0.018980169971671387,
+      "grad_norm": 0.2600783705711365,
+      "learning_rate": 8.409991800312493e-05,
+      "loss": 0.8176,
+      "step": 67
+    },
+    {
+      "epoch": 0.019263456090651557,
+      "grad_norm": 0.2444659173488617,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.8305,
+      "step": 68
+    },
+    {
+      "epoch": 0.019546742209631728,
+      "grad_norm": 0.2555049657821655,
+      "learning_rate": 8.280295144952536e-05,
+      "loss": 0.8203,
+      "step": 69
+    },
+    {
+      "epoch": 0.019830028328611898,
+      "grad_norm": 0.2540525496006012,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.7953,
+      "step": 70
+    },
+    {
+      "epoch": 0.020113314447592068,
+      "grad_norm": 0.2432480752468109,
+      "learning_rate": 8.146601955249188e-05,
+      "loss": 0.8103,
+      "step": 71
+    },
+    {
+      "epoch": 0.020396600566572238,
+      "grad_norm": 0.28842082619667053,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 0.7827,
+      "step": 72
+    },
+    {
+      "epoch": 0.020679886685552408,
+      "grad_norm": 0.258884996175766,
+      "learning_rate": 8.009075115760243e-05,
+      "loss": 0.7813,
+      "step": 73
+    },
+    {
+      "epoch": 0.020963172804532578,
+      "grad_norm": 0.28011828660964966,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 0.8511,
+      "step": 74
+    },
+    {
+      "epoch": 0.021246458923512748,
+      "grad_norm": 0.3141220211982727,
+      "learning_rate": 7.86788218175523e-05,
+      "loss": 0.8916,
+      "step": 75
+    },
+    {
+      "epoch": 0.02152974504249292,
+      "grad_norm": 0.31731855869293213,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 0.7985,
+      "step": 76
+    },
+    {
+      "epoch": 0.02181303116147309,
+      "grad_norm": 0.3145108222961426,
+      "learning_rate": 7.723195175075136e-05,
+      "loss": 0.8648,
+      "step": 77
+    },
+    {
+      "epoch": 0.02209631728045326,
+      "grad_norm": 0.33710357546806335,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 0.8102,
+      "step": 78
+    },
+    {
+      "epoch": 0.02237960339943343,
+      "grad_norm": 0.3097231090068817,
+      "learning_rate": 7.575190374550272e-05,
+      "loss": 0.8856,
+      "step": 79
+    },
+    {
+      "epoch": 0.0226628895184136,
+      "grad_norm": 0.33917585015296936,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.8405,
+      "step": 80
+    },
+    {
+      "epoch": 0.02294617563739377,
+      "grad_norm": 0.3195075988769531,
+      "learning_rate": 7.424048101231686e-05,
+      "loss": 0.8151,
+      "step": 81
+    },
+    {
+      "epoch": 0.02322946175637394,
+      "grad_norm": 0.4224698543548584,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 0.9041,
+      "step": 82
+    },
+    {
+      "epoch": 0.02351274787535411,
+      "grad_norm": 0.4021918475627899,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 0.9231,
+      "step": 83
+    },
+    {
+      "epoch": 0.02379603399433428,
+      "grad_norm": 0.4472004771232605,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 0.943,
+      "step": 84
+    },
+    {
+      "epoch": 0.024079320113314446,
+      "grad_norm": 0.5003901124000549,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 0.8979,
+      "step": 85
+    },
+    {
+      "epoch": 0.024362606232294616,
+      "grad_norm": 0.5862677097320557,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 1.0636,
+      "step": 86
+    },
+    {
+      "epoch": 0.024645892351274786,
+      "grad_norm": 0.4611576199531555,
+      "learning_rate": 6.953655642446368e-05,
+      "loss": 0.8857,
+      "step": 87
+    },
+    {
+      "epoch": 0.024929178470254956,
+      "grad_norm": 0.6086900234222412,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 0.9394,
+      "step": 88
+    },
+    {
+      "epoch": 0.025212464589235126,
+      "grad_norm": 0.5702813863754272,
+      "learning_rate": 6.7918397477265e-05,
+      "loss": 0.8928,
+      "step": 89
+    },
+    {
+      "epoch": 0.025495750708215296,
+      "grad_norm": 0.5099334716796875,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 0.9919,
+      "step": 90
+    },
+    {
+      "epoch": 0.025779036827195467,
+      "grad_norm": 0.6126192212104797,
+      "learning_rate": 6.627840772285784e-05,
+      "loss": 0.9299,
+      "step": 91
+    },
+    {
+      "epoch": 0.026062322946175637,
+      "grad_norm": 0.6228667497634888,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 0.9997,
+      "step": 92
+    },
+    {
+      "epoch": 0.026345609065155807,
+      "grad_norm": 0.6684215068817139,
+      "learning_rate": 6.461858523613684e-05,
+      "loss": 0.9355,
+      "step": 93
+    },
+    {
+      "epoch": 0.026628895184135977,
+      "grad_norm": 0.7169914841651917,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 1.0057,
+      "step": 94
+    },
+    {
+      "epoch": 0.026912181303116147,
+      "grad_norm": 0.7495495080947876,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 0.843,
+      "step": 95
+    },
+    {
+      "epoch": 0.027195467422096317,
+      "grad_norm": 1.0023761987686157,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 0.9734,
+      "step": 96
+    },
+    {
+      "epoch": 0.027478753541076487,
+      "grad_norm": 0.9798507690429688,
+      "learning_rate": 6.124755271719325e-05,
+      "loss": 1.0046,
+      "step": 97
+    },
+    {
+      "epoch": 0.027762039660056657,
+      "grad_norm": 0.9909435510635376,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 0.9592,
+      "step": 98
+    },
+    {
+      "epoch": 0.028045325779036828,
+      "grad_norm": 1.6045634746551514,
+      "learning_rate": 5.9540449768827246e-05,
+      "loss": 1.0293,
+      "step": 99
+    },
+    {
+      "epoch": 0.028328611898016998,
+      "grad_norm": 3.4821736812591553,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 0.9679,
+      "step": 100
+    },
+    {
+      "epoch": 0.028328611898016998,
+      "eval_loss": 0.8943002223968506,
+      "eval_runtime": 487.973,
+      "eval_samples_per_second": 12.185,
+      "eval_steps_per_second": 6.093,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.37604737531904e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null