Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5dd77b354b123bd87b5a418213d3e922422d20c702c102785c6f86e0f287289f
 size 478211024

 version https://git-lfs.github.com/spec/v1
+oid sha256:56c6bf8c7c5ae516931386d3855704d96843a49e5e62de680ed94b30d3398bb4
 size 478211024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e75bea9cccec626281bbe5089b026b792062088da98570081a80d00d344c4f06
 size 956679634

 version https://git-lfs.github.com/spec/v1
+oid sha256:875eef51819bf03f1a1a252f3d10facdf21cdc96229b31b3790107466f06c35f
 size 956679634

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51869a0b09a43f64852e10556da714d8ef8c7d3536d12c6944727bb8ba5ff762
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:333fb34de7627d3f9e97a4a74f0cc7987acea26fb643cbc10a4a40a965099bd3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5335737b4b4d079cdec612fe6ee661ed4d29f9e0e55eb4eada44a9677240228
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e0244c146d76bf610ae39789eea36d0bff336b81d211db008e020e66921060c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1729106903076172,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.3305785123966942,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 17.987,
       "eval_steps_per_second": 9.029,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.154649741361152e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0880825519561768,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.6611570247933884,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.987,
       "eval_steps_per_second": 9.029,
       "step": 50
+    },
+    {
+      "epoch": 0.3371900826446281,
+      "grad_norm": 0.9313036203384399,
+      "learning_rate": 9.285836503510562e-05,
+      "loss": 4.8954,
+      "step": 51
+    },
+    {
+      "epoch": 0.343801652892562,
+      "grad_norm": 0.8967971205711365,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 4.2944,
+      "step": 52
+    },
+    {
+      "epoch": 0.3504132231404959,
+      "grad_norm": 0.9805819392204285,
+      "learning_rate": 9.193352839727121e-05,
+      "loss": 5.1855,
+      "step": 53
+    },
+    {
+      "epoch": 0.35702479338842974,
+      "grad_norm": 1.110192060470581,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 5.0659,
+      "step": 54
+    },
+    {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 1.0864770412445068,
+      "learning_rate": 9.09576022144496e-05,
+      "loss": 4.6465,
+      "step": 55
+    },
+    {
+      "epoch": 0.3702479338842975,
+      "grad_norm": 1.6741044521331787,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 4.5788,
+      "step": 56
+    },
+    {
+      "epoch": 0.3768595041322314,
+      "grad_norm": 1.2498528957366943,
+      "learning_rate": 8.993177550236464e-05,
+      "loss": 4.8934,
+      "step": 57
+    },
+    {
+      "epoch": 0.3834710743801653,
+      "grad_norm": 1.2537343502044678,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 4.7502,
+      "step": 58
+    },
+    {
+      "epoch": 0.39008264462809916,
+      "grad_norm": 1.2770891189575195,
+      "learning_rate": 8.885729807284856e-05,
+      "loss": 4.8936,
+      "step": 59
+    },
+    {
+      "epoch": 0.39669421487603307,
+      "grad_norm": 1.4430948495864868,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 4.8503,
+      "step": 60
+    },
+    {
+      "epoch": 0.4033057851239669,
+      "grad_norm": 1.5071772336959839,
+      "learning_rate": 8.773547901113862e-05,
+      "loss": 5.3403,
+      "step": 61
+    },
+    {
+      "epoch": 0.4099173553719008,
+      "grad_norm": 1.624732494354248,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 5.3317,
+      "step": 62
+    },
+    {
+      "epoch": 0.41652892561983473,
+      "grad_norm": 1.6274948120117188,
+      "learning_rate": 8.656768508095853e-05,
+      "loss": 4.4587,
+      "step": 63
+    },
+    {
+      "epoch": 0.4231404958677686,
+      "grad_norm": 1.6330101490020752,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 4.1029,
+      "step": 64
+    },
+    {
+      "epoch": 0.4297520661157025,
+      "grad_norm": 1.6284996271133423,
+      "learning_rate": 8.535533905932738e-05,
+      "loss": 5.1398,
+      "step": 65
+    },
+    {
+      "epoch": 0.43636363636363634,
+      "grad_norm": 1.741026520729065,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 5.2479,
+      "step": 66
+    },
+    {
+      "epoch": 0.44297520661157025,
+      "grad_norm": 1.8886727094650269,
+      "learning_rate": 8.409991800312493e-05,
+      "loss": 5.6305,
+      "step": 67
+    },
+    {
+      "epoch": 0.44958677685950416,
+      "grad_norm": 1.9955488443374634,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 5.6926,
+      "step": 68
+    },
+    {
+      "epoch": 0.456198347107438,
+      "grad_norm": 2.239786386489868,
+      "learning_rate": 8.280295144952536e-05,
+      "loss": 5.9947,
+      "step": 69
+    },
+    {
+      "epoch": 0.4628099173553719,
+      "grad_norm": 2.239755630493164,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 4.4617,
+      "step": 70
+    },
+    {
+      "epoch": 0.46942148760330576,
+      "grad_norm": 2.663750648498535,
+      "learning_rate": 8.146601955249188e-05,
+      "loss": 4.2143,
+      "step": 71
+    },
+    {
+      "epoch": 0.47603305785123967,
+      "grad_norm": 2.472973108291626,
+      "learning_rate": 8.07830737662829e-05,
+      "loss": 4.8717,
+      "step": 72
+    },
+    {
+      "epoch": 0.4826446280991736,
+      "grad_norm": 3.02223801612854,
+      "learning_rate": 8.009075115760243e-05,
+      "loss": 5.2497,
+      "step": 73
+    },
+    {
+      "epoch": 0.48925619834710743,
+      "grad_norm": 4.158394813537598,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 4.8917,
+      "step": 74
+    },
+    {
+      "epoch": 0.49586776859504134,
+      "grad_norm": 1.0667253732681274,
+      "learning_rate": 7.86788218175523e-05,
+      "loss": 3.4973,
+      "step": 75
+    },
+    {
+      "epoch": 0.5024793388429752,
+      "grad_norm": 1.0640274286270142,
+      "learning_rate": 7.795964517353735e-05,
+      "loss": 3.6,
+      "step": 76
+    },
+    {
+      "epoch": 0.509090909090909,
+      "grad_norm": 0.8343002200126648,
+      "learning_rate": 7.723195175075136e-05,
+      "loss": 3.9431,
+      "step": 77
+    },
+    {
+      "epoch": 0.515702479338843,
+      "grad_norm": 0.8102278709411621,
+      "learning_rate": 7.649596321166024e-05,
+      "loss": 4.2592,
+      "step": 78
+    },
+    {
+      "epoch": 0.5223140495867769,
+      "grad_norm": 0.7733540534973145,
+      "learning_rate": 7.575190374550272e-05,
+      "loss": 4.4856,
+      "step": 79
+    },
+    {
+      "epoch": 0.5289256198347108,
+      "grad_norm": 0.6886125802993774,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 4.4077,
+      "step": 80
+    },
+    {
+      "epoch": 0.5355371900826447,
+      "grad_norm": 0.7023859620094299,
+      "learning_rate": 7.424048101231686e-05,
+      "loss": 4.4471,
+      "step": 81
+    },
+    {
+      "epoch": 0.5421487603305785,
+      "grad_norm": 0.733121931552887,
+      "learning_rate": 7.347357813929454e-05,
+      "loss": 4.2295,
+      "step": 82
+    },
+    {
+      "epoch": 0.5487603305785124,
+      "grad_norm": 1.4499454498291016,
+      "learning_rate": 7.269952498697734e-05,
+      "loss": 4.4026,
+      "step": 83
+    },
+    {
+      "epoch": 0.5553719008264463,
+      "grad_norm": 0.795872151851654,
+      "learning_rate": 7.191855733945387e-05,
+      "loss": 4.5716,
+      "step": 84
+    },
+    {
+      "epoch": 0.5619834710743802,
+      "grad_norm": 0.8914481997489929,
+      "learning_rate": 7.113091308703498e-05,
+      "loss": 4.6541,
+      "step": 85
+    },
+    {
+      "epoch": 0.5685950413223141,
+      "grad_norm": 0.9090842008590698,
+      "learning_rate": 7.033683215379002e-05,
+      "loss": 4.3894,
+      "step": 86
+    },
+    {
+      "epoch": 0.5752066115702479,
+      "grad_norm": 0.9541610479354858,
+      "learning_rate": 6.953655642446368e-05,
+      "loss": 4.1603,
+      "step": 87
+    },
+    {
+      "epoch": 0.5818181818181818,
+      "grad_norm": 1.0280675888061523,
+      "learning_rate": 6.873032967079561e-05,
+      "loss": 4.4232,
+      "step": 88
+    },
+    {
+      "epoch": 0.5884297520661157,
+      "grad_norm": 1.1509857177734375,
+      "learning_rate": 6.7918397477265e-05,
+      "loss": 4.442,
+      "step": 89
+    },
+    {
+      "epoch": 0.5950413223140496,
+      "grad_norm": 1.0895159244537354,
+      "learning_rate": 6.710100716628344e-05,
+      "loss": 4.802,
+      "step": 90
+    },
+    {
+      "epoch": 0.6016528925619835,
+      "grad_norm": 1.1312400102615356,
+      "learning_rate": 6.627840772285784e-05,
+      "loss": 4.6077,
+      "step": 91
+    },
+    {
+      "epoch": 0.6082644628099173,
+      "grad_norm": 1.2083485126495361,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 4.686,
+      "step": 92
+    },
+    {
+      "epoch": 0.6148760330578512,
+      "grad_norm": 1.1744060516357422,
+      "learning_rate": 6.461858523613684e-05,
+      "loss": 4.7755,
+      "step": 93
+    },
+    {
+      "epoch": 0.6214876033057851,
+      "grad_norm": 1.1983288526535034,
+      "learning_rate": 6.378186779084995e-05,
+      "loss": 4.5161,
+      "step": 94
+    },
+    {
+      "epoch": 0.628099173553719,
+      "grad_norm": 1.2709901332855225,
+      "learning_rate": 6.294095225512603e-05,
+      "loss": 4.6903,
+      "step": 95
+    },
+    {
+      "epoch": 0.6347107438016529,
+      "grad_norm": 1.2853686809539795,
+      "learning_rate": 6.209609477998338e-05,
+      "loss": 4.8628,
+      "step": 96
+    },
+    {
+      "epoch": 0.6413223140495867,
+      "grad_norm": 1.4955391883850098,
+      "learning_rate": 6.124755271719325e-05,
+      "loss": 5.4237,
+      "step": 97
+    },
+    {
+      "epoch": 0.6479338842975206,
+      "grad_norm": 1.4081076383590698,
+      "learning_rate": 6.0395584540887963e-05,
+      "loss": 5.2527,
+      "step": 98
+    },
+    {
+      "epoch": 0.6545454545454545,
+      "grad_norm": 1.5048182010650635,
+      "learning_rate": 5.9540449768827246e-05,
+      "loss": 4.8745,
+      "step": 99
+    },
+    {
+      "epoch": 0.6611570247933884,
+      "grad_norm": 1.615033507347107,
+      "learning_rate": 5.868240888334653e-05,
+      "loss": 4.8292,
+      "step": 100
+    },
+    {
+      "epoch": 0.6611570247933884,
+      "eval_loss": 1.0880825519561768,
+      "eval_runtime": 14.1578,
+      "eval_samples_per_second": 18.011,
+      "eval_steps_per_second": 9.041,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.101566995654246e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null