Training in progress, step 150, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:300976821366fa433581e83b77c310d2cf826a000248e03e6e1d4f3229ab0847
 size 48679352

 version https://git-lfs.github.com/spec/v1
+oid sha256:053cb8f76fc41f5bfe9704e91836299832a2a246d762e4f05fd274b5ff20f8bb
 size 48679352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25d98b6e660a9cabc8ec4d1a08bd51db6113138ddc5b9b1fdd37bd8ab5e4c8cc
 size 97585002

 version https://git-lfs.github.com/spec/v1
+oid sha256:c32447458daa8d16702ef6f2e735f6a551622410b6f0267a1724b7b74542ab1e
 size 97585002

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6f6b53e9eacb699494d511b24bc878e64d16f4d974c281f0a9414e69136d87f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:203ba680c133ba1e747e24ab19bbd4c6347d511c0188c7476fec2ee1a3f9ce00
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bb453182364d3906a50f1f1fa3e1051762c69e9420112b9a24cef7914db0877
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:246e30b34b6000b9bd44f0e6e962677e838a6e1ba2b16a7d13880ed5e8b7b415
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:626fb397ca7e7b23f6708c5110310ad37960800dad72ccd6d50712d9a7e88d6d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cca77b78ad60850baaae873a88d4ee09734c23eea65520af712ae8ebe4b3f78c
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40cc145bb02a026a740b13ee6b5fdac52a8a09c4328c108475f1eebeee620df3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8c9771df92c952a37068fbebb573f983700d39ed62007071fe9f51f154fc3ca
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e923a699244fcf98fc0f711b7a886c24a67c62a278ad91279b514e60ae5d4d0e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e2cbf161ff6bcb4f44ffee985cadc63b2634e2ed9f01b220e474866148af092
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.5337885022163391,
-  "best_model_checkpoint": "miner_id_24/checkpoint-100",
-  "epoch": 0.5739910313901345,
   "eval_steps": 25,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -747,6 +747,372 @@
       "eval_samples_per_second": 54.242,
       "eval_steps_per_second": 14.103,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -775,7 +1141,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.906646436037263e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5081304907798767,
+  "best_model_checkpoint": "miner_id_24/checkpoint-150",
+  "epoch": 0.8609865470852018,
   "eval_steps": 25,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 54.242,
       "eval_steps_per_second": 14.103,
       "step": 100
+    },
+    {
+      "epoch": 0.5797309417040358,
+      "grad_norm": 0.2608706057071686,
+      "learning_rate": 0.00014947546146846748,
+      "loss": 0.3916,
+      "step": 101
+    },
+    {
+      "epoch": 0.5854708520179372,
+      "grad_norm": 0.379069447517395,
+      "learning_rate": 0.0001484799584087254,
+      "loss": 0.566,
+      "step": 102
+    },
+    {
+      "epoch": 0.5912107623318386,
+      "grad_norm": 0.3914828598499298,
+      "learning_rate": 0.00014747866040878738,
+      "loss": 0.6203,
+      "step": 103
+    },
+    {
+      "epoch": 0.5969506726457399,
+      "grad_norm": 0.4011947512626648,
+      "learning_rate": 0.00014647171826044907,
+      "loss": 0.5886,
+      "step": 104
+    },
+    {
+      "epoch": 0.6026905829596413,
+      "grad_norm": 0.38338544964790344,
+      "learning_rate": 0.00014545928360549436,
+      "loss": 0.5889,
+      "step": 105
+    },
+    {
+      "epoch": 0.6084304932735426,
+      "grad_norm": 0.40191414952278137,
+      "learning_rate": 0.00014444150891285807,
+      "loss": 0.5612,
+      "step": 106
+    },
+    {
+      "epoch": 0.6141704035874439,
+      "grad_norm": 0.3976474404335022,
+      "learning_rate": 0.00014341854745566538,
+      "loss": 0.5905,
+      "step": 107
+    },
+    {
+      "epoch": 0.6199103139013453,
+      "grad_norm": 0.3555368185043335,
+      "learning_rate": 0.00014239055328814894,
+      "loss": 0.5735,
+      "step": 108
+    },
+    {
+      "epoch": 0.6256502242152466,
+      "grad_norm": 0.3123275935649872,
+      "learning_rate": 0.0001413576812224491,
+      "loss": 0.5211,
+      "step": 109
+    },
+    {
+      "epoch": 0.6313901345291479,
+      "grad_norm": 0.35772255063056946,
+      "learning_rate": 0.0001403200868052998,
+      "loss": 0.5413,
+      "step": 110
+    },
+    {
+      "epoch": 0.6371300448430494,
+      "grad_norm": 0.34592434763908386,
+      "learning_rate": 0.00013927792629460367,
+      "loss": 0.5764,
+      "step": 111
+    },
+    {
+      "epoch": 0.6428699551569507,
+      "grad_norm": 0.33390721678733826,
+      "learning_rate": 0.00013823135663590025,
+      "loss": 0.5225,
+      "step": 112
+    },
+    {
+      "epoch": 0.648609865470852,
+      "grad_norm": 0.21307708323001862,
+      "learning_rate": 0.00013718053543873056,
+      "loss": 0.3379,
+      "step": 113
+    },
+    {
+      "epoch": 0.6543497757847534,
+      "grad_norm": 0.41324618458747864,
+      "learning_rate": 0.0001361256209529016,
+      "loss": 0.538,
+      "step": 114
+    },
+    {
+      "epoch": 0.6600896860986547,
+      "grad_norm": 0.4129272997379303,
+      "learning_rate": 0.00013506677204465475,
+      "loss": 0.5736,
+      "step": 115
+    },
+    {
+      "epoch": 0.665829596412556,
+      "grad_norm": 0.39694082736968994,
+      "learning_rate": 0.00013400414817274088,
+      "loss": 0.5951,
+      "step": 116
+    },
+    {
+      "epoch": 0.6715695067264574,
+      "grad_norm": 0.4103195369243622,
+      "learning_rate": 0.00013293790936440633,
+      "loss": 0.5936,
+      "step": 117
+    },
+    {
+      "epoch": 0.6773094170403587,
+      "grad_norm": 0.3834230303764343,
+      "learning_rate": 0.00013186821619129378,
+      "loss": 0.5769,
+      "step": 118
+    },
+    {
+      "epoch": 0.68304932735426,
+      "grad_norm": 0.40706706047058105,
+      "learning_rate": 0.00013079522974526042,
+      "loss": 0.5666,
+      "step": 119
+    },
+    {
+      "epoch": 0.6887892376681615,
+      "grad_norm": 0.3616923689842224,
+      "learning_rate": 0.00012971911161411827,
+      "loss": 0.5568,
+      "step": 120
+    },
+    {
+      "epoch": 0.6945291479820628,
+      "grad_norm": 0.32444703578948975,
+      "learning_rate": 0.00012864002385729967,
+      "loss": 0.5424,
+      "step": 121
+    },
+    {
+      "epoch": 0.7002690582959641,
+      "grad_norm": 0.34600815176963806,
+      "learning_rate": 0.00012755812898145155,
+      "loss": 0.5415,
+      "step": 122
+    },
+    {
+      "epoch": 0.7060089686098655,
+      "grad_norm": 0.41751474142074585,
+      "learning_rate": 0.0001264735899159627,
+      "loss": 0.5645,
+      "step": 123
+    },
+    {
+      "epoch": 0.7117488789237668,
+      "grad_norm": 0.3468458950519562,
+      "learning_rate": 0.00012538656998842713,
+      "loss": 0.4588,
+      "step": 124
+    },
+    {
+      "epoch": 0.7174887892376681,
+      "grad_norm": 0.4765909016132355,
+      "learning_rate": 0.00012429723290004752,
+      "loss": 0.5565,
+      "step": 125
+    },
+    {
+      "epoch": 0.7174887892376681,
+      "eval_loss": 0.5193074941635132,
+      "eval_runtime": 0.9221,
+      "eval_samples_per_second": 54.225,
+      "eval_steps_per_second": 14.098,
+      "step": 125
+    },
+    {
+      "epoch": 0.7232286995515695,
+      "grad_norm": 0.27293744683265686,
+      "learning_rate": 0.00012320574270098254,
+      "loss": 0.3958,
+      "step": 126
+    },
+    {
+      "epoch": 0.7289686098654709,
+      "grad_norm": 0.37524548172950745,
+      "learning_rate": 0.00012211226376564137,
+      "loss": 0.5386,
+      "step": 127
+    },
+    {
+      "epoch": 0.7347085201793722,
+      "grad_norm": 0.3265777826309204,
+      "learning_rate": 0.00012101696076792946,
+      "loss": 0.5729,
+      "step": 128
+    },
+    {
+      "epoch": 0.7404484304932736,
+      "grad_norm": 0.3645853102207184,
+      "learning_rate": 0.00011991999865644949,
+      "loss": 0.6049,
+      "step": 129
+    },
+    {
+      "epoch": 0.7461883408071749,
+      "grad_norm": 0.39641687273979187,
+      "learning_rate": 0.0001188215426296605,
+      "loss": 0.5868,
+      "step": 130
+    },
+    {
+      "epoch": 0.7519282511210762,
+      "grad_norm": 0.3878898620605469,
+      "learning_rate": 0.00011772175811099962,
+      "loss": 0.5686,
+      "step": 131
+    },
+    {
+      "epoch": 0.7576681614349776,
+      "grad_norm": 0.38877856731414795,
+      "learning_rate": 0.00011662081072397009,
+      "loss": 0.5596,
+      "step": 132
+    },
+    {
+      "epoch": 0.7634080717488789,
+      "grad_norm": 0.3513187766075134,
+      "learning_rate": 0.00011551886626719879,
+      "loss": 0.5512,
+      "step": 133
+    },
+    {
+      "epoch": 0.7691479820627802,
+      "grad_norm": 0.33318498730659485,
+      "learning_rate": 0.00011441609068946764,
+      "loss": 0.5654,
+      "step": 134
+    },
+    {
+      "epoch": 0.7748878923766817,
+      "grad_norm": 0.38084232807159424,
+      "learning_rate": 0.00011331265006472231,
+      "loss": 0.5368,
+      "step": 135
+    },
+    {
+      "epoch": 0.780627802690583,
+      "grad_norm": 0.40014737844467163,
+      "learning_rate": 0.00011220871056706212,
+      "loss": 0.5569,
+      "step": 136
+    },
+    {
+      "epoch": 0.7863677130044843,
+      "grad_norm": 0.40615227818489075,
+      "learning_rate": 0.0001111044384457148,
+      "loss": 0.5602,
+      "step": 137
+    },
+    {
+      "epoch": 0.7921076233183857,
+      "grad_norm": 0.20240327715873718,
+      "learning_rate": 0.00011000000000000002,
+      "loss": 0.2802,
+      "step": 138
+    },
+    {
+      "epoch": 0.797847533632287,
+      "grad_norm": 0.4555722177028656,
+      "learning_rate": 0.00010889556155428522,
+      "loss": 0.5397,
+      "step": 139
+    },
+    {
+      "epoch": 0.8035874439461883,
+      "grad_norm": 0.3639007806777954,
+      "learning_rate": 0.0001077912894329379,
+      "loss": 0.5589,
+      "step": 140
+    },
+    {
+      "epoch": 0.8093273542600897,
+      "grad_norm": 0.3477562665939331,
+      "learning_rate": 0.00010668734993527771,
+      "loss": 0.5665,
+      "step": 141
+    },
+    {
+      "epoch": 0.815067264573991,
+      "grad_norm": 0.32893893122673035,
+      "learning_rate": 0.0001055839093105324,
+      "loss": 0.6049,
+      "step": 142
+    },
+    {
+      "epoch": 0.8208071748878923,
+      "grad_norm": 0.3630063533782959,
+      "learning_rate": 0.00010448113373280125,
+      "loss": 0.566,
+      "step": 143
+    },
+    {
+      "epoch": 0.8265470852017938,
+      "grad_norm": 0.4404502213001251,
+      "learning_rate": 0.00010337918927602994,
+      "loss": 0.5496,
+      "step": 144
+    },
+    {
+      "epoch": 0.8322869955156951,
+      "grad_norm": 0.4184599816799164,
+      "learning_rate": 0.00010227824188900043,
+      "loss": 0.5382,
+      "step": 145
+    },
+    {
+      "epoch": 0.8380269058295964,
+      "grad_norm": 0.3810145854949951,
+      "learning_rate": 0.00010117845737033956,
+      "loss": 0.5412,
+      "step": 146
+    },
+    {
+      "epoch": 0.8437668161434978,
+      "grad_norm": 0.37553566694259644,
+      "learning_rate": 0.00010008000134355053,
+      "loss": 0.5264,
+      "step": 147
+    },
+    {
+      "epoch": 0.8495067264573991,
+      "grad_norm": 0.35165223479270935,
+      "learning_rate": 9.898303923207055e-05,
+      "loss": 0.5131,
+      "step": 148
+    },
+    {
+      "epoch": 0.8552466367713004,
+      "grad_norm": 0.41181644797325134,
+      "learning_rate": 9.788773623435865e-05,
+      "loss": 0.5279,
+      "step": 149
+    },
+    {
+      "epoch": 0.8609865470852018,
+      "grad_norm": 0.47862258553504944,
+      "learning_rate": 9.679425729901746e-05,
+      "loss": 0.5313,
+      "step": 150
+    },
+    {
+      "epoch": 0.8609865470852018,
+      "eval_loss": 0.5081304907798767,
+      "eval_runtime": 0.9227,
+      "eval_samples_per_second": 54.191,
+      "eval_steps_per_second": 14.09,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.336101323447206e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null