Training in progress, step 150, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +362 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:180853fbb6bcf2d5f7ac68de749e95a22f4dcf88f34f1f2d5f8e081f035f4ee5
 size 559894228

 version https://git-lfs.github.com/spec/v1
+oid sha256:23bdcd359014bda8db39885eca2dfc75959e5327e4f43070f3faf0ac261b7dbf
 size 559894228

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26da2ba2aba30772d15371a28d046e092235aa4ea04885bbe32f2f8d58a48748
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eee9404461ca52efa31dea975934f820075fee17c5cdb8b8983b53ee601e90a5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb152f77f9b18cc81985a23832d02ea40de6846b1d709a72dc60d92f828898c5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3dbaf9d7da973a29518f3a3286143bef3aec16f0148ea85d323c8247de2a2fab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 1.606425702811245,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 3.22,
       "eval_steps_per_second": 0.828,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -745,7 +1103,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -759,7 +1117,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7988149023853773e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 2.4096385542168672,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.22,
       "eval_steps_per_second": 0.828,
       "step": 100
+    },
+    {
+      "epoch": 1.6224899598393574,
+      "grad_norm": NaN,
+      "learning_rate": 4.8259910002177846e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 1.6385542168674698,
+      "grad_norm": NaN,
+      "learning_rate": 4.736486201610069e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 1.6546184738955825,
+      "grad_norm": NaN,
+      "learning_rate": 4.64708016695693e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 1.6706827309236947,
+      "grad_norm": NaN,
+      "learning_rate": 4.5578010611863306e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 1.6867469879518073,
+      "grad_norm": NaN,
+      "learning_rate": 4.468677009240751e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 1.7028112449799195,
+      "grad_norm": NaN,
+      "learning_rate": 4.3797360872172044e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 1.7188755020080322,
+      "grad_norm": NaN,
+      "learning_rate": 4.291006313522626e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 1.7349397590361446,
+      "grad_norm": NaN,
+      "learning_rate": 4.202515640047436e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 1.751004016064257,
+      "grad_norm": NaN,
+      "learning_rate": 4.1142919433600734e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 1.7670682730923695,
+      "grad_norm": NaN,
+      "learning_rate": 4.026363015925228e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 1.783132530120482,
+      "grad_norm": NaN,
+      "learning_rate": 3.938756557348597e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 1.7991967871485943,
+      "grad_norm": NaN,
+      "learning_rate": 3.85150016565087e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 1.8152610441767068,
+      "grad_norm": NaN,
+      "learning_rate": 3.764621328573742e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 1.8313253012048194,
+      "grad_norm": NaN,
+      "learning_rate": 3.678147414920635e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 1.8473895582329316,
+      "grad_norm": NaN,
+      "learning_rate": 3.592105665934915e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 1.8634538152610443,
+      "grad_norm": NaN,
+      "learning_rate": 3.5065231867182766e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 1.8795180722891565,
+      "grad_norm": NaN,
+      "learning_rate": 3.42142693769203e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 1.895582329317269,
+      "grad_norm": NaN,
+      "learning_rate": 3.3368437261039466e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 1.9116465863453815,
+      "grad_norm": NaN,
+      "learning_rate": 3.252800197583376e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 1.927710843373494,
+      "grad_norm": NaN,
+      "learning_rate": 3.169322827747261e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 1.9437751004016064,
+      "grad_norm": NaN,
+      "learning_rate": 3.086437913859731e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 1.9598393574297188,
+      "grad_norm": NaN,
+      "learning_rate": 3.0041715665478494e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 1.9759036144578315,
+      "grad_norm": NaN,
+      "learning_rate": 2.9225497015761916e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 1.9919678714859437,
+      "grad_norm": NaN,
+      "learning_rate": 2.8415980316827804e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 2.0080321285140563,
+      "grad_norm": NaN,
+      "learning_rate": 2.7613420584789948e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 2.0240963855421685,
+      "grad_norm": NaN,
+      "learning_rate": 2.6818070644159833e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 2.040160642570281,
+      "grad_norm": NaN,
+      "learning_rate": 2.603018104820117e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 2.0562248995983934,
+      "grad_norm": NaN,
+      "learning_rate": 2.525000000000001e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 2.072289156626506,
+      "grad_norm": NaN,
+      "learning_rate": 2.447777327427502e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 2.0883534136546187,
+      "grad_norm": NaN,
+      "learning_rate": 2.3713744139953008e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 2.104417670682731,
+      "grad_norm": NaN,
+      "learning_rate": 2.2958153283533574e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 2.1204819277108435,
+      "grad_norm": NaN,
+      "learning_rate": 2.221123873326752e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 2.1365461847389557,
+      "grad_norm": NaN,
+      "learning_rate": 2.1473235784172456e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 2.1526104417670684,
+      "grad_norm": NaN,
+      "learning_rate": 2.0744376923909588e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 2.1686746987951806,
+      "grad_norm": NaN,
+      "learning_rate": 2.0024891759544805e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 2.1847389558232932,
+      "grad_norm": NaN,
+      "learning_rate": 1.9315006945217314e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 2.2008032128514055,
+      "grad_norm": NaN,
+      "learning_rate": 1.861494611073834e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 2.216867469879518,
+      "grad_norm": NaN,
+      "learning_rate": 1.7924929791142774e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 2.2329317269076308,
+      "grad_norm": NaN,
+      "learning_rate": 1.7245175357215553e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 2.248995983935743,
+      "grad_norm": NaN,
+      "learning_rate": 1.6575896947014965e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 2.2650602409638556,
+      "grad_norm": NaN,
+      "learning_rate": 1.591730539841434e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 2.281124497991968,
+      "grad_norm": NaN,
+      "learning_rate": 1.5269608182683277e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 2.2971887550200805,
+      "grad_norm": NaN,
+      "learning_rate": 1.4633009339129539e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 2.3132530120481927,
+      "grad_norm": NaN,
+      "learning_rate": 1.4007709410821999e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 2.3293172690763053,
+      "grad_norm": NaN,
+      "learning_rate": 1.3393905381415114e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 2.3453815261044175,
+      "grad_norm": NaN,
+      "learning_rate": 1.279179061309447e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 2.36144578313253,
+      "grad_norm": NaN,
+      "learning_rate": 1.2201554785663463e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 2.3775100401606424,
+      "grad_norm": NaN,
+      "learning_rate": 1.1623383836789728e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 2.393574297188755,
+      "grad_norm": NaN,
+      "learning_rate": 1.1057459903430662e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "grad_norm": NaN,
+      "learning_rate": 1.0503961264456076e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "eval_loss": NaN,
+      "eval_runtime": 27.3269,
+      "eval_samples_per_second": 3.842,
+      "eval_steps_per_second": 0.988,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.1951544387148186e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null