Training in progress, step 100, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec8bb9876b950b4ec347c082474b339ec10789cfd00d65bda70be901b8c78df8
 size 1342555602

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bf62cc25f9f83c3e7a97be3338f5c2803cac5758decff134d3dc14fc3ee2f17
 size 1342555602

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9abb28840da626b38e1ad0b80241ee8ae3a3d67d0a371020489b76c4d268998e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:83a2cd58fa855f2151865bd4ce73d8952354447247cbf7ba6b087472fde7a9b5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d90116c540b4ff0066495fbccc9c914a568905fb44c6564f227952cc4231b00
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:03ad66011cfc1fc727a51190602a41adc332b48eeef62a5ee87c2ca9f9b90b2b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.06958942240779402,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 7.668,
       "eval_steps_per_second": 1.923,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -387,7 +745,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -396,12 +754,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.933547569302733e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": NaN,
   "best_model_checkpoint": "miner_id_24/checkpoint-50",
+  "epoch": 0.13917884481558804,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.668,
       "eval_steps_per_second": 1.923,
       "step": 50
+    },
+    {
+      "epoch": 0.0709812108559499,
+      "grad_norm": NaN,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.07237299930410578,
+      "grad_norm": NaN,
+      "learning_rate": 2.3263454721781537e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.07376478775226165,
+      "grad_norm": NaN,
+      "learning_rate": 2.2693489161088592e-05,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.07515657620041753,
+      "grad_norm": NaN,
+      "learning_rate": 2.210802993709498e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.07654836464857341,
+      "grad_norm": NaN,
+      "learning_rate": 2.1508256086763372e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.0779401530967293,
+      "grad_norm": NaN,
+      "learning_rate": 2.0895375474808857e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.07933194154488518,
+      "grad_norm": NaN,
+      "learning_rate": 2.0270622361220143e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.08072372999304106,
+      "grad_norm": NaN,
+      "learning_rate": 1.963525491562421e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.08211551844119694,
+      "grad_norm": NaN,
+      "learning_rate": 1.8990552683500128e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.08350730688935282,
+      "grad_norm": NaN,
+      "learning_rate": 1.8337814009344716e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.0848990953375087,
+      "grad_norm": NaN,
+      "learning_rate": 1.767835342197955e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.08629088378566457,
+      "grad_norm": NaN,
+      "learning_rate": 1.7013498987264832e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.08768267223382047,
+      "grad_norm": NaN,
+      "learning_rate": 1.6344589633551502e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.08907446068197634,
+      "grad_norm": NaN,
+      "learning_rate": 1.5672972455257726e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.09046624913013222,
+      "grad_norm": NaN,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.0918580375782881,
+      "grad_norm": NaN,
+      "learning_rate": 1.4327027544742281e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.09324982602644398,
+      "grad_norm": NaN,
+      "learning_rate": 1.36554103664485e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.09464161447459986,
+      "grad_norm": NaN,
+      "learning_rate": 1.2986501012735174e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.09603340292275574,
+      "grad_norm": NaN,
+      "learning_rate": 1.2321646578020452e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.09742519137091162,
+      "grad_norm": NaN,
+      "learning_rate": 1.1662185990655285e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.09881697981906751,
+      "grad_norm": NaN,
+      "learning_rate": 1.1009447316499875e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.10020876826722339,
+      "grad_norm": NaN,
+      "learning_rate": 1.036474508437579e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.10160055671537926,
+      "grad_norm": NaN,
+      "learning_rate": 9.729377638779859e-06,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.10299234516353514,
+      "grad_norm": NaN,
+      "learning_rate": 9.104624525191147e-06,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.10438413361169102,
+      "grad_norm": NaN,
+      "learning_rate": 8.491743913236629e-06,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.1057759220598469,
+      "grad_norm": NaN,
+      "learning_rate": 7.89197006290502e-06,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.10716771050800278,
+      "grad_norm": NaN,
+      "learning_rate": 7.30651083891141e-06,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.10855949895615867,
+      "grad_norm": NaN,
+      "learning_rate": 6.736545278218464e-06,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.10995128740431455,
+      "grad_norm": NaN,
+      "learning_rate": 6.1832212156129045e-06,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.11134307585247043,
+      "grad_norm": NaN,
+      "learning_rate": 5.647652972118998e-06,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.1127348643006263,
+      "grad_norm": NaN,
+      "learning_rate": 5.130919110904311e-06,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.11412665274878218,
+      "grad_norm": NaN,
+      "learning_rate": 4.6340602651970304e-06,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.11551844119693806,
+      "grad_norm": NaN,
+      "learning_rate": 4.158077042589129e-06,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.11691022964509394,
+      "grad_norm": NaN,
+      "learning_rate": 3.7039280099458373e-06,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.11830201809324982,
+      "grad_norm": NaN,
+      "learning_rate": 3.272527762979553e-06,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.11969380654140571,
+      "grad_norm": NaN,
+      "learning_rate": 2.86474508437579e-06,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.12108559498956159,
+      "grad_norm": NaN,
+      "learning_rate": 2.4814011941804603e-06,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.12247738343771747,
+      "grad_norm": NaN,
+      "learning_rate": 2.1232680959720085e-06,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.12386917188587335,
+      "grad_norm": NaN,
+      "learning_rate": 1.79106702214893e-06,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.12526096033402923,
+      "grad_norm": NaN,
+      "learning_rate": 1.4854669814637145e-06,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.1266527487821851,
+      "grad_norm": NaN,
+      "learning_rate": 1.2070834117282414e-06,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.12804453723034098,
+      "grad_norm": NaN,
+      "learning_rate": 9.56476940403942e-07,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.12943632567849686,
+      "grad_norm": NaN,
+      "learning_rate": 7.341522555726971e-07,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.13082811412665274,
+      "grad_norm": NaN,
+      "learning_rate": 5.405570895622014e-07,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.13221990257480862,
+      "grad_norm": NaN,
+      "learning_rate": 3.760813172726457e-07,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.1336116910229645,
+      "grad_norm": NaN,
+      "learning_rate": 2.41056171020555e-07,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.1350034794711204,
+      "grad_norm": NaN,
+      "learning_rate": 1.357535734809795e-07,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.13639526791927628,
+      "grad_norm": NaN,
+      "learning_rate": 6.038559007141397e-08,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.13778705636743216,
+      "grad_norm": NaN,
+      "learning_rate": 1.510400188028116e-08,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.13917884481558804,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.13917884481558804,
+      "eval_loss": NaN,
+      "eval_runtime": 39.2007,
+      "eval_samples_per_second": 7.729,
+      "eval_steps_per_second": 1.939,
+      "step": 100
     }
   ],
   "logging_steps": 1,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.938645079320166e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null