Training in progress, step 228, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31fbb834535d30942ff8926c5ac856548f98ca3a71f1c2f7d371cb8f822d0e3c
 size 1101095848

 version https://git-lfs.github.com/spec/v1
+oid sha256:0184bb6acc68a58cc0dacb82914e388bbec38f79cd33c854b57afd7c43853aee
 size 1101095848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d315cdc1640f0b8c81f2afdc924fde254c2c741910745b9daca663b83e61a59f
 size 841204242

 version https://git-lfs.github.com/spec/v1
+oid sha256:43853a514527a555e13374ba3f728123fb6f36e697df82e0208e60f943b06b9e
 size 841204242

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21bf96c648c2b81637c2a374c88eb7bd6aaef1de82d55c601d0b411131031f36
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6bc11267b6d9e2f43375eecd976c5fb34f3d1bffe4ba00a0fba984b05edabd9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0398efb9f2d009f44e4675efc73a4fa2f0e6d741b98fe4c59c94a120cfb58052
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3ee55838ad56f50847c88f72590af5e2dcdcbe347ba3d25f77d1eccfe679d3a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9078947368421053,
   "eval_steps": 23,
-  "global_step": 207,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1536,6 +1536,153 @@
       "eval_samples_per_second": 0.365,
       "eval_steps_per_second": 0.365,
       "step": 207
     }
   ],
   "logging_steps": 1,
@@ -1550,12 +1697,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.161249603094315e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 23,
+  "global_step": 228,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.365,
       "eval_steps_per_second": 0.365,
       "step": 207
+    },
+    {
+      "epoch": 0.9122807017543859,
+      "grad_norm": 0.04384492337703705,
+      "learning_rate": 5.928091439526226e-06,
+      "loss": 2.2382,
+      "step": 208
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 0.044699691236019135,
+      "learning_rate": 5.838168799362318e-06,
+      "loss": 2.1484,
+      "step": 209
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 0.043975383043289185,
+      "learning_rate": 5.752744728439006e-06,
+      "loss": 2.208,
+      "step": 210
+    },
+    {
+      "epoch": 0.9254385964912281,
+      "grad_norm": 0.0446508526802063,
+      "learning_rate": 5.671836966996916e-06,
+      "loss": 2.0749,
+      "step": 211
+    },
+    {
+      "epoch": 0.9298245614035088,
+      "grad_norm": 0.04373237490653992,
+      "learning_rate": 5.595462317362849e-06,
+      "loss": 2.372,
+      "step": 212
+    },
+    {
+      "epoch": 0.9342105263157895,
+      "grad_norm": 0.04464460536837578,
+      "learning_rate": 5.523636640460405e-06,
+      "loss": 2.2327,
+      "step": 213
+    },
+    {
+      "epoch": 0.9385964912280702,
+      "grad_norm": 0.05024990811944008,
+      "learning_rate": 5.456374852516083e-06,
+      "loss": 2.1838,
+      "step": 214
+    },
+    {
+      "epoch": 0.9429824561403509,
+      "grad_norm": 0.044989317655563354,
+      "learning_rate": 5.3936909219616205e-06,
+      "loss": 2.373,
+      "step": 215
+    },
+    {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 0.04446178302168846,
+      "learning_rate": 5.335597866533116e-06,
+      "loss": 2.0206,
+      "step": 216
+    },
+    {
+      "epoch": 0.9517543859649122,
+      "grad_norm": 0.0473959781229496,
+      "learning_rate": 5.282107750567588e-06,
+      "loss": 2.0744,
+      "step": 217
+    },
+    {
+      "epoch": 0.956140350877193,
+      "grad_norm": 0.046764299273490906,
+      "learning_rate": 5.233231682497572e-06,
+      "loss": 2.0287,
+      "step": 218
+    },
+    {
+      "epoch": 0.9605263157894737,
+      "grad_norm": 0.042999010533094406,
+      "learning_rate": 5.1889798125441795e-06,
+      "loss": 2.3255,
+      "step": 219
+    },
+    {
+      "epoch": 0.9649122807017544,
+      "grad_norm": 0.04476455599069595,
+      "learning_rate": 5.149361330609188e-06,
+      "loss": 2.3038,
+      "step": 220
+    },
+    {
+      "epoch": 0.9692982456140351,
+      "grad_norm": 0.04403753951191902,
+      "learning_rate": 5.114384464366541e-06,
+      "loss": 2.2972,
+      "step": 221
+    },
+    {
+      "epoch": 0.9736842105263158,
+      "grad_norm": 0.04389164224267006,
+      "learning_rate": 5.084056477553695e-06,
+      "loss": 2.2914,
+      "step": 222
+    },
+    {
+      "epoch": 0.9780701754385965,
+      "grad_norm": 0.044895585626363754,
+      "learning_rate": 5.058383668463131e-06,
+      "loss": 2.2486,
+      "step": 223
+    },
+    {
+      "epoch": 0.9824561403508771,
+      "grad_norm": 0.04405970871448517,
+      "learning_rate": 5.0373713686343774e-06,
+      "loss": 2.1718,
+      "step": 224
+    },
+    {
+      "epoch": 0.9868421052631579,
+      "grad_norm": 0.04554829001426697,
+      "learning_rate": 5.021023941746794e-06,
+      "loss": 2.1137,
+      "step": 225
+    },
+    {
+      "epoch": 0.9912280701754386,
+      "grad_norm": 0.041737962514162064,
+      "learning_rate": 5.009344782713349e-06,
+      "loss": 2.2621,
+      "step": 226
+    },
+    {
+      "epoch": 0.9956140350877193,
+      "grad_norm": 0.04512747749686241,
+      "learning_rate": 5.0023363169756045e-06,
+      "loss": 2.3551,
+      "step": 227
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.04331080988049507,
+      "learning_rate": 5e-06,
+      "loss": 2.2325,
+      "step": 228
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2790575338430136e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null