Training in progress, step 2400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b50df0d26d180087225139d1cbccb1e4f8988f3ba78da80175de8d2ccb715425
 size 653434568

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbbae645955e4b08b9adb4332c2a3fa1333fd7e3b873cd110fb3133e27e1f642
 size 653434568

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1349d7c7820ba989d22e9c3dafb981ed735ef01b3315b8e5cfd62c75bb5677b0
 size 1288533754

 version https://git-lfs.github.com/spec/v1
+oid sha256:a895dc6347988ee7d21290f36a1a0888df619f8426f81d076b7e3887e811b749
 size 1288533754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2aee148c55266a4fa01d336e6c825eb6826c0bacd0e25635305678a84af39fc7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb42fb8f2d70da71e5001efb218126512515054d130cd6dcd017d036e0a538be
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5c8c9c4d7ddd30debc6fb341973ff9c39ea0dc55bc39bc535243ffe8a16ce90
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1fe9c3f91db580a8b6ede7b15e0466000f08c889875e4652a5c9ec9f77e1fab
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5997846126556396,
-  "best_model_checkpoint": "./output/checkpoint-2250",
-  "epoch": 0.19950345805993971,
   "eval_steps": 150,
-  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1702,6 +1702,119 @@
       "eval_samples_per_second": 8.41,
       "eval_steps_per_second": 8.41,
       "step": 2250
     }
   ],
   "logging_steps": 10,
@@ -1721,7 +1834,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.577803153093755e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.5888803005218506,
+  "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 0.21280368859726903,
   "eval_steps": 150,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.41,
       "eval_steps_per_second": 8.41,
       "step": 2250
+    },
+    {
+      "epoch": 0.20039014009576167,
+      "grad_norm": 13.114813804626465,
+      "learning_rate": 5.9243078060868454e-05,
+      "loss": 1.5787,
+      "step": 2260
+    },
+    {
+      "epoch": 0.20127682213158363,
+      "grad_norm": 6.7087321281433105,
+      "learning_rate": 5.8927844739931854e-05,
+      "loss": 1.3785,
+      "step": 2270
+    },
+    {
+      "epoch": 0.20216350416740556,
+      "grad_norm": 6.644030570983887,
+      "learning_rate": 5.8612244430265966e-05,
+      "loss": 1.5126,
+      "step": 2280
+    },
+    {
+      "epoch": 0.2030501862032275,
+      "grad_norm": 10.291509628295898,
+      "learning_rate": 5.829629010496342e-05,
+      "loss": 1.4863,
+      "step": 2290
+    },
+    {
+      "epoch": 0.20393686823904947,
+      "grad_norm": 6.426754951477051,
+      "learning_rate": 5.797999475166898e-05,
+      "loss": 1.5586,
+      "step": 2300
+    },
+    {
+      "epoch": 0.20482355027487142,
+      "grad_norm": 9.044095039367676,
+      "learning_rate": 5.766337137204581e-05,
+      "loss": 1.5063,
+      "step": 2310
+    },
+    {
+      "epoch": 0.20571023231069338,
+      "grad_norm": 8.852991104125977,
+      "learning_rate": 5.734643298124092e-05,
+      "loss": 1.7211,
+      "step": 2320
+    },
+    {
+      "epoch": 0.20659691434651534,
+      "grad_norm": 73.65837860107422,
+      "learning_rate": 5.702919260735016e-05,
+      "loss": 1.5191,
+      "step": 2330
+    },
+    {
+      "epoch": 0.2074835963823373,
+      "grad_norm": 8.413342475891113,
+      "learning_rate": 5.671166329088279e-05,
+      "loss": 1.5013,
+      "step": 2340
+    },
+    {
+      "epoch": 0.20837027841815925,
+      "grad_norm": 6.938820838928223,
+      "learning_rate": 5.639385808422532e-05,
+      "loss": 1.5099,
+      "step": 2350
+    },
+    {
+      "epoch": 0.2092569604539812,
+      "grad_norm": 7.757599353790283,
+      "learning_rate": 5.6075790051105044e-05,
+      "loss": 1.5848,
+      "step": 2360
+    },
+    {
+      "epoch": 0.21014364248980316,
+      "grad_norm": 7.502821445465088,
+      "learning_rate": 5.5757472266052994e-05,
+      "loss": 1.7166,
+      "step": 2370
+    },
+    {
+      "epoch": 0.21103032452562512,
+      "grad_norm": 11.332352638244629,
+      "learning_rate": 5.543891781386657e-05,
+      "loss": 1.671,
+      "step": 2380
+    },
+    {
+      "epoch": 0.21191700656144707,
+      "grad_norm": 7.515905380249023,
+      "learning_rate": 5.512013978907158e-05,
+      "loss": 1.6298,
+      "step": 2390
+    },
+    {
+      "epoch": 0.21280368859726903,
+      "grad_norm": 6.094747543334961,
+      "learning_rate": 5.4801151295384105e-05,
+      "loss": 1.5135,
+      "step": 2400
+    },
+    {
+      "epoch": 0.21280368859726903,
+      "eval_loss": 1.5888803005218506,
+      "eval_runtime": 59.4453,
+      "eval_samples_per_second": 8.411,
+      "eval_steps_per_second": 8.411,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.081845027159081e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null