Training in progress, step 26, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +102 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e064a753219bf0515d337a61077c6567323dd2dfa11ee11e1e5b20343a64e157
 size 111454040

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfa5fd4ebc28d2d79721c5c4a813e297c0969a568688f28e26db700235528b3d
 size 111454040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140cd33005366a2167fab040e34e8a650a75679dc0920fa731321f6603502306
 size 56950676

 version https://git-lfs.github.com/spec/v1
+oid sha256:6de704209262516a35655290e289766d3a370f67af246d74e5f800673cdb5cf8
 size 56950676

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31c9ce17ca20e65069daf6154050ddd2bf3826e97c65c0aa79f6676b0e0a0477
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d37f636af35bf52170be315b1730a36b4f8756044a4fc4662aac67b38d04372b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea3a68034a6fca5f7c1565a9344e41aadbdff3752a8799ae94336c8c84c6d63d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa0fde01e60897f55f4ebaca5a490a1a483a2c53b2ae8e7543860a62c5b3298c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.03318442884492661,
   "eval_steps": 13,
-  "global_step": 13,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -114,6 +114,105 @@
       "eval_samples_per_second": 8.75,
       "eval_steps_per_second": 4.401,
       "step": 13
     }
   ],
   "logging_steps": 1,
@@ -133,7 +232,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8748220966502400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06636885768985322,
   "eval_steps": 13,
+  "global_step": 26,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.75,
       "eval_steps_per_second": 4.401,
       "step": 13
+    },
+    {
+      "epoch": 0.035737077217613274,
+      "grad_norm": 0.45682233572006226,
+      "learning_rate": 4.877641290737884e-05,
+      "loss": 4.858,
+      "step": 14
+    },
+    {
+      "epoch": 0.03828972559029994,
+      "grad_norm": 0.5056037306785583,
+      "learning_rate": 4.8096988312782174e-05,
+      "loss": 5.0241,
+      "step": 15
+    },
+    {
+      "epoch": 0.0408423739629866,
+      "grad_norm": 0.5200461745262146,
+      "learning_rate": 4.72751631047092e-05,
+      "loss": 4.9421,
+      "step": 16
+    },
+    {
+      "epoch": 0.04339502233567326,
+      "grad_norm": 0.5702153444290161,
+      "learning_rate": 4.6316004108852305e-05,
+      "loss": 5.3207,
+      "step": 17
+    },
+    {
+      "epoch": 0.04594767070835992,
+      "grad_norm": 0.5843238234519958,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 4.5834,
+      "step": 18
+    },
+    {
+      "epoch": 0.048500319081046586,
+      "grad_norm": 0.6220148801803589,
+      "learning_rate": 4.401014914000078e-05,
+      "loss": 5.3389,
+      "step": 19
+    },
+    {
+      "epoch": 0.05105296745373325,
+      "grad_norm": 0.5212782621383667,
+      "learning_rate": 4.267766952966369e-05,
+      "loss": 4.9851,
+      "step": 20
+    },
+    {
+      "epoch": 0.053605615826419914,
+      "grad_norm": 0.6411041617393494,
+      "learning_rate": 4.123620120825459e-05,
+      "loss": 5.4835,
+      "step": 21
+    },
+    {
+      "epoch": 0.05615826419910657,
+      "grad_norm": 0.509672224521637,
+      "learning_rate": 3.969463130731183e-05,
+      "loss": 4.7967,
+      "step": 22
+    },
+    {
+      "epoch": 0.058710912571793235,
+      "grad_norm": 6.348986625671387,
+      "learning_rate": 3.8062464117898724e-05,
+      "loss": 4.2609,
+      "step": 23
+    },
+    {
+      "epoch": 0.0612635609444799,
+      "grad_norm": 0.5605723261833191,
+      "learning_rate": 3.634976249348867e-05,
+      "loss": 4.7142,
+      "step": 24
+    },
+    {
+      "epoch": 0.06381620931716656,
+      "grad_norm": 0.5585960745811462,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 4.9871,
+      "step": 25
+    },
+    {
+      "epoch": 0.06636885768985322,
+      "grad_norm": 0.5804082155227661,
+      "learning_rate": 3.272542485937369e-05,
+      "loss": 4.8049,
+      "step": 26
+    },
+    {
+      "epoch": 0.06636885768985322,
+      "eval_loss": 1.200016975402832,
+      "eval_runtime": 18.8842,
+      "eval_samples_per_second": 8.737,
+      "eval_steps_per_second": 4.395,
+      "step": 26
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.75813761171456e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null