Training in progress, step 272, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5f938f590c16a2da7e7003b5726decdca766113cb8c6bf1132392eec1032131
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3b18860fdd8bcf71debab5f74b6ead522adcbd9c9319c1fd8778303b021cf38
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:242a26a061ea5d980a98bce60edfbf0494218ef54aba0d781b0dca84f1a1c629
-size 82460660

 version https://git-lfs.github.com/spec/v1
+oid sha256:8521efcd8a6f8eeefb342b5c7eddb1107b80c2459403feed9249188c27e0879d
+size 82461044

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:771fda137b95b0a53343c99caba02f0ddc4fde33ba4274f7584011ab1e463479
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac3a037aee2862ad5a8302e2a82cb10c0b9d1880fba19ac4994d90b3f85cd339
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbcef9424696e41c7961bd91f0570d39d59ef33af28ed19a0eb9e4f50ed1b09a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3520b6e9bfde48b403dd6f4096e526132e910f4d92bd802fb2e831d46f8ad41f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08024275118004046,
   "eval_steps": 34,
-  "global_step": 238,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -624,6 +624,91 @@
       "eval_samples_per_second": 14.626,
       "eval_steps_per_second": 1.83,
       "step": 238
     }
   ],
   "logging_steps": 3,
@@ -643,7 +728,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3274241802357965e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09170600134861767,
   "eval_steps": 34,
+  "global_step": 272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.626,
       "eval_steps_per_second": 1.83,
       "step": 238
+    },
+    {
+      "epoch": 0.08091706001348618,
+      "grad_norm": 1.521083116531372,
+      "learning_rate": 1.8044563402088684e-05,
+      "loss": 0.4579,
+      "step": 240
+    },
+    {
+      "epoch": 0.08192852326365475,
+      "grad_norm": 1.1534286737442017,
+      "learning_rate": 1.746635141803761e-05,
+      "loss": 0.3893,
+      "step": 243
+    },
+    {
+      "epoch": 0.08293998651382332,
+      "grad_norm": 1.179457426071167,
+      "learning_rate": 1.6892538872607937e-05,
+      "loss": 0.428,
+      "step": 246
+    },
+    {
+      "epoch": 0.08395144976399191,
+      "grad_norm": 1.498482346534729,
+      "learning_rate": 1.6323460856167426e-05,
+      "loss": 0.414,
+      "step": 249
+    },
+    {
+      "epoch": 0.08496291301416048,
+      "grad_norm": 1.3838918209075928,
+      "learning_rate": 1.5759449694252226e-05,
+      "loss": 0.4113,
+      "step": 252
+    },
+    {
+      "epoch": 0.08597437626432906,
+      "grad_norm": 1.2871530055999756,
+      "learning_rate": 1.5200834753498128e-05,
+      "loss": 0.4945,
+      "step": 255
+    },
+    {
+      "epoch": 0.08698583951449763,
+      "grad_norm": 1.1573866605758667,
+      "learning_rate": 1.4647942249299707e-05,
+      "loss": 0.4448,
+      "step": 258
+    },
+    {
+      "epoch": 0.08799730276466622,
+      "grad_norm": 1.2284533977508545,
+      "learning_rate": 1.4101095055309746e-05,
+      "loss": 0.4248,
+      "step": 261
+    },
+    {
+      "epoch": 0.08900876601483479,
+      "grad_norm": 1.3865326642990112,
+      "learning_rate": 1.356061251489012e-05,
+      "loss": 0.5,
+      "step": 264
+    },
+    {
+      "epoch": 0.09002022926500337,
+      "grad_norm": 1.0498360395431519,
+      "learning_rate": 1.302681025462424e-05,
+      "loss": 0.3297,
+      "step": 267
+    },
+    {
+      "epoch": 0.09103169251517194,
+      "grad_norm": 1.1438897848129272,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.4251,
+      "step": 270
+    },
+    {
+      "epoch": 0.09170600134861767,
+      "eval_loss": 0.409618616104126,
+      "eval_runtime": 341.4948,
+      "eval_samples_per_second": 14.627,
+      "eval_steps_per_second": 1.83,
+      "step": 272
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 3.802770491698053e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null