Training in progress, step 3900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c66c562a5853f6fb7fbdca9387ecc49bd018ff283301b7a1084d91a2cdb51062
 size 39131224

 version https://git-lfs.github.com/spec/v1
+oid sha256:09aad91489281aa46d111f68fded42b77aab4c9128cec9984635fd689a01e3fb
 size 39131224

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fceb2f46f3daf2430a6b0e34d7b2ff2bdec2304fd1d323e96cd214475f30db1
 size 78504766

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1532bb48cd00bccff557e8256c5a172e9ae72064bce13296fde1d1d4f71114d
 size 78504766

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e74313bf6c4504de4d8880cc78df70080bc0d75747aee5cbb39f9abd0bf109ae
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:87dc5632ebf3c5289ed0c68a963f97e38fc4f56383d0e0add7df2752b51604ba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:607202c5623a0d7c32f1c23cdb843f56835e006025f9cf66875098e00a1be2b7
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:6952ca8c366d31ce68c6f3aa858eaa30f20b96aa4ac7725ee518bac50e5f06f7
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.5047594904899597,
   "best_model_checkpoint": "./output/checkpoint-3000",
-  "epoch": 7.129277566539924,
   "eval_steps": 150,
-  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2832,6 +2832,119 @@
       "eval_samples_per_second": 9.992,
       "eval_steps_per_second": 9.992,
       "step": 3750
     }
   ],
   "logging_steps": 10,
@@ -2851,7 +2964,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3826482960319488.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.5047594904899597,
   "best_model_checkpoint": "./output/checkpoint-3000",
+  "epoch": 7.414448669201521,
   "eval_steps": 150,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.992,
       "eval_steps_per_second": 9.992,
       "step": 3750
+    },
+    {
+      "epoch": 7.14828897338403,
+      "grad_norm": 0.4247870147228241,
+      "learning_rate": 1.8732884035296582e-05,
+      "loss": 0.0146,
+      "step": 3760
+    },
+    {
+      "epoch": 7.167300380228137,
+      "grad_norm": 0.7434565424919128,
+      "learning_rate": 1.844772657802428e-05,
+      "loss": 0.0192,
+      "step": 3770
+    },
+    {
+      "epoch": 7.186311787072244,
+      "grad_norm": 1.7033151388168335,
+      "learning_rate": 1.8164379937171382e-05,
+      "loss": 0.0192,
+      "step": 3780
+    },
+    {
+      "epoch": 7.20532319391635,
+      "grad_norm": 1.1659843921661377,
+      "learning_rate": 1.7882855760008547e-05,
+      "loss": 0.0185,
+      "step": 3790
+    },
+    {
+      "epoch": 7.224334600760456,
+      "grad_norm": 0.6887686848640442,
+      "learning_rate": 1.760316561889203e-05,
+      "loss": 0.0165,
+      "step": 3800
+    },
+    {
+      "epoch": 7.243346007604563,
+      "grad_norm": 0.6986510753631592,
+      "learning_rate": 1.7325321010788034e-05,
+      "loss": 0.0247,
+      "step": 3810
+    },
+    {
+      "epoch": 7.262357414448669,
+      "grad_norm": 0.3889031410217285,
+      "learning_rate": 1.7049333356800167e-05,
+      "loss": 0.0155,
+      "step": 3820
+    },
+    {
+      "epoch": 7.281368821292776,
+      "grad_norm": 0.5668617486953735,
+      "learning_rate": 1.6775214001699914e-05,
+      "loss": 0.014,
+      "step": 3830
+    },
+    {
+      "epoch": 7.300380228136882,
+      "grad_norm": 0.600253164768219,
+      "learning_rate": 1.6502974213460316e-05,
+      "loss": 0.0172,
+      "step": 3840
+    },
+    {
+      "epoch": 7.319391634980988,
+      "grad_norm": 3.6719555854797363,
+      "learning_rate": 1.623262518279279e-05,
+      "loss": 0.0188,
+      "step": 3850
+    },
+    {
+      "epoch": 7.338403041825095,
+      "grad_norm": 0.4451853334903717,
+      "learning_rate": 1.596417802268707e-05,
+      "loss": 0.0176,
+      "step": 3860
+    },
+    {
+      "epoch": 7.357414448669202,
+      "grad_norm": 0.7403327822685242,
+      "learning_rate": 1.5697643767954488e-05,
+      "loss": 0.0201,
+      "step": 3870
+    },
+    {
+      "epoch": 7.3764258555133075,
+      "grad_norm": 0.43177762627601624,
+      "learning_rate": 1.543303337477432e-05,
+      "loss": 0.0158,
+      "step": 3880
+    },
+    {
+      "epoch": 7.395437262357414,
+      "grad_norm": 0.5685768127441406,
+      "learning_rate": 1.517035772024343e-05,
+      "loss": 0.0158,
+      "step": 3890
+    },
+    {
+      "epoch": 7.414448669201521,
+      "grad_norm": 0.24146628379821777,
+      "learning_rate": 1.49096276019291e-05,
+      "loss": 0.0212,
+      "step": 3900
+    },
+    {
+      "epoch": 7.414448669201521,
+      "eval_loss": 0.5245772004127502,
+      "eval_runtime": 47.7948,
+      "eval_samples_per_second": 9.792,
+      "eval_steps_per_second": 9.792,
+      "step": 3900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3979633349551104.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null