Training in progress, step 4650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b6a6a42ffc6d380e2565f1fc5063348a1e34156d7e515f8f7da05f46e62ad60
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:d45b75e8780ea3804ea9254533607010c2e8b727e3c235634fa4b6050e8698cf
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e78a087bb6220991244d4fe57654663db01a4e71ac79cbc7cb3e84d260f51fe1
-size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b221d8f9f40f095d22c6d417ca3a0af75953108b073407e6f96b0d6ddfd2643
+size 1049049378

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad3318d3c187ce725fc1b6b7085bd28d07766f6a1219cb8fb8f59b2625444c2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0aef250a97cd4703312dac201660d7f97a09a6e15d50413621370c123af9698
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3803bd21b70ba2e397dcc504f146e8f1f5465da72c7ce9f40dd721afbea3d107
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:657bbe4e559d5f9e7581fbbb12237706f640d94bb8a67370d9ae890c56e7c61f
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1950809955596924,
-  "best_model_checkpoint": "./output/checkpoint-4500",
-  "epoch": 0.20156774916013437,
   "eval_steps": 150,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3397,6 +3397,119 @@
       "eval_samples_per_second": 9.665,
       "eval_steps_per_second": 9.665,
       "step": 4500
     }
   ],
   "logging_steps": 10,
@@ -3416,7 +3529,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.818050367543296e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1947814226150513,
+  "best_model_checkpoint": "./output/checkpoint-4650",
+  "epoch": 0.20828667413213886,
   "eval_steps": 150,
+  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.665,
       "eval_steps_per_second": 9.665,
       "step": 4500
+    },
+    {
+      "epoch": 0.20201567749160135,
+      "grad_norm": 4.709386348724365,
+      "learning_rate": 1.8353806389317428e-07,
+      "loss": 0.9829,
+      "step": 4510
+    },
+    {
+      "epoch": 0.2024636058230683,
+      "grad_norm": 5.23099946975708,
+      "learning_rate": 1.761817823576731e-07,
+      "loss": 1.1149,
+      "step": 4520
+    },
+    {
+      "epoch": 0.20291153415453528,
+      "grad_norm": 3.4107179641723633,
+      "learning_rate": 1.6897240649141125e-07,
+      "loss": 0.9822,
+      "step": 4530
+    },
+    {
+      "epoch": 0.20335946248600223,
+      "grad_norm": 3.951052188873291,
+      "learning_rate": 1.619102326435923e-07,
+      "loss": 1.2333,
+      "step": 4540
+    },
+    {
+      "epoch": 0.2038073908174692,
+      "grad_norm": 4.30809211730957,
+      "learning_rate": 1.5499555111252285e-07,
+      "loss": 1.0641,
+      "step": 4550
+    },
+    {
+      "epoch": 0.20425531914893616,
+      "grad_norm": 4.1274189949035645,
+      "learning_rate": 1.4822864613367766e-07,
+      "loss": 1.0962,
+      "step": 4560
+    },
+    {
+      "epoch": 0.20470324748040314,
+      "grad_norm": 6.046044826507568,
+      "learning_rate": 1.4160979586801724e-07,
+      "loss": 1.0241,
+      "step": 4570
+    },
+    {
+      "epoch": 0.2051511758118701,
+      "grad_norm": 4.066288471221924,
+      "learning_rate": 1.3513927239055036e-07,
+      "loss": 0.9061,
+      "step": 4580
+    },
+    {
+      "epoch": 0.20559910414333707,
+      "grad_norm": 3.9250218868255615,
+      "learning_rate": 1.2881734167915425e-07,
+      "loss": 1.1666,
+      "step": 4590
+    },
+    {
+      "epoch": 0.20604703247480402,
+      "grad_norm": 4.965548515319824,
+      "learning_rate": 1.2264426360363956e-07,
+      "loss": 0.8048,
+      "step": 4600
+    },
+    {
+      "epoch": 0.206494960806271,
+      "grad_norm": 5.192389965057373,
+      "learning_rate": 1.1662029191506775e-07,
+      "loss": 0.9869,
+      "step": 4610
+    },
+    {
+      "epoch": 0.20694288913773795,
+      "grad_norm": 4.953862190246582,
+      "learning_rate": 1.107456742353201e-07,
+      "loss": 1.0042,
+      "step": 4620
+    },
+    {
+      "epoch": 0.20739081746920493,
+      "grad_norm": 4.955436706542969,
+      "learning_rate": 1.0502065204692062e-07,
+      "loss": 1.101,
+      "step": 4630
+    },
+    {
+      "epoch": 0.20783874580067188,
+      "grad_norm": 2.5195674896240234,
+      "learning_rate": 9.94454606831076e-08,
+      "loss": 0.9542,
+      "step": 4640
+    },
+    {
+      "epoch": 0.20828667413213886,
+      "grad_norm": 4.142997741699219,
+      "learning_rate": 9.402032931816144e-08,
+      "loss": 1.1318,
+      "step": 4650
+    },
+    {
+      "epoch": 0.20828667413213886,
+      "eval_loss": 1.1947814226150513,
+      "eval_runtime": 51.8063,
+      "eval_samples_per_second": 9.651,
+      "eval_steps_per_second": 9.651,
+      "step": 4650
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.013945095856128e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null