Training in progress, step 3900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afceb16db7095163c12ff254b125dec7a8e756afb939583097fe0c319218f266
 size 653434568

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78c7430cf5b9ef6212c236177c5a3a696974a0d15fdd8ede05ffbf0c3135612
 size 653434568

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:146922f6e085c00287f8a8d67d633666043fb31db7daade124fd99cfdfa9b74a
 size 1288533754

 version https://git-lfs.github.com/spec/v1
+oid sha256:17539e5a9fb0d37a41d5d03dca6d304ee838df4bb8dd58d5b855815f2f50aafc
 size 1288533754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1950119940a674954a451de65d3b5b14146ef3decc11fa73ee90422e566f32f6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ed5d949cb12305b0310078c1beaef8015e2f1ca27ebf48ab7768e7ec8214eff
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a6a877a565e5ca765e02fcf7b35e1ef12c2842737d39f9a2daa9a2cc4aea1b9
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:782f4b11165c85795edd4383fdab33cd4f492f186c42efd14a7c5ea61341fe99
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.499360203742981,
-  "best_model_checkpoint": "./output/checkpoint-3750",
-  "epoch": 0.33250576343323285,
   "eval_steps": 150,
-  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2832,6 +2832,119 @@
       "eval_samples_per_second": 8.418,
       "eval_steps_per_second": 8.418,
       "step": 3750
     }
   ],
   "logging_steps": 10,
@@ -2851,7 +2964,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2625500121375703e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4924039840698242,
+  "best_model_checkpoint": "./output/checkpoint-3900",
+  "epoch": 0.34580599397056216,
   "eval_steps": 150,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.418,
       "eval_steps_per_second": 8.418,
       "step": 3750
+    },
+    {
+      "epoch": 0.3333924454690548,
+      "grad_norm": 6.615363597869873,
+      "learning_rate": 1.4986307228237271e-05,
+      "loss": 1.4275,
+      "step": 3760
+    },
+    {
+      "epoch": 0.33427912750487676,
+      "grad_norm": 10.221020698547363,
+      "learning_rate": 1.4758181262419428e-05,
+      "loss": 1.5383,
+      "step": 3770
+    },
+    {
+      "epoch": 0.3351658095406987,
+      "grad_norm": 7.772680759429932,
+      "learning_rate": 1.4531503949737111e-05,
+      "loss": 1.4759,
+      "step": 3780
+    },
+    {
+      "epoch": 0.3360524915765207,
+      "grad_norm": 12.315176963806152,
+      "learning_rate": 1.4306284608006841e-05,
+      "loss": 1.6371,
+      "step": 3790
+    },
+    {
+      "epoch": 0.3369391736123426,
+      "grad_norm": 5.77493953704834,
+      "learning_rate": 1.408253249511363e-05,
+      "loss": 1.5273,
+      "step": 3800
+    },
+    {
+      "epoch": 0.3378258556481646,
+      "grad_norm": 7.274715423583984,
+      "learning_rate": 1.3860256808630431e-05,
+      "loss": 1.5488,
+      "step": 3810
+    },
+    {
+      "epoch": 0.3387125376839865,
+      "grad_norm": 5.848362922668457,
+      "learning_rate": 1.3639466685440138e-05,
+      "loss": 1.3308,
+      "step": 3820
+    },
+    {
+      "epoch": 0.3395992197198085,
+      "grad_norm": 7.360718727111816,
+      "learning_rate": 1.3420171201359936e-05,
+      "loss": 1.3528,
+      "step": 3830
+    },
+    {
+      "epoch": 0.3404859017556304,
+      "grad_norm": 7.868961334228516,
+      "learning_rate": 1.3202379370768256e-05,
+      "loss": 1.4614,
+      "step": 3840
+    },
+    {
+      "epoch": 0.3413725837914524,
+      "grad_norm": 9.383559226989746,
+      "learning_rate": 1.2986100146234235e-05,
+      "loss": 1.4874,
+      "step": 3850
+    },
+    {
+      "epoch": 0.34225926582727434,
+      "grad_norm": 11.13818645477295,
+      "learning_rate": 1.277134241814966e-05,
+      "loss": 1.3849,
+      "step": 3860
+    },
+    {
+      "epoch": 0.34314594786309627,
+      "grad_norm": 10.342170715332031,
+      "learning_rate": 1.2558115014363595e-05,
+      "loss": 1.3115,
+      "step": 3870
+    },
+    {
+      "epoch": 0.34403262989891825,
+      "grad_norm": 6.494439125061035,
+      "learning_rate": 1.2346426699819462e-05,
+      "loss": 1.4533,
+      "step": 3880
+    },
+    {
+      "epoch": 0.3449193119347402,
+      "grad_norm": 9.364208221435547,
+      "learning_rate": 1.2136286176194748e-05,
+      "loss": 1.4229,
+      "step": 3890
+    },
+    {
+      "epoch": 0.34580599397056216,
+      "grad_norm": 6.627419471740723,
+      "learning_rate": 1.1927702081543282e-05,
+      "loss": 1.2769,
+      "step": 3900
+    },
+    {
+      "epoch": 0.34580599397056216,
+      "eval_loss": 1.4924039840698242,
+      "eval_runtime": 59.4072,
+      "eval_samples_per_second": 8.416,
+      "eval_steps_per_second": 8.416,
+      "step": 3900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3131363193066783e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null