Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f859cc22c73b0a6cf946ee2b61f61733a8b83b2ff84f372bfd741792359f6f0b
 size 921238736

 version https://git-lfs.github.com/spec/v1
+oid sha256:30a19f851e92120b55e4b3e48cb7a19666339f280f7846f0368ed6553229846c
 size 921238736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3f0593d4c89fb34e1c63f7c504936e4d9f6a0c336b414a597807ccbe5898bb8
 size 1808993594

 version https://git-lfs.github.com/spec/v1
+oid sha256:f86f420488c8931f87fe380cac8026e362a39fcc956c3cbceb4f6eaa1202966a
 size 1808993594

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a51199259c5448a07ec8ef2f6da3d50c8fab80223defefc69846f7f0185cb01
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:85a5717b56a12e8c1a74fbcc04f95d33d38ad282e6759eb62471db1fd54435cd
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3617162226dda42321eb60706610eaf575f5dd5b30df0d73eddae3c1ecde0276
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:faf19dc22a4fe1ad09e77bb25c83ade70823bae5378e9f8bd12663aae71b06a4
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.13146419823169708,
   "best_model_checkpoint": "./output/checkpoint-150",
-  "epoch": 4.433497536945813,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -685,6 +685,119 @@
       "eval_samples_per_second": 11.569,
       "eval_steps_per_second": 11.569,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -704,7 +817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.43855473081303e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.13146419823169708,
   "best_model_checkpoint": "./output/checkpoint-150",
+  "epoch": 5.172413793103448,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.569,
       "eval_steps_per_second": 11.569,
       "step": 900
+    },
+    {
+      "epoch": 4.482758620689655,
+      "grad_norm": 1.3206291198730469,
+      "learning_rate": 6.088655409611797e-05,
+      "loss": 0.0195,
+      "step": 910
+    },
+    {
+      "epoch": 4.532019704433497,
+      "grad_norm": 0.7733320593833923,
+      "learning_rate": 6.07822678974027e-05,
+      "loss": 0.0225,
+      "step": 920
+    },
+    {
+      "epoch": 4.58128078817734,
+      "grad_norm": 0.5630067586898804,
+      "learning_rate": 6.067682289967549e-05,
+      "loss": 0.0209,
+      "step": 930
+    },
+    {
+      "epoch": 4.630541871921182,
+      "grad_norm": 0.7231793403625488,
+      "learning_rate": 6.05702234373672e-05,
+      "loss": 0.0257,
+      "step": 940
+    },
+    {
+      "epoch": 4.679802955665025,
+      "grad_norm": 1.0794564485549927,
+      "learning_rate": 6.04624738923642e-05,
+      "loss": 0.0247,
+      "step": 950
+    },
+    {
+      "epoch": 4.7290640394088665,
+      "grad_norm": 1.263869047164917,
+      "learning_rate": 6.0353578693828246e-05,
+      "loss": 0.0222,
+      "step": 960
+    },
+    {
+      "epoch": 4.778325123152709,
+      "grad_norm": 1.1668565273284912,
+      "learning_rate": 6.0243542318014456e-05,
+      "loss": 0.0291,
+      "step": 970
+    },
+    {
+      "epoch": 4.827586206896552,
+      "grad_norm": 1.756858229637146,
+      "learning_rate": 6.013236928808725e-05,
+      "loss": 0.0263,
+      "step": 980
+    },
+    {
+      "epoch": 4.876847290640394,
+      "grad_norm": 1.017069935798645,
+      "learning_rate": 6.002006417393445e-05,
+      "loss": 0.0241,
+      "step": 990
+    },
+    {
+      "epoch": 4.926108374384237,
+      "grad_norm": 1.153463363647461,
+      "learning_rate": 5.9906631591979426e-05,
+      "loss": 0.0255,
+      "step": 1000
+    },
+    {
+      "epoch": 4.975369458128079,
+      "grad_norm": 0.9330563545227051,
+      "learning_rate": 5.979207620499136e-05,
+      "loss": 0.0289,
+      "step": 1010
+    },
+    {
+      "epoch": 5.024630541871921,
+      "grad_norm": 0.6231732368469238,
+      "learning_rate": 5.96764027218935e-05,
+      "loss": 0.0204,
+      "step": 1020
+    },
+    {
+      "epoch": 5.073891625615763,
+      "grad_norm": 0.6820633411407471,
+      "learning_rate": 5.95596158975697e-05,
+      "loss": 0.0117,
+      "step": 1030
+    },
+    {
+      "epoch": 5.123152709359606,
+      "grad_norm": 0.6919358968734741,
+      "learning_rate": 5.944172053266886e-05,
+      "loss": 0.0142,
+      "step": 1040
+    },
+    {
+      "epoch": 5.172413793103448,
+      "grad_norm": 2.5571327209472656,
+      "learning_rate": 5.932272147340768e-05,
+      "loss": 0.0187,
+      "step": 1050
+    },
+    {
+      "epoch": 5.172413793103448,
+      "eval_loss": 0.20086674392223358,
+      "eval_runtime": 15.4256,
+      "eval_samples_per_second": 11.734,
+      "eval_steps_per_second": 11.734,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.349714559045222e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null