Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b25a702045f7dd56f24de157ff386b8e2a8034d028629259401eccbf4e96dac
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:8aa8746b9accdb63dc9dfb48d9062fcf4d65174b2421dce4a4b009b730b01fca
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed057bdae0c73438e456ac8fe32b6d0a8a3cefe92cb5af2b43146f407a1fcf0e
 size 671467026

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d381f56f3790dbfd3bcc60f77d7b925deebbeb7afbeb490d0e58c9b63aae28a
 size 671467026

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03f8a73c38c62805e3635638ec6a9d3c14471de17a5e1fd3412c21f46cdc16c3
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:85e974d6cc44c6643e4d7a393fb26b9e90dbb14bc2bb2bc3ac8d151e2e5af494
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aee07848921afadf2e29f9d8e13f23709a7903803a3baa073dfe984ab9de3b14
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9be9776f3509ee5ee5abd9b7b0086172f78ba2db59e74bb85fa6d84d248249
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2210215330123901,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.36281179138321995,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 8.114,
       "eval_steps_per_second": 8.114,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4487359492617667e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2210088968276978,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.3741496598639456,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.114,
       "eval_steps_per_second": 8.114,
       "step": 4800
+    },
+    {
+      "epoch": 0.363567649281935,
+      "grad_norm": 9.417207717895508,
+      "learning_rate": 4.631564202709354e-08,
+      "loss": 1.2324,
+      "step": 4810
+    },
+    {
+      "epoch": 0.36432350718065004,
+      "grad_norm": 7.896277904510498,
+      "learning_rate": 4.1573879615262184e-08,
+      "loss": 1.2428,
+      "step": 4820
+    },
+    {
+      "epoch": 0.36507936507936506,
+      "grad_norm": 6.844600677490234,
+      "learning_rate": 3.708732128449785e-08,
+      "loss": 1.2517,
+      "step": 4830
+    },
+    {
+      "epoch": 0.36583522297808013,
+      "grad_norm": 8.48917293548584,
+      "learning_rate": 3.2856151459641216e-08,
+      "loss": 1.3056,
+      "step": 4840
+    },
+    {
+      "epoch": 0.36659108087679515,
+      "grad_norm": 8.468423843383789,
+      "learning_rate": 2.8880544067511063e-08,
+      "loss": 1.2081,
+      "step": 4850
+    },
+    {
+      "epoch": 0.3673469387755102,
+      "grad_norm": 6.038820743560791,
+      "learning_rate": 2.5160662529755823e-08,
+      "loss": 1.2522,
+      "step": 4860
+    },
+    {
+      "epoch": 0.36810279667422524,
+      "grad_norm": 9.514237403869629,
+      "learning_rate": 2.169665975613605e-08,
+      "loss": 1.1755,
+      "step": 4870
+    },
+    {
+      "epoch": 0.3688586545729403,
+      "grad_norm": 7.210423469543457,
+      "learning_rate": 1.8488678138238458e-08,
+      "loss": 1.2501,
+      "step": 4880
+    },
+    {
+      "epoch": 0.36961451247165533,
+      "grad_norm": 10.169966697692871,
+      "learning_rate": 1.5536849543621583e-08,
+      "loss": 1.306,
+      "step": 4890
+    },
+    {
+      "epoch": 0.37037037037037035,
+      "grad_norm": 7.4871907234191895,
+      "learning_rate": 1.2841295310397906e-08,
+      "loss": 1.2814,
+      "step": 4900
+    },
+    {
+      "epoch": 0.3711262282690854,
+      "grad_norm": 8.504753112792969,
+      "learning_rate": 1.0402126242244764e-08,
+      "loss": 1.2505,
+      "step": 4910
+    },
+    {
+      "epoch": 0.37188208616780044,
+      "grad_norm": 7.540074348449707,
+      "learning_rate": 8.219442603847605e-09,
+      "loss": 1.2712,
+      "step": 4920
+    },
+    {
+      "epoch": 0.3726379440665155,
+      "grad_norm": 8.429313659667969,
+      "learning_rate": 6.293334116783817e-09,
+      "loss": 1.2295,
+      "step": 4930
+    },
+    {
+      "epoch": 0.37339380196523053,
+      "grad_norm": 7.227205753326416,
+      "learning_rate": 4.623879955827082e-09,
+      "loss": 1.2642,
+      "step": 4940
+    },
+    {
+      "epoch": 0.3741496598639456,
+      "grad_norm": 6.753582000732422,
+      "learning_rate": 3.211148745700665e-09,
+      "loss": 1.221,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3741496598639456,
+      "eval_loss": 1.2210088968276978,
+      "eval_runtime": 62.4569,
+      "eval_samples_per_second": 8.022,
+      "eval_steps_per_second": 8.022,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.4933501934446838e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null