Training in progress, step 4050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c28f68060874c7837e83165f737e86ddf90d548220a521be0b0f401eff33a5f1
 size 1077970296

 version https://git-lfs.github.com/spec/v1
+oid sha256:a466aa412b472a720496b36b896a897f1a7cdb641a5aeae5c97fa00d6c450dff
 size 1077970296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2914614d31a57cd505cfbcf54c7bec1d78c350646af8f0f24ddd5ca0f7093430
-size 2156088250

 version https://git-lfs.github.com/spec/v1
+oid sha256:968ca9cf4084a5ba35e9eb43968fd4f30479f57a9643de3be51fbbf489de7fbb
+size 2156088186

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fae47426850d84262c0c714354b1aaa92524f7f42fad82a7f80fc3312154556
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:563a766f82e35a43b37668eed15adc7521ade53f614302ba0d81b3d046d0f375
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74cfdf7ac09b0e2d6096c5ed33aeb70fe2b41a0b29dfa76982b8f8b0aa2c371b
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:286a22d17c4ec91464253232b9604147b9c42456481200a21ca66148fbcc21f3
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.0137948989868164,
   "best_model_checkpoint": "./output/checkpoint-2850",
-  "epoch": 3.6757775683317626,
   "eval_steps": 150,
-  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2945,6 +2945,119 @@
       "eval_samples_per_second": 9.917,
       "eval_steps_per_second": 9.917,
       "step": 3900
     }
   ],
   "logging_steps": 10,
@@ -2964,7 +3077,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.889274255304294e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.0137948989868164,
   "best_model_checkpoint": "./output/checkpoint-2850",
+  "epoch": 3.817153628652215,
   "eval_steps": 150,
+  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.917,
       "eval_steps_per_second": 9.917,
       "step": 3900
+    },
+    {
+      "epoch": 3.6852026390197925,
+      "grad_norm": 5.458437919616699,
+      "learning_rate": 1.6425064001023903e-06,
+      "loss": 0.2519,
+      "step": 3910
+    },
+    {
+      "epoch": 3.694627709707823,
+      "grad_norm": 8.376575469970703,
+      "learning_rate": 1.6424547130739113e-06,
+      "loss": 0.2318,
+      "step": 3920
+    },
+    {
+      "epoch": 3.7040527803958527,
+      "grad_norm": 6.276689052581787,
+      "learning_rate": 1.6423685704360984e-06,
+      "loss": 0.2489,
+      "step": 3930
+    },
+    {
+      "epoch": 3.713477851083883,
+      "grad_norm": 9.211997985839844,
+      "learning_rate": 1.6422479758033246e-06,
+      "loss": 0.2881,
+      "step": 3940
+    },
+    {
+      "epoch": 3.7229029217719134,
+      "grad_norm": 10.033238410949707,
+      "learning_rate": 1.642092934235499e-06,
+      "loss": 0.2683,
+      "step": 3950
+    },
+    {
+      "epoch": 3.7323279924599433,
+      "grad_norm": 8.193641662597656,
+      "learning_rate": 1.6419034522378548e-06,
+      "loss": 0.2373,
+      "step": 3960
+    },
+    {
+      "epoch": 3.7417530631479736,
+      "grad_norm": 12.219656944274902,
+      "learning_rate": 1.641679537760678e-06,
+      "loss": 0.2695,
+      "step": 3970
+    },
+    {
+      "epoch": 3.751178133836004,
+      "grad_norm": 7.339855670928955,
+      "learning_rate": 1.6414212001989711e-06,
+      "loss": 0.2652,
+      "step": 3980
+    },
+    {
+      "epoch": 3.760603204524034,
+      "grad_norm": 7.646217346191406,
+      "learning_rate": 1.641128450392061e-06,
+      "loss": 0.2662,
+      "step": 3990
+    },
+    {
+      "epoch": 3.770028275212064,
+      "grad_norm": 8.313796997070312,
+      "learning_rate": 1.640801300623143e-06,
+      "loss": 0.2143,
+      "step": 4000
+    },
+    {
+      "epoch": 3.7794533459000945,
+      "grad_norm": 6.259695053100586,
+      "learning_rate": 1.6404397646187665e-06,
+      "loss": 0.2267,
+      "step": 4010
+    },
+    {
+      "epoch": 3.7888784165881244,
+      "grad_norm": 6.719018459320068,
+      "learning_rate": 1.6400438575482577e-06,
+      "loss": 0.2349,
+      "step": 4020
+    },
+    {
+      "epoch": 3.7983034872761543,
+      "grad_norm": 6.6731109619140625,
+      "learning_rate": 1.6396135960230847e-06,
+      "loss": 0.2621,
+      "step": 4030
+    },
+    {
+      "epoch": 3.8077285579641846,
+      "grad_norm": 10.587440490722656,
+      "learning_rate": 1.6391489980961598e-06,
+      "loss": 0.2612,
+      "step": 4040
+    },
+    {
+      "epoch": 3.817153628652215,
+      "grad_norm": 7.596518039703369,
+      "learning_rate": 1.6386500832610807e-06,
+      "loss": 0.2066,
+      "step": 4050
+    },
+    {
+      "epoch": 3.817153628652215,
+      "eval_loss": 1.0363526344299316,
+      "eval_runtime": 52.2082,
+      "eval_samples_per_second": 9.577,
+      "eval_steps_per_second": 9.577,
+      "step": 4050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.104925105153638e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null