Training in progress, step 68, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +88 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b2cbe0d20bbf52ede83a77655697587a66875a542e98c80071be4452f9155c3
 size 161533192

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb65e69fc9def1d5f815cf4f2045dce584e95e971111ed6abb4ff874e68a063
 size 161533192

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:334857a3fc8b6972461313eca4c6a9eb44f4c1f4785cad39e8ed65f90d85c31f
 size 82460660

 version https://git-lfs.github.com/spec/v1
+oid sha256:78fb0f45d22d2bc0f6aa461c6301aa75516a6b3e6b8d90e3bb9817d70a08d2d8
 size 82460660

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f1ebe3e10acf85c9539c73882ea00608414511c9e9886d3b4b4f0092aeddf55
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3a7ff2c5a4bc3597693072bb0383a8c84c2ae51df7cb2502cab353824233e74
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97178a71d5acd54714c38f03fc162b58c9ab83f0e2b9f2d42288a4a7b505c2c6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:57465ffa9dc280f2ea6034fe61064b0208bf36c7b5f569218c0e1296778ee099
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.011463250168577209,
   "eval_steps": 34,
-  "global_step": 34,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -100,6 +100,91 @@
       "eval_samples_per_second": 14.632,
       "eval_steps_per_second": 1.831,
       "step": 34
     }
   ],
   "logging_steps": 3,
@@ -119,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.753463114622566e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.022926500337154418,
   "eval_steps": 34,
+  "global_step": 68,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.632,
       "eval_steps_per_second": 1.831,
       "step": 34
+    },
+    {
+      "epoch": 0.012137559002022926,
+      "grad_norm": 1.001940131187439,
+      "learning_rate": 4.9453690018345144e-05,
+      "loss": 0.8057,
+      "step": 36
+    },
+    {
+      "epoch": 0.013149022252191504,
+      "grad_norm": 1.1807010173797607,
+      "learning_rate": 4.932095175695911e-05,
+      "loss": 0.8677,
+      "step": 39
+    },
+    {
+      "epoch": 0.014160485502360081,
+      "grad_norm": 0.7869375348091125,
+      "learning_rate": 4.917401074463441e-05,
+      "loss": 0.6542,
+      "step": 42
+    },
+    {
+      "epoch": 0.015171948752528659,
+      "grad_norm": 0.8986634612083435,
+      "learning_rate": 4.901295279078431e-05,
+      "loss": 0.7597,
+      "step": 45
+    },
+    {
+      "epoch": 0.016183412002697236,
+      "grad_norm": 0.8910415172576904,
+      "learning_rate": 4.883787194871841e-05,
+      "loss": 0.7038,
+      "step": 48
+    },
+    {
+      "epoch": 0.017194875252865813,
+      "grad_norm": 1.069819688796997,
+      "learning_rate": 4.864887046071813e-05,
+      "loss": 0.7414,
+      "step": 51
+    },
+    {
+      "epoch": 0.01820633850303439,
+      "grad_norm": 0.9437199831008911,
+      "learning_rate": 4.8446058698330115e-05,
+      "loss": 0.7289,
+      "step": 54
+    },
+    {
+      "epoch": 0.01921780175320297,
+      "grad_norm": 1.1073840856552124,
+      "learning_rate": 4.822955509791233e-05,
+      "loss": 0.7371,
+      "step": 57
+    },
+    {
+      "epoch": 0.020229265003371546,
+      "grad_norm": 1.1307681798934937,
+      "learning_rate": 4.799948609147061e-05,
+      "loss": 0.6487,
+      "step": 60
+    },
+    {
+      "epoch": 0.02124072825354012,
+      "grad_norm": 0.8803877234458923,
+      "learning_rate": 4.7755986032825864e-05,
+      "loss": 0.6114,
+      "step": 63
+    },
+    {
+      "epoch": 0.022252191503708697,
+      "grad_norm": 0.9320568442344666,
+      "learning_rate": 4.74991971191553e-05,
+      "loss": 0.6164,
+      "step": 66
+    },
+    {
+      "epoch": 0.022926500337154418,
+      "eval_loss": 0.6071863174438477,
+      "eval_runtime": 341.6544,
+      "eval_samples_per_second": 14.62,
+      "eval_steps_per_second": 1.829,
+      "step": 68
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 9.506926229245133e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null