Training in progress, step 9, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d50cba4186bcbe50e8e003bf101dc2efac55afd1e53195005f9528a585a4379f
 size 125248064

 version https://git-lfs.github.com/spec/v1
+oid sha256:997a4561091f6d5e29daaad9bd71d4655bce06cf68aa3e9b1cadb4660429f1be
 size 125248064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a338c4df7d3a89fde60ae58153d8c6bcc80b1039a1b365ea92d9d4b2ef8f798
 size 64219860

 version https://git-lfs.github.com/spec/v1
+oid sha256:789a61faea2380f573e1c1add4e4259e3e0ec1078b3de63c76f97cfea49d74ac
 size 64219860

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:230325383a19aabc202d1fbe06df645db86f36254b37539ee36029e184f2269f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e778f70a6812418e529c92508b5f539f41f28eedee19b3833b278674ec26626
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0099cb7287625b29b67c4fcf42ff20fae623b429bfb10f5ac695bc54f2be54fd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c8e6b04902f17ae368c3e6cfd97a31ad4de2f025d673daea8c033ce0e260946
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.023391812865497075,
   "eval_steps": 3,
-  "global_step": 6,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -73,6 +73,35 @@
       "eval_samples_per_second": 18.918,
       "eval_steps_per_second": 9.459,
       "step": 6
     }
   ],
   "logging_steps": 1,
@@ -92,7 +121,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2374653129523200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03508771929824561,
   "eval_steps": 3,
+  "global_step": 9,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.918,
       "eval_steps_per_second": 9.459,
       "step": 6
+    },
+    {
+      "epoch": 0.02729044834307992,
+      "grad_norm": 0.47463640570640564,
+      "learning_rate": 0.00014,
+      "loss": 0.4935,
+      "step": 7
+    },
+    {
+      "epoch": 0.031189083820662766,
+      "grad_norm": 0.365204393863678,
+      "learning_rate": 0.00016,
+      "loss": 0.48,
+      "step": 8
+    },
+    {
+      "epoch": 0.03508771929824561,
+      "grad_norm": 0.41965925693511963,
+      "learning_rate": 0.00018,
+      "loss": 0.4796,
+      "step": 9
+    },
+    {
+      "epoch": 0.03508771929824561,
+      "eval_loss": 0.43623507022857666,
+      "eval_runtime": 5.7174,
+      "eval_samples_per_second": 18.89,
+      "eval_steps_per_second": 9.445,
+      "step": 9
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3324514381332480.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null