Training in progress, step 1800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e003bc47c34922f506575fa321af35e1688ba2653dd3f89f3a5d834309ab3d76
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6ea5a9a3274c25655abcb7508b3e99f46f4d2540a8c280c82263e9204a27608
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84fa7f8a5315bdd769b48024d5184f26730eea2b9359d9041a6bb3be0351fea6
 size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5d2de183c2715bda0d33cd3b7f48104ab465f31540efdd87fd943f2ed1f8538
 size 1049049442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1d03e882eb6f9e0ad39ba180eebc6702043d67d30929e93a57f986b1b21b0e3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f3f6154bfb670e4d26b41c9bbf8d801b028d680d7736d4c9bed1a88cf8f8189
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e89283fc8dd36108e52f8865fe43971e6827f17fd9271c3eadbc32f37159ae4
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3661adfcbd9db9cbf825371f6d2c689ac041ce2f98ed8dfcbef94d998a20dea
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2118867635726929,
-  "best_model_checkpoint": "./output/checkpoint-1650",
-  "epoch": 0.07390817469204927,
   "eval_steps": 150,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1250,6 +1250,119 @@
       "eval_samples_per_second": 9.677,
       "eval_steps_per_second": 9.677,
       "step": 1650
     }
   ],
   "logging_steps": 10,
@@ -1269,7 +1382,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.12376665714688e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.2111696004867554,
+  "best_model_checkpoint": "./output/checkpoint-1800",
+  "epoch": 0.08062709966405375,
   "eval_steps": 150,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.677,
       "eval_steps_per_second": 9.677,
       "step": 1650
+    },
+    {
+      "epoch": 0.07435610302351624,
+      "grad_norm": 4.368626117706299,
+      "learning_rate": 5.775563985622202e-06,
+      "loss": 1.1,
+      "step": 1660
+    },
+    {
+      "epoch": 0.0748040313549832,
+      "grad_norm": 6.341384410858154,
+      "learning_rate": 5.755288828702987e-06,
+      "loss": 1.0292,
+      "step": 1670
+    },
+    {
+      "epoch": 0.07525195968645017,
+      "grad_norm": 5.869757652282715,
+      "learning_rate": 5.734931242214204e-06,
+      "loss": 1.0937,
+      "step": 1680
+    },
+    {
+      "epoch": 0.07569988801791713,
+      "grad_norm": 4.857089042663574,
+      "learning_rate": 5.7144920629764955e-06,
+      "loss": 1.0987,
+      "step": 1690
+    },
+    {
+      "epoch": 0.0761478163493841,
+      "grad_norm": 5.114626884460449,
+      "learning_rate": 5.693972131164471e-06,
+      "loss": 0.9623,
+      "step": 1700
+    },
+    {
+      "epoch": 0.07659574468085106,
+      "grad_norm": 5.152310371398926,
+      "learning_rate": 5.673372290272149e-06,
+      "loss": 1.1423,
+      "step": 1710
+    },
+    {
+      "epoch": 0.07704367301231803,
+      "grad_norm": 3.8204965591430664,
+      "learning_rate": 5.652693387078309e-06,
+      "loss": 1.0523,
+      "step": 1720
+    },
+    {
+      "epoch": 0.077491601343785,
+      "grad_norm": 3.0346767902374268,
+      "learning_rate": 5.631936271611667e-06,
+      "loss": 1.0483,
+      "step": 1730
+    },
+    {
+      "epoch": 0.07793952967525196,
+      "grad_norm": 4.436351299285889,
+      "learning_rate": 5.611101797115939e-06,
+      "loss": 1.0144,
+      "step": 1740
+    },
+    {
+      "epoch": 0.07838745800671892,
+      "grad_norm": 5.614783763885498,
+      "learning_rate": 5.5901908200147685e-06,
+      "loss": 1.078,
+      "step": 1750
+    },
+    {
+      "epoch": 0.07883538633818589,
+      "grad_norm": 4.0426926612854,
+      "learning_rate": 5.56920419987652e-06,
+      "loss": 1.2628,
+      "step": 1760
+    },
+    {
+      "epoch": 0.07928331466965285,
+      "grad_norm": 5.30089807510376,
+      "learning_rate": 5.5481427993789534e-06,
+      "loss": 1.1257,
+      "step": 1770
+    },
+    {
+      "epoch": 0.07973124300111982,
+      "grad_norm": 3.5508739948272705,
+      "learning_rate": 5.527007484273746e-06,
+      "loss": 1.0355,
+      "step": 1780
+    },
+    {
+      "epoch": 0.08017917133258678,
+      "grad_norm": 4.027277946472168,
+      "learning_rate": 5.5057991233509225e-06,
+      "loss": 0.9196,
+      "step": 1790
+    },
+    {
+      "epoch": 0.08062709966405375,
+      "grad_norm": 7.427858352661133,
+      "learning_rate": 5.484518588403134e-06,
+      "loss": 1.1913,
+      "step": 1800
+    },
+    {
+      "epoch": 0.08062709966405375,
+      "eval_loss": 1.2111696004867554,
+      "eval_runtime": 51.6854,
+      "eval_samples_per_second": 9.674,
+      "eval_steps_per_second": 9.674,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.32740933331968e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null