Training in progress, step 4500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adef2194e28a0e80a5d89be6ca9a1cb8132a1216977b90d6e6e6fdda8ef93136
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:92972f511e5eaf86803bd9b1c88f96386c1661012d60534c0327e42dab3fd264
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c0289d6836936e1e1d4d1a00c26faada58bd772c60da91219dcb039a4acdd96
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb4b509759ad8756cf8ce1affd78d65013c40a85d5292009494d04b60a432580
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c36d18edd5105b91142175220fd394d193785a170a78cb6528ab60f8815462b
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:80e19b05191e0292506bdab7670f3de79b1841203d7c1b0fb1140428596feefe
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2136a062516a1e5c179a267ecbd6b2d49f704c3f02f0e487b4db7582df66bbb
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:16bf4acbbdf4243a5b30121f973d426853acaed3d0caa7d9deb065ee076e1e1d
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7707881927490234,
-  "best_model_checkpoint": "./output/checkpoint-4350",
-  "epoch": 0.5407757334659373,
   "eval_steps": 150,
-  "global_step": 4350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3284,6 +3284,119 @@
       "eval_samples_per_second": 8.742,
       "eval_steps_per_second": 8.742,
       "step": 4350
     }
   ],
   "logging_steps": 10,
@@ -3303,7 +3416,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5140076638825472e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7698713541030884,
+  "best_model_checkpoint": "./output/checkpoint-4500",
+  "epoch": 0.5594231725509696,
   "eval_steps": 150,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.742,
       "eval_steps_per_second": 8.742,
       "step": 4350
+    },
+    {
+      "epoch": 0.5420188960716061,
+      "grad_norm": 1.6083730459213257,
+      "learning_rate": 5.188184706397182e-06,
+      "loss": 0.6078,
+      "step": 4360
+    },
+    {
+      "epoch": 0.543262058677275,
+      "grad_norm": 1.7973166704177856,
+      "learning_rate": 5.029514215534339e-06,
+      "loss": 0.5657,
+      "step": 4370
+    },
+    {
+      "epoch": 0.5445052212829438,
+      "grad_norm": 1.397307276725769,
+      "learning_rate": 4.873206111245594e-06,
+      "loss": 0.5861,
+      "step": 4380
+    },
+    {
+      "epoch": 0.5457483838886126,
+      "grad_norm": 1.766788363456726,
+      "learning_rate": 4.719266818744912e-06,
+      "loss": 0.5335,
+      "step": 4390
+    },
+    {
+      "epoch": 0.5469915464942815,
+      "grad_norm": 2.368110418319702,
+      "learning_rate": 4.567702665873648e-06,
+      "loss": 0.6134,
+      "step": 4400
+    },
+    {
+      "epoch": 0.5482347090999503,
+      "grad_norm": 1.4024748802185059,
+      "learning_rate": 4.418519882840505e-06,
+      "loss": 0.5903,
+      "step": 4410
+    },
+    {
+      "epoch": 0.5494778717056191,
+      "grad_norm": 1.45235013961792,
+      "learning_rate": 4.271724601965371e-06,
+      "loss": 0.6008,
+      "step": 4420
+    },
+    {
+      "epoch": 0.5507210343112879,
+      "grad_norm": 1.5979630947113037,
+      "learning_rate": 4.127322857427306e-06,
+      "loss": 0.5718,
+      "step": 4430
+    },
+    {
+      "epoch": 0.5519641969169568,
+      "grad_norm": 1.427748203277588,
+      "learning_rate": 3.985320585016425e-06,
+      "loss": 0.5916,
+      "step": 4440
+    },
+    {
+      "epoch": 0.5532073595226256,
+      "grad_norm": 1.756362795829773,
+      "learning_rate": 3.845723621889973e-06,
+      "loss": 0.5969,
+      "step": 4450
+    },
+    {
+      "epoch": 0.5544505221282944,
+      "grad_norm": 1.447805404663086,
+      "learning_rate": 3.7085377063323447e-06,
+      "loss": 0.5322,
+      "step": 4460
+    },
+    {
+      "epoch": 0.5556936847339632,
+      "grad_norm": 1.3792946338653564,
+      "learning_rate": 3.5737684775191887e-06,
+      "loss": 0.5492,
+      "step": 4470
+    },
+    {
+      "epoch": 0.556936847339632,
+      "grad_norm": 1.699859619140625,
+      "learning_rate": 3.441421475285679e-06,
+      "loss": 0.5606,
+      "step": 4480
+    },
+    {
+      "epoch": 0.5581800099453008,
+      "grad_norm": 1.4851022958755493,
+      "learning_rate": 3.3115021398986768e-06,
+      "loss": 0.6094,
+      "step": 4490
+    },
+    {
+      "epoch": 0.5594231725509696,
+      "grad_norm": 0.9180851578712463,
+      "learning_rate": 3.18401581183321e-06,
+      "loss": 0.5229,
+      "step": 4500
+    },
+    {
+      "epoch": 0.5594231725509696,
+      "eval_loss": 0.7698713541030884,
+      "eval_runtime": 55.7444,
+      "eval_samples_per_second": 8.97,
+      "eval_steps_per_second": 8.97,
+      "step": 4500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5666787302912e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null