Training in progress, step 3600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b46847f44cde9f0095d19d105743b30fa16d5f27f3d169265933b2aca2d4d57d
 size 524363632

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3c7ad048cfa8ba5bf2471e0c14390ef3c6e859f069f0faecb350f7b03e980f2
 size 524363632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:028359e70e0c07427cba35e7ef72cf3c879bc0eaef6a0dfeb243e8bbb57fe8f8
-size 1049049442

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd7b57d28e1737dc995ec2a7a21f59f475558663b14e80aa35265b1856e9d9f4
+size 1049049378

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93e0c46fd64c96abdb0a034ee95bbd01584ee3cecfb18f900334d0172146c3c9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:02c6443db0efbefa727caf39e31aabbc8087eb7593e3bd6994e53b2e2b4ef874
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f8ced7fba3c19ab3520f96c3ed94338928b487f6b9e1c6274b7c5d145c844e9
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:7aeddfe29841cd7856aa7b799d981a5a586a2282d9b446cc454326fca64812c1
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1979233026504517,
-  "best_model_checkpoint": "./output/checkpoint-3300",
-  "epoch": 0.15453527435610304,
   "eval_steps": 150,
-  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2606,6 +2606,119 @@
       "eval_samples_per_second": 9.676,
       "eval_steps_per_second": 9.676,
       "step": 3450
     }
   ],
   "logging_steps": 10,
@@ -2625,7 +2738,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.442699374516224e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1965739727020264,
+  "best_model_checkpoint": "./output/checkpoint-3600",
+  "epoch": 0.1612541993281075,
   "eval_steps": 150,
+  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.676,
       "eval_steps_per_second": 9.676,
       "step": 3450
+    },
+    {
+      "epoch": 0.15498320268757,
+      "grad_norm": 5.320653438568115,
+      "learning_rate": 1.6841363195546162e-06,
+      "loss": 0.996,
+      "step": 3460
+    },
+    {
+      "epoch": 0.15543113101903697,
+      "grad_norm": 4.333999156951904,
+      "learning_rate": 1.6641134382132576e-06,
+      "loss": 1.2536,
+      "step": 3470
+    },
+    {
+      "epoch": 0.15587905935050392,
+      "grad_norm": 6.867399215698242,
+      "learning_rate": 1.6441762994985947e-06,
+      "loss": 1.1461,
+      "step": 3480
+    },
+    {
+      "epoch": 0.1563269876819709,
+      "grad_norm": 3.2110917568206787,
+      "learning_rate": 1.6243257229483141e-06,
+      "loss": 1.1086,
+      "step": 3490
+    },
+    {
+      "epoch": 0.15677491601343785,
+      "grad_norm": 3.345970630645752,
+      "learning_rate": 1.6045625245418648e-06,
+      "loss": 0.9485,
+      "step": 3500
+    },
+    {
+      "epoch": 0.15722284434490483,
+      "grad_norm": 4.890392780303955,
+      "learning_rate": 1.584887516666928e-06,
+      "loss": 1.0968,
+      "step": 3510
+    },
+    {
+      "epoch": 0.15767077267637178,
+      "grad_norm": 5.448171615600586,
+      "learning_rate": 1.565301508086015e-06,
+      "loss": 1.1305,
+      "step": 3520
+    },
+    {
+      "epoch": 0.15811870100783876,
+      "grad_norm": 7.16267728805542,
+      "learning_rate": 1.5458053039032263e-06,
+      "loss": 1.2279,
+      "step": 3530
+    },
+    {
+      "epoch": 0.1585666293393057,
+      "grad_norm": 5.2700018882751465,
+      "learning_rate": 1.5263997055311536e-06,
+      "loss": 1.0474,
+      "step": 3540
+    },
+    {
+      "epoch": 0.1590145576707727,
+      "grad_norm": 5.955024719238281,
+      "learning_rate": 1.5070855106579404e-06,
+      "loss": 1.1283,
+      "step": 3550
+    },
+    {
+      "epoch": 0.15946248600223964,
+      "grad_norm": 2.882784366607666,
+      "learning_rate": 1.4878635132144885e-06,
+      "loss": 0.9112,
+      "step": 3560
+    },
+    {
+      "epoch": 0.15991041433370662,
+      "grad_norm": 4.2263875007629395,
+      "learning_rate": 1.4687345033418258e-06,
+      "loss": 1.1554,
+      "step": 3570
+    },
+    {
+      "epoch": 0.16035834266517357,
+      "grad_norm": 4.622799396514893,
+      "learning_rate": 1.4496992673586262e-06,
+      "loss": 1.3423,
+      "step": 3580
+    },
+    {
+      "epoch": 0.16080627099664055,
+      "grad_norm": 5.2950897216796875,
+      "learning_rate": 1.4307585877288822e-06,
+      "loss": 1.0494,
+      "step": 3590
+    },
+    {
+      "epoch": 0.1612541993281075,
+      "grad_norm": 5.289889335632324,
+      "learning_rate": 1.4119132430297496e-06,
+      "loss": 1.1448,
+      "step": 3600
+    },
+    {
+      "epoch": 0.1612541993281075,
+      "eval_loss": 1.1965739727020264,
+      "eval_runtime": 51.7182,
+      "eval_samples_per_second": 9.668,
+      "eval_steps_per_second": 9.668,
+      "step": 3600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.637531183321088e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null