Training in progress, step 900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b521c111bca85508520ccdb324c0b45a8eaa1aa0f18ff1da11a37e8ee1bbc0b6
 size 69527352

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ffaf65277dedfeabee1628efce03e32368cea5326586e5329f36d47cf87bb02
 size 69527352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c96ec7482a6bb1114547a8a9e64f11536f8ca54961b0518f980b4d31ab26ece2
 size 139313554

 version https://git-lfs.github.com/spec/v1
+oid sha256:1df32252b9ad9f873764ba736101dc8657b24faf48baafe030b4676270be0b20
 size 139313554

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4df5a37ab7cfb8a96608f6dd12ed85def2455fd70d691a55a8b5ef56a2a75631
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:e365a4d04da08f0e566123029ce881befe006108afd22526e5c54d5326561a75
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d9acb300ee3481a499d71232bda2cc6822a3d265890998459ac4ab1f2a7a58f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:19edf8f1957a4ee4a7ad7c15c95d0e40ddbc2262c2a8b3d331d09ae113e648a2
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9952675700187683,
-  "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 0.09323719542516161,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -572,6 +572,119 @@
       "eval_samples_per_second": 8.986,
       "eval_steps_per_second": 8.986,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -591,7 +704,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.600106617969664e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9783537983894348,
+  "best_model_checkpoint": "./output/checkpoint-900",
+  "epoch": 0.11188463451019394,
   "eval_steps": 150,
+  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.986,
       "eval_steps_per_second": 8.986,
       "step": 750
+    },
+    {
+      "epoch": 0.09448035803083044,
+      "grad_norm": 1.6342475414276123,
+      "learning_rate": 0.00011948741333828481,
+      "loss": 0.7924,
+      "step": 760
+    },
+    {
+      "epoch": 0.09572352063649925,
+      "grad_norm": 1.773032307624817,
+      "learning_rate": 0.00011932169520872344,
+      "loss": 0.7737,
+      "step": 770
+    },
+    {
+      "epoch": 0.09696668324216808,
+      "grad_norm": 1.3042093515396118,
+      "learning_rate": 0.00011915364136182738,
+      "loss": 0.7554,
+      "step": 780
+    },
+    {
+      "epoch": 0.0982098458478369,
+      "grad_norm": 1.9383268356323242,
+      "learning_rate": 0.0001189832587056321,
+      "loss": 0.793,
+      "step": 790
+    },
+    {
+      "epoch": 0.09945300845350571,
+      "grad_norm": 0.9794479608535767,
+      "learning_rate": 0.00011881055424390119,
+      "loss": 0.7059,
+      "step": 800
+    },
+    {
+      "epoch": 0.10069617105917454,
+      "grad_norm": 1.8000845909118652,
+      "learning_rate": 0.00011863553507583869,
+      "loss": 0.7037,
+      "step": 810
+    },
+    {
+      "epoch": 0.10193933366484337,
+      "grad_norm": 1.6130144596099854,
+      "learning_rate": 0.00011845820839579708,
+      "loss": 0.9073,
+      "step": 820
+    },
+    {
+      "epoch": 0.10318249627051218,
+      "grad_norm": 1.7219104766845703,
+      "learning_rate": 0.00011827858149298162,
+      "loss": 0.7089,
+      "step": 830
+    },
+    {
+      "epoch": 0.10442565887618101,
+      "grad_norm": 1.8444559574127197,
+      "learning_rate": 0.00011809666175115075,
+      "loss": 0.6576,
+      "step": 840
+    },
+    {
+      "epoch": 0.10566882148184982,
+      "grad_norm": 2.564314126968384,
+      "learning_rate": 0.00011791245664831251,
+      "loss": 0.7686,
+      "step": 850
+    },
+    {
+      "epoch": 0.10691198408751865,
+      "grad_norm": 1.1209467649459839,
+      "learning_rate": 0.0001177259737564172,
+      "loss": 0.7148,
+      "step": 860
+    },
+    {
+      "epoch": 0.10815514669318747,
+      "grad_norm": 1.5384615659713745,
+      "learning_rate": 0.00011753722074104613,
+      "loss": 0.7689,
+      "step": 870
+    },
+    {
+      "epoch": 0.10939830929885629,
+      "grad_norm": 1.2957892417907715,
+      "learning_rate": 0.00011734620536109644,
+      "loss": 0.7372,
+      "step": 880
+    },
+    {
+      "epoch": 0.11064147190452511,
+      "grad_norm": 31.243797302246094,
+      "learning_rate": 0.00011715293546846223,
+      "loss": 0.725,
+      "step": 890
+    },
+    {
+      "epoch": 0.11188463451019394,
+      "grad_norm": 1.338306188583374,
+      "learning_rate": 0.00011695741900771184,
+      "loss": 0.6768,
+      "step": 900
+    },
+    {
+      "epoch": 0.11188463451019394,
+      "eval_loss": 0.9783537983894348,
+      "eval_runtime": 57.0411,
+      "eval_samples_per_second": 8.766,
+      "eval_steps_per_second": 8.766,
+      "step": 900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.123967906031616e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null