Training in progress, step 207, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +172 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34183b94352583baa7858f57390db2d68a56c0619a9cc2a8877970a3e57768b5
 size 1101095848

 version https://git-lfs.github.com/spec/v1
+oid sha256:31fbb834535d30942ff8926c5ac856548f98ca3a71f1c2f7d371cb8f822d0e3c
 size 1101095848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46ab5acbc435266a885ea5fe74d03b3a12ffbfc9d8cadf03847d5eaa375b398c
 size 841204242

 version https://git-lfs.github.com/spec/v1
+oid sha256:d315cdc1640f0b8c81f2afdc924fde254c2c741910745b9daca663b83e61a59f
 size 841204242

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d0a9e30edf486e222ce5288139d14d2038d08ba04df3919e427e10dc6814539
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:21bf96c648c2b81637c2a374c88eb7bd6aaef1de82d55c601d0b411131031f36
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6797f75af78591cc14e3bc03bbfcedcfc3cab59ea27d5dffbfe06c2a17992e46
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0398efb9f2d009f44e4675efc73a4fa2f0e6d741b98fe4c59c94a120cfb58052
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8070175438596491,
   "eval_steps": 23,
-  "global_step": 184,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1367,6 +1367,175 @@
       "eval_samples_per_second": 0.365,
       "eval_steps_per_second": 0.365,
       "step": 184
     }
   ],
   "logging_steps": 1,
@@ -1386,7 +1555,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0322218694171689e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9078947368421053,
   "eval_steps": 23,
+  "global_step": 207,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.365,
       "eval_steps_per_second": 0.365,
       "step": 184
+    },
+    {
+      "epoch": 0.8114035087719298,
+      "grad_norm": 0.04292619228363037,
+      "learning_rate": 9.183446957694048e-06,
+      "loss": 2.225,
+      "step": 185
+    },
+    {
+      "epoch": 0.8157894736842105,
+      "grad_norm": 0.04302488639950752,
+      "learning_rate": 8.997043104258856e-06,
+      "loss": 2.0675,
+      "step": 186
+    },
+    {
+      "epoch": 0.8201754385964912,
+      "grad_norm": 0.04218915104866028,
+      "learning_rate": 8.814481808360945e-06,
+      "loss": 2.1778,
+      "step": 187
+    },
+    {
+      "epoch": 0.8245614035087719,
+      "grad_norm": 0.04348418116569519,
+      "learning_rate": 8.635800982982958e-06,
+      "loss": 2.2598,
+      "step": 188
+    },
+    {
+      "epoch": 0.8289473684210527,
+      "grad_norm": 0.04379533231258392,
+      "learning_rate": 8.461037735240047e-06,
+      "loss": 2.223,
+      "step": 189
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 0.04641556367278099,
+      "learning_rate": 8.290228358673758e-06,
+      "loss": 2.1633,
+      "step": 190
+    },
+    {
+      "epoch": 0.8377192982456141,
+      "grad_norm": 0.04623427614569664,
+      "learning_rate": 8.123408325714857e-06,
+      "loss": 2.2546,
+      "step": 191
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.04348750412464142,
+      "learning_rate": 7.960612280316673e-06,
+      "loss": 2.2283,
+      "step": 192
+    },
+    {
+      "epoch": 0.8464912280701754,
+      "grad_norm": 0.04299633204936981,
+      "learning_rate": 7.801874030760472e-06,
+      "loss": 2.2155,
+      "step": 193
+    },
+    {
+      "epoch": 0.8508771929824561,
+      "grad_norm": 0.04249183461070061,
+      "learning_rate": 7.647226542634454e-06,
+      "loss": 2.2647,
+      "step": 194
+    },
+    {
+      "epoch": 0.8552631578947368,
+      "grad_norm": 0.04467320442199707,
+      "learning_rate": 7.49670193198766e-06,
+      "loss": 2.3202,
+      "step": 195
+    },
+    {
+      "epoch": 0.8596491228070176,
+      "grad_norm": 0.04538441821932793,
+      "learning_rate": 7.350331458660367e-06,
+      "loss": 2.0542,
+      "step": 196
+    },
+    {
+      "epoch": 0.8640350877192983,
+      "grad_norm": 0.04282210022211075,
+      "learning_rate": 7.208145519792266e-06,
+      "loss": 2.3344,
+      "step": 197
+    },
+    {
+      "epoch": 0.868421052631579,
+      "grad_norm": 0.042627353221178055,
+      "learning_rate": 7.0701736435098155e-06,
+      "loss": 2.3739,
+      "step": 198
+    },
+    {
+      "epoch": 0.8728070175438597,
+      "grad_norm": 0.04885130748152733,
+      "learning_rate": 6.936444482794065e-06,
+      "loss": 2.2614,
+      "step": 199
+    },
+    {
+      "epoch": 0.8771929824561403,
+      "grad_norm": 0.04192091524600983,
+      "learning_rate": 6.806985809530189e-06,
+      "loss": 2.0821,
+      "step": 200
+    },
+    {
+      "epoch": 0.881578947368421,
+      "grad_norm": 0.04542316868901253,
+      "learning_rate": 6.6818245087400574e-06,
+      "loss": 2.3226,
+      "step": 201
+    },
+    {
+      "epoch": 0.8859649122807017,
+      "grad_norm": 0.0446937195956707,
+      "learning_rate": 6.56098657299893e-06,
+      "loss": 2.342,
+      "step": 202
+    },
+    {
+      "epoch": 0.8903508771929824,
+      "grad_norm": 0.04320209473371506,
+      "learning_rate": 6.444497097037532e-06,
+      "loss": 2.1945,
+      "step": 203
+    },
+    {
+      "epoch": 0.8947368421052632,
+      "grad_norm": 0.04684532806277275,
+      "learning_rate": 6.332380272530536e-06,
+      "loss": 2.2744,
+      "step": 204
+    },
+    {
+      "epoch": 0.8991228070175439,
+      "grad_norm": 0.04657423868775368,
+      "learning_rate": 6.224659383072649e-06,
+      "loss": 2.1249,
+      "step": 205
+    },
+    {
+      "epoch": 0.9035087719298246,
+      "grad_norm": 0.04765097796916962,
+      "learning_rate": 6.1213567993432085e-06,
+      "loss": 2.1456,
+      "step": 206
+    },
+    {
+      "epoch": 0.9078947368421053,
+      "grad_norm": 0.047186579555273056,
+      "learning_rate": 6.022493974460447e-06,
+      "loss": 2.2972,
+      "step": 207
+    },
+    {
+      "epoch": 0.9078947368421053,
+      "eval_loss": 2.163572311401367,
+      "eval_runtime": 218.9467,
+      "eval_samples_per_second": 0.365,
+      "eval_steps_per_second": 0.365,
+      "step": 207
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.161249603094315e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null