Training in progress, step 252, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +109 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d48f02537ae2e81d3c8124f997d691ee108d3dc0b12e1ad53b612c4e57ddd73e
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5a7ed7529369a516560ebe1c26cfdba51e8269d23e3b7413f58c09ab2069175
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:492da289a127a48721163632337bf0651c18833a78d45796b5cf96803839e7ea
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:31fef74ecc274c1e583f98d996eb610b459d5a80f6a2f818f0df2c8347af678c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bd95a1db0e917ddf11b12a343f06e907fcec4b81104002e2471b4778587b465
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee19ddad9c4c375a1de2d74fb4c1cf5e15d36c1ed47a2cb80f7cb0fbacb3b29e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.011161159166101966,
   "eval_steps": 42,
-  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -545,6 +545,112 @@
       "eval_samples_per_second": 13.376,
       "eval_steps_per_second": 1.672,
       "step": 210
     }
   ],
   "logging_steps": 3,
@@ -564,7 +670,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.198048786941215e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.013393390999322359,
   "eval_steps": 42,
+  "global_step": 252,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 13.376,
       "eval_steps_per_second": 1.672,
       "step": 210
+    },
+    {
+      "epoch": 0.01132060429704628,
+      "grad_norm": NaN,
+      "learning_rate": 6.330184227833376e-05,
+      "loss": 0.0,
+      "step": 213
+    },
+    {
+      "epoch": 0.011480049427990593,
+      "grad_norm": NaN,
+      "learning_rate": 6.237238428024572e-05,
+      "loss": 0.0,
+      "step": 216
+    },
+    {
+      "epoch": 0.011639494558934907,
+      "grad_norm": NaN,
+      "learning_rate": 6.143834918526527e-05,
+      "loss": 0.0,
+      "step": 219
+    },
+    {
+      "epoch": 0.011798939689879221,
+      "grad_norm": NaN,
+      "learning_rate": 6.0500082534642464e-05,
+      "loss": 0.0,
+      "step": 222
+    },
+    {
+      "epoch": 0.011958384820823535,
+      "grad_norm": NaN,
+      "learning_rate": 5.955793143506863e-05,
+      "loss": 0.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.012117829951767849,
+      "grad_norm": NaN,
+      "learning_rate": 5.861224443026595e-05,
+      "loss": 0.0,
+      "step": 228
+    },
+    {
+      "epoch": 0.012277275082712162,
+      "grad_norm": NaN,
+      "learning_rate": 5.766337137204579e-05,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 0.012436720213656476,
+      "grad_norm": NaN,
+      "learning_rate": 5.6711663290882776e-05,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 0.01259616534460079,
+      "grad_norm": NaN,
+      "learning_rate": 5.575747226605298e-05,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 0.012755610475545104,
+      "grad_norm": NaN,
+      "learning_rate": 5.480115129538409e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.012915055606489418,
+      "grad_norm": NaN,
+      "learning_rate": 5.384305416466584e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.013074500737433731,
+      "grad_norm": NaN,
+      "learning_rate": 5.288353531676873e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.013233945868378045,
+      "grad_norm": NaN,
+      "learning_rate": 5.192294972051992e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.013393390999322359,
+      "grad_norm": NaN,
+      "learning_rate": 5.0961652739384356e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.013393390999322359,
+      "eval_loss": NaN,
+      "eval_runtime": 2368.9779,
+      "eval_samples_per_second": 13.377,
+      "eval_steps_per_second": 1.672,
+      "step": 252
     }
   ],
   "logging_steps": 3,
       "attributes": {}
     }
   },
+  "total_flos": 3.8391670579082035e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null