Training in progress, step 97, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +174 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dadced90465842366d7390d354525482375e297222825dbc34dc94ef28df2a2
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d4070b29e6ead3ee9499386d438e3b5a24dbfe02ad4cf5e95cddc39e7981923
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:136dbfb72c109af9e2cf71bcb2b62f9ec5d87bb1fa8e9178bf28a8dde2a4ba53
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:32b420fe48233faa93f74ace14c1821b2cd5a61ce75c37117a119b8a5e6498e2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f222366b58c766825e43101b65c4879c55218b5ddfff387c45f2b7d7e2e0465e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6145c7e827928ce363c3dece9b28ea4d59912ec6339b2dd62ab9cd74a51e4307
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.3076923076923075,
   "eval_steps": 9,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -604,6 +604,176 @@
       "learning_rate": 1.4965269896332885e-05,
       "loss": 0.0,
       "step": 75
     }
   ],
   "logging_steps": 1,
@@ -618,12 +788,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.886547103796429e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9846153846153847,
   "eval_steps": 9,
+  "global_step": 97,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.4965269896332885e-05,
       "loss": 0.0,
       "step": 75
+    },
+    {
+      "epoch": 2.3384615384615386,
+      "grad_norm": NaN,
+      "learning_rate": 1.3700225403843469e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 2.3692307692307693,
+      "grad_norm": NaN,
+      "learning_rate": 1.2482508892179884e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": NaN,
+      "learning_rate": 1.1313708031358183e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 2.430769230769231,
+      "grad_norm": NaN,
+      "learning_rate": 1.0195346714717813e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 2.4615384615384617,
+      "grad_norm": NaN,
+      "learning_rate": 9.12888307205541e-06,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 2.4923076923076923,
+      "grad_norm": NaN,
+      "learning_rate": 8.115707568501768e-06,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 2.4923076923076923,
+      "eval_loss": NaN,
+      "eval_runtime": 2.7298,
+      "eval_samples_per_second": 9.891,
+      "eval_steps_per_second": 1.465,
+      "step": 81
+    },
+    {
+      "epoch": 2.523076923076923,
+      "grad_norm": NaN,
+      "learning_rate": 7.157141191620548e-06,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 2.5538461538461537,
+      "grad_norm": NaN,
+      "learning_rate": 6.2544337290925185e-06,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 2.5846153846153848,
+      "grad_norm": NaN,
+      "learning_rate": 5.408762139230888e-06,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 2.6153846153846154,
+      "grad_norm": NaN,
+      "learning_rate": 4.621229016452156e-06,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 2.646153846153846,
+      "grad_norm": NaN,
+      "learning_rate": 3.892861153703342e-06,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 2.676923076923077,
+      "grad_norm": NaN,
+      "learning_rate": 3.2246082037199532e-06,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 2.707692307692308,
+      "grad_norm": NaN,
+      "learning_rate": 2.6173414408598827e-06,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 2.7384615384615385,
+      "grad_norm": NaN,
+      "learning_rate": 2.0718526251279346e-06,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 2.769230769230769,
+      "grad_norm": NaN,
+      "learning_rate": 1.5888529698718346e-06,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 2.769230769230769,
+      "eval_loss": NaN,
+      "eval_runtime": 2.735,
+      "eval_samples_per_second": 9.872,
+      "eval_steps_per_second": 1.463,
+      "step": 90
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": NaN,
+      "learning_rate": 1.1689722144956671e-06,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 2.830769230769231,
+      "grad_norm": NaN,
+      "learning_rate": 8.127578033998662e-07,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 2.8615384615384616,
+      "grad_norm": NaN,
+      "learning_rate": 5.206741722181386e-07,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 2.8923076923076922,
+      "grad_norm": NaN,
+      "learning_rate": 2.9310214228202013e-07,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 2.9230769230769234,
+      "grad_norm": NaN,
+      "learning_rate": 1.3033842410251075e-07,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 2.953846153846154,
+      "grad_norm": NaN,
+      "learning_rate": 3.259523051615254e-08,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 2.9846153846153847,
+      "grad_norm": NaN,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 97
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6.33685450728407e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null