Training in progress, step 50, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +202 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7711f5367ed6e4d6f35910325464b00fb3d9c83ea3bc68c741b8a57ccf9f3f3d
 size 320194002

 version https://git-lfs.github.com/spec/v1
+oid sha256:de98106112570c65b2ec5b4ce5a6fd0d2c3360c1b2d1d5757906e4c9b2c7d912
 size 320194002

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0160325f3cfb2789544f924daf3b9721842346abd05e8dbfa142d277b468e99a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff117b2b37bde812847adc6eed8bdc759c3c07f5d1cbee1f5506533e03306f92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef7bf070e527a9b5896b7711e9e6af634052f75dbe8f4acb6da29f40d856bc6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d8615f1aeccd0f9873fc0cf2c0322fde20ac202421c015654a471730a5fa755
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00943040362127499,
   "eval_steps": 9,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,6 +206,205 @@
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -225,7 +424,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.63366161088512e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01886080724254998,
   "eval_steps": 9,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.866025403784439e-05,
       "loss": 0.0,
       "step": 25
+    },
+    {
+      "epoch": 0.00980761976612599,
+      "grad_norm": NaN,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.01018483591097699,
+      "grad_norm": NaN,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.01018483591097699,
+      "eval_loss": NaN,
+      "eval_runtime": 227.0173,
+      "eval_samples_per_second": 9.836,
+      "eval_steps_per_second": 1.233,
+      "step": 27
+    },
+    {
+      "epoch": 0.010562052055827989,
+      "grad_norm": NaN,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.01093926820067899,
+      "grad_norm": NaN,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.011316484345529988,
+      "grad_norm": NaN,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.011693700490380989,
+      "grad_norm": NaN,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.012070916635231988,
+      "grad_norm": NaN,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.012448132780082987,
+      "grad_norm": NaN,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.012825348924933987,
+      "grad_norm": NaN,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.013202565069784986,
+      "grad_norm": NaN,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.013579781214635987,
+      "grad_norm": NaN,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.013579781214635987,
+      "eval_loss": NaN,
+      "eval_runtime": 226.9903,
+      "eval_samples_per_second": 9.837,
+      "eval_steps_per_second": 1.234,
+      "step": 36
+    },
+    {
+      "epoch": 0.013956997359486986,
+      "grad_norm": NaN,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.014334213504337986,
+      "grad_norm": NaN,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.014711429649188985,
+      "grad_norm": NaN,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.015088645794039984,
+      "grad_norm": NaN,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.015465861938890985,
+      "grad_norm": NaN,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.015843078083741986,
+      "grad_norm": NaN,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.016220294228592985,
+      "grad_norm": NaN,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.016597510373443983,
+      "grad_norm": NaN,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.016974726518294982,
+      "grad_norm": NaN,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.016974726518294982,
+      "eval_loss": NaN,
+      "eval_runtime": 227.0243,
+      "eval_samples_per_second": 9.836,
+      "eval_steps_per_second": 1.233,
+      "step": 45
+    },
+    {
+      "epoch": 0.01735194266314598,
+      "grad_norm": NaN,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.017729158807996984,
+      "grad_norm": NaN,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.018106374952847983,
+      "grad_norm": NaN,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.01848359109769898,
+      "grad_norm": NaN,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.01886080724254998,
+      "grad_norm": NaN,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.0,
+      "step": 50
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.26732322177024e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null