Training in progress, step 1745, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +196 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02157e19d58ac06f26321b6e228876cad88492d24c90275b550f5447764cb1d9
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d0a442c19a8f93a75a243371a4cc9498e64b1d948f140840330f017238dd9cf
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b3a0d4d40abc119125b2ab36120e3ac6a57c0081aecf560a4b9b10b29149dd2
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a4147d1d8a3b2da9638a83aa0c0935b498970d6bfc42578cbdab88e597a43dc
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26fb7a1297c736ec81c5ca20bf47879ae114a90a0c60269ef2a0eb3c2ec7224f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bd23c18ec75baba95a12a9dd10c0466198b046b24819b38c01287321191f8a8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66e6f95527be7d742c182b1b25b1632bf2465fc58ebbe4ae2f736399e0d31f82
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f2751b167a4a17a996a86ab9c13e427252ce0aaabcc580369f95041bdc96dd5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.2911098897457123,
   "best_model_checkpoint": "./results/checkpoint-280",
-  "epoch": 4.2979942693409745,
   "eval_steps": 20,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1207,6 +1207,198 @@
       "eval_samples_per_second": 10.8,
       "eval_steps_per_second": 2.734,
       "step": 1500
     }
   ],
   "logging_steps": 20,
@@ -1221,12 +1413,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4811545247256468.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.2911098897457123,
   "best_model_checkpoint": "./results/checkpoint-280",
+  "epoch": 5.0,
   "eval_steps": 20,
+  "global_step": 1745,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.8,
       "eval_steps_per_second": 2.734,
       "step": 1500
+    },
+    {
+      "epoch": 4.355300859598854,
+      "grad_norm": 3.432967185974121,
+      "learning_rate": 2.5787965616045845e-06,
+      "loss": 0.0714,
+      "step": 1520
+    },
+    {
+      "epoch": 4.355300859598854,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.5381926894187927,
+      "eval_runtime": 15.6025,
+      "eval_samples_per_second": 10.127,
+      "eval_steps_per_second": 2.564,
+      "step": 1520
+    },
+    {
+      "epoch": 4.412607449856734,
+      "grad_norm": 0.03264419734477997,
+      "learning_rate": 2.3495702005730663e-06,
+      "loss": 0.0617,
+      "step": 1540
+    },
+    {
+      "epoch": 4.412607449856734,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.6029611229896545,
+      "eval_runtime": 14.4132,
+      "eval_samples_per_second": 10.962,
+      "eval_steps_per_second": 2.775,
+      "step": 1540
+    },
+    {
+      "epoch": 4.469914040114613,
+      "grad_norm": 0.06593719124794006,
+      "learning_rate": 2.1203438395415473e-06,
+      "loss": 0.0802,
+      "step": 1560
+    },
+    {
+      "epoch": 4.469914040114613,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.567659318447113,
+      "eval_runtime": 14.8121,
+      "eval_samples_per_second": 10.667,
+      "eval_steps_per_second": 2.7,
+      "step": 1560
+    },
+    {
+      "epoch": 4.527220630372493,
+      "grad_norm": 0.1013946682214737,
+      "learning_rate": 1.8911174785100289e-06,
+      "loss": 0.2404,
+      "step": 1580
+    },
+    {
+      "epoch": 4.527220630372493,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.5836894512176514,
+      "eval_runtime": 14.7362,
+      "eval_samples_per_second": 10.722,
+      "eval_steps_per_second": 2.714,
+      "step": 1580
+    },
+    {
+      "epoch": 4.584527220630372,
+      "grad_norm": 6.956309795379639,
+      "learning_rate": 1.66189111747851e-06,
+      "loss": 0.2311,
+      "step": 1600
+    },
+    {
+      "epoch": 4.584527220630372,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.6191691160202026,
+      "eval_runtime": 14.4896,
+      "eval_samples_per_second": 10.904,
+      "eval_steps_per_second": 2.761,
+      "step": 1600
+    },
+    {
+      "epoch": 4.641833810888253,
+      "grad_norm": 0.13025854527950287,
+      "learning_rate": 1.4326647564469915e-06,
+      "loss": 0.0031,
+      "step": 1620
+    },
+    {
+      "epoch": 4.641833810888253,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.6153239011764526,
+      "eval_runtime": 14.714,
+      "eval_samples_per_second": 10.738,
+      "eval_steps_per_second": 2.718,
+      "step": 1620
+    },
+    {
+      "epoch": 4.699140401146132,
+      "grad_norm": 0.02252735011279583,
+      "learning_rate": 1.2034383954154729e-06,
+      "loss": 0.1621,
+      "step": 1640
+    },
+    {
+      "epoch": 4.699140401146132,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.6008380651473999,
+      "eval_runtime": 14.6006,
+      "eval_samples_per_second": 10.821,
+      "eval_steps_per_second": 2.74,
+      "step": 1640
+    },
+    {
+      "epoch": 4.756446991404012,
+      "grad_norm": 0.03680579736828804,
+      "learning_rate": 9.742120343839543e-07,
+      "loss": 0.0841,
+      "step": 1660
+    },
+    {
+      "epoch": 4.756446991404012,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.5886847376823425,
+      "eval_runtime": 14.6522,
+      "eval_samples_per_second": 10.783,
+      "eval_steps_per_second": 2.73,
+      "step": 1660
+    },
+    {
+      "epoch": 4.813753581661891,
+      "grad_norm": 0.027355097234249115,
+      "learning_rate": 7.449856733524357e-07,
+      "loss": 0.0014,
+      "step": 1680
+    },
+    {
+      "epoch": 4.813753581661891,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.586622416973114,
+      "eval_runtime": 14.7046,
+      "eval_samples_per_second": 10.745,
+      "eval_steps_per_second": 2.72,
+      "step": 1680
+    },
+    {
+      "epoch": 4.871060171919771,
+      "grad_norm": 0.011458040215075016,
+      "learning_rate": 5.15759312320917e-07,
+      "loss": 0.1199,
+      "step": 1700
+    },
+    {
+      "epoch": 4.871060171919771,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.590861976146698,
+      "eval_runtime": 14.6646,
+      "eval_samples_per_second": 10.774,
+      "eval_steps_per_second": 2.728,
+      "step": 1700
+    },
+    {
+      "epoch": 4.92836676217765,
+      "grad_norm": 0.025075102224946022,
+      "learning_rate": 2.865329512893983e-07,
+      "loss": 0.0124,
+      "step": 1720
+    },
+    {
+      "epoch": 4.92836676217765,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.5905599594116211,
+      "eval_runtime": 14.686,
+      "eval_samples_per_second": 10.759,
+      "eval_steps_per_second": 2.724,
+      "step": 1720
+    },
+    {
+      "epoch": 4.98567335243553,
+      "grad_norm": 0.021264472976326942,
+      "learning_rate": 5.730659025787966e-08,
+      "loss": 0.046,
+      "step": 1740
+    },
+    {
+      "epoch": 4.98567335243553,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.5924892425537109,
+      "eval_runtime": 14.595,
+      "eval_samples_per_second": 10.826,
+      "eval_steps_per_second": 2.741,
+      "step": 1740
     }
   ],
   "logging_steps": 20,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5599966461345732.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null