Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

checkpoint-500/optimizer.pt +1 -1
checkpoint-500/pytorch_model.bin +1 -1
checkpoint-500/rng_state.pth +1 -1
checkpoint-500/trainer_state.json +310 -175
checkpoint-500/training_args.bin +1 -1

checkpoint-500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf34a6733d5227eb85d55def447818a330bc1eae397c5506bc1e75b3797e4fda
 size 997351674

 version https://git-lfs.github.com/spec/v1
+oid sha256:d9b5331a049bf007e3fe60e6b2ee0194b68959b298abbf3a9c2ee94807a4dd2d
 size 997351674

checkpoint-500/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:340c33a4987169203c067a0a28b9c570a1f740be29bc9ad9b441418693a54d36
 size 498661166

 version https://git-lfs.github.com/spec/v1
+oid sha256:58f17f1f744378c30c2b3f5533b9d7bedf71b3d71f7f094f101e878c5d4bf595
 size 498661166

checkpoint-500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b422432f050f31232fd8bfedc63b986c036bf46b6cf0b466f2e329905094359
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd8ed62c04c41b6e0c29c4bf4ad972a544ebceea21938ff9f3a06432ffd506cd
 size 14244

checkpoint-500/trainer_state.json CHANGED Viewed

@@ -1,409 +1,544 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3762227238525207,
-  "eval_steps": 50,
   "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
       "learning_rate": 5e-07,
-      "loss": 1.1001,
       "step": 10
     },
     {
-      "epoch": 0.02,
       "learning_rate": 1e-06,
-      "loss": 1.0661,
       "step": 20
     },
     {
-      "epoch": 0.02,
       "learning_rate": 1.5e-06,
-      "loss": 1.0782,
       "step": 30
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-06,
-      "loss": 1.0578,
       "step": 40
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.5e-06,
-      "loss": 1.0395,
-      "step": 50
     },
     {
-      "epoch": 0.04,
-      "eval_accuracy": 0.4754781102152329,
-      "eval_loss": 1.0322505235671997,
-      "eval_runtime": 49.5848,
-      "eval_samples_per_second": 605.307,
-      "eval_steps_per_second": 1.19,
       "step": 50
     },
     {
-      "epoch": 0.05,
       "learning_rate": 3e-06,
-      "loss": 1.0308,
       "step": 60
     },
     {
-      "epoch": 0.05,
       "learning_rate": 3.5e-06,
-      "loss": 1.0044,
       "step": 70
     },
     {
-      "epoch": 0.06,
       "learning_rate": 4e-06,
-      "loss": 1.0398,
       "step": 80
     },
     {
-      "epoch": 0.07,
       "learning_rate": 4.5e-06,
-      "loss": 1.0116,
       "step": 90
     },
     {
-      "epoch": 0.08,
       "learning_rate": 5e-06,
-      "loss": 1.0067,
       "step": 100
     },
     {
-      "epoch": 0.08,
-      "eval_accuracy": 0.5313187179316319,
-      "eval_loss": 0.9863238334655762,
-      "eval_runtime": 49.2356,
-      "eval_samples_per_second": 609.599,
-      "eval_steps_per_second": 1.198,
       "step": 100
     },
     {
-      "epoch": 0.08,
       "learning_rate": 5.5e-06,
-      "loss": 1.0131,
       "step": 110
     },
     {
-      "epoch": 0.09,
       "learning_rate": 6e-06,
-      "loss": 1.0235,
       "step": 120
     },
     {
-      "epoch": 0.1,
       "learning_rate": 6.5e-06,
-      "loss": 1.0073,
       "step": 130
     },
     {
-      "epoch": 0.11,
       "learning_rate": 7e-06,
-      "loss": 0.9856,
       "step": 140
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 7.5e-06,
-      "loss": 1.0062,
-      "step": 150
     },
     {
-      "epoch": 0.11,
-      "eval_accuracy": 0.5358499366962084,
-      "eval_loss": 0.9735665917396545,
-      "eval_runtime": 49.4568,
-      "eval_samples_per_second": 606.874,
-      "eval_steps_per_second": 1.193,
       "step": 150
     },
     {
-      "epoch": 0.12,
       "learning_rate": 8e-06,
-      "loss": 0.9622,
       "step": 160
     },
     {
-      "epoch": 0.13,
       "learning_rate": 8.500000000000002e-06,
-      "loss": 0.9583,
       "step": 170
     },
     {
-      "epoch": 0.14,
       "learning_rate": 9e-06,
-      "loss": 0.987,
       "step": 180
     },
     {
-      "epoch": 0.14,
       "learning_rate": 9.5e-06,
-      "loss": 0.9995,
       "step": 190
     },
     {
-      "epoch": 0.15,
       "learning_rate": 1e-05,
-      "loss": 0.9953,
       "step": 200
     },
     {
-      "epoch": 0.15,
-      "eval_accuracy": 0.5406476977410541,
-      "eval_loss": 0.9847397804260254,
-      "eval_runtime": 49.5469,
-      "eval_samples_per_second": 605.769,
-      "eval_steps_per_second": 1.191,
       "step": 200
     },
     {
-      "epoch": 0.16,
       "learning_rate": 1.0500000000000001e-05,
-      "loss": 0.9894,
       "step": 210
     },
     {
-      "epoch": 0.17,
       "learning_rate": 1.1e-05,
-      "loss": 0.9857,
       "step": 220
     },
     {
-      "epoch": 0.17,
       "learning_rate": 1.15e-05,
-      "loss": 0.9806,
       "step": 230
     },
     {
-      "epoch": 0.18,
       "learning_rate": 1.2e-05,
-      "loss": 0.9802,
       "step": 240
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 1.25e-05,
-      "loss": 0.9559,
-      "step": 250
     },
     {
-      "epoch": 0.19,
-      "eval_accuracy": 0.5136269740787632,
-      "eval_loss": 1.0206754207611084,
-      "eval_runtime": 49.5108,
-      "eval_samples_per_second": 606.212,
-      "eval_steps_per_second": 1.192,
       "step": 250
     },
     {
-      "epoch": 0.2,
       "learning_rate": 1.3e-05,
-      "loss": 0.9877,
       "step": 260
     },
     {
-      "epoch": 0.2,
       "learning_rate": 1.35e-05,
-      "loss": 0.9878,
       "step": 270
     },
     {
-      "epoch": 0.21,
       "learning_rate": 1.4e-05,
-      "loss": 0.9646,
       "step": 280
     },
     {
-      "epoch": 0.22,
       "learning_rate": 1.4500000000000002e-05,
-      "loss": 0.9598,
       "step": 290
     },
     {
-      "epoch": 0.23,
       "learning_rate": 1.5e-05,
-      "loss": 0.9567,
       "step": 300
     },
     {
-      "epoch": 0.23,
-      "eval_accuracy": 0.5693676284400613,
-      "eval_loss": 0.9298574924468994,
-      "eval_runtime": 49.5798,
-      "eval_samples_per_second": 605.367,
-      "eval_steps_per_second": 1.19,
       "step": 300
     },
     {
-      "epoch": 0.23,
       "learning_rate": 1.55e-05,
-      "loss": 0.9659,
       "step": 310
     },
     {
-      "epoch": 0.24,
       "learning_rate": 1.6e-05,
-      "loss": 0.9803,
       "step": 320
     },
     {
-      "epoch": 0.25,
       "learning_rate": 1.65e-05,
-      "loss": 0.959,
       "step": 330
     },
     {
-      "epoch": 0.26,
       "learning_rate": 1.7000000000000003e-05,
-      "loss": 0.9298,
       "step": 340
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 1.7500000000000002e-05,
-      "loss": 0.8923,
-      "step": 350
     },
     {
-      "epoch": 0.26,
-      "eval_accuracy": 0.603285133604318,
-      "eval_loss": 0.8731092810630798,
-      "eval_runtime": 49.5126,
-      "eval_samples_per_second": 606.189,
-      "eval_steps_per_second": 1.192,
       "step": 350
     },
     {
-      "epoch": 0.27,
       "learning_rate": 1.8e-05,
-      "loss": 0.9255,
       "step": 360
     },
     {
-      "epoch": 0.28,
       "learning_rate": 1.85e-05,
-      "loss": 0.9567,
       "step": 370
     },
     {
-      "epoch": 0.29,
       "learning_rate": 1.9e-05,
-      "loss": 0.9135,
       "step": 380
     },
     {
-      "epoch": 0.29,
       "learning_rate": 1.95e-05,
-      "loss": 0.8978,
       "step": 390
     },
     {
-      "epoch": 0.3,
       "learning_rate": 2e-05,
-      "loss": 0.9617,
       "step": 400
     },
     {
-      "epoch": 0.3,
-      "eval_accuracy": 0.5401479309655494,
-      "eval_loss": 0.9500759840011597,
-      "eval_runtime": 49.5248,
-      "eval_samples_per_second": 606.04,
-      "eval_steps_per_second": 1.191,
       "step": 400
     },
     {
-      "epoch": 0.31,
       "learning_rate": 2.05e-05,
-      "loss": 0.9387,
       "step": 410
     },
     {
-      "epoch": 0.32,
       "learning_rate": 2.1000000000000002e-05,
-      "loss": 0.8832,
       "step": 420
     },
     {
-      "epoch": 0.32,
       "learning_rate": 2.1499999999999997e-05,
-      "loss": 0.9087,
       "step": 430
     },
     {
-      "epoch": 0.33,
       "learning_rate": 2.2e-05,
-      "loss": 0.9192,
       "step": 440
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 2.2499999999999998e-05,
-      "loss": 0.8456,
-      "step": 450
     },
     {
-      "epoch": 0.34,
-      "eval_accuracy": 0.6245085626707536,
-      "eval_loss": 0.8298193216323853,
-      "eval_runtime": 49.5226,
-      "eval_samples_per_second": 606.066,
-      "eval_steps_per_second": 1.191,
       "step": 450
     },
     {
-      "epoch": 0.35,
       "learning_rate": 2.3e-05,
-      "loss": 0.8511,
       "step": 460
     },
     {
-      "epoch": 0.35,
       "learning_rate": 2.3500000000000002e-05,
-      "loss": 0.9211,
       "step": 470
     },
     {
-      "epoch": 0.36,
       "learning_rate": 2.4e-05,
-      "loss": 0.8416,
       "step": 480
     },
     {
-      "epoch": 0.37,
       "learning_rate": 2.4500000000000003e-05,
-      "loss": 0.849,
       "step": 490
     },
     {
-      "epoch": 0.38,
       "learning_rate": 2.5e-05,
-      "loss": 0.8098,
       "step": 500
     },
     {
-      "epoch": 0.38,
-      "eval_accuracy": 0.6523622309588859,
-      "eval_loss": 0.771039605140686,
-      "eval_runtime": 49.4859,
-      "eval_samples_per_second": 606.517,
-      "eval_steps_per_second": 1.192,
       "step": 500
     }
   ],
   "logging_steps": 10,
-  "max_steps": 3987,
   "num_train_epochs": 3,
-  "save_steps": 250,
-  "total_flos": 1.6839258144768e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5048908954100828,
+  "eval_steps": 20,
   "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
       "learning_rate": 5e-07,
+      "loss": 1.1046,
       "step": 10
     },
     {
+      "epoch": 0.06,
       "learning_rate": 1e-06,
+      "loss": 1.0664,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.44479243019924036,
+      "eval_loss": 1.065091609954834,
+      "eval_runtime": 50.348,
+      "eval_samples_per_second": 596.131,
+      "eval_steps_per_second": 1.172,
       "step": 20
     },
     {
+      "epoch": 0.09,
       "learning_rate": 1.5e-06,
+      "loss": 1.0672,
       "step": 30
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-06,
+      "loss": 1.0423,
       "step": 40
     },
     {
+      "epoch": 0.12,
+      "eval_accuracy": 0.5033650962883988,
+      "eval_loss": 1.0188277959823608,
+      "eval_runtime": 49.614,
+      "eval_samples_per_second": 604.95,
+      "eval_steps_per_second": 1.189,
+      "step": 40
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 2.5e-06,
+      "loss": 1.027,
       "step": 50
     },
     {
+      "epoch": 0.18,
       "learning_rate": 3e-06,
+      "loss": 1.0137,
+      "step": 60
+    },
+    {
+      "epoch": 0.18,
+      "eval_accuracy": 0.5279203038581995,
+      "eval_loss": 0.9871189594268799,
+      "eval_runtime": 49.5201,
+      "eval_samples_per_second": 606.098,
+      "eval_steps_per_second": 1.191,
       "step": 60
     },
     {
+      "epoch": 0.21,
       "learning_rate": 3.5e-06,
+      "loss": 1.0005,
       "step": 70
     },
     {
+      "epoch": 0.24,
       "learning_rate": 4e-06,
+      "loss": 1.0027,
+      "step": 80
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.5308189511561271,
+      "eval_loss": 0.9888613224029541,
+      "eval_runtime": 49.4469,
+      "eval_samples_per_second": 606.994,
+      "eval_steps_per_second": 1.193,
       "step": 80
     },
     {
+      "epoch": 0.27,
       "learning_rate": 4.5e-06,
+      "loss": 0.9937,
       "step": 90
     },
     {
+      "epoch": 0.3,
       "learning_rate": 5e-06,
+      "loss": 0.9914,
       "step": 100
     },
     {
+      "epoch": 0.3,
+      "eval_accuracy": 0.5307856333710935,
+      "eval_loss": 0.9762536883354187,
+      "eval_runtime": 49.4804,
+      "eval_samples_per_second": 606.583,
+      "eval_steps_per_second": 1.192,
       "step": 100
     },
     {
+      "epoch": 0.33,
       "learning_rate": 5.5e-06,
+      "loss": 0.9884,
       "step": 110
     },
     {
+      "epoch": 0.36,
       "learning_rate": 6e-06,
+      "loss": 0.9826,
+      "step": 120
+    },
+    {
+      "epoch": 0.36,
+      "eval_accuracy": 0.5387819017791697,
+      "eval_loss": 0.9713281989097595,
+      "eval_runtime": 49.4983,
+      "eval_samples_per_second": 606.364,
+      "eval_steps_per_second": 1.192,
       "step": 120
     },
     {
+      "epoch": 0.39,
       "learning_rate": 6.5e-06,
+      "loss": 0.9882,
       "step": 130
     },
     {
+      "epoch": 0.42,
       "learning_rate": 7e-06,
+      "loss": 0.9788,
       "step": 140
     },
     {
+      "epoch": 0.42,
+      "eval_accuracy": 0.5312520823615646,
+      "eval_loss": 0.9766249656677246,
+      "eval_runtime": 49.5213,
+      "eval_samples_per_second": 606.083,
+      "eval_steps_per_second": 1.191,
+      "step": 140
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 7.5e-06,
+      "loss": 0.9854,
       "step": 150
     },
     {
+      "epoch": 0.48,
       "learning_rate": 8e-06,
+      "loss": 0.984,
+      "step": 160
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.5398147531152129,
+      "eval_loss": 0.9589501619338989,
+      "eval_runtime": 49.4977,
+      "eval_samples_per_second": 606.372,
+      "eval_steps_per_second": 1.192,
       "step": 160
     },
     {
+      "epoch": 0.51,
       "learning_rate": 8.500000000000002e-06,
+      "loss": 0.9795,
       "step": 170
     },
     {
+      "epoch": 0.54,
       "learning_rate": 9e-06,
+      "loss": 0.9694,
       "step": 180
     },
     {
+      "epoch": 0.54,
+      "eval_accuracy": 0.5423469047777704,
+      "eval_loss": 0.953514814376831,
+      "eval_runtime": 49.4511,
+      "eval_samples_per_second": 606.943,
+      "eval_steps_per_second": 1.193,
+      "step": 180
+    },
+    {
+      "epoch": 0.57,
       "learning_rate": 9.5e-06,
+      "loss": 0.9757,
       "step": 190
     },
     {
+      "epoch": 0.6,
       "learning_rate": 1e-05,
+      "loss": 0.9676,
       "step": 200
     },
     {
+      "epoch": 0.6,
+      "eval_accuracy": 0.567201972412874,
+      "eval_loss": 0.9273685812950134,
+      "eval_runtime": 49.4122,
+      "eval_samples_per_second": 607.421,
+      "eval_steps_per_second": 1.194,
       "step": 200
     },
     {
+      "epoch": 0.63,
       "learning_rate": 1.0500000000000001e-05,
+      "loss": 0.9708,
       "step": 210
     },
     {
+      "epoch": 0.66,
       "learning_rate": 1.1e-05,
+      "loss": 0.9753,
+      "step": 220
+    },
+    {
+      "epoch": 0.66,
+      "eval_accuracy": 0.573598987139335,
+      "eval_loss": 0.912590503692627,
+      "eval_runtime": 49.2827,
+      "eval_samples_per_second": 609.017,
+      "eval_steps_per_second": 1.197,
       "step": 220
     },
     {
+      "epoch": 0.69,
       "learning_rate": 1.15e-05,
+      "loss": 0.9586,
       "step": 230
     },
     {
+      "epoch": 0.72,
       "learning_rate": 1.2e-05,
+      "loss": 0.9557,
       "step": 240
     },
     {
+      "epoch": 0.72,
+      "eval_accuracy": 0.5759645498767242,
+      "eval_loss": 0.9052607417106628,
+      "eval_runtime": 49.4457,
+      "eval_samples_per_second": 607.01,
+      "eval_steps_per_second": 1.193,
+      "step": 240
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 1.25e-05,
+      "loss": 0.9518,
       "step": 250
     },
     {
+      "epoch": 0.78,
       "learning_rate": 1.3e-05,
+      "loss": 0.9508,
+      "step": 260
+    },
+    {
+      "epoch": 0.78,
+      "eval_accuracy": 0.5766975411474645,
+      "eval_loss": 0.9178985953330994,
+      "eval_runtime": 49.3132,
+      "eval_samples_per_second": 608.641,
+      "eval_steps_per_second": 1.196,
       "step": 260
     },
     {
+      "epoch": 0.81,
       "learning_rate": 1.35e-05,
+      "loss": 0.9405,
       "step": 270
     },
     {
+      "epoch": 0.84,
       "learning_rate": 1.4e-05,
+      "loss": 0.9355,
+      "step": 280
+    },
+    {
+      "epoch": 0.84,
+      "eval_accuracy": 0.58915839275005,
+      "eval_loss": 0.8937407732009888,
+      "eval_runtime": 49.4342,
+      "eval_samples_per_second": 607.15,
+      "eval_steps_per_second": 1.194,
       "step": 280
     },
     {
+      "epoch": 0.87,
       "learning_rate": 1.4500000000000002e-05,
+      "loss": 0.9235,
       "step": 290
     },
     {
+      "epoch": 0.9,
       "learning_rate": 1.5e-05,
+      "loss": 0.9,
       "step": 300
     },
     {
+      "epoch": 0.9,
+      "eval_accuracy": 0.613013926834144,
+      "eval_loss": 0.8468813300132751,
+      "eval_runtime": 49.5046,
+      "eval_samples_per_second": 606.287,
+      "eval_steps_per_second": 1.192,
       "step": 300
     },
     {
+      "epoch": 0.93,
       "learning_rate": 1.55e-05,
+      "loss": 0.8857,
       "step": 310
     },
     {
+      "epoch": 0.96,
       "learning_rate": 1.6e-05,
+      "loss": 0.993,
+      "step": 320
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.6046511627906976,
+      "eval_loss": 0.8615403771400452,
+      "eval_runtime": 49.5041,
+      "eval_samples_per_second": 606.294,
+      "eval_steps_per_second": 1.192,
       "step": 320
     },
     {
+      "epoch": 0.99,
       "learning_rate": 1.65e-05,
+      "loss": 0.8418,
       "step": 330
     },
     {
+      "epoch": 1.02,
       "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.8527,
       "step": 340
     },
     {
+      "epoch": 1.02,
+      "eval_accuracy": 0.6439328313453722,
+      "eval_loss": 0.7896137237548828,
+      "eval_runtime": 49.4448,
+      "eval_samples_per_second": 607.02,
+      "eval_steps_per_second": 1.193,
+      "step": 340
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 1.7500000000000002e-05,
+      "loss": 0.8982,
       "step": 350
     },
     {
+      "epoch": 1.08,
       "learning_rate": 1.8e-05,
+      "loss": 0.966,
+      "step": 360
+    },
+    {
+      "epoch": 1.08,
+      "eval_accuracy": 0.5315852602119011,
+      "eval_loss": 1.0123510360717773,
+      "eval_runtime": 49.4838,
+      "eval_samples_per_second": 606.542,
+      "eval_steps_per_second": 1.192,
       "step": 360
     },
     {
+      "epoch": 1.11,
       "learning_rate": 1.85e-05,
+      "loss": 0.9413,
       "step": 370
     },
     {
+      "epoch": 1.14,
       "learning_rate": 1.9e-05,
+      "loss": 0.8441,
+      "step": 380
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 0.6488638635303525,
+      "eval_loss": 0.791083574295044,
+      "eval_runtime": 49.4701,
+      "eval_samples_per_second": 606.71,
+      "eval_steps_per_second": 1.193,
       "step": 380
     },
     {
+      "epoch": 1.17,
       "learning_rate": 1.95e-05,
+      "loss": 0.8223,
       "step": 390
     },
     {
+      "epoch": 1.2,
       "learning_rate": 2e-05,
+      "loss": 0.8226,
       "step": 400
     },
     {
+      "epoch": 1.2,
+      "eval_accuracy": 0.6699873392416872,
+      "eval_loss": 0.7472424507141113,
+      "eval_runtime": 49.4938,
+      "eval_samples_per_second": 606.419,
+      "eval_steps_per_second": 1.192,
       "step": 400
     },
     {
+      "epoch": 1.23,
       "learning_rate": 2.05e-05,
+      "loss": 0.7924,
       "step": 410
     },
     {
+      "epoch": 1.26,
       "learning_rate": 2.1000000000000002e-05,
+      "loss": 0.7948,
+      "step": 420
+    },
+    {
+      "epoch": 1.26,
+      "eval_accuracy": 0.6580595721996402,
+      "eval_loss": 0.7663838863372803,
+      "eval_runtime": 49.5064,
+      "eval_samples_per_second": 606.265,
+      "eval_steps_per_second": 1.192,
       "step": 420
     },
     {
+      "epoch": 1.29,
       "learning_rate": 2.1499999999999997e-05,
+      "loss": 0.776,
       "step": 430
     },
     {
+      "epoch": 1.32,
       "learning_rate": 2.2e-05,
+      "loss": 0.7428,
       "step": 440
     },
     {
+      "epoch": 1.32,
+      "eval_accuracy": 0.6991737189311654,
+      "eval_loss": 0.6993714570999146,
+      "eval_runtime": 49.4888,
+      "eval_samples_per_second": 606.481,
+      "eval_steps_per_second": 1.192,
+      "step": 440
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 2.2499999999999998e-05,
+      "loss": 0.7512,
       "step": 450
     },
     {
+      "epoch": 1.38,
       "learning_rate": 2.3e-05,
+      "loss": 0.7109,
+      "step": 460
+    },
+    {
+      "epoch": 1.38,
+      "eval_accuracy": 0.7283600986206437,
+      "eval_loss": 0.6510820984840393,
+      "eval_runtime": 49.5999,
+      "eval_samples_per_second": 605.122,
+      "eval_steps_per_second": 1.19,
       "step": 460
     },
     {
+      "epoch": 1.41,
       "learning_rate": 2.3500000000000002e-05,
+      "loss": 0.701,
       "step": 470
     },
     {
+      "epoch": 1.44,
       "learning_rate": 2.4e-05,
+      "loss": 0.6882,
       "step": 480
     },
     {
+      "epoch": 1.44,
+      "eval_accuracy": 0.7576797494502565,
+      "eval_loss": 0.5987845063209534,
+      "eval_runtime": 49.5123,
+      "eval_samples_per_second": 606.192,
+      "eval_steps_per_second": 1.192,
+      "step": 480
+    },
+    {
+      "epoch": 1.47,
       "learning_rate": 2.4500000000000003e-05,
+      "loss": 0.651,
       "step": 490
     },
     {
+      "epoch": 1.5,
       "learning_rate": 2.5e-05,
+      "loss": 0.7296,
       "step": 500
     },
     {
+      "epoch": 1.5,
+      "eval_accuracy": 0.7564136736189778,
+      "eval_loss": 0.5992804765701294,
+      "eval_runtime": 49.5641,
+      "eval_samples_per_second": 605.56,
+      "eval_steps_per_second": 1.19,
       "step": 500
     }
   ],
   "logging_steps": 10,
+  "max_steps": 996,
   "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 6.73549277766615e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:842788c44aca7ccbca2d57d8869e43eb15da3880b4cadb0b091bb46a3e020fcc
 size 4536

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f1be80ebe52f6e43af0b8aa087e72fad77310d5998b6e0b8f66a6a1d53be7b7
 size 4536