Training in progress, step 500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +257 -1169
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.47.1",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 21628

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 21628

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:536b36c5409b325886b3735dcf0e4fb0c68ae9370a4055c3f8628339b2181e94
 size 1304192904

 version https://git-lfs.github.com/spec/v1
+oid sha256:e59bef07aacf6e853c82b13f47483bf6528d40188e34b7b400dd76b52e212fdd
 size 1304192904

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:742c802cf0eb2db4f090ace56f50c7ab57588c2a890ff9badd5f758bcb319a77
 size 2608620781

 version https://git-lfs.github.com/spec/v1
+oid sha256:ecb00de55c84169e446830679f4a32dddc897ceacf9e7c8e9cce815c522343ec
 size 2608620781

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77f6e96927e70b3990c845f9f37f5cfa36bd0d8da4eaedfa781fe14d91872eb9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1e8067d5fbeb1227a581f2ac30b5566e6d43dfd02b6742b8a66cd4212e1eb41
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:769c097ffaacb42806711118e99a46206586325f4d499f09baf2724f8a595f75
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f405c2c673cf6aab61295c4e74c472a2015440052e52b46872a0ad1407e3ef9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1328 +1,416 @@
 {
-  "best_metric": 0.2986587882041931,
-  "best_model_checkpoint": "./results/checkpoint-180",
-  "epoch": 5.0,
   "eval_steps": 20,
-  "global_step": 1655,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06042296072507553,
-      "grad_norm": 0.5974797606468201,
-      "learning_rate": 1.97583081570997e-05,
-      "loss": 0.5426,
       "step": 20
     },
     {
-      "epoch": 0.06042296072507553,
-      "eval_accuracy": 0.7450980392156863,
-      "eval_loss": 0.7869178652763367,
-      "eval_runtime": 15.0039,
-      "eval_samples_per_second": 10.197,
-      "eval_steps_per_second": 2.599,
       "step": 20
     },
     {
-      "epoch": 0.12084592145015106,
-      "grad_norm": 13.038370132446289,
-      "learning_rate": 1.9516616314199397e-05,
-      "loss": 0.5984,
       "step": 40
     },
     {
-      "epoch": 0.12084592145015106,
-      "eval_accuracy": 0.7908496732026143,
-      "eval_loss": 0.39430469274520874,
-      "eval_runtime": 15.9435,
-      "eval_samples_per_second": 9.596,
-      "eval_steps_per_second": 2.446,
       "step": 40
     },
     {
-      "epoch": 0.18126888217522658,
-      "grad_norm": 0.1351632922887802,
-      "learning_rate": 1.9274924471299096e-05,
-      "loss": 0.4864,
       "step": 60
     },
     {
-      "epoch": 0.18126888217522658,
-      "eval_accuracy": 0.7843137254901961,
-      "eval_loss": 0.9364686608314514,
-      "eval_runtime": 15.2263,
-      "eval_samples_per_second": 10.048,
-      "eval_steps_per_second": 2.561,
       "step": 60
     },
     {
-      "epoch": 0.24169184290030213,
-      "grad_norm": 1.4119517803192139,
-      "learning_rate": 1.9033232628398792e-05,
-      "loss": 0.6039,
       "step": 80
     },
     {
-      "epoch": 0.24169184290030213,
-      "eval_accuracy": 0.7712418300653595,
-      "eval_loss": 0.6580381989479065,
-      "eval_runtime": 15.5472,
-      "eval_samples_per_second": 9.841,
-      "eval_steps_per_second": 2.508,
       "step": 80
     },
     {
-      "epoch": 0.3021148036253776,
-      "grad_norm": 13.04010009765625,
-      "learning_rate": 1.879154078549849e-05,
-      "loss": 0.5741,
       "step": 100
     },
     {
-      "epoch": 0.3021148036253776,
-      "eval_accuracy": 0.8235294117647058,
-      "eval_loss": 0.3454345464706421,
-      "eval_runtime": 15.5082,
-      "eval_samples_per_second": 9.866,
-      "eval_steps_per_second": 2.515,
       "step": 100
     },
     {
-      "epoch": 0.36253776435045315,
-      "grad_norm": 61.882415771484375,
-      "learning_rate": 1.854984894259819e-05,
-      "loss": 0.4276,
       "step": 120
     },
     {
-      "epoch": 0.36253776435045315,
-      "eval_accuracy": 0.8169934640522876,
-      "eval_loss": 0.5421260595321655,
-      "eval_runtime": 15.4627,
-      "eval_samples_per_second": 9.895,
-      "eval_steps_per_second": 2.522,
       "step": 120
     },
     {
-      "epoch": 0.4229607250755287,
-      "grad_norm": 8.9187593460083,
-      "learning_rate": 1.8308157099697886e-05,
-      "loss": 0.4342,
       "step": 140
     },
     {
-      "epoch": 0.4229607250755287,
-      "eval_accuracy": 0.8562091503267973,
-      "eval_loss": 0.4258342981338501,
-      "eval_runtime": 15.4753,
-      "eval_samples_per_second": 9.887,
-      "eval_steps_per_second": 2.52,
       "step": 140
     },
     {
-      "epoch": 0.48338368580060426,
-      "grad_norm": 40.476078033447266,
-      "learning_rate": 1.8066465256797586e-05,
-      "loss": 0.4915,
       "step": 160
     },
     {
-      "epoch": 0.48338368580060426,
-      "eval_accuracy": 0.8300653594771242,
-      "eval_loss": 0.5960604548454285,
-      "eval_runtime": 15.4631,
-      "eval_samples_per_second": 9.895,
-      "eval_steps_per_second": 2.522,
       "step": 160
     },
     {
-      "epoch": 0.5438066465256798,
-      "grad_norm": 3.8627891540527344,
-      "learning_rate": 1.782477341389728e-05,
-      "loss": 0.4127,
       "step": 180
     },
     {
-      "epoch": 0.5438066465256798,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.2986587882041931,
-      "eval_runtime": 15.5147,
-      "eval_samples_per_second": 9.862,
-      "eval_steps_per_second": 2.514,
       "step": 180
     },
     {
-      "epoch": 0.6042296072507553,
-      "grad_norm": 16.525339126586914,
-      "learning_rate": 1.758308157099698e-05,
-      "loss": 0.3166,
       "step": 200
     },
     {
-      "epoch": 0.6042296072507553,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.33075031638145447,
-      "eval_runtime": 15.5417,
-      "eval_samples_per_second": 9.845,
-      "eval_steps_per_second": 2.509,
       "step": 200
     },
     {
-      "epoch": 0.6646525679758308,
-      "grad_norm": 1.5080480575561523,
-      "learning_rate": 1.7341389728096677e-05,
-      "loss": 0.4018,
       "step": 220
     },
     {
-      "epoch": 0.6646525679758308,
-      "eval_accuracy": 0.803921568627451,
-      "eval_loss": 0.5285586714744568,
-      "eval_runtime": 15.4908,
-      "eval_samples_per_second": 9.877,
-      "eval_steps_per_second": 2.518,
       "step": 220
     },
     {
-      "epoch": 0.7250755287009063,
-      "grad_norm": 21.941341400146484,
-      "learning_rate": 1.7099697885196376e-05,
-      "loss": 0.3007,
       "step": 240
     },
     {
-      "epoch": 0.7250755287009063,
-      "eval_accuracy": 0.8627450980392157,
-      "eval_loss": 0.584548830986023,
-      "eval_runtime": 15.5027,
-      "eval_samples_per_second": 9.869,
-      "eval_steps_per_second": 2.516,
       "step": 240
     },
     {
-      "epoch": 0.7854984894259819,
-      "grad_norm": 7.442047119140625,
-      "learning_rate": 1.6858006042296072e-05,
-      "loss": 0.4893,
       "step": 260
     },
     {
-      "epoch": 0.7854984894259819,
-      "eval_accuracy": 0.8627450980392157,
-      "eval_loss": 0.36624589562416077,
-      "eval_runtime": 15.471,
-      "eval_samples_per_second": 9.889,
-      "eval_steps_per_second": 2.521,
       "step": 260
     },
     {
-      "epoch": 0.8459214501510574,
-      "grad_norm": 27.062305450439453,
-      "learning_rate": 1.661631419939577e-05,
-      "loss": 0.274,
       "step": 280
     },
     {
-      "epoch": 0.8459214501510574,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.34829556941986084,
-      "eval_runtime": 15.4719,
-      "eval_samples_per_second": 9.889,
-      "eval_steps_per_second": 2.521,
       "step": 280
     },
     {
-      "epoch": 0.9063444108761329,
-      "grad_norm": 9.517237663269043,
-      "learning_rate": 1.637462235649547e-05,
-      "loss": 0.5741,
       "step": 300
     },
     {
-      "epoch": 0.9063444108761329,
-      "eval_accuracy": 0.8823529411764706,
-      "eval_loss": 0.32800009846687317,
-      "eval_runtime": 15.4828,
-      "eval_samples_per_second": 9.882,
-      "eval_steps_per_second": 2.519,
       "step": 300
     },
     {
-      "epoch": 0.9667673716012085,
-      "grad_norm": 40.94089889526367,
-      "learning_rate": 1.6132930513595166e-05,
-      "loss": 0.3752,
       "step": 320
     },
     {
-      "epoch": 0.9667673716012085,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.5250552296638489,
-      "eval_runtime": 15.485,
-      "eval_samples_per_second": 9.881,
-      "eval_steps_per_second": 2.519,
       "step": 320
     },
     {
-      "epoch": 1.027190332326284,
-      "grad_norm": 0.2767094373703003,
-      "learning_rate": 1.5891238670694865e-05,
-      "loss": 0.2711,
       "step": 340
     },
     {
-      "epoch": 1.027190332326284,
-      "eval_accuracy": 0.8562091503267973,
-      "eval_loss": 0.6096686720848083,
-      "eval_runtime": 15.4954,
-      "eval_samples_per_second": 9.874,
-      "eval_steps_per_second": 2.517,
       "step": 340
     },
     {
-      "epoch": 1.0876132930513596,
-      "grad_norm": 1.7755597829818726,
-      "learning_rate": 1.5649546827794565e-05,
-      "loss": 0.2369,
       "step": 360
     },
     {
-      "epoch": 1.0876132930513596,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.5457373857498169,
-      "eval_runtime": 15.479,
-      "eval_samples_per_second": 9.884,
-      "eval_steps_per_second": 2.52,
       "step": 360
     },
     {
-      "epoch": 1.148036253776435,
-      "grad_norm": 197.30111694335938,
-      "learning_rate": 1.540785498489426e-05,
-      "loss": 0.3756,
       "step": 380
     },
     {
-      "epoch": 1.148036253776435,
-      "eval_accuracy": 0.8758169934640523,
-      "eval_loss": 0.6890403628349304,
-      "eval_runtime": 15.448,
-      "eval_samples_per_second": 9.904,
-      "eval_steps_per_second": 2.525,
       "step": 380
     },
     {
-      "epoch": 1.2084592145015105,
-      "grad_norm": 0.16098028421401978,
-      "learning_rate": 1.516616314199396e-05,
-      "loss": 0.6575,
       "step": 400
     },
     {
-      "epoch": 1.2084592145015105,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.47085481882095337,
-      "eval_runtime": 15.4824,
-      "eval_samples_per_second": 9.882,
-      "eval_steps_per_second": 2.519,
       "step": 400
     },
     {
-      "epoch": 1.2688821752265862,
-      "grad_norm": 0.3975774943828583,
-      "learning_rate": 1.4924471299093657e-05,
-      "loss": 0.3268,
       "step": 420
     },
     {
-      "epoch": 1.2688821752265862,
-      "eval_accuracy": 0.8496732026143791,
-      "eval_loss": 0.5218892693519592,
-      "eval_runtime": 15.4867,
-      "eval_samples_per_second": 9.879,
-      "eval_steps_per_second": 2.518,
       "step": 420
     },
     {
-      "epoch": 1.3293051359516617,
-      "grad_norm": 8.90912914276123,
-      "learning_rate": 1.4682779456193355e-05,
-      "loss": 0.3994,
       "step": 440
     },
     {
-      "epoch": 1.3293051359516617,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.42816421389579773,
-      "eval_runtime": 15.4691,
-      "eval_samples_per_second": 9.891,
-      "eval_steps_per_second": 2.521,
       "step": 440
     },
     {
-      "epoch": 1.3897280966767371,
-      "grad_norm": 93.57767486572266,
-      "learning_rate": 1.4441087613293053e-05,
-      "loss": 0.0879,
       "step": 460
     },
     {
-      "epoch": 1.3897280966767371,
-      "eval_accuracy": 0.8758169934640523,
-      "eval_loss": 0.6293966174125671,
-      "eval_runtime": 15.4702,
-      "eval_samples_per_second": 9.89,
-      "eval_steps_per_second": 2.521,
       "step": 460
     },
     {
-      "epoch": 1.4501510574018126,
-      "grad_norm": 0.061734456568956375,
-      "learning_rate": 1.419939577039275e-05,
-      "loss": 0.2566,
       "step": 480
     },
     {
-      "epoch": 1.4501510574018126,
-      "eval_accuracy": 0.8627450980392157,
-      "eval_loss": 0.7143150568008423,
-      "eval_runtime": 15.449,
-      "eval_samples_per_second": 9.904,
-      "eval_steps_per_second": 2.524,
       "step": 480
     },
     {
-      "epoch": 1.510574018126888,
-      "grad_norm": 0.11357846111059189,
-      "learning_rate": 1.3957703927492448e-05,
-      "loss": 0.2897,
       "step": 500
     },
     {
-      "epoch": 1.510574018126888,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.6120204329490662,
-      "eval_runtime": 15.463,
-      "eval_samples_per_second": 9.895,
-      "eval_steps_per_second": 2.522,
       "step": 500
-    },
-    {
-      "epoch": 1.5709969788519638,
-      "grad_norm": 0.41706299781799316,
-      "learning_rate": 1.3716012084592145e-05,
-      "loss": 0.321,
-      "step": 520
-    },
-    {
-      "epoch": 1.5709969788519638,
-      "eval_accuracy": 0.8758169934640523,
-      "eval_loss": 0.4749080538749695,
-      "eval_runtime": 16.3975,
-      "eval_samples_per_second": 9.331,
-      "eval_steps_per_second": 2.378,
-      "step": 520
-    },
-    {
-      "epoch": 1.6314199395770392,
-      "grad_norm": 0.012226684018969536,
-      "learning_rate": 1.3474320241691845e-05,
-      "loss": 0.1871,
-      "step": 540
-    },
-    {
-      "epoch": 1.6314199395770392,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4391900300979614,
-      "eval_runtime": 15.3076,
-      "eval_samples_per_second": 9.995,
-      "eval_steps_per_second": 2.548,
-      "step": 540
-    },
-    {
-      "epoch": 1.691842900302115,
-      "grad_norm": 0.008862942457199097,
-      "learning_rate": 1.3232628398791542e-05,
-      "loss": 0.1654,
-      "step": 560
-    },
-    {
-      "epoch": 1.691842900302115,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.46628066897392273,
-      "eval_runtime": 15.645,
-      "eval_samples_per_second": 9.779,
-      "eval_steps_per_second": 2.493,
-      "step": 560
-    },
-    {
-      "epoch": 1.7522658610271904,
-      "grad_norm": 0.03276165947318077,
-      "learning_rate": 1.299093655589124e-05,
-      "loss": 0.3166,
-      "step": 580
-    },
-    {
-      "epoch": 1.7522658610271904,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.5047788619995117,
-      "eval_runtime": 15.5009,
-      "eval_samples_per_second": 9.87,
-      "eval_steps_per_second": 2.516,
-      "step": 580
-    },
-    {
-      "epoch": 1.8126888217522659,
-      "grad_norm": 0.23161815106868744,
-      "learning_rate": 1.2749244712990937e-05,
-      "loss": 0.222,
-      "step": 600
-    },
-    {
-      "epoch": 1.8126888217522659,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4549576938152313,
-      "eval_runtime": 15.4555,
-      "eval_samples_per_second": 9.899,
-      "eval_steps_per_second": 2.523,
-      "step": 600
-    },
-    {
-      "epoch": 1.8731117824773413,
-      "grad_norm": 343.22900390625,
-      "learning_rate": 1.2507552870090635e-05,
-      "loss": 0.4299,
-      "step": 620
-    },
-    {
-      "epoch": 1.8731117824773413,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.3444612920284271,
-      "eval_runtime": 15.5061,
-      "eval_samples_per_second": 9.867,
-      "eval_steps_per_second": 2.515,
-      "step": 620
-    },
-    {
-      "epoch": 1.9335347432024168,
-      "grad_norm": 0.07708082348108292,
-      "learning_rate": 1.2265861027190334e-05,
-      "loss": 0.0942,
-      "step": 640
-    },
-    {
-      "epoch": 1.9335347432024168,
-      "eval_accuracy": 0.9281045751633987,
-      "eval_loss": 0.3734738230705261,
-      "eval_runtime": 15.5297,
-      "eval_samples_per_second": 9.852,
-      "eval_steps_per_second": 2.511,
-      "step": 640
-    },
-    {
-      "epoch": 1.9939577039274925,
-      "grad_norm": 0.010122493840754032,
-      "learning_rate": 1.2024169184290032e-05,
-      "loss": 0.3991,
-      "step": 660
-    },
-    {
-      "epoch": 1.9939577039274925,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.3646344840526581,
-      "eval_runtime": 15.4716,
-      "eval_samples_per_second": 9.889,
-      "eval_steps_per_second": 2.521,
-      "step": 660
-    },
-    {
-      "epoch": 2.054380664652568,
-      "grad_norm": 0.750132143497467,
-      "learning_rate": 1.178247734138973e-05,
-      "loss": 0.0581,
-      "step": 680
-    },
-    {
-      "epoch": 2.054380664652568,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.3526937961578369,
-      "eval_runtime": 15.4654,
-      "eval_samples_per_second": 9.893,
-      "eval_steps_per_second": 2.522,
-      "step": 680
-    },
-    {
-      "epoch": 2.1148036253776437,
-      "grad_norm": 25.176610946655273,
-      "learning_rate": 1.1540785498489427e-05,
-      "loss": 0.2712,
-      "step": 700
-    },
-    {
-      "epoch": 2.1148036253776437,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.42697274684906006,
-      "eval_runtime": 15.4239,
-      "eval_samples_per_second": 9.92,
-      "eval_steps_per_second": 2.529,
-      "step": 700
-    },
-    {
-      "epoch": 2.175226586102719,
-      "grad_norm": 0.046931881457567215,
-      "learning_rate": 1.1299093655589124e-05,
-      "loss": 0.0443,
-      "step": 720
-    },
-    {
-      "epoch": 2.175226586102719,
-      "eval_accuracy": 0.8954248366013072,
-      "eval_loss": 0.5462331771850586,
-      "eval_runtime": 15.4688,
-      "eval_samples_per_second": 9.891,
-      "eval_steps_per_second": 2.521,
-      "step": 720
-    },
-    {
-      "epoch": 2.2356495468277946,
-      "grad_norm": 0.033700473606586456,
-      "learning_rate": 1.1057401812688822e-05,
-      "loss": 0.3831,
-      "step": 740
-    },
-    {
-      "epoch": 2.2356495468277946,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.3418585956096649,
-      "eval_runtime": 15.5047,
-      "eval_samples_per_second": 9.868,
-      "eval_steps_per_second": 2.515,
-      "step": 740
-    },
-    {
-      "epoch": 2.29607250755287,
-      "grad_norm": 0.046377379447221756,
-      "learning_rate": 1.0815709969788521e-05,
-      "loss": 0.2267,
-      "step": 760
-    },
-    {
-      "epoch": 2.29607250755287,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.4924568831920624,
-      "eval_runtime": 15.5047,
-      "eval_samples_per_second": 9.868,
-      "eval_steps_per_second": 2.515,
-      "step": 760
-    },
-    {
-      "epoch": 2.3564954682779455,
-      "grad_norm": 9.31714916229248,
-      "learning_rate": 1.0574018126888219e-05,
-      "loss": 0.1821,
-      "step": 780
-    },
-    {
-      "epoch": 2.3564954682779455,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.3624768853187561,
-      "eval_runtime": 15.502,
-      "eval_samples_per_second": 9.87,
-      "eval_steps_per_second": 2.516,
-      "step": 780
-    },
-    {
-      "epoch": 2.416918429003021,
-      "grad_norm": 112.68130493164062,
-      "learning_rate": 1.0332326283987916e-05,
-      "loss": 0.2926,
-      "step": 800
-    },
-    {
-      "epoch": 2.416918429003021,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.3670673370361328,
-      "eval_runtime": 15.4876,
-      "eval_samples_per_second": 9.879,
-      "eval_steps_per_second": 2.518,
-      "step": 800
-    },
-    {
-      "epoch": 2.477341389728097,
-      "grad_norm": 0.23612752556800842,
-      "learning_rate": 1.0090634441087614e-05,
-      "loss": 0.2507,
-      "step": 820
-    },
-    {
-      "epoch": 2.477341389728097,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.3853074610233307,
-      "eval_runtime": 15.494,
-      "eval_samples_per_second": 9.875,
-      "eval_steps_per_second": 2.517,
-      "step": 820
-    },
-    {
-      "epoch": 2.5377643504531724,
-      "grad_norm": 0.00892715621739626,
-      "learning_rate": 9.848942598187312e-06,
-      "loss": 0.2446,
-      "step": 840
-    },
-    {
-      "epoch": 2.5377643504531724,
-      "eval_accuracy": 0.8954248366013072,
-      "eval_loss": 0.4570922255516052,
-      "eval_runtime": 15.4901,
-      "eval_samples_per_second": 9.877,
-      "eval_steps_per_second": 2.518,
-      "step": 840
-    },
-    {
-      "epoch": 2.598187311178248,
-      "grad_norm": 0.08465878665447235,
-      "learning_rate": 9.60725075528701e-06,
-      "loss": 0.1926,
-      "step": 860
-    },
-    {
-      "epoch": 2.598187311178248,
-      "eval_accuracy": 0.8496732026143791,
-      "eval_loss": 0.5435793399810791,
-      "eval_runtime": 15.4883,
-      "eval_samples_per_second": 9.878,
-      "eval_steps_per_second": 2.518,
-      "step": 860
-    },
-    {
-      "epoch": 2.6586102719033233,
-      "grad_norm": 65.41895294189453,
-      "learning_rate": 9.365558912386707e-06,
-      "loss": 0.1725,
-      "step": 880
-    },
-    {
-      "epoch": 2.6586102719033233,
-      "eval_accuracy": 0.8496732026143791,
-      "eval_loss": 0.6575973629951477,
-      "eval_runtime": 15.4811,
-      "eval_samples_per_second": 9.883,
-      "eval_steps_per_second": 2.519,
-      "step": 880
-    },
-    {
-      "epoch": 2.719033232628399,
-      "grad_norm": 0.19986489415168762,
-      "learning_rate": 9.123867069486404e-06,
-      "loss": 0.2033,
-      "step": 900
-    },
-    {
-      "epoch": 2.719033232628399,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.4772132933139801,
-      "eval_runtime": 15.4823,
-      "eval_samples_per_second": 9.882,
-      "eval_steps_per_second": 2.519,
-      "step": 900
-    },
-    {
-      "epoch": 2.7794561933534743,
-      "grad_norm": 0.02453712560236454,
-      "learning_rate": 8.882175226586104e-06,
-      "loss": 0.0095,
-      "step": 920
-    },
-    {
-      "epoch": 2.7794561933534743,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.41026702523231506,
-      "eval_runtime": 15.4862,
-      "eval_samples_per_second": 9.88,
-      "eval_steps_per_second": 2.518,
-      "step": 920
-    },
-    {
-      "epoch": 2.8398791540785497,
-      "grad_norm": 0.09184593707323074,
-      "learning_rate": 8.640483383685801e-06,
-      "loss": 0.2896,
-      "step": 940
-    },
-    {
-      "epoch": 2.8398791540785497,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4332799017429352,
-      "eval_runtime": 15.4949,
-      "eval_samples_per_second": 9.874,
-      "eval_steps_per_second": 2.517,
-      "step": 940
-    },
-    {
-      "epoch": 2.900302114803625,
-      "grad_norm": 88.6507339477539,
-      "learning_rate": 8.398791540785499e-06,
-      "loss": 0.2661,
-      "step": 960
-    },
-    {
-      "epoch": 2.900302114803625,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.5792773962020874,
-      "eval_runtime": 15.4764,
-      "eval_samples_per_second": 9.886,
-      "eval_steps_per_second": 2.52,
-      "step": 960
-    },
-    {
-      "epoch": 2.9607250755287007,
-      "grad_norm": 0.015309321694076061,
-      "learning_rate": 8.157099697885196e-06,
-      "loss": 0.1338,
-      "step": 980
-    },
-    {
-      "epoch": 2.9607250755287007,
-      "eval_accuracy": 0.8954248366013072,
-      "eval_loss": 0.454254150390625,
-      "eval_runtime": 15.4888,
-      "eval_samples_per_second": 9.878,
-      "eval_steps_per_second": 2.518,
-      "step": 980
-    },
-    {
-      "epoch": 3.0211480362537766,
-      "grad_norm": 0.06863677501678467,
-      "learning_rate": 7.915407854984894e-06,
-      "loss": 0.0751,
-      "step": 1000
-    },
-    {
-      "epoch": 3.0211480362537766,
-      "eval_accuracy": 0.8954248366013072,
-      "eval_loss": 0.5028541684150696,
-      "eval_runtime": 15.4598,
-      "eval_samples_per_second": 9.897,
-      "eval_steps_per_second": 2.523,
-      "step": 1000
-    },
-    {
-      "epoch": 3.081570996978852,
-      "grad_norm": 0.047077979892492294,
-      "learning_rate": 7.673716012084593e-06,
-      "loss": 0.2093,
-      "step": 1020
-    },
-    {
-      "epoch": 3.081570996978852,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.4630826711654663,
-      "eval_runtime": 16.4745,
-      "eval_samples_per_second": 9.287,
-      "eval_steps_per_second": 2.367,
-      "step": 1020
-    },
-    {
-      "epoch": 3.1419939577039275,
-      "grad_norm": 0.07947070896625519,
-      "learning_rate": 7.432024169184291e-06,
-      "loss": 0.2436,
-      "step": 1040
-    },
-    {
-      "epoch": 3.1419939577039275,
-      "eval_accuracy": 0.869281045751634,
-      "eval_loss": 0.5888116359710693,
-      "eval_runtime": 15.2662,
-      "eval_samples_per_second": 10.022,
-      "eval_steps_per_second": 2.555,
-      "step": 1040
-    },
-    {
-      "epoch": 3.202416918429003,
-      "grad_norm": 1.2857632637023926,
-      "learning_rate": 7.190332326283988e-06,
-      "loss": 0.1375,
-      "step": 1060
-    },
-    {
-      "epoch": 3.202416918429003,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.6457459926605225,
-      "eval_runtime": 15.6557,
-      "eval_samples_per_second": 9.773,
-      "eval_steps_per_second": 2.491,
-      "step": 1060
-    },
-    {
-      "epoch": 3.2628398791540785,
-      "grad_norm": 0.029293788596987724,
-      "learning_rate": 6.948640483383686e-06,
-      "loss": 0.0049,
-      "step": 1080
-    },
-    {
-      "epoch": 3.2628398791540785,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.6600757837295532,
-      "eval_runtime": 15.5566,
-      "eval_samples_per_second": 9.835,
-      "eval_steps_per_second": 2.507,
-      "step": 1080
-    },
-    {
-      "epoch": 3.323262839879154,
-      "grad_norm": 0.01973886974155903,
-      "learning_rate": 6.706948640483384e-06,
-      "loss": 0.0089,
-      "step": 1100
-    },
-    {
-      "epoch": 3.323262839879154,
-      "eval_accuracy": 0.8823529411764706,
-      "eval_loss": 0.6461706161499023,
-      "eval_runtime": 15.4515,
-      "eval_samples_per_second": 9.902,
-      "eval_steps_per_second": 2.524,
-      "step": 1100
-    },
-    {
-      "epoch": 3.38368580060423,
-      "grad_norm": 0.0038618145044893026,
-      "learning_rate": 6.465256797583082e-06,
-      "loss": 0.0616,
-      "step": 1120
-    },
-    {
-      "epoch": 3.38368580060423,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.6607339978218079,
-      "eval_runtime": 15.5198,
-      "eval_samples_per_second": 9.858,
-      "eval_steps_per_second": 2.513,
-      "step": 1120
-    },
-    {
-      "epoch": 3.4441087613293053,
-      "grad_norm": 0.009797470644116402,
-      "learning_rate": 6.22356495468278e-06,
-      "loss": 0.006,
-      "step": 1140
-    },
-    {
-      "epoch": 3.4441087613293053,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.6243405938148499,
-      "eval_runtime": 15.5129,
-      "eval_samples_per_second": 9.863,
-      "eval_steps_per_second": 2.514,
-      "step": 1140
-    },
-    {
-      "epoch": 3.504531722054381,
-      "grad_norm": 0.01924210786819458,
-      "learning_rate": 5.981873111782478e-06,
-      "loss": 0.1769,
-      "step": 1160
-    },
-    {
-      "epoch": 3.504531722054381,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.5256864428520203,
-      "eval_runtime": 15.4982,
-      "eval_samples_per_second": 9.872,
-      "eval_steps_per_second": 2.516,
-      "step": 1160
-    },
-    {
-      "epoch": 3.5649546827794563,
-      "grad_norm": 0.06478149443864822,
-      "learning_rate": 5.7401812688821754e-06,
-      "loss": 0.0044,
-      "step": 1180
-    },
-    {
-      "epoch": 3.5649546827794563,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.5507912039756775,
-      "eval_runtime": 15.4829,
-      "eval_samples_per_second": 9.882,
-      "eval_steps_per_second": 2.519,
-      "step": 1180
-    },
-    {
-      "epoch": 3.6253776435045317,
-      "grad_norm": 0.14462168514728546,
-      "learning_rate": 5.498489425981873e-06,
-      "loss": 0.2295,
-      "step": 1200
-    },
-    {
-      "epoch": 3.6253776435045317,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.48460787534713745,
-      "eval_runtime": 15.4689,
-      "eval_samples_per_second": 9.891,
-      "eval_steps_per_second": 2.521,
-      "step": 1200
-    },
-    {
-      "epoch": 3.685800604229607,
-      "grad_norm": 0.004326341208070517,
-      "learning_rate": 5.2567975830815706e-06,
-      "loss": 0.1175,
-      "step": 1220
-    },
-    {
-      "epoch": 3.685800604229607,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.4763535261154175,
-      "eval_runtime": 15.4639,
-      "eval_samples_per_second": 9.894,
-      "eval_steps_per_second": 2.522,
-      "step": 1220
-    },
-    {
-      "epoch": 3.7462235649546827,
-      "grad_norm": 0.016803044825792313,
-      "learning_rate": 5.01510574018127e-06,
-      "loss": 0.0746,
-      "step": 1240
-    },
-    {
-      "epoch": 3.7462235649546827,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.4760640561580658,
-      "eval_runtime": 15.4735,
-      "eval_samples_per_second": 9.888,
-      "eval_steps_per_second": 2.52,
-      "step": 1240
-    },
-    {
-      "epoch": 3.806646525679758,
-      "grad_norm": 0.024552155286073685,
-      "learning_rate": 4.773413897280967e-06,
-      "loss": 0.0222,
-      "step": 1260
-    },
-    {
-      "epoch": 3.806646525679758,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.48361214995384216,
-      "eval_runtime": 15.4614,
-      "eval_samples_per_second": 9.896,
-      "eval_steps_per_second": 2.522,
-      "step": 1260
-    },
-    {
-      "epoch": 3.8670694864048336,
-      "grad_norm": 0.04030178114771843,
-      "learning_rate": 4.531722054380665e-06,
-      "loss": 0.0012,
-      "step": 1280
-    },
-    {
-      "epoch": 3.8670694864048336,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.4774629771709442,
-      "eval_runtime": 15.4388,
-      "eval_samples_per_second": 9.91,
-      "eval_steps_per_second": 2.526,
-      "step": 1280
-    },
-    {
-      "epoch": 3.9274924471299095,
-      "grad_norm": 0.030293526127934456,
-      "learning_rate": 4.2900302114803626e-06,
-      "loss": 0.2131,
-      "step": 1300
-    },
-    {
-      "epoch": 3.9274924471299095,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.46071678400039673,
-      "eval_runtime": 15.4357,
-      "eval_samples_per_second": 9.912,
-      "eval_steps_per_second": 2.527,
-      "step": 1300
-    },
-    {
-      "epoch": 3.987915407854985,
-      "grad_norm": 0.04355171322822571,
-      "learning_rate": 4.048338368580061e-06,
-      "loss": 0.0006,
-      "step": 1320
-    },
-    {
-      "epoch": 3.987915407854985,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4934905767440796,
-      "eval_runtime": 15.4993,
-      "eval_samples_per_second": 9.871,
-      "eval_steps_per_second": 2.516,
-      "step": 1320
-    },
-    {
-      "epoch": 4.04833836858006,
-      "grad_norm": 0.023308318108320236,
-      "learning_rate": 3.8066465256797586e-06,
-      "loss": 0.0758,
-      "step": 1340
-    },
-    {
-      "epoch": 4.04833836858006,
-      "eval_accuracy": 0.9019607843137255,
-      "eval_loss": 0.4591919183731079,
-      "eval_runtime": 15.4907,
-      "eval_samples_per_second": 9.877,
-      "eval_steps_per_second": 2.518,
-      "step": 1340
-    },
-    {
-      "epoch": 4.108761329305136,
-      "grad_norm": 0.007429028861224651,
-      "learning_rate": 3.564954682779456e-06,
-      "loss": 0.1466,
-      "step": 1360
-    },
-    {
-      "epoch": 4.108761329305136,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4464338719844818,
-      "eval_runtime": 15.4771,
-      "eval_samples_per_second": 9.886,
-      "eval_steps_per_second": 2.52,
-      "step": 1360
-    },
-    {
-      "epoch": 4.169184290030212,
-      "grad_norm": 0.019125748425722122,
-      "learning_rate": 3.3232628398791546e-06,
-      "loss": 0.0488,
-      "step": 1380
-    },
-    {
-      "epoch": 4.169184290030212,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4816044867038727,
-      "eval_runtime": 15.4856,
-      "eval_samples_per_second": 9.88,
-      "eval_steps_per_second": 2.518,
-      "step": 1380
-    },
-    {
-      "epoch": 4.229607250755287,
-      "grad_norm": 0.02935463935136795,
-      "learning_rate": 3.081570996978852e-06,
-      "loss": 0.0014,
-      "step": 1400
-    },
-    {
-      "epoch": 4.229607250755287,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.4570343494415283,
-      "eval_runtime": 15.452,
-      "eval_samples_per_second": 9.902,
-      "eval_steps_per_second": 2.524,
-      "step": 1400
-    },
-    {
-      "epoch": 4.290030211480363,
-      "grad_norm": 0.05864783003926277,
-      "learning_rate": 2.83987915407855e-06,
-      "loss": 0.082,
-      "step": 1420
-    },
-    {
-      "epoch": 4.290030211480363,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.45447495579719543,
-      "eval_runtime": 15.4821,
-      "eval_samples_per_second": 9.882,
-      "eval_steps_per_second": 2.519,
-      "step": 1420
-    },
-    {
-      "epoch": 4.350453172205438,
-      "grad_norm": 1.1889474391937256,
-      "learning_rate": 2.598187311178248e-06,
-      "loss": 0.0009,
-      "step": 1440
-    },
-    {
-      "epoch": 4.350453172205438,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.4721324145793915,
-      "eval_runtime": 15.4932,
-      "eval_samples_per_second": 9.875,
-      "eval_steps_per_second": 2.517,
-      "step": 1440
-    },
-    {
-      "epoch": 4.410876132930514,
-      "grad_norm": 0.017764601856470108,
-      "learning_rate": 2.3564954682779457e-06,
-      "loss": 0.0008,
-      "step": 1460
-    },
-    {
-      "epoch": 4.410876132930514,
-      "eval_accuracy": 0.9215686274509803,
-      "eval_loss": 0.4873809814453125,
-      "eval_runtime": 15.477,
-      "eval_samples_per_second": 9.886,
-      "eval_steps_per_second": 2.52,
-      "step": 1460
-    },
-    {
-      "epoch": 4.471299093655589,
-      "grad_norm": 0.016238484531641006,
-      "learning_rate": 2.1148036253776437e-06,
-      "loss": 0.0014,
-      "step": 1480
-    },
-    {
-      "epoch": 4.471299093655589,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.5002758502960205,
-      "eval_runtime": 15.4881,
-      "eval_samples_per_second": 9.879,
-      "eval_steps_per_second": 2.518,
-      "step": 1480
-    },
-    {
-      "epoch": 4.531722054380665,
-      "grad_norm": 0.037868522107601166,
-      "learning_rate": 1.8731117824773415e-06,
-      "loss": 0.1612,
-      "step": 1500
-    },
-    {
-      "epoch": 4.531722054380665,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.5064195394515991,
-      "eval_runtime": 15.5013,
-      "eval_samples_per_second": 9.87,
-      "eval_steps_per_second": 2.516,
-      "step": 1500
-    },
-    {
-      "epoch": 4.59214501510574,
-      "grad_norm": 0.01508911419659853,
-      "learning_rate": 1.6314199395770395e-06,
-      "loss": 0.2079,
-      "step": 1520
-    },
-    {
-      "epoch": 4.59214501510574,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.4994471073150635,
-      "eval_runtime": 16.27,
-      "eval_samples_per_second": 9.404,
-      "eval_steps_per_second": 2.397,
-      "step": 1520
-    },
-    {
-      "epoch": 4.652567975830816,
-      "grad_norm": 0.037796132266521454,
-      "learning_rate": 1.3897280966767373e-06,
-      "loss": 0.1423,
-      "step": 1540
-    },
-    {
-      "epoch": 4.652567975830816,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.4834767282009125,
-      "eval_runtime": 15.2545,
-      "eval_samples_per_second": 10.03,
-      "eval_steps_per_second": 2.557,
-      "step": 1540
-    },
-    {
-      "epoch": 4.712990936555891,
-      "grad_norm": 0.04188241437077522,
-      "learning_rate": 1.1480362537764353e-06,
-      "loss": 0.0009,
-      "step": 1560
-    },
-    {
-      "epoch": 4.712990936555891,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4825386703014374,
-      "eval_runtime": 15.7256,
-      "eval_samples_per_second": 9.729,
-      "eval_steps_per_second": 2.48,
-      "step": 1560
-    },
-    {
-      "epoch": 4.7734138972809665,
-      "grad_norm": 0.00891907513141632,
-      "learning_rate": 9.063444108761329e-07,
-      "loss": 0.0017,
-      "step": 1580
-    },
-    {
-      "epoch": 4.7734138972809665,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.4918363392353058,
-      "eval_runtime": 15.5035,
-      "eval_samples_per_second": 9.869,
-      "eval_steps_per_second": 2.516,
-      "step": 1580
-    },
-    {
-      "epoch": 4.833836858006042,
-      "grad_norm": 0.02154299058020115,
-      "learning_rate": 6.646525679758309e-07,
-      "loss": 0.0648,
-      "step": 1600
-    },
-    {
-      "epoch": 4.833836858006042,
-      "eval_accuracy": 0.9150326797385621,
-      "eval_loss": 0.4916614294052124,
-      "eval_runtime": 15.4748,
-      "eval_samples_per_second": 9.887,
-      "eval_steps_per_second": 2.52,
-      "step": 1600
-    },
-    {
-      "epoch": 4.8942598187311175,
-      "grad_norm": 1.6405360698699951,
-      "learning_rate": 4.2296072507552877e-07,
-      "loss": 0.0531,
-      "step": 1620
-    },
-    {
-      "epoch": 4.8942598187311175,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.49186328053474426,
-      "eval_runtime": 15.5247,
-      "eval_samples_per_second": 9.855,
-      "eval_steps_per_second": 2.512,
-      "step": 1620
-    },
-    {
-      "epoch": 4.954682779456194,
-      "grad_norm": 0.05020515248179436,
-      "learning_rate": 1.812688821752266e-07,
-      "loss": 0.0008,
-      "step": 1640
-    },
-    {
-      "epoch": 4.954682779456194,
-      "eval_accuracy": 0.9084967320261438,
-      "eval_loss": 0.49449607729911804,
-      "eval_runtime": 15.5248,
-      "eval_samples_per_second": 9.855,
-      "eval_steps_per_second": 2.512,
-      "step": 1640
     }
   ],
   "logging_steps": 20,
-  "max_steps": 1655,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -1333,12 +421,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 5352059977451376.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2911098897457123,
+  "best_model_checkpoint": "./results/checkpoint-280",
+  "epoch": 1.4326647564469914,
   "eval_steps": 20,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05730659025787966,
+      "grad_norm": 14.95106029510498,
+      "learning_rate": 1.9770773638968482e-05,
+      "loss": 0.5908,
       "step": 20
     },
     {
+      "epoch": 0.05730659025787966,
+      "eval_accuracy": 0.7974683544303798,
+      "eval_loss": 0.44761696457862854,
+      "eval_runtime": 12.826,
+      "eval_samples_per_second": 12.319,
+      "eval_steps_per_second": 3.119,
       "step": 20
     },
     {
+      "epoch": 0.11461318051575932,
+      "grad_norm": 16.47698402404785,
+      "learning_rate": 1.9541547277936966e-05,
+      "loss": 0.543,
       "step": 40
     },
     {
+      "epoch": 0.11461318051575932,
+      "eval_accuracy": 0.7721518987341772,
+      "eval_loss": 0.4422585070133209,
+      "eval_runtime": 13.5793,
+      "eval_samples_per_second": 11.635,
+      "eval_steps_per_second": 2.946,
       "step": 40
     },
     {
+      "epoch": 0.17191977077363896,
+      "grad_norm": 22.875091552734375,
+      "learning_rate": 1.9312320916905443e-05,
+      "loss": 0.5093,
       "step": 60
     },
     {
+      "epoch": 0.17191977077363896,
+      "eval_accuracy": 0.7721518987341772,
+      "eval_loss": 0.5881978869438171,
+      "eval_runtime": 14.7375,
+      "eval_samples_per_second": 10.721,
+      "eval_steps_per_second": 2.714,
       "step": 60
     },
     {
+      "epoch": 0.22922636103151864,
+      "grad_norm": 6.222044944763184,
+      "learning_rate": 1.9083094555873927e-05,
+      "loss": 0.5186,
       "step": 80
     },
     {
+      "epoch": 0.22922636103151864,
+      "eval_accuracy": 0.7658227848101266,
+      "eval_loss": 0.6422034502029419,
+      "eval_runtime": 14.6414,
+      "eval_samples_per_second": 10.791,
+      "eval_steps_per_second": 2.732,
       "step": 80
     },
     {
+      "epoch": 0.28653295128939826,
+      "grad_norm": 10.637746810913086,
+      "learning_rate": 1.8853868194842408e-05,
+      "loss": 0.502,
       "step": 100
     },
     {
+      "epoch": 0.28653295128939826,
+      "eval_accuracy": 0.7658227848101266,
+      "eval_loss": 0.9381818175315857,
+      "eval_runtime": 14.572,
+      "eval_samples_per_second": 10.843,
+      "eval_steps_per_second": 2.745,
       "step": 100
     },
     {
+      "epoch": 0.3438395415472779,
+      "grad_norm": 8.144033432006836,
+      "learning_rate": 1.8624641833810892e-05,
+      "loss": 0.573,
       "step": 120
     },
     {
+      "epoch": 0.3438395415472779,
+      "eval_accuracy": 0.8227848101265823,
+      "eval_loss": 0.4263954758644104,
+      "eval_runtime": 14.6662,
+      "eval_samples_per_second": 10.773,
+      "eval_steps_per_second": 2.727,
       "step": 120
     },
     {
+      "epoch": 0.40114613180515757,
+      "grad_norm": 0.44048359990119934,
+      "learning_rate": 1.8395415472779372e-05,
+      "loss": 0.5269,
       "step": 140
     },
     {
+      "epoch": 0.40114613180515757,
+      "eval_accuracy": 0.8481012658227848,
+      "eval_loss": 0.5453027486801147,
+      "eval_runtime": 14.5869,
+      "eval_samples_per_second": 10.832,
+      "eval_steps_per_second": 2.742,
       "step": 140
     },
     {
+      "epoch": 0.4584527220630373,
+      "grad_norm": 18.155141830444336,
+      "learning_rate": 1.8166189111747853e-05,
+      "loss": 0.3545,
       "step": 160
     },
     {
+      "epoch": 0.4584527220630373,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.4540826678276062,
+      "eval_runtime": 14.6402,
+      "eval_samples_per_second": 10.792,
+      "eval_steps_per_second": 2.732,
       "step": 160
     },
     {
+      "epoch": 0.5157593123209169,
+      "grad_norm": 0.482028603553772,
+      "learning_rate": 1.7936962750716333e-05,
+      "loss": 0.4449,
       "step": 180
     },
     {
+      "epoch": 0.5157593123209169,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.43535691499710083,
+      "eval_runtime": 14.6919,
+      "eval_samples_per_second": 10.754,
+      "eval_steps_per_second": 2.723,
       "step": 180
     },
     {
+      "epoch": 0.5730659025787965,
+      "grad_norm": 108.88398742675781,
+      "learning_rate": 1.7707736389684814e-05,
+      "loss": 0.3868,
       "step": 200
     },
     {
+      "epoch": 0.5730659025787965,
+      "eval_accuracy": 0.8481012658227848,
+      "eval_loss": 0.8784106373786926,
+      "eval_runtime": 14.6371,
+      "eval_samples_per_second": 10.794,
+      "eval_steps_per_second": 2.733,
       "step": 200
     },
     {
+      "epoch": 0.6303724928366762,
+      "grad_norm": 12.77889347076416,
+      "learning_rate": 1.7478510028653298e-05,
+      "loss": 0.7576,
       "step": 220
     },
     {
+      "epoch": 0.6303724928366762,
+      "eval_accuracy": 0.8860759493670886,
+      "eval_loss": 0.38221749663352966,
+      "eval_runtime": 14.6383,
+      "eval_samples_per_second": 10.794,
+      "eval_steps_per_second": 2.733,
       "step": 220
     },
     {
+      "epoch": 0.6876790830945558,
+      "grad_norm": 13.416525840759277,
+      "learning_rate": 1.724928366762178e-05,
+      "loss": 0.1956,
       "step": 240
     },
     {
+      "epoch": 0.6876790830945558,
+      "eval_accuracy": 0.879746835443038,
+      "eval_loss": 0.4667538106441498,
+      "eval_runtime": 14.6113,
+      "eval_samples_per_second": 10.814,
+      "eval_steps_per_second": 2.738,
       "step": 240
     },
     {
+      "epoch": 0.7449856733524355,
+      "grad_norm": 10.141700744628906,
+      "learning_rate": 1.702005730659026e-05,
+      "loss": 0.4942,
       "step": 260
     },
     {
+      "epoch": 0.7449856733524355,
+      "eval_accuracy": 0.8481012658227848,
+      "eval_loss": 0.5736417174339294,
+      "eval_runtime": 14.603,
+      "eval_samples_per_second": 10.82,
+      "eval_steps_per_second": 2.739,
       "step": 260
     },
     {
+      "epoch": 0.8022922636103151,
+      "grad_norm": 23.185056686401367,
+      "learning_rate": 1.679083094555874e-05,
+      "loss": 0.4762,
       "step": 280
     },
     {
+      "epoch": 0.8022922636103151,
+      "eval_accuracy": 0.8987341772151899,
+      "eval_loss": 0.2911098897457123,
+      "eval_runtime": 14.6519,
+      "eval_samples_per_second": 10.784,
+      "eval_steps_per_second": 2.73,
       "step": 280
     },
     {
+      "epoch": 0.8595988538681948,
+      "grad_norm": 46.526451110839844,
+      "learning_rate": 1.6561604584527223e-05,
+      "loss": 0.4136,
       "step": 300
     },
     {
+      "epoch": 0.8595988538681948,
+      "eval_accuracy": 0.8607594936708861,
+      "eval_loss": 0.3629298508167267,
+      "eval_runtime": 14.6627,
+      "eval_samples_per_second": 10.776,
+      "eval_steps_per_second": 2.728,
       "step": 300
     },
     {
+      "epoch": 0.9169054441260746,
+      "grad_norm": 5.966210842132568,
+      "learning_rate": 1.6332378223495704e-05,
+      "loss": 0.5865,
       "step": 320
     },
     {
+      "epoch": 0.9169054441260746,
+      "eval_accuracy": 0.7721518987341772,
+      "eval_loss": 0.9794216752052307,
+      "eval_runtime": 14.6593,
+      "eval_samples_per_second": 10.778,
+      "eval_steps_per_second": 2.729,
       "step": 320
     },
     {
+      "epoch": 0.9742120343839542,
+      "grad_norm": 3.5877606868743896,
+      "learning_rate": 1.6103151862464185e-05,
+      "loss": 0.3758,
       "step": 340
     },
     {
+      "epoch": 0.9742120343839542,
+      "eval_accuracy": 0.8734177215189873,
+      "eval_loss": 0.46775683760643005,
+      "eval_runtime": 14.6442,
+      "eval_samples_per_second": 10.789,
+      "eval_steps_per_second": 2.731,
       "step": 340
     },
     {
+      "epoch": 1.0315186246418337,
+      "grad_norm": 5.313683986663818,
+      "learning_rate": 1.5873925501432665e-05,
+      "loss": 0.4285,
       "step": 360
     },
     {
+      "epoch": 1.0315186246418337,
+      "eval_accuracy": 0.8670886075949367,
+      "eval_loss": 0.5543066263198853,
+      "eval_runtime": 14.6827,
+      "eval_samples_per_second": 10.761,
+      "eval_steps_per_second": 2.724,
       "step": 360
     },
     {
+      "epoch": 1.0888252148997135,
+      "grad_norm": 10.655978202819824,
+      "learning_rate": 1.5644699140401146e-05,
+      "loss": 0.44,
       "step": 380
     },
     {
+      "epoch": 1.0888252148997135,
+      "eval_accuracy": 0.8607594936708861,
+      "eval_loss": 0.5150261521339417,
+      "eval_runtime": 14.6825,
+      "eval_samples_per_second": 10.761,
+      "eval_steps_per_second": 2.724,
       "step": 380
     },
     {
+      "epoch": 1.146131805157593,
+      "grad_norm": 0.08064723014831543,
+      "learning_rate": 1.541547277936963e-05,
+      "loss": 0.3573,
       "step": 400
     },
     {
+      "epoch": 1.146131805157593,
+      "eval_accuracy": 0.8607594936708861,
+      "eval_loss": 0.563529908657074,
+      "eval_runtime": 14.6349,
+      "eval_samples_per_second": 10.796,
+      "eval_steps_per_second": 2.733,
       "step": 400
     },
     {
+      "epoch": 1.2034383954154728,
+      "grad_norm": 0.46097293496131897,
+      "learning_rate": 1.518624641833811e-05,
+      "loss": 0.4187,
       "step": 420
     },
     {
+      "epoch": 1.2034383954154728,
+      "eval_accuracy": 0.8481012658227848,
+      "eval_loss": 0.6609386205673218,
+      "eval_runtime": 14.5517,
+      "eval_samples_per_second": 10.858,
+      "eval_steps_per_second": 2.749,
       "step": 420
     },
     {
+      "epoch": 1.2607449856733524,
+      "grad_norm": 0.37571266293525696,
+      "learning_rate": 1.495702005730659e-05,
+      "loss": 0.3742,
       "step": 440
     },
     {
+      "epoch": 1.2607449856733524,
+      "eval_accuracy": 0.8481012658227848,
+      "eval_loss": 0.5912802815437317,
+      "eval_runtime": 14.594,
+      "eval_samples_per_second": 10.826,
+      "eval_steps_per_second": 2.741,
       "step": 440
     },
     {
+      "epoch": 1.3180515759312321,
+      "grad_norm": 0.4662785828113556,
+      "learning_rate": 1.4727793696275073e-05,
+      "loss": 0.5179,
       "step": 460
     },
     {
+      "epoch": 1.3180515759312321,
+      "eval_accuracy": 0.8354430379746836,
+      "eval_loss": 0.3983699679374695,
+      "eval_runtime": 14.6982,
+      "eval_samples_per_second": 10.75,
+      "eval_steps_per_second": 2.721,
       "step": 460
     },
     {
+      "epoch": 1.3753581661891117,
+      "grad_norm": 3.044969081878662,
+      "learning_rate": 1.4498567335243553e-05,
+      "loss": 0.1685,
       "step": 480
     },
     {
+      "epoch": 1.3753581661891117,
+      "eval_accuracy": 0.8734177215189873,
+      "eval_loss": 0.5606595873832703,
+      "eval_runtime": 14.5479,
+      "eval_samples_per_second": 10.861,
+      "eval_steps_per_second": 2.75,
       "step": 480
     },
     {
+      "epoch": 1.4326647564469914,
+      "grad_norm": 9.852724075317383,
+      "learning_rate": 1.4269340974212036e-05,
+      "loss": 0.5284,
       "step": 500
     },
     {
+      "epoch": 1.4326647564469914,
+      "eval_accuracy": 0.8924050632911392,
+      "eval_loss": 0.35282623767852783,
+      "eval_runtime": 14.6738,
+      "eval_samples_per_second": 10.767,
+      "eval_steps_per_second": 2.726,
       "step": 500
     }
   ],
   "logging_steps": 20,
+  "max_steps": 1745,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1632590853561360.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86f09b33190e89a5f43d415554f33c8d75ab6485f60f2b9e3aec61203e52e1d9
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:abac746a15333d522ab2f8ea1b4da819eacaabae31bef4a7933bfe624dbee4ec
 size 5368