End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +11 -11
eval_results.json +6 -6
runs/Apr30_00-59-58_786022f41cde/events.out.tfevents.1714445352.786022f41cde.42.6 +3 -0
train_results.json +6 -6
trainer_state.json +982 -265

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7052103650041794
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +32,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the image_folder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1280
-- Accuracy: 0.7052
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7057676232933965
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the image_folder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9803
+- Accuracy: 0.7058
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 4.99,
-    "eval_accuracy": 0.6982446363889663,
-    "eval_loss": 0.8523625135421753,
-    "eval_runtime": 60.7812,
-    "eval_samples_per_second": 118.096,
-    "eval_steps_per_second": 3.702,
-    "total_flos": 1.1101379964762415e+19,
-    "train_loss": 0.7277007077421461,
-    "train_runtime": 3200.5261,
-    "train_samples_per_second": 44.85,
-    "train_steps_per_second": 0.35
 }

 {
+    "epoch": 9.98,
+    "eval_accuracy": 0.7057676232933965,
+    "eval_loss": 0.9803113341331482,
+    "eval_runtime": 60.2511,
+    "eval_samples_per_second": 119.135,
+    "eval_steps_per_second": 3.734,
+    "total_flos": 2.2200667552042852e+19,
+    "train_loss": 0.27600424638284105,
+    "train_runtime": 6453.2956,
+    "train_samples_per_second": 44.487,
+    "train_steps_per_second": 0.347
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.99,
-    "eval_accuracy": 0.6982446363889663,
-    "eval_loss": 0.8523625135421753,
-    "eval_runtime": 60.7812,
-    "eval_samples_per_second": 118.096,
-    "eval_steps_per_second": 3.702
 }

 {
+    "epoch": 9.98,
+    "eval_accuracy": 0.7057676232933965,
+    "eval_loss": 0.9803113341331482,
+    "eval_runtime": 60.2511,
+    "eval_samples_per_second": 119.135,
+    "eval_steps_per_second": 3.734
 }

runs/Apr30_00-59-58_786022f41cde/events.out.tfevents.1714445352.786022f41cde.42.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaf8dc49760c3ee0adee024a5228dc39f7dace6ad559e1699aef2e9652b8975c
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.99,
-    "total_flos": 1.1101379964762415e+19,
-    "train_loss": 0.7277007077421461,
-    "train_runtime": 3200.5261,
-    "train_samples_per_second": 44.85,
-    "train_steps_per_second": 0.35
 }

 {
+    "epoch": 9.98,
+    "total_flos": 2.2200667552042852e+19,
+    "train_loss": 0.27600424638284105,
+    "train_runtime": 6453.2956,
+    "train_samples_per_second": 44.487,
+    "train_steps_per_second": 0.347
 }

trainer_state.json CHANGED Viewed

@@ -1,746 +1,1463 @@
 {
-  "best_metric": 0.6982446363889663,
-  "best_model_checkpoint": "vit-base-patch16-224-in21k-finetuned/checkpoint-1120",
-  "epoch": 4.988864142538976,
   "eval_steps": 500,
-  "global_step": 1120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 4.464285714285715e-06,
-      "loss": 1.0215,
       "step": 10
     },
     {
       "epoch": 0.09,
-      "learning_rate": 8.92857142857143e-06,
-      "loss": 1.0059,
       "step": 20
     },
     {
       "epoch": 0.13,
-      "learning_rate": 1.3392857142857144e-05,
-      "loss": 1.0021,
       "step": 30
     },
     {
       "epoch": 0.18,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 1.0043,
       "step": 40
     },
     {
       "epoch": 0.22,
-      "learning_rate": 2.2321428571428575e-05,
-      "loss": 0.975,
       "step": 50
     },
     {
       "epoch": 0.27,
-      "learning_rate": 2.6785714285714288e-05,
-      "loss": 0.9459,
       "step": 60
     },
     {
       "epoch": 0.31,
-      "learning_rate": 3.125e-05,
-      "loss": 0.9092,
       "step": 70
     },
     {
       "epoch": 0.36,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.911,
       "step": 80
     },
     {
       "epoch": 0.4,
-      "learning_rate": 4.017857142857143e-05,
-      "loss": 0.961,
       "step": 90
     },
     {
       "epoch": 0.45,
-      "learning_rate": 4.464285714285715e-05,
-      "loss": 0.9321,
       "step": 100
     },
     {
       "epoch": 0.49,
-      "learning_rate": 4.910714285714286e-05,
-      "loss": 0.9215,
       "step": 110
     },
     {
       "epoch": 0.53,
-      "learning_rate": 4.960317460317461e-05,
-      "loss": 0.8922,
       "step": 120
     },
     {
       "epoch": 0.58,
-      "learning_rate": 4.910714285714286e-05,
-      "loss": 0.9519,
       "step": 130
     },
     {
       "epoch": 0.62,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.8926,
       "step": 140
     },
     {
       "epoch": 0.67,
-      "learning_rate": 4.811507936507937e-05,
-      "loss": 0.8787,
       "step": 150
     },
     {
       "epoch": 0.71,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 0.8783,
       "step": 160
     },
     {
       "epoch": 0.76,
-      "learning_rate": 4.7123015873015876e-05,
-      "loss": 0.8611,
       "step": 170
     },
     {
       "epoch": 0.8,
-      "learning_rate": 4.662698412698413e-05,
-      "loss": 0.9162,
       "step": 180
     },
     {
       "epoch": 0.85,
-      "learning_rate": 4.613095238095239e-05,
-      "loss": 0.8853,
       "step": 190
     },
     {
       "epoch": 0.89,
-      "learning_rate": 4.563492063492064e-05,
-      "loss": 0.8687,
       "step": 200
     },
     {
       "epoch": 0.94,
-      "learning_rate": 4.5138888888888894e-05,
-      "loss": 0.8379,
       "step": 210
     },
     {
       "epoch": 0.98,
-      "learning_rate": 4.464285714285715e-05,
-      "loss": 0.8333,
       "step": 220
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6473948174979103,
-      "eval_loss": 0.9670450687408447,
-      "eval_runtime": 60.2016,
-      "eval_samples_per_second": 119.233,
-      "eval_steps_per_second": 3.737,
       "step": 224
     },
     {
       "epoch": 1.02,
-      "learning_rate": 4.41468253968254e-05,
-      "loss": 0.8652,
       "step": 230
     },
     {
       "epoch": 1.07,
-      "learning_rate": 4.3650793650793655e-05,
-      "loss": 0.8686,
       "step": 240
     },
     {
       "epoch": 1.11,
-      "learning_rate": 4.315476190476191e-05,
-      "loss": 0.8604,
       "step": 250
     },
     {
       "epoch": 1.16,
-      "learning_rate": 4.265873015873016e-05,
-      "loss": 0.8377,
       "step": 260
     },
     {
       "epoch": 1.2,
-      "learning_rate": 4.2162698412698416e-05,
-      "loss": 0.8151,
       "step": 270
     },
     {
       "epoch": 1.25,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.8818,
       "step": 280
     },
     {
       "epoch": 1.29,
-      "learning_rate": 4.117063492063492e-05,
-      "loss": 0.8108,
       "step": 290
     },
     {
       "epoch": 1.34,
-      "learning_rate": 4.067460317460318e-05,
-      "loss": 0.8408,
       "step": 300
     },
     {
       "epoch": 1.38,
-      "learning_rate": 4.017857142857143e-05,
-      "loss": 0.8801,
       "step": 310
     },
     {
       "epoch": 1.43,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 0.8194,
       "step": 320
     },
     {
       "epoch": 1.47,
-      "learning_rate": 3.918650793650794e-05,
-      "loss": 0.862,
       "step": 330
     },
     {
       "epoch": 1.51,
-      "learning_rate": 3.8690476190476195e-05,
-      "loss": 0.8165,
       "step": 340
     },
     {
       "epoch": 1.56,
-      "learning_rate": 3.8194444444444444e-05,
-      "loss": 0.8342,
       "step": 350
     },
     {
       "epoch": 1.6,
-      "learning_rate": 3.76984126984127e-05,
-      "loss": 0.8397,
       "step": 360
     },
     {
       "epoch": 1.65,
-      "learning_rate": 3.7202380952380956e-05,
-      "loss": 0.8318,
       "step": 370
     },
     {
       "epoch": 1.69,
-      "learning_rate": 3.6706349206349205e-05,
-      "loss": 0.792,
       "step": 380
     },
     {
       "epoch": 1.74,
-      "learning_rate": 3.621031746031746e-05,
-      "loss": 0.844,
       "step": 390
     },
     {
       "epoch": 1.78,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.8179,
       "step": 400
     },
     {
       "epoch": 1.83,
-      "learning_rate": 3.521825396825397e-05,
-      "loss": 0.7968,
       "step": 410
     },
     {
       "epoch": 1.87,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.7903,
       "step": 420
     },
     {
       "epoch": 1.92,
-      "learning_rate": 3.422619047619048e-05,
-      "loss": 0.7977,
       "step": 430
     },
     {
       "epoch": 1.96,
-      "learning_rate": 3.3730158730158734e-05,
-      "loss": 0.7972,
       "step": 440
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6653663973251602,
-      "eval_loss": 0.9123018383979797,
-      "eval_runtime": 59.7062,
-      "eval_samples_per_second": 120.222,
-      "eval_steps_per_second": 3.768,
       "step": 449
     },
     {
       "epoch": 2.0,
-      "learning_rate": 3.3234126984126983e-05,
-      "loss": 0.8381,
       "step": 450
     },
     {
       "epoch": 2.05,
-      "learning_rate": 3.273809523809524e-05,
-      "loss": 0.7561,
       "step": 460
     },
     {
       "epoch": 2.09,
-      "learning_rate": 3.2242063492063495e-05,
-      "loss": 0.7124,
       "step": 470
     },
     {
       "epoch": 2.14,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.7322,
       "step": 480
     },
     {
       "epoch": 2.18,
-      "learning_rate": 3.125e-05,
-      "loss": 0.7348,
       "step": 490
     },
     {
       "epoch": 2.23,
-      "learning_rate": 3.075396825396826e-05,
-      "loss": 0.7468,
       "step": 500
     },
     {
       "epoch": 2.27,
-      "learning_rate": 3.0257936507936506e-05,
-      "loss": 0.7106,
       "step": 510
     },
     {
       "epoch": 2.32,
-      "learning_rate": 2.9761904761904762e-05,
-      "loss": 0.7585,
       "step": 520
     },
     {
       "epoch": 2.36,
-      "learning_rate": 2.9265873015873018e-05,
-      "loss": 0.7383,
       "step": 530
     },
     {
       "epoch": 2.41,
-      "learning_rate": 2.876984126984127e-05,
-      "loss": 0.7238,
       "step": 540
     },
     {
       "epoch": 2.45,
-      "learning_rate": 2.8273809523809523e-05,
-      "loss": 0.7042,
       "step": 550
     },
     {
       "epoch": 2.49,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.7076,
       "step": 560
     },
     {
       "epoch": 2.54,
-      "learning_rate": 2.7281746031746032e-05,
-      "loss": 0.7441,
       "step": 570
     },
     {
       "epoch": 2.58,
-      "learning_rate": 2.6785714285714288e-05,
-      "loss": 0.6887,
       "step": 580
     },
     {
       "epoch": 2.63,
-      "learning_rate": 2.628968253968254e-05,
-      "loss": 0.7216,
       "step": 590
     },
     {
       "epoch": 2.67,
-      "learning_rate": 2.5793650793650796e-05,
-      "loss": 0.71,
       "step": 600
     },
     {
       "epoch": 2.72,
-      "learning_rate": 2.529761904761905e-05,
-      "loss": 0.7265,
       "step": 610
     },
     {
       "epoch": 2.76,
-      "learning_rate": 2.4801587301587305e-05,
-      "loss": 0.697,
       "step": 620
     },
     {
       "epoch": 2.81,
-      "learning_rate": 2.4305555555555558e-05,
-      "loss": 0.7578,
       "step": 630
     },
     {
       "epoch": 2.85,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 0.6838,
       "step": 640
     },
     {
       "epoch": 2.9,
-      "learning_rate": 2.3313492063492066e-05,
-      "loss": 0.7082,
       "step": 650
     },
     {
       "epoch": 2.94,
-      "learning_rate": 2.281746031746032e-05,
-      "loss": 0.6824,
       "step": 660
     },
     {
       "epoch": 2.98,
-      "learning_rate": 2.2321428571428575e-05,
-      "loss": 0.667,
       "step": 670
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6886319308999721,
-      "eval_loss": 0.8676984906196594,
-      "eval_runtime": 59.6434,
-      "eval_samples_per_second": 120.349,
-      "eval_steps_per_second": 3.772,
       "step": 673
     },
     {
       "epoch": 3.03,
-      "learning_rate": 2.1825396825396827e-05,
-      "loss": 0.6546,
       "step": 680
     },
     {
       "epoch": 3.07,
-      "learning_rate": 2.132936507936508e-05,
-      "loss": 0.6349,
       "step": 690
     },
     {
       "epoch": 3.12,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.6229,
       "step": 700
     },
     {
       "epoch": 3.16,
-      "learning_rate": 2.033730158730159e-05,
-      "loss": 0.653,
       "step": 710
     },
     {
       "epoch": 3.21,
-      "learning_rate": 1.984126984126984e-05,
-      "loss": 0.6433,
       "step": 720
     },
     {
       "epoch": 3.25,
-      "learning_rate": 1.9345238095238097e-05,
-      "loss": 0.6291,
       "step": 730
     },
     {
       "epoch": 3.3,
-      "learning_rate": 1.884920634920635e-05,
-      "loss": 0.6621,
       "step": 740
     },
     {
       "epoch": 3.34,
-      "learning_rate": 1.8353174603174602e-05,
-      "loss": 0.6116,
       "step": 750
     },
     {
       "epoch": 3.39,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 0.6441,
       "step": 760
     },
     {
       "epoch": 3.43,
-      "learning_rate": 1.736111111111111e-05,
-      "loss": 0.642,
       "step": 770
     },
     {
       "epoch": 3.47,
-      "learning_rate": 1.6865079365079367e-05,
-      "loss": 0.6129,
       "step": 780
     },
     {
       "epoch": 3.52,
-      "learning_rate": 1.636904761904762e-05,
-      "loss": 0.5959,
       "step": 790
     },
     {
       "epoch": 3.56,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.6257,
       "step": 800
     },
     {
       "epoch": 3.61,
-      "learning_rate": 1.537698412698413e-05,
-      "loss": 0.5942,
       "step": 810
     },
     {
       "epoch": 3.65,
-      "learning_rate": 1.4880952380952381e-05,
-      "loss": 0.5848,
       "step": 820
     },
     {
       "epoch": 3.7,
-      "learning_rate": 1.4384920634920635e-05,
-      "loss": 0.6071,
       "step": 830
     },
     {
       "epoch": 3.74,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.6009,
       "step": 840
     },
     {
       "epoch": 3.79,
-      "learning_rate": 1.3392857142857144e-05,
-      "loss": 0.6541,
       "step": 850
     },
     {
       "epoch": 3.83,
-      "learning_rate": 1.2896825396825398e-05,
-      "loss": 0.6306,
       "step": 860
     },
     {
       "epoch": 3.88,
-      "learning_rate": 1.2400793650793652e-05,
-      "loss": 0.6398,
       "step": 870
     },
     {
       "epoch": 3.92,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 0.6285,
       "step": 880
     },
     {
       "epoch": 3.96,
-      "learning_rate": 1.140873015873016e-05,
-      "loss": 0.5729,
       "step": 890
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6937865700752298,
-      "eval_loss": 0.8486846685409546,
-      "eval_runtime": 59.646,
-      "eval_samples_per_second": 120.343,
-      "eval_steps_per_second": 3.772,
       "step": 898
     },
     {
       "epoch": 4.01,
-      "learning_rate": 1.0912698412698414e-05,
-      "loss": 0.5634,
       "step": 900
     },
     {
       "epoch": 4.05,
-      "learning_rate": 1.0416666666666668e-05,
-      "loss": 0.5553,
       "step": 910
     },
     {
       "epoch": 4.1,
-      "learning_rate": 9.92063492063492e-06,
-      "loss": 0.5474,
       "step": 920
     },
     {
       "epoch": 4.14,
-      "learning_rate": 9.424603174603175e-06,
-      "loss": 0.5299,
       "step": 930
     },
     {
       "epoch": 4.19,
-      "learning_rate": 8.92857142857143e-06,
-      "loss": 0.5541,
       "step": 940
     },
     {
       "epoch": 4.23,
-      "learning_rate": 8.432539682539684e-06,
-      "loss": 0.5341,
       "step": 950
     },
     {
       "epoch": 4.28,
-      "learning_rate": 7.936507936507936e-06,
-      "loss": 0.5315,
       "step": 960
     },
     {
       "epoch": 4.32,
-      "learning_rate": 7.4404761904761905e-06,
-      "loss": 0.5265,
       "step": 970
     },
     {
       "epoch": 4.37,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.5063,
       "step": 980
     },
     {
       "epoch": 4.41,
-      "learning_rate": 6.448412698412699e-06,
-      "loss": 0.53,
       "step": 990
     },
     {
       "epoch": 4.45,
-      "learning_rate": 5.9523809523809525e-06,
-      "loss": 0.5322,
       "step": 1000
     },
     {
       "epoch": 4.5,
-      "learning_rate": 5.456349206349207e-06,
-      "loss": 0.5397,
       "step": 1010
     },
     {
       "epoch": 4.54,
-      "learning_rate": 4.96031746031746e-06,
-      "loss": 0.533,
       "step": 1020
     },
     {
       "epoch": 4.59,
-      "learning_rate": 4.464285714285715e-06,
-      "loss": 0.6067,
       "step": 1030
     },
     {
       "epoch": 4.63,
-      "learning_rate": 3.968253968253968e-06,
-      "loss": 0.568,
       "step": 1040
     },
     {
       "epoch": 4.68,
-      "learning_rate": 3.4722222222222224e-06,
-      "loss": 0.5507,
       "step": 1050
     },
     {
       "epoch": 4.72,
-      "learning_rate": 2.9761904761904763e-06,
-      "loss": 0.5993,
       "step": 1060
     },
     {
       "epoch": 4.77,
-      "learning_rate": 2.48015873015873e-06,
-      "loss": 0.5343,
       "step": 1070
     },
     {
       "epoch": 4.81,
-      "learning_rate": 1.984126984126984e-06,
-      "loss": 0.5301,
       "step": 1080
     },
     {
       "epoch": 4.86,
-      "learning_rate": 1.4880952380952381e-06,
-      "loss": 0.5446,
       "step": 1090
     },
     {
       "epoch": 4.9,
-      "learning_rate": 9.92063492063492e-07,
-      "loss": 0.5496,
       "step": 1100
     },
     {
       "epoch": 4.94,
-      "learning_rate": 4.96031746031746e-07,
-      "loss": 0.5198,
       "step": 1110
     },
     {
       "epoch": 4.99,
-      "learning_rate": 0.0,
-      "loss": 0.5347,
       "step": 1120
     },
     {
-      "epoch": 4.99,
-      "eval_accuracy": 0.6982446363889663,
-      "eval_loss": 0.8523625135421753,
-      "eval_runtime": 60.8207,
-      "eval_samples_per_second": 118.019,
-      "eval_steps_per_second": 3.699,
-      "step": 1120
     },
     {
-      "epoch": 4.99,
-      "step": 1120,
-      "total_flos": 1.1101379964762415e+19,
-      "train_loss": 0.7277007077421461,
-      "train_runtime": 3200.5261,
-      "train_samples_per_second": 44.85,
-      "train_steps_per_second": 0.35
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1120,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 1.1101379964762415e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7057676232933965,
+  "best_model_checkpoint": "vit-base-patch16-224-in21k-finetuned/checkpoint-1122",
+  "epoch": 9.977728285077951,
   "eval_steps": 500,
+  "global_step": 2240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 2.2321428571428573e-06,
+      "loss": 0.5702,
       "step": 10
     },
     {
       "epoch": 0.09,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 0.5531,
       "step": 20
     },
     {
       "epoch": 0.13,
+      "learning_rate": 6.696428571428572e-06,
+      "loss": 0.5328,
       "step": 30
     },
     {
       "epoch": 0.18,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 0.5412,
       "step": 40
     },
     {
       "epoch": 0.22,
+      "learning_rate": 1.1160714285714287e-05,
+      "loss": 0.5131,
       "step": 50
     },
     {
       "epoch": 0.27,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.5021,
       "step": 60
     },
     {
       "epoch": 0.31,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.4657,
       "step": 70
     },
     {
       "epoch": 0.36,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.4831,
       "step": 80
     },
     {
       "epoch": 0.4,
+      "learning_rate": 2.0089285714285717e-05,
+      "loss": 0.4942,
       "step": 90
     },
     {
       "epoch": 0.45,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.531,
       "step": 100
     },
     {
       "epoch": 0.49,
+      "learning_rate": 2.455357142857143e-05,
+      "loss": 0.4907,
       "step": 110
     },
     {
       "epoch": 0.53,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.4482,
       "step": 120
     },
     {
       "epoch": 0.58,
+      "learning_rate": 2.9017857142857146e-05,
+      "loss": 0.5041,
       "step": 130
     },
     {
       "epoch": 0.62,
+      "learning_rate": 3.125e-05,
+      "loss": 0.4777,
       "step": 140
     },
     {
       "epoch": 0.67,
+      "learning_rate": 3.348214285714286e-05,
+      "loss": 0.4692,
       "step": 150
     },
     {
       "epoch": 0.71,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.4646,
       "step": 160
     },
     {
       "epoch": 0.76,
+      "learning_rate": 3.794642857142857e-05,
+      "loss": 0.4503,
       "step": 170
     },
     {
       "epoch": 0.8,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.5269,
       "step": 180
     },
     {
       "epoch": 0.85,
+      "learning_rate": 4.2410714285714285e-05,
+      "loss": 0.4849,
       "step": 190
     },
     {
       "epoch": 0.89,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.4956,
       "step": 200
     },
     {
       "epoch": 0.94,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.4993,
       "step": 210
     },
     {
       "epoch": 0.98,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.4887,
       "step": 220
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6776260796879353,
+      "eval_loss": 0.9212561845779419,
+      "eval_runtime": 60.2714,
+      "eval_samples_per_second": 119.095,
+      "eval_steps_per_second": 3.733,
       "step": 224
     },
     {
       "epoch": 1.02,
+      "learning_rate": 4.985119047619048e-05,
+      "loss": 0.5157,
       "step": 230
     },
     {
       "epoch": 1.07,
+      "learning_rate": 4.960317460317461e-05,
+      "loss": 0.5364,
       "step": 240
     },
     {
       "epoch": 1.11,
+      "learning_rate": 4.9355158730158735e-05,
+      "loss": 0.5125,
       "step": 250
     },
     {
       "epoch": 1.16,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.5028,
       "step": 260
     },
     {
       "epoch": 1.2,
+      "learning_rate": 4.8859126984126984e-05,
+      "loss": 0.4801,
       "step": 270
     },
     {
       "epoch": 1.25,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.5442,
       "step": 280
     },
     {
       "epoch": 1.29,
+      "learning_rate": 4.836309523809524e-05,
+      "loss": 0.4718,
       "step": 290
     },
     {
       "epoch": 1.34,
+      "learning_rate": 4.811507936507937e-05,
+      "loss": 0.5095,
       "step": 300
     },
     {
       "epoch": 1.38,
+      "learning_rate": 4.7867063492063496e-05,
+      "loss": 0.5151,
       "step": 310
     },
     {
       "epoch": 1.43,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.4909,
       "step": 320
     },
     {
       "epoch": 1.47,
+      "learning_rate": 4.7371031746031745e-05,
+      "loss": 0.4797,
       "step": 330
     },
     {
       "epoch": 1.51,
+      "learning_rate": 4.7123015873015876e-05,
+      "loss": 0.4604,
       "step": 340
     },
     {
       "epoch": 1.56,
+      "learning_rate": 4.6875e-05,
+      "loss": 0.5055,
       "step": 350
     },
     {
       "epoch": 1.6,
+      "learning_rate": 4.662698412698413e-05,
+      "loss": 0.5105,
       "step": 360
     },
     {
       "epoch": 1.65,
+      "learning_rate": 4.637896825396826e-05,
+      "loss": 0.4788,
       "step": 370
     },
     {
       "epoch": 1.69,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.4973,
       "step": 380
     },
     {
       "epoch": 1.74,
+      "learning_rate": 4.5882936507936506e-05,
+      "loss": 0.5572,
       "step": 390
     },
     {
       "epoch": 1.78,
+      "learning_rate": 4.563492063492064e-05,
+      "loss": 0.5182,
       "step": 400
     },
     {
       "epoch": 1.83,
+      "learning_rate": 4.538690476190476e-05,
+      "loss": 0.4698,
       "step": 410
     },
     {
       "epoch": 1.87,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 0.4881,
       "step": 420
     },
     {
       "epoch": 1.92,
+      "learning_rate": 4.489087301587302e-05,
+      "loss": 0.4835,
       "step": 430
     },
     {
       "epoch": 1.96,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.4969,
       "step": 440
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6926720534967957,
+      "eval_loss": 0.9037817716598511,
+      "eval_runtime": 60.4491,
+      "eval_samples_per_second": 118.744,
+      "eval_steps_per_second": 3.722,
       "step": 449
     },
     {
       "epoch": 2.0,
+      "learning_rate": 4.439484126984127e-05,
+      "loss": 0.4971,
       "step": 450
     },
     {
       "epoch": 2.05,
+      "learning_rate": 4.41468253968254e-05,
+      "loss": 0.4229,
       "step": 460
     },
     {
       "epoch": 2.09,
+      "learning_rate": 4.3898809523809523e-05,
+      "loss": 0.3694,
       "step": 470
     },
     {
       "epoch": 2.14,
+      "learning_rate": 4.3650793650793655e-05,
+      "loss": 0.4295,
       "step": 480
     },
     {
       "epoch": 2.18,
+      "learning_rate": 4.340277777777778e-05,
+      "loss": 0.3998,
       "step": 490
     },
     {
       "epoch": 2.23,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.4112,
       "step": 500
     },
     {
       "epoch": 2.27,
+      "learning_rate": 4.290674603174603e-05,
+      "loss": 0.3728,
       "step": 510
     },
     {
       "epoch": 2.32,
+      "learning_rate": 4.265873015873016e-05,
+      "loss": 0.4243,
       "step": 520
     },
     {
       "epoch": 2.36,
+      "learning_rate": 4.2410714285714285e-05,
+      "loss": 0.4209,
       "step": 530
     },
     {
       "epoch": 2.41,
+      "learning_rate": 4.2162698412698416e-05,
+      "loss": 0.3886,
       "step": 540
     },
     {
       "epoch": 2.45,
+      "learning_rate": 4.191468253968254e-05,
+      "loss": 0.3707,
       "step": 550
     },
     {
       "epoch": 2.49,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.4203,
       "step": 560
     },
     {
       "epoch": 2.54,
+      "learning_rate": 4.14186507936508e-05,
+      "loss": 0.4213,
       "step": 570
     },
     {
       "epoch": 2.58,
+      "learning_rate": 4.117063492063492e-05,
+      "loss": 0.3677,
       "step": 580
     },
     {
       "epoch": 2.63,
+      "learning_rate": 4.0922619047619046e-05,
+      "loss": 0.4198,
       "step": 590
     },
     {
       "epoch": 2.67,
+      "learning_rate": 4.067460317460318e-05,
+      "loss": 0.4307,
       "step": 600
     },
     {
       "epoch": 2.72,
+      "learning_rate": 4.04265873015873e-05,
+      "loss": 0.4073,
       "step": 610
     },
     {
       "epoch": 2.76,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.3957,
       "step": 620
     },
     {
       "epoch": 2.81,
+      "learning_rate": 3.993055555555556e-05,
+      "loss": 0.479,
       "step": 630
     },
     {
       "epoch": 2.85,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.4069,
       "step": 640
     },
     {
       "epoch": 2.9,
+      "learning_rate": 3.943452380952381e-05,
+      "loss": 0.417,
       "step": 650
     },
     {
       "epoch": 2.94,
+      "learning_rate": 3.918650793650794e-05,
+      "loss": 0.4129,
       "step": 660
     },
     {
       "epoch": 2.98,
+      "learning_rate": 3.893849206349206e-05,
+      "loss": 0.4095,
       "step": 670
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6976873780997492,
+      "eval_loss": 0.9076758027076721,
+      "eval_runtime": 60.0956,
+      "eval_samples_per_second": 119.443,
+      "eval_steps_per_second": 3.744,
       "step": 673
     },
     {
       "epoch": 3.03,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.3228,
       "step": 680
     },
     {
       "epoch": 3.07,
+      "learning_rate": 3.844246031746032e-05,
+      "loss": 0.3362,
       "step": 690
     },
     {
       "epoch": 3.12,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 0.3026,
       "step": 700
     },
     {
       "epoch": 3.16,
+      "learning_rate": 3.794642857142857e-05,
+      "loss": 0.3237,
       "step": 710
     },
     {
       "epoch": 3.21,
+      "learning_rate": 3.76984126984127e-05,
+      "loss": 0.3192,
       "step": 720
     },
     {
       "epoch": 3.25,
+      "learning_rate": 3.7450396825396824e-05,
+      "loss": 0.3461,
       "step": 730
     },
     {
       "epoch": 3.3,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.3568,
       "step": 740
     },
     {
       "epoch": 3.34,
+      "learning_rate": 3.695436507936508e-05,
+      "loss": 0.3143,
       "step": 750
     },
     {
       "epoch": 3.39,
+      "learning_rate": 3.6706349206349205e-05,
+      "loss": 0.3381,
       "step": 760
     },
     {
       "epoch": 3.43,
+      "learning_rate": 3.6458333333333336e-05,
+      "loss": 0.3297,
       "step": 770
     },
     {
       "epoch": 3.47,
+      "learning_rate": 3.621031746031746e-05,
+      "loss": 0.3333,
       "step": 780
     },
     {
       "epoch": 3.52,
+      "learning_rate": 3.5962301587301586e-05,
+      "loss": 0.3232,
       "step": 790
     },
     {
       "epoch": 3.56,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.3449,
       "step": 800
     },
     {
       "epoch": 3.61,
+      "learning_rate": 3.546626984126984e-05,
+      "loss": 0.3563,
       "step": 810
     },
     {
       "epoch": 3.65,
+      "learning_rate": 3.521825396825397e-05,
+      "loss": 0.3326,
       "step": 820
     },
     {
       "epoch": 3.7,
+      "learning_rate": 3.49702380952381e-05,
+      "loss": 0.333,
       "step": 830
     },
     {
       "epoch": 3.74,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.3357,
       "step": 840
     },
     {
       "epoch": 3.79,
+      "learning_rate": 3.4474206349206354e-05,
+      "loss": 0.3738,
       "step": 850
     },
     {
       "epoch": 3.83,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.3769,
       "step": 860
     },
     {
       "epoch": 3.88,
+      "learning_rate": 3.397817460317461e-05,
+      "loss": 0.3667,
       "step": 870
     },
     {
       "epoch": 3.92,
+      "learning_rate": 3.3730158730158734e-05,
+      "loss": 0.3459,
       "step": 880
     },
     {
       "epoch": 3.96,
+      "learning_rate": 3.348214285714286e-05,
+      "loss": 0.3344,
       "step": 890
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6989412092504876,
+      "eval_loss": 0.939809262752533,
+      "eval_runtime": 60.4275,
+      "eval_samples_per_second": 118.787,
+      "eval_steps_per_second": 3.723,
       "step": 898
     },
     {
       "epoch": 4.01,
+      "learning_rate": 3.3234126984126983e-05,
+      "loss": 0.3389,
       "step": 900
     },
     {
       "epoch": 4.05,
+      "learning_rate": 3.2986111111111115e-05,
+      "loss": 0.274,
       "step": 910
     },
     {
       "epoch": 4.1,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 0.2425,
       "step": 920
     },
     {
       "epoch": 4.14,
+      "learning_rate": 3.249007936507937e-05,
+      "loss": 0.2447,
       "step": 930
     },
     {
       "epoch": 4.19,
+      "learning_rate": 3.2242063492063495e-05,
+      "loss": 0.2604,
       "step": 940
     },
     {
       "epoch": 4.23,
+      "learning_rate": 3.199404761904762e-05,
+      "loss": 0.26,
       "step": 950
     },
     {
       "epoch": 4.28,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.2547,
       "step": 960
     },
     {
       "epoch": 4.32,
+      "learning_rate": 3.1498015873015876e-05,
+      "loss": 0.2642,
       "step": 970
     },
     {
       "epoch": 4.37,
+      "learning_rate": 3.125e-05,
+      "loss": 0.2564,
       "step": 980
     },
     {
       "epoch": 4.41,
+      "learning_rate": 3.100198412698413e-05,
+      "loss": 0.2667,
       "step": 990
     },
     {
       "epoch": 4.45,
+      "learning_rate": 3.075396825396826e-05,
+      "loss": 0.2687,
       "step": 1000
     },
     {
       "epoch": 4.5,
+      "learning_rate": 3.0505952380952385e-05,
+      "loss": 0.2744,
       "step": 1010
     },
     {
       "epoch": 4.54,
+      "learning_rate": 3.0257936507936506e-05,
+      "loss": 0.2594,
       "step": 1020
     },
     {
       "epoch": 4.59,
+      "learning_rate": 3.0009920634920634e-05,
+      "loss": 0.3404,
       "step": 1030
     },
     {
       "epoch": 4.63,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.3398,
       "step": 1040
     },
     {
       "epoch": 4.68,
+      "learning_rate": 2.951388888888889e-05,
+      "loss": 0.2875,
       "step": 1050
     },
     {
       "epoch": 4.72,
+      "learning_rate": 2.9265873015873018e-05,
+      "loss": 0.3213,
       "step": 1060
     },
     {
       "epoch": 4.77,
+      "learning_rate": 2.9017857142857146e-05,
+      "loss": 0.3015,
       "step": 1070
     },
     {
       "epoch": 4.81,
+      "learning_rate": 2.876984126984127e-05,
+      "loss": 0.2809,
       "step": 1080
     },
     {
       "epoch": 4.86,
+      "learning_rate": 2.8521825396825395e-05,
+      "loss": 0.3107,
       "step": 1090
     },
     {
       "epoch": 4.9,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 0.3181,
       "step": 1100
     },
     {
       "epoch": 4.94,
+      "learning_rate": 2.802579365079365e-05,
+      "loss": 0.2677,
       "step": 1110
     },
     {
       "epoch": 4.99,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.3055,
       "step": 1120
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7057676232933965,
+      "eval_loss": 0.9803113341331482,
+      "eval_runtime": 60.4436,
+      "eval_samples_per_second": 118.755,
+      "eval_steps_per_second": 3.722,
+      "step": 1122
     },
     {
+      "epoch": 5.03,
+      "learning_rate": 2.7529761904761907e-05,
+      "loss": 0.2474,
+      "step": 1130
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 2.7281746031746032e-05,
+      "loss": 0.2207,
+      "step": 1140
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 2.703373015873016e-05,
+      "loss": 0.2116,
+      "step": 1150
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.1894,
+      "step": 1160
+    },
+    {
+      "epoch": 5.21,
+      "learning_rate": 2.6537698412698416e-05,
+      "loss": 0.2606,
+      "step": 1170
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 2.628968253968254e-05,
+      "loss": 0.1872,
+      "step": 1180
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.604166666666667e-05,
+      "loss": 0.215,
+      "step": 1190
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 2.5793650793650796e-05,
+      "loss": 0.1991,
+      "step": 1200
+    },
+    {
+      "epoch": 5.39,
+      "learning_rate": 2.554563492063492e-05,
+      "loss": 0.2105,
+      "step": 1210
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 0.2384,
+      "step": 1220
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 2.5049603174603177e-05,
+      "loss": 0.222,
+      "step": 1230
+    },
+    {
+      "epoch": 5.52,
+      "learning_rate": 2.4801587301587305e-05,
+      "loss": 0.2175,
+      "step": 1240
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 2.455357142857143e-05,
+      "loss": 0.2362,
+      "step": 1250
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.2768,
+      "step": 1260
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 2.4057539682539686e-05,
+      "loss": 0.2614,
+      "step": 1270
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.2127,
+      "step": 1280
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 2.3561507936507938e-05,
+      "loss": 0.2232,
+      "step": 1290
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 2.3313492063492066e-05,
+      "loss": 0.2089,
+      "step": 1300
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 2.3065476190476194e-05,
+      "loss": 0.2321,
+      "step": 1310
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 2.281746031746032e-05,
+      "loss": 0.242,
+      "step": 1320
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 2.2569444444444447e-05,
+      "loss": 0.2388,
+      "step": 1330
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.2214,
+      "step": 1340
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6953190303705767,
+      "eval_loss": 1.0336716175079346,
+      "eval_runtime": 60.3923,
+      "eval_samples_per_second": 118.856,
+      "eval_steps_per_second": 3.726,
+      "step": 1347
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 2.20734126984127e-05,
+      "loss": 0.2192,
+      "step": 1350
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 2.1825396825396827e-05,
+      "loss": 0.1988,
+      "step": 1360
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 2.1577380952380955e-05,
+      "loss": 0.1624,
+      "step": 1370
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 2.132936507936508e-05,
+      "loss": 0.1565,
+      "step": 1380
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 2.1081349206349208e-05,
+      "loss": 0.1683,
+      "step": 1390
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.181,
+      "step": 1400
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 2.058531746031746e-05,
+      "loss": 0.2063,
+      "step": 1410
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 2.033730158730159e-05,
+      "loss": 0.1847,
+      "step": 1420
+    },
+    {
+      "epoch": 6.37,
+      "learning_rate": 2.0089285714285717e-05,
+      "loss": 0.1802,
+      "step": 1430
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 1.984126984126984e-05,
+      "loss": 0.1626,
+      "step": 1440
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 1.959325396825397e-05,
+      "loss": 0.1446,
+      "step": 1450
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 0.1693,
+      "step": 1460
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 1.9097222222222222e-05,
+      "loss": 0.1996,
+      "step": 1470
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 1.884920634920635e-05,
+      "loss": 0.1653,
+      "step": 1480
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 1.8601190476190478e-05,
+      "loss": 0.1622,
+      "step": 1490
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 1.8353174603174602e-05,
+      "loss": 0.1654,
+      "step": 1500
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 1.810515873015873e-05,
+      "loss": 0.1843,
+      "step": 1510
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.1779,
+      "step": 1520
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 1.7609126984126986e-05,
+      "loss": 0.1801,
+      "step": 1530
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.1829,
+      "step": 1540
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 1.711309523809524e-05,
+      "loss": 0.1789,
+      "step": 1550
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 1.6865079365079367e-05,
+      "loss": 0.1894,
+      "step": 1560
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 1.6617063492063492e-05,
+      "loss": 0.1575,
+      "step": 1570
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.6976873780997492,
+      "eval_loss": 1.0642220973968506,
+      "eval_runtime": 59.9724,
+      "eval_samples_per_second": 119.688,
+      "eval_steps_per_second": 3.752,
+      "step": 1571
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 0.1495,
+      "step": 1580
+    },
+    {
+      "epoch": 7.08,
+      "learning_rate": 1.6121031746031748e-05,
+      "loss": 0.1392,
+      "step": 1590
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.1095,
+      "step": 1600
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 1.5625e-05,
+      "loss": 0.1353,
+      "step": 1610
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 1.537698412698413e-05,
+      "loss": 0.1332,
+      "step": 1620
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 1.5128968253968253e-05,
+      "loss": 0.1227,
+      "step": 1630
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 0.1459,
+      "step": 1640
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 1.4632936507936509e-05,
+      "loss": 0.1221,
+      "step": 1650
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 1.4384920634920635e-05,
+      "loss": 0.1167,
+      "step": 1660
+    },
+    {
+      "epoch": 7.44,
+      "learning_rate": 1.4136904761904762e-05,
+      "loss": 0.1597,
+      "step": 1670
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.1395,
+      "step": 1680
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 1.3640873015873016e-05,
+      "loss": 0.1197,
+      "step": 1690
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.1435,
+      "step": 1700
+    },
+    {
+      "epoch": 7.62,
+      "learning_rate": 1.314484126984127e-05,
+      "loss": 0.1084,
+      "step": 1710
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 1.2896825396825398e-05,
+      "loss": 0.1581,
+      "step": 1720
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 1.2648809523809524e-05,
+      "loss": 0.1389,
+      "step": 1730
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.2400793650793652e-05,
+      "loss": 0.1297,
+      "step": 1740
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 1.2152777777777779e-05,
+      "loss": 0.1641,
+      "step": 1750
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.127,
+      "step": 1760
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 1.1656746031746033e-05,
+      "loss": 0.1252,
+      "step": 1770
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 1.140873015873016e-05,
+      "loss": 0.1661,
+      "step": 1780
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 1.1160714285714287e-05,
+      "loss": 0.1169,
+      "step": 1790
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7029813318473113,
+      "eval_loss": 1.0828742980957031,
+      "eval_runtime": 59.6867,
+      "eval_samples_per_second": 120.261,
+      "eval_steps_per_second": 3.77,
+      "step": 1796
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 1.0912698412698414e-05,
+      "loss": 0.1218,
+      "step": 1800
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 1.066468253968254e-05,
+      "loss": 0.1021,
+      "step": 1810
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.1241,
+      "step": 1820
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 1.0168650793650794e-05,
+      "loss": 0.1004,
+      "step": 1830
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 9.92063492063492e-06,
+      "loss": 0.1279,
+      "step": 1840
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 9.672619047619049e-06,
+      "loss": 0.1132,
+      "step": 1850
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 9.424603174603175e-06,
+      "loss": 0.1137,
+      "step": 1860
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 9.176587301587301e-06,
+      "loss": 0.0887,
+      "step": 1870
+    },
+    {
+      "epoch": 8.37,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 0.1115,
+      "step": 1880
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 8.680555555555556e-06,
+      "loss": 0.0955,
+      "step": 1890
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 8.432539682539684e-06,
+      "loss": 0.1268,
+      "step": 1900
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 8.18452380952381e-06,
+      "loss": 0.1007,
+      "step": 1910
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.1025,
+      "step": 1920
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 7.688492063492064e-06,
+      "loss": 0.1082,
+      "step": 1930
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 7.4404761904761905e-06,
+      "loss": 0.0988,
+      "step": 1940
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 7.192460317460318e-06,
+      "loss": 0.1012,
+      "step": 1950
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.1512,
+      "step": 1960
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 6.696428571428572e-06,
+      "loss": 0.0984,
+      "step": 1970
+    },
+    {
+      "epoch": 8.82,
+      "learning_rate": 6.448412698412699e-06,
+      "loss": 0.1254,
+      "step": 1980
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 6.200396825396826e-06,
+      "loss": 0.0763,
+      "step": 1990
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 0.0746,
+      "step": 2000
+    },
+    {
+      "epoch": 8.95,
+      "learning_rate": 5.70436507936508e-06,
+      "loss": 0.0933,
+      "step": 2010
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 5.456349206349207e-06,
+      "loss": 0.0917,
+      "step": 2020
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7047924212872666,
+      "eval_loss": 1.1121457815170288,
+      "eval_runtime": 59.8317,
+      "eval_samples_per_second": 119.97,
+      "eval_steps_per_second": 3.761,
+      "step": 2020
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 5.208333333333334e-06,
+      "loss": 0.078,
+      "step": 2030
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 4.96031746031746e-06,
+      "loss": 0.0989,
+      "step": 2040
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 4.7123015873015875e-06,
+      "loss": 0.0725,
+      "step": 2050
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 0.0887,
+      "step": 2060
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 4.216269841269842e-06,
+      "loss": 0.0723,
+      "step": 2070
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 3.968253968253968e-06,
+      "loss": 0.0656,
+      "step": 2080
+    },
+    {
+      "epoch": 9.31,
+      "learning_rate": 3.7202380952380952e-06,
+      "loss": 0.078,
+      "step": 2090
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 0.1117,
+      "step": 2100
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 3.2242063492063495e-06,
+      "loss": 0.0865,
+      "step": 2110
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 2.9761904761904763e-06,
+      "loss": 0.1098,
+      "step": 2120
+    },
+    {
+      "epoch": 9.49,
+      "learning_rate": 2.7281746031746034e-06,
+      "loss": 0.0955,
+      "step": 2130
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 2.48015873015873e-06,
+      "loss": 0.0943,
+      "step": 2140
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 2.2321428571428573e-06,
+      "loss": 0.0811,
+      "step": 2150
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 1.984126984126984e-06,
+      "loss": 0.0648,
+      "step": 2160
+    },
+    {
+      "epoch": 9.67,
+      "learning_rate": 1.7361111111111112e-06,
+      "loss": 0.1009,
+      "step": 2170
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 1.4880952380952381e-06,
+      "loss": 0.082,
+      "step": 2180
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 1.240079365079365e-06,
+      "loss": 0.0714,
+      "step": 2190
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 9.92063492063492e-07,
+      "loss": 0.0613,
+      "step": 2200
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 7.440476190476191e-07,
+      "loss": 0.106,
+      "step": 2210
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 4.96031746031746e-07,
+      "loss": 0.0915,
+      "step": 2220
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 2.48015873015873e-07,
+      "loss": 0.0756,
+      "step": 2230
+    },
+    {
+      "epoch": 9.98,
+      "learning_rate": 0.0,
+      "loss": 0.0785,
+      "step": 2240
+    },
+    {
+      "epoch": 9.98,
+      "eval_accuracy": 0.7052103650041794,
+      "eval_loss": 1.1279975175857544,
+      "eval_runtime": 66.0405,
+      "eval_samples_per_second": 108.691,
+      "eval_steps_per_second": 3.407,
+      "step": 2240
+    },
+    {
+      "epoch": 9.98,
+      "step": 2240,
+      "total_flos": 2.2200667552042852e+19,
+      "train_loss": 0.27600424638284105,
+      "train_runtime": 6453.2956,
+      "train_samples_per_second": 44.487,
+      "train_steps_per_second": 0.347
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2240,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 2.2200667552042852e+19,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null