End of training

Browse files

Files changed (9) hide show

README.md +196 -0
all_results.json +13 -0
config.json +67 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
train_results.json +8 -0
trainer_state.json +3465 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,196 @@

+---
+license: apache-2.0
+base_model: facebook/convnextv2-tiny-1k-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: convnextv2-tiny-1k-224-finetuned-pattern-edge
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.81
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# convnextv2-tiny-1k-224-finetuned-pattern-edge
+This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.9202
+- Accuracy: 0.81
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 120
+### Training results
+| Training Loss | Epoch    | Step | Validation Loss | Accuracy |
+|:-------------:|:--------:|:----:|:---------------:|:--------:|
+| 2.302         | 0.9912   | 28   | 2.2666          | 0.1575   |
+| 2.2226        | 1.9823   | 56   | 2.1654          | 0.315    |
+| 2.0639        | 2.9735   | 84   | 1.9970          | 0.445    |
+| 1.8559        | 4.0      | 113  | 1.7373          | 0.56     |
+| 1.5966        | 4.9912   | 141  | 1.4823          | 0.605    |
+| 1.3967        | 5.9823   | 169  | 1.2925          | 0.6125   |
+| 1.204         | 6.9735   | 197  | 1.0512          | 0.68     |
+| 1.0206        | 8.0      | 226  | 0.9307          | 0.7025   |
+| 0.9408        | 8.9912   | 254  | 0.8286          | 0.7425   |
+| 0.8501        | 9.9823   | 282  | 0.8590          | 0.6975   |
+| 0.7545        | 10.9735  | 310  | 0.7702          | 0.7475   |
+| 0.7484        | 12.0     | 339  | 0.7739          | 0.765    |
+| 0.6909        | 12.9912  | 367  | 0.7344          | 0.75     |
+| 0.6558        | 13.9823  | 395  | 0.6874          | 0.775    |
+| 0.5923        | 14.9735  | 423  | 0.6641          | 0.7675   |
+| 0.5764        | 16.0     | 452  | 0.6110          | 0.7925   |
+| 0.5235        | 16.9912  | 480  | 0.6806          | 0.76     |
+| 0.4883        | 17.9823  | 508  | 0.7903          | 0.76     |
+| 0.4682        | 18.9735  | 536  | 0.6469          | 0.7825   |
+| 0.441         | 20.0     | 565  | 0.6694          | 0.7825   |
+| 0.4201        | 20.9912  | 593  | 0.7145          | 0.7625   |
+| 0.387         | 21.9823  | 621  | 0.6505          | 0.7775   |
+| 0.4034        | 22.9735  | 649  | 0.6169          | 0.7875   |
+| 0.3041        | 24.0     | 678  | 0.6416          | 0.795    |
+| 0.3021        | 24.9912  | 706  | 0.6992          | 0.775    |
+| 0.2853        | 25.9823  | 734  | 0.6566          | 0.7975   |
+| 0.27          | 26.9735  | 762  | 0.6970          | 0.7825   |
+| 0.2722        | 28.0     | 791  | 0.6863          | 0.785    |
+| 0.2143        | 28.9912  | 819  | 0.6794          | 0.795    |
+| 0.2238        | 29.9823  | 847  | 0.6782          | 0.7975   |
+| 0.2387        | 30.9735  | 875  | 0.6945          | 0.81     |
+| 0.223         | 32.0     | 904  | 0.7377          | 0.7825   |
+| 0.2211        | 32.9912  | 932  | 0.7431          | 0.7775   |
+| 0.1882        | 33.9823  | 960  | 0.7029          | 0.815    |
+| 0.1562        | 34.9735  | 988  | 0.6887          | 0.815    |
+| 0.1689        | 36.0     | 1017 | 0.7190          | 0.7975   |
+| 0.1886        | 36.9912  | 1045 | 0.7678          | 0.795    |
+| 0.1887        | 37.9823  | 1073 | 0.7334          | 0.81     |
+| 0.1531        | 38.9735  | 1101 | 0.7359          | 0.7925   |
+| 0.1662        | 40.0     | 1130 | 0.7594          | 0.8075   |
+| 0.1273        | 40.9912  | 1158 | 0.7342          | 0.81     |
+| 0.1986        | 41.9823  | 1186 | 0.7781          | 0.805    |
+| 0.1891        | 42.9735  | 1214 | 0.7376          | 0.8225   |
+| 0.1573        | 44.0     | 1243 | 0.7304          | 0.815    |
+| 0.1536        | 44.9912  | 1271 | 0.7773          | 0.8      |
+| 0.1562        | 45.9823  | 1299 | 0.7623          | 0.8      |
+| 0.1264        | 46.9735  | 1327 | 0.8314          | 0.7925   |
+| 0.1596        | 48.0     | 1356 | 0.7831          | 0.8175   |
+| 0.1237        | 48.9912  | 1384 | 0.7949          | 0.8      |
+| 0.1355        | 49.9823  | 1412 | 0.7813          | 0.795    |
+| 0.1251        | 50.9735  | 1440 | 0.7647          | 0.81     |
+| 0.1181        | 52.0     | 1469 | 0.7552          | 0.8175   |
+| 0.1224        | 52.9912  | 1497 | 0.8346          | 0.795    |
+| 0.1201        | 53.9823  | 1525 | 0.7741          | 0.7975   |
+| 0.1109        | 54.9735  | 1553 | 0.7724          | 0.785    |
+| 0.1084        | 56.0     | 1582 | 0.7904          | 0.805    |
+| 0.1187        | 56.9912  | 1610 | 0.7424          | 0.8125   |
+| 0.0935        | 57.9823  | 1638 | 0.7411          | 0.815    |
+| 0.1023        | 58.9735  | 1666 | 0.7476          | 0.81     |
+| 0.1166        | 60.0     | 1695 | 0.7742          | 0.8175   |
+| 0.099         | 60.9912  | 1723 | 0.7697          | 0.815    |
+| 0.1157        | 61.9823  | 1751 | 0.8538          | 0.8      |
+| 0.1137        | 62.9735  | 1779 | 0.8545          | 0.8125   |
+| 0.094         | 64.0     | 1808 | 0.8463          | 0.7925   |
+| 0.1161        | 64.9912  | 1836 | 0.8351          | 0.81     |
+| 0.08          | 65.9823  | 1864 | 0.8610          | 0.7925   |
+| 0.0799        | 66.9735  | 1892 | 0.8593          | 0.8075   |
+| 0.0783        | 68.0     | 1921 | 0.8423          | 0.815    |
+| 0.0851        | 68.9912  | 1949 | 0.8265          | 0.82     |
+| 0.0775        | 69.9823  | 1977 | 0.8708          | 0.805    |
+| 0.0902        | 70.9735  | 2005 | 0.8181          | 0.81     |
+| 0.0904        | 72.0     | 2034 | 0.8297          | 0.82     |
+| 0.0898        | 72.9912  | 2062 | 0.8464          | 0.82     |
+| 0.1013        | 73.9823  | 2090 | 0.8325          | 0.81     |
+| 0.0726        | 74.9735  | 2118 | 0.8772          | 0.8      |
+| 0.0745        | 76.0     | 2147 | 0.8505          | 0.8125   |
+| 0.0891        | 76.9912  | 2175 | 0.8694          | 0.81     |
+| 0.0791        | 77.9823  | 2203 | 0.8766          | 0.81     |
+| 0.0639        | 78.9735  | 2231 | 0.8462          | 0.8125   |
+| 0.0676        | 80.0     | 2260 | 0.8991          | 0.8075   |
+| 0.0904        | 80.9912  | 2288 | 0.8551          | 0.815    |
+| 0.0788        | 81.9823  | 2316 | 0.9302          | 0.795    |
+| 0.0787        | 82.9735  | 2344 | 0.8706          | 0.8025   |
+| 0.0918        | 84.0     | 2373 | 0.8680          | 0.805    |
+| 0.0681        | 84.9912  | 2401 | 0.8481          | 0.8125   |
+| 0.115         | 85.9823  | 2429 | 0.8553          | 0.8025   |
+| 0.0599        | 86.9735  | 2457 | 0.8887          | 0.805    |
+| 0.0774        | 88.0     | 2486 | 0.9255          | 0.81     |
+| 0.0701        | 88.9912  | 2514 | 0.8795          | 0.81     |
+| 0.074         | 89.9823  | 2542 | 0.8634          | 0.8175   |
+| 0.0497        | 90.9735  | 2570 | 0.8793          | 0.82     |
+| 0.0569        | 92.0     | 2599 | 0.9007          | 0.7925   |
+| 0.0722        | 92.9912  | 2627 | 0.8701          | 0.815    |
+| 0.0674        | 93.9823  | 2655 | 0.8880          | 0.8225   |
+| 0.0643        | 94.9735  | 2683 | 0.8855          | 0.8075   |
+| 0.0583        | 96.0     | 2712 | 0.8918          | 0.815    |
+| 0.0558        | 96.9912  | 2740 | 0.8736          | 0.8275   |
+| 0.0622        | 97.9823  | 2768 | 0.9058          | 0.815    |
+| 0.0689        | 98.9735  | 2796 | 0.9007          | 0.8075   |
+| 0.0782        | 100.0    | 2825 | 0.9216          | 0.8025   |
+| 0.0696        | 100.9912 | 2853 | 0.9159          | 0.8075   |
+| 0.0554        | 101.9823 | 2881 | 0.9195          | 0.8125   |
+| 0.0585        | 102.9735 | 2909 | 0.9314          | 0.8125   |
+| 0.0541        | 104.0    | 2938 | 0.8939          | 0.825    |
+| 0.0636        | 104.9912 | 2966 | 0.9045          | 0.8025   |
+| 0.0684        | 105.9823 | 2994 | 0.8892          | 0.8075   |
+| 0.0608        | 106.9735 | 3022 | 0.8999          | 0.8075   |
+| 0.0663        | 108.0    | 3051 | 0.9033          | 0.8075   |
+| 0.054         | 108.9912 | 3079 | 0.9249          | 0.805    |
+| 0.0538        | 109.9823 | 3107 | 0.9065          | 0.81     |
+| 0.0696        | 110.9735 | 3135 | 0.9002          | 0.8175   |
+| 0.0585        | 112.0    | 3164 | 0.9106          | 0.8025   |
+| 0.0641        | 112.9912 | 3192 | 0.9088          | 0.81     |
+| 0.0611        | 113.9823 | 3220 | 0.9152          | 0.8075   |
+| 0.0528        | 114.9735 | 3248 | 0.9140          | 0.8125   |
+| 0.0631        | 116.0    | 3277 | 0.9184          | 0.81     |
+| 0.0744        | 116.9912 | 3305 | 0.9216          | 0.8125   |
+| 0.0407        | 117.9823 | 3333 | 0.9211          | 0.8125   |
+| 0.0573        | 118.9381 | 3360 | 0.9202          | 0.81     |
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.4.0
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 118.93805309734513,
+    "eval_accuracy": 0.81,
+    "eval_loss": 0.92020583152771,
+    "eval_runtime": 5.7177,
+    "eval_samples_per_second": 69.958,
+    "eval_steps_per_second": 2.274,
+    "total_flos": 1.0779764781475824e+19,
+    "train_loss": 0.2818299961143306,
+    "train_runtime": 9749.4057,
+    "train_samples_per_second": 44.31,
+    "train_steps_per_second": 0.345
+}

config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "_name_or_path": "facebook/convnextv2-tiny-1k-224",
+  "architectures": [
+    "ConvNextV2ForImageClassification"
+  ],
+  "depths": [
+    3,
+    3,
+    9,
+    3
+  ],
+  "drop_path_rate": 0.0,
+  "hidden_act": "gelu",
+  "hidden_sizes": [
+    96,
+    192,
+    384,
+    768
+  ],
+  "id2label": {
+    "0": "Abstract_Pattern",
+    "1": "Check_Pattern",
+    "2": "Color_Block_Pattern",
+    "3": "Embellished_Pattern",
+    "4": "Embroider_Pattern",
+    "5": "Geometric_pattern",
+    "6": "Graphic_Pattern",
+    "7": "Lace_Pattern",
+    "8": "Polka_Dot_Pattern",
+    "9": "Stripes_Pattern"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "Abstract_Pattern": 0,
+    "Check_Pattern": 1,
+    "Color_Block_Pattern": 2,
+    "Embellished_Pattern": 3,
+    "Embroider_Pattern": 4,
+    "Geometric_pattern": 5,
+    "Graphic_Pattern": 6,
+    "Lace_Pattern": 7,
+    "Polka_Dot_Pattern": 8,
+    "Stripes_Pattern": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "convnextv2",
+  "num_channels": 3,
+  "num_stages": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
+  "problem_type": "single_label_classification",
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.0"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 118.93805309734513,
+    "eval_accuracy": 0.81,
+    "eval_loss": 0.92020583152771,
+    "eval_runtime": 5.7177,
+    "eval_samples_per_second": 69.958,
+    "eval_steps_per_second": 2.274
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3dc71daaccde792c4e3ec9ce65073ef930f25b7c62c2b29aeaae5e2e095cb67
+size 111520440

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "crop_pct": 0.875,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ConvNextImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 118.93805309734513,
+    "total_flos": 1.0779764781475824e+19,
+    "train_loss": 0.2818299961143306,
+    "train_runtime": 9749.4057,
+    "train_samples_per_second": 44.31,
+    "train_steps_per_second": 0.345
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3465 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 118.93805309734513,
+  "eval_steps": 500,
+  "global_step": 3360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.35398230088495575,
+      "grad_norm": 8.875021934509277,
+      "learning_rate": 1.4880952380952381e-06,
+      "loss": 2.2984,
+      "step": 10
+    },
+    {
+      "epoch": 0.7079646017699115,
+      "grad_norm": 10.44489860534668,
+      "learning_rate": 2.9761904761904763e-06,
+      "loss": 2.302,
+      "step": 20
+    },
+    {
+      "epoch": 0.9911504424778761,
+      "eval_accuracy": 0.1575,
+      "eval_loss": 2.266624689102173,
+      "eval_runtime": 7.4116,
+      "eval_samples_per_second": 53.97,
+      "eval_steps_per_second": 1.754,
+      "step": 28
+    },
+    {
+      "epoch": 1.0619469026548674,
+      "grad_norm": 11.131507873535156,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 2.2827,
+      "step": 30
+    },
+    {
+      "epoch": 1.415929203539823,
+      "grad_norm": 11.846382141113281,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 2.2517,
+      "step": 40
+    },
+    {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 8.047672271728516,
+      "learning_rate": 7.4404761904761905e-06,
+      "loss": 2.2226,
+      "step": 50
+    },
+    {
+      "epoch": 1.9823008849557522,
+      "eval_accuracy": 0.315,
+      "eval_loss": 2.1654422283172607,
+      "eval_runtime": 5.7675,
+      "eval_samples_per_second": 69.354,
+      "eval_steps_per_second": 2.254,
+      "step": 56
+    },
+    {
+      "epoch": 2.1238938053097347,
+      "grad_norm": 7.9003190994262695,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 2.1848,
+      "step": 60
+    },
+    {
+      "epoch": 2.47787610619469,
+      "grad_norm": 14.892489433288574,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 2.1238,
+      "step": 70
+    },
+    {
+      "epoch": 2.831858407079646,
+      "grad_norm": 13.308501243591309,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 2.0639,
+      "step": 80
+    },
+    {
+      "epoch": 2.9734513274336285,
+      "eval_accuracy": 0.445,
+      "eval_loss": 1.9969619512557983,
+      "eval_runtime": 5.7209,
+      "eval_samples_per_second": 69.919,
+      "eval_steps_per_second": 2.272,
+      "step": 84
+    },
+    {
+      "epoch": 3.185840707964602,
+      "grad_norm": 16.818639755249023,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 2.005,
+      "step": 90
+    },
+    {
+      "epoch": 3.5398230088495577,
+      "grad_norm": 13.497295379638672,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 1.9232,
+      "step": 100
+    },
+    {
+      "epoch": 3.893805309734513,
+      "grad_norm": 16.994335174560547,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 1.8559,
+      "step": 110
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.56,
+      "eval_loss": 1.7373383045196533,
+      "eval_runtime": 5.8519,
+      "eval_samples_per_second": 68.354,
+      "eval_steps_per_second": 2.222,
+      "step": 113
+    },
+    {
+      "epoch": 4.247787610619469,
+      "grad_norm": 25.03571891784668,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 1.7371,
+      "step": 120
+    },
+    {
+      "epoch": 4.601769911504425,
+      "grad_norm": 27.68413734436035,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 1.6511,
+      "step": 130
+    },
+    {
+      "epoch": 4.95575221238938,
+      "grad_norm": 21.25657081604004,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.5966,
+      "step": 140
+    },
+    {
+      "epoch": 4.991150442477876,
+      "eval_accuracy": 0.605,
+      "eval_loss": 1.48233962059021,
+      "eval_runtime": 5.791,
+      "eval_samples_per_second": 69.072,
+      "eval_steps_per_second": 2.245,
+      "step": 141
+    },
+    {
+      "epoch": 5.3097345132743365,
+      "grad_norm": 33.357173919677734,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 1.4767,
+      "step": 150
+    },
+    {
+      "epoch": 5.663716814159292,
+      "grad_norm": 21.856212615966797,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 1.3967,
+      "step": 160
+    },
+    {
+      "epoch": 5.982300884955752,
+      "eval_accuracy": 0.6125,
+      "eval_loss": 1.2925149202346802,
+      "eval_runtime": 5.8558,
+      "eval_samples_per_second": 68.308,
+      "eval_steps_per_second": 2.22,
+      "step": 169
+    },
+    {
+      "epoch": 6.017699115044247,
+      "grad_norm": 34.79808807373047,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 1.3046,
+      "step": 170
+    },
+    {
+      "epoch": 6.371681415929204,
+      "grad_norm": 27.307743072509766,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 1.2429,
+      "step": 180
+    },
+    {
+      "epoch": 6.725663716814159,
+      "grad_norm": 42.35990524291992,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 1.204,
+      "step": 190
+    },
+    {
+      "epoch": 6.9734513274336285,
+      "eval_accuracy": 0.68,
+      "eval_loss": 1.0512183904647827,
+      "eval_runtime": 6.0412,
+      "eval_samples_per_second": 66.212,
+      "eval_steps_per_second": 2.152,
+      "step": 197
+    },
+    {
+      "epoch": 7.079646017699115,
+      "grad_norm": 35.177921295166016,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 1.1471,
+      "step": 200
+    },
+    {
+      "epoch": 7.433628318584071,
+      "grad_norm": 42.960391998291016,
+      "learning_rate": 3.125e-05,
+      "loss": 1.1087,
+      "step": 210
+    },
+    {
+      "epoch": 7.787610619469026,
+      "grad_norm": 28.81920623779297,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 1.0206,
+      "step": 220
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7025,
+      "eval_loss": 0.930656909942627,
+      "eval_runtime": 5.9577,
+      "eval_samples_per_second": 67.14,
+      "eval_steps_per_second": 2.182,
+      "step": 226
+    },
+    {
+      "epoch": 8.141592920353983,
+      "grad_norm": 27.41872787475586,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.9949,
+      "step": 230
+    },
+    {
+      "epoch": 8.495575221238939,
+      "grad_norm": 30.292728424072266,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.9248,
+      "step": 240
+    },
+    {
+      "epoch": 8.849557522123893,
+      "grad_norm": 41.145442962646484,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.9408,
+      "step": 250
+    },
+    {
+      "epoch": 8.991150442477876,
+      "eval_accuracy": 0.7425,
+      "eval_loss": 0.8286006450653076,
+      "eval_runtime": 6.1346,
+      "eval_samples_per_second": 65.204,
+      "eval_steps_per_second": 2.119,
+      "step": 254
+    },
+    {
+      "epoch": 9.20353982300885,
+      "grad_norm": 100.8248519897461,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.9164,
+      "step": 260
+    },
+    {
+      "epoch": 9.557522123893806,
+      "grad_norm": 33.74626541137695,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.8392,
+      "step": 270
+    },
+    {
+      "epoch": 9.91150442477876,
+      "grad_norm": 23.371883392333984,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.8501,
+      "step": 280
+    },
+    {
+      "epoch": 9.982300884955752,
+      "eval_accuracy": 0.6975,
+      "eval_loss": 0.8589820265769958,
+      "eval_runtime": 5.7507,
+      "eval_samples_per_second": 69.557,
+      "eval_steps_per_second": 2.261,
+      "step": 282
+    },
+    {
+      "epoch": 10.265486725663717,
+      "grad_norm": 27.10701560974121,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.8698,
+      "step": 290
+    },
+    {
+      "epoch": 10.619469026548673,
+      "grad_norm": 31.57968521118164,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.7621,
+      "step": 300
+    },
+    {
+      "epoch": 10.973451327433628,
+      "grad_norm": 16.75609588623047,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.7545,
+      "step": 310
+    },
+    {
+      "epoch": 10.973451327433628,
+      "eval_accuracy": 0.7475,
+      "eval_loss": 0.7702187895774841,
+      "eval_runtime": 5.9752,
+      "eval_samples_per_second": 66.944,
+      "eval_steps_per_second": 2.176,
+      "step": 310
+    },
+    {
+      "epoch": 11.327433628318584,
+      "grad_norm": 38.2448616027832,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.7884,
+      "step": 320
+    },
+    {
+      "epoch": 11.68141592920354,
+      "grad_norm": 55.255489349365234,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.7484,
+      "step": 330
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.765,
+      "eval_loss": 0.7738745212554932,
+      "eval_runtime": 5.7936,
+      "eval_samples_per_second": 69.041,
+      "eval_steps_per_second": 2.244,
+      "step": 339
+    },
+    {
+      "epoch": 12.035398230088495,
+      "grad_norm": 48.28477478027344,
+      "learning_rate": 4.993386243386244e-05,
+      "loss": 0.7274,
+      "step": 340
+    },
+    {
+      "epoch": 12.389380530973451,
+      "grad_norm": 29.47681999206543,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 0.6793,
+      "step": 350
+    },
+    {
+      "epoch": 12.743362831858407,
+      "grad_norm": 25.996002197265625,
+      "learning_rate": 4.960317460317461e-05,
+      "loss": 0.6909,
+      "step": 360
+    },
+    {
+      "epoch": 12.991150442477876,
+      "eval_accuracy": 0.75,
+      "eval_loss": 0.7344464063644409,
+      "eval_runtime": 5.7939,
+      "eval_samples_per_second": 69.038,
+      "eval_steps_per_second": 2.244,
+      "step": 367
+    },
+    {
+      "epoch": 13.097345132743364,
+      "grad_norm": 17.77817153930664,
+      "learning_rate": 4.943783068783069e-05,
+      "loss": 0.6684,
+      "step": 370
+    },
+    {
+      "epoch": 13.451327433628318,
+      "grad_norm": 42.287635803222656,
+      "learning_rate": 4.927248677248678e-05,
+      "loss": 0.6309,
+      "step": 380
+    },
+    {
+      "epoch": 13.805309734513274,
+      "grad_norm": 23.582502365112305,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.6558,
+      "step": 390
+    },
+    {
+      "epoch": 13.982300884955752,
+      "eval_accuracy": 0.775,
+      "eval_loss": 0.6874340772628784,
+      "eval_runtime": 5.9948,
+      "eval_samples_per_second": 66.725,
+      "eval_steps_per_second": 2.169,
+      "step": 395
+    },
+    {
+      "epoch": 14.15929203539823,
+      "grad_norm": 23.51905059814453,
+      "learning_rate": 4.894179894179895e-05,
+      "loss": 0.5937,
+      "step": 400
+    },
+    {
+      "epoch": 14.513274336283185,
+      "grad_norm": 23.072551727294922,
+      "learning_rate": 4.8776455026455034e-05,
+      "loss": 0.6672,
+      "step": 410
+    },
+    {
+      "epoch": 14.867256637168142,
+      "grad_norm": 20.066308975219727,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.5923,
+      "step": 420
+    },
+    {
+      "epoch": 14.973451327433628,
+      "eval_accuracy": 0.7675,
+      "eval_loss": 0.6640682816505432,
+      "eval_runtime": 5.7834,
+      "eval_samples_per_second": 69.163,
+      "eval_steps_per_second": 2.248,
+      "step": 423
+    },
+    {
+      "epoch": 15.221238938053098,
+      "grad_norm": 82.714599609375,
+      "learning_rate": 4.84457671957672e-05,
+      "loss": 0.6061,
+      "step": 430
+    },
+    {
+      "epoch": 15.575221238938052,
+      "grad_norm": 23.3370361328125,
+      "learning_rate": 4.8280423280423284e-05,
+      "loss": 0.5595,
+      "step": 440
+    },
+    {
+      "epoch": 15.929203539823009,
+      "grad_norm": 39.12126159667969,
+      "learning_rate": 4.811507936507937e-05,
+      "loss": 0.5764,
+      "step": 450
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.6109621524810791,
+      "eval_runtime": 5.8219,
+      "eval_samples_per_second": 68.706,
+      "eval_steps_per_second": 2.233,
+      "step": 452
+    },
+    {
+      "epoch": 16.283185840707965,
+      "grad_norm": 18.160350799560547,
+      "learning_rate": 4.794973544973545e-05,
+      "loss": 0.564,
+      "step": 460
+    },
+    {
+      "epoch": 16.63716814159292,
+      "grad_norm": 22.667816162109375,
+      "learning_rate": 4.778439153439154e-05,
+      "loss": 0.5416,
+      "step": 470
+    },
+    {
+      "epoch": 16.991150442477878,
+      "grad_norm": 43.60499954223633,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.5235,
+      "step": 480
+    },
+    {
+      "epoch": 16.991150442477878,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.680573582649231,
+      "eval_runtime": 6.0278,
+      "eval_samples_per_second": 66.359,
+      "eval_steps_per_second": 2.157,
+      "step": 480
+    },
+    {
+      "epoch": 17.345132743362832,
+      "grad_norm": 17.05644416809082,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 0.5301,
+      "step": 490
+    },
+    {
+      "epoch": 17.699115044247787,
+      "grad_norm": 14.023980140686035,
+      "learning_rate": 4.7288359788359796e-05,
+      "loss": 0.4883,
+      "step": 500
+    },
+    {
+      "epoch": 17.98230088495575,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.7902570962905884,
+      "eval_runtime": 5.8085,
+      "eval_samples_per_second": 68.865,
+      "eval_steps_per_second": 2.238,
+      "step": 508
+    },
+    {
+      "epoch": 18.053097345132745,
+      "grad_norm": 14.874748229980469,
+      "learning_rate": 4.7123015873015876e-05,
+      "loss": 0.529,
+      "step": 510
+    },
+    {
+      "epoch": 18.4070796460177,
+      "grad_norm": 17.90399742126465,
+      "learning_rate": 4.6957671957671964e-05,
+      "loss": 0.455,
+      "step": 520
+    },
+    {
+      "epoch": 18.761061946902654,
+      "grad_norm": 17.8863468170166,
+      "learning_rate": 4.6792328042328045e-05,
+      "loss": 0.4682,
+      "step": 530
+    },
+    {
+      "epoch": 18.97345132743363,
+      "eval_accuracy": 0.7825,
+      "eval_loss": 0.6469230055809021,
+      "eval_runtime": 5.8117,
+      "eval_samples_per_second": 68.826,
+      "eval_steps_per_second": 2.237,
+      "step": 536
+    },
+    {
+      "epoch": 19.115044247787612,
+      "grad_norm": 25.429996490478516,
+      "learning_rate": 4.662698412698413e-05,
+      "loss": 0.4268,
+      "step": 540
+    },
+    {
+      "epoch": 19.469026548672566,
+      "grad_norm": 28.328603744506836,
+      "learning_rate": 4.646164021164021e-05,
+      "loss": 0.4233,
+      "step": 550
+    },
+    {
+      "epoch": 19.82300884955752,
+      "grad_norm": 18.160737991333008,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.441,
+      "step": 560
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.7825,
+      "eval_loss": 0.6693841814994812,
+      "eval_runtime": 5.8278,
+      "eval_samples_per_second": 68.637,
+      "eval_steps_per_second": 2.231,
+      "step": 565
+    },
+    {
+      "epoch": 20.17699115044248,
+      "grad_norm": 18.324892044067383,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.4421,
+      "step": 570
+    },
+    {
+      "epoch": 20.530973451327434,
+      "grad_norm": 27.71529769897461,
+      "learning_rate": 4.596560846560847e-05,
+      "loss": 0.3583,
+      "step": 580
+    },
+    {
+      "epoch": 20.884955752212388,
+      "grad_norm": 10.921418190002441,
+      "learning_rate": 4.580026455026456e-05,
+      "loss": 0.4201,
+      "step": 590
+    },
+    {
+      "epoch": 20.991150442477878,
+      "eval_accuracy": 0.7625,
+      "eval_loss": 0.7144609689712524,
+      "eval_runtime": 5.725,
+      "eval_samples_per_second": 69.869,
+      "eval_steps_per_second": 2.271,
+      "step": 593
+    },
+    {
+      "epoch": 21.238938053097346,
+      "grad_norm": 27.364168167114258,
+      "learning_rate": 4.563492063492064e-05,
+      "loss": 0.3886,
+      "step": 600
+    },
+    {
+      "epoch": 21.5929203539823,
+      "grad_norm": 22.475797653198242,
+      "learning_rate": 4.5469576719576725e-05,
+      "loss": 0.366,
+      "step": 610
+    },
+    {
+      "epoch": 21.946902654867255,
+      "grad_norm": 14.525550842285156,
+      "learning_rate": 4.5304232804232806e-05,
+      "loss": 0.387,
+      "step": 620
+    },
+    {
+      "epoch": 21.98230088495575,
+      "eval_accuracy": 0.7775,
+      "eval_loss": 0.6505405902862549,
+      "eval_runtime": 6.0629,
+      "eval_samples_per_second": 65.975,
+      "eval_steps_per_second": 2.144,
+      "step": 621
+    },
+    {
+      "epoch": 22.300884955752213,
+      "grad_norm": 15.278279304504395,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 0.3681,
+      "step": 630
+    },
+    {
+      "epoch": 22.654867256637168,
+      "grad_norm": 23.836380004882812,
+      "learning_rate": 4.4973544973544974e-05,
+      "loss": 0.4034,
+      "step": 640
+    },
+    {
+      "epoch": 22.97345132743363,
+      "eval_accuracy": 0.7875,
+      "eval_loss": 0.6168544292449951,
+      "eval_runtime": 5.8701,
+      "eval_samples_per_second": 68.143,
+      "eval_steps_per_second": 2.215,
+      "step": 649
+    },
+    {
+      "epoch": 23.008849557522122,
+      "grad_norm": 15.120473861694336,
+      "learning_rate": 4.480820105820106e-05,
+      "loss": 0.3424,
+      "step": 650
+    },
+    {
+      "epoch": 23.36283185840708,
+      "grad_norm": 12.84585189819336,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.3669,
+      "step": 660
+    },
+    {
+      "epoch": 23.716814159292035,
+      "grad_norm": 24.2416934967041,
+      "learning_rate": 4.447751322751323e-05,
+      "loss": 0.3041,
+      "step": 670
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.6416059136390686,
+      "eval_runtime": 5.7657,
+      "eval_samples_per_second": 69.375,
+      "eval_steps_per_second": 2.255,
+      "step": 678
+    },
+    {
+      "epoch": 24.07079646017699,
+      "grad_norm": 17.557270050048828,
+      "learning_rate": 4.431216931216932e-05,
+      "loss": 0.3344,
+      "step": 680
+    },
+    {
+      "epoch": 24.424778761061948,
+      "grad_norm": 12.692173957824707,
+      "learning_rate": 4.41468253968254e-05,
+      "loss": 0.2928,
+      "step": 690
+    },
+    {
+      "epoch": 24.778761061946902,
+      "grad_norm": 15.073899269104004,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.3021,
+      "step": 700
+    },
+    {
+      "epoch": 24.991150442477878,
+      "eval_accuracy": 0.775,
+      "eval_loss": 0.6992344856262207,
+      "eval_runtime": 5.8878,
+      "eval_samples_per_second": 67.937,
+      "eval_steps_per_second": 2.208,
+      "step": 706
+    },
+    {
+      "epoch": 25.13274336283186,
+      "grad_norm": 10.598650932312012,
+      "learning_rate": 4.381613756613757e-05,
+      "loss": 0.3147,
+      "step": 710
+    },
+    {
+      "epoch": 25.486725663716815,
+      "grad_norm": 17.572126388549805,
+      "learning_rate": 4.3650793650793655e-05,
+      "loss": 0.302,
+      "step": 720
+    },
+    {
+      "epoch": 25.84070796460177,
+      "grad_norm": 30.176406860351562,
+      "learning_rate": 4.3485449735449736e-05,
+      "loss": 0.2853,
+      "step": 730
+    },
+    {
+      "epoch": 25.98230088495575,
+      "eval_accuracy": 0.7975,
+      "eval_loss": 0.6566324830055237,
+      "eval_runtime": 5.7476,
+      "eval_samples_per_second": 69.594,
+      "eval_steps_per_second": 2.262,
+      "step": 734
+    },
+    {
+      "epoch": 26.194690265486727,
+      "grad_norm": 18.816850662231445,
+      "learning_rate": 4.332010582010582e-05,
+      "loss": 0.297,
+      "step": 740
+    },
+    {
+      "epoch": 26.548672566371682,
+      "grad_norm": 14.217058181762695,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.2849,
+      "step": 750
+    },
+    {
+      "epoch": 26.902654867256636,
+      "grad_norm": 17.27300453186035,
+      "learning_rate": 4.298941798941799e-05,
+      "loss": 0.27,
+      "step": 760
+    },
+    {
+      "epoch": 26.97345132743363,
+      "eval_accuracy": 0.7825,
+      "eval_loss": 0.696976900100708,
+      "eval_runtime": 6.0434,
+      "eval_samples_per_second": 66.188,
+      "eval_steps_per_second": 2.151,
+      "step": 762
+    },
+    {
+      "epoch": 27.256637168141594,
+      "grad_norm": 10.05718994140625,
+      "learning_rate": 4.282407407407408e-05,
+      "loss": 0.2331,
+      "step": 770
+    },
+    {
+      "epoch": 27.61061946902655,
+      "grad_norm": 12.319819450378418,
+      "learning_rate": 4.265873015873016e-05,
+      "loss": 0.2462,
+      "step": 780
+    },
+    {
+      "epoch": 27.964601769911503,
+      "grad_norm": 14.027650833129883,
+      "learning_rate": 4.249338624338625e-05,
+      "loss": 0.2722,
+      "step": 790
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.785,
+      "eval_loss": 0.6862995624542236,
+      "eval_runtime": 5.7837,
+      "eval_samples_per_second": 69.16,
+      "eval_steps_per_second": 2.248,
+      "step": 791
+    },
+    {
+      "epoch": 28.31858407079646,
+      "grad_norm": 11.350334167480469,
+      "learning_rate": 4.232804232804233e-05,
+      "loss": 0.2366,
+      "step": 800
+    },
+    {
+      "epoch": 28.672566371681416,
+      "grad_norm": 8.22404670715332,
+      "learning_rate": 4.2162698412698416e-05,
+      "loss": 0.2143,
+      "step": 810
+    },
+    {
+      "epoch": 28.991150442477878,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.679432213306427,
+      "eval_runtime": 5.7657,
+      "eval_samples_per_second": 69.376,
+      "eval_steps_per_second": 2.255,
+      "step": 819
+    },
+    {
+      "epoch": 29.02654867256637,
+      "grad_norm": 11.07326889038086,
+      "learning_rate": 4.1997354497354504e-05,
+      "loss": 0.2443,
+      "step": 820
+    },
+    {
+      "epoch": 29.38053097345133,
+      "grad_norm": 28.747331619262695,
+      "learning_rate": 4.1832010582010584e-05,
+      "loss": 0.2424,
+      "step": 830
+    },
+    {
+      "epoch": 29.734513274336283,
+      "grad_norm": 12.262460708618164,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.2238,
+      "step": 840
+    },
+    {
+      "epoch": 29.98230088495575,
+      "eval_accuracy": 0.7975,
+      "eval_loss": 0.6781703233718872,
+      "eval_runtime": 5.7261,
+      "eval_samples_per_second": 69.856,
+      "eval_steps_per_second": 2.27,
+      "step": 847
+    },
+    {
+      "epoch": 30.088495575221238,
+      "grad_norm": 12.248478889465332,
+      "learning_rate": 4.150132275132275e-05,
+      "loss": 0.2414,
+      "step": 850
+    },
+    {
+      "epoch": 30.442477876106196,
+      "grad_norm": 26.66759490966797,
+      "learning_rate": 4.133597883597884e-05,
+      "loss": 0.222,
+      "step": 860
+    },
+    {
+      "epoch": 30.79646017699115,
+      "grad_norm": 17.73442268371582,
+      "learning_rate": 4.117063492063492e-05,
+      "loss": 0.2387,
+      "step": 870
+    },
+    {
+      "epoch": 30.97345132743363,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.6944553256034851,
+      "eval_runtime": 5.9266,
+      "eval_samples_per_second": 67.492,
+      "eval_steps_per_second": 2.193,
+      "step": 875
+    },
+    {
+      "epoch": 31.150442477876105,
+      "grad_norm": 10.954143524169922,
+      "learning_rate": 4.100529100529101e-05,
+      "loss": 0.1897,
+      "step": 880
+    },
+    {
+      "epoch": 31.504424778761063,
+      "grad_norm": 11.53641414642334,
+      "learning_rate": 4.083994708994709e-05,
+      "loss": 0.215,
+      "step": 890
+    },
+    {
+      "epoch": 31.858407079646017,
+      "grad_norm": 19.236658096313477,
+      "learning_rate": 4.067460317460318e-05,
+      "loss": 0.223,
+      "step": 900
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.7825,
+      "eval_loss": 0.7377186417579651,
+      "eval_runtime": 5.6881,
+      "eval_samples_per_second": 70.322,
+      "eval_steps_per_second": 2.285,
+      "step": 904
+    },
+    {
+      "epoch": 32.21238938053097,
+      "grad_norm": 18.005434036254883,
+      "learning_rate": 4.0509259259259265e-05,
+      "loss": 0.1703,
+      "step": 910
+    },
+    {
+      "epoch": 32.56637168141593,
+      "grad_norm": 10.189879417419434,
+      "learning_rate": 4.0343915343915346e-05,
+      "loss": 0.1882,
+      "step": 920
+    },
+    {
+      "epoch": 32.92035398230089,
+      "grad_norm": 23.737546920776367,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.2211,
+      "step": 930
+    },
+    {
+      "epoch": 32.991150442477874,
+      "eval_accuracy": 0.7775,
+      "eval_loss": 0.7430591583251953,
+      "eval_runtime": 5.8045,
+      "eval_samples_per_second": 68.911,
+      "eval_steps_per_second": 2.24,
+      "step": 932
+    },
+    {
+      "epoch": 33.27433628318584,
+      "grad_norm": 12.777314186096191,
+      "learning_rate": 4.0013227513227514e-05,
+      "loss": 0.2187,
+      "step": 940
+    },
+    {
+      "epoch": 33.6283185840708,
+      "grad_norm": 11.4727783203125,
+      "learning_rate": 3.98478835978836e-05,
+      "loss": 0.1952,
+      "step": 950
+    },
+    {
+      "epoch": 33.982300884955755,
+      "grad_norm": 9.033596992492676,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.1882,
+      "step": 960
+    },
+    {
+      "epoch": 33.982300884955755,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.702938437461853,
+      "eval_runtime": 5.7972,
+      "eval_samples_per_second": 68.998,
+      "eval_steps_per_second": 2.242,
+      "step": 960
+    },
+    {
+      "epoch": 34.336283185840706,
+      "grad_norm": 10.962681770324707,
+      "learning_rate": 3.951719576719577e-05,
+      "loss": 0.1788,
+      "step": 970
+    },
+    {
+      "epoch": 34.690265486725664,
+      "grad_norm": 9.644322395324707,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.1562,
+      "step": 980
+    },
+    {
+      "epoch": 34.97345132743363,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.6886518597602844,
+      "eval_runtime": 5.7736,
+      "eval_samples_per_second": 69.281,
+      "eval_steps_per_second": 2.252,
+      "step": 988
+    },
+    {
+      "epoch": 35.04424778761062,
+      "grad_norm": 7.208992004394531,
+      "learning_rate": 3.918650793650794e-05,
+      "loss": 0.1779,
+      "step": 990
+    },
+    {
+      "epoch": 35.39823008849557,
+      "grad_norm": 15.789375305175781,
+      "learning_rate": 3.9021164021164026e-05,
+      "loss": 0.1652,
+      "step": 1000
+    },
+    {
+      "epoch": 35.75221238938053,
+      "grad_norm": 9.542279243469238,
+      "learning_rate": 3.885582010582011e-05,
+      "loss": 0.1689,
+      "step": 1010
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7975,
+      "eval_loss": 0.7189816236495972,
+      "eval_runtime": 5.7578,
+      "eval_samples_per_second": 69.47,
+      "eval_steps_per_second": 2.258,
+      "step": 1017
+    },
+    {
+      "epoch": 36.10619469026549,
+      "grad_norm": 12.757901191711426,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.178,
+      "step": 1020
+    },
+    {
+      "epoch": 36.46017699115044,
+      "grad_norm": 8.646611213684082,
+      "learning_rate": 3.8525132275132275e-05,
+      "loss": 0.1613,
+      "step": 1030
+    },
+    {
+      "epoch": 36.8141592920354,
+      "grad_norm": 12.245649337768555,
+      "learning_rate": 3.835978835978836e-05,
+      "loss": 0.1886,
+      "step": 1040
+    },
+    {
+      "epoch": 36.991150442477874,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.7677862048149109,
+      "eval_runtime": 5.9107,
+      "eval_samples_per_second": 67.674,
+      "eval_steps_per_second": 2.199,
+      "step": 1045
+    },
+    {
+      "epoch": 37.16814159292036,
+      "grad_norm": 16.76270866394043,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 0.1777,
+      "step": 1050
+    },
+    {
+      "epoch": 37.52212389380531,
+      "grad_norm": 12.296770095825195,
+      "learning_rate": 3.802910052910053e-05,
+      "loss": 0.182,
+      "step": 1060
+    },
+    {
+      "epoch": 37.876106194690266,
+      "grad_norm": 19.789642333984375,
+      "learning_rate": 3.786375661375662e-05,
+      "loss": 0.1887,
+      "step": 1070
+    },
+    {
+      "epoch": 37.982300884955755,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.7334153652191162,
+      "eval_runtime": 5.7675,
+      "eval_samples_per_second": 69.354,
+      "eval_steps_per_second": 2.254,
+      "step": 1073
+    },
+    {
+      "epoch": 38.230088495575224,
+      "grad_norm": 9.019023895263672,
+      "learning_rate": 3.76984126984127e-05,
+      "loss": 0.1377,
+      "step": 1080
+    },
+    {
+      "epoch": 38.584070796460175,
+      "grad_norm": 8.896963119506836,
+      "learning_rate": 3.753306878306879e-05,
+      "loss": 0.1751,
+      "step": 1090
+    },
+    {
+      "epoch": 38.93805309734513,
+      "grad_norm": 8.166861534118652,
+      "learning_rate": 3.736772486772487e-05,
+      "loss": 0.1531,
+      "step": 1100
+    },
+    {
+      "epoch": 38.97345132743363,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.7359188199043274,
+      "eval_runtime": 5.8237,
+      "eval_samples_per_second": 68.685,
+      "eval_steps_per_second": 2.232,
+      "step": 1101
+    },
+    {
+      "epoch": 39.29203539823009,
+      "grad_norm": 11.483717918395996,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.1703,
+      "step": 1110
+    },
+    {
+      "epoch": 39.64601769911504,
+      "grad_norm": 7.077027797698975,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.1376,
+      "step": 1120
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 10.199649810791016,
+      "learning_rate": 3.6871693121693124e-05,
+      "loss": 0.1662,
+      "step": 1130
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.7593528032302856,
+      "eval_runtime": 5.7627,
+      "eval_samples_per_second": 69.411,
+      "eval_steps_per_second": 2.256,
+      "step": 1130
+    },
+    {
+      "epoch": 40.35398230088496,
+      "grad_norm": 12.18074893951416,
+      "learning_rate": 3.6706349206349205e-05,
+      "loss": 0.1502,
+      "step": 1140
+    },
+    {
+      "epoch": 40.70796460176991,
+      "grad_norm": 13.122712135314941,
+      "learning_rate": 3.654100529100529e-05,
+      "loss": 0.1273,
+      "step": 1150
+    },
+    {
+      "epoch": 40.991150442477874,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.7341694831848145,
+      "eval_runtime": 5.7253,
+      "eval_samples_per_second": 69.866,
+      "eval_steps_per_second": 2.271,
+      "step": 1158
+    },
+    {
+      "epoch": 41.06194690265487,
+      "grad_norm": 12.024120330810547,
+      "learning_rate": 3.637566137566138e-05,
+      "loss": 0.1334,
+      "step": 1160
+    },
+    {
+      "epoch": 41.415929203539825,
+      "grad_norm": 13.965011596679688,
+      "learning_rate": 3.621031746031746e-05,
+      "loss": 0.1394,
+      "step": 1170
+    },
+    {
+      "epoch": 41.769911504424776,
+      "grad_norm": 17.121511459350586,
+      "learning_rate": 3.604497354497355e-05,
+      "loss": 0.1986,
+      "step": 1180
+    },
+    {
+      "epoch": 41.982300884955755,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.7780522108078003,
+      "eval_runtime": 5.9228,
+      "eval_samples_per_second": 67.536,
+      "eval_steps_per_second": 2.195,
+      "step": 1186
+    },
+    {
+      "epoch": 42.123893805309734,
+      "grad_norm": 11.281728744506836,
+      "learning_rate": 3.587962962962963e-05,
+      "loss": 0.1563,
+      "step": 1190
+    },
+    {
+      "epoch": 42.47787610619469,
+      "grad_norm": 6.99351167678833,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.1541,
+      "step": 1200
+    },
+    {
+      "epoch": 42.83185840707964,
+      "grad_norm": 12.189485549926758,
+      "learning_rate": 3.55489417989418e-05,
+      "loss": 0.1891,
+      "step": 1210
+    },
+    {
+      "epoch": 42.97345132743363,
+      "eval_accuracy": 0.8225,
+      "eval_loss": 0.7375677227973938,
+      "eval_runtime": 5.736,
+      "eval_samples_per_second": 69.735,
+      "eval_steps_per_second": 2.266,
+      "step": 1214
+    },
+    {
+      "epoch": 43.1858407079646,
+      "grad_norm": 7.004004955291748,
+      "learning_rate": 3.5383597883597885e-05,
+      "loss": 0.1332,
+      "step": 1220
+    },
+    {
+      "epoch": 43.53982300884956,
+      "grad_norm": 15.816964149475098,
+      "learning_rate": 3.521825396825397e-05,
+      "loss": 0.1231,
+      "step": 1230
+    },
+    {
+      "epoch": 43.89380530973451,
+      "grad_norm": 8.720746040344238,
+      "learning_rate": 3.5052910052910054e-05,
+      "loss": 0.1573,
+      "step": 1240
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.730354905128479,
+      "eval_runtime": 5.7537,
+      "eval_samples_per_second": 69.52,
+      "eval_steps_per_second": 2.259,
+      "step": 1243
+    },
+    {
+      "epoch": 44.24778761061947,
+      "grad_norm": 11.798288345336914,
+      "learning_rate": 3.488756613756614e-05,
+      "loss": 0.1337,
+      "step": 1250
+    },
+    {
+      "epoch": 44.60176991150443,
+      "grad_norm": 8.698972702026367,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.1536,
+      "step": 1260
+    },
+    {
+      "epoch": 44.95575221238938,
+      "grad_norm": 14.468975067138672,
+      "learning_rate": 3.455687830687831e-05,
+      "loss": 0.1536,
+      "step": 1270
+    },
+    {
+      "epoch": 44.991150442477874,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.777264416217804,
+      "eval_runtime": 5.7994,
+      "eval_samples_per_second": 68.972,
+      "eval_steps_per_second": 2.242,
+      "step": 1271
+    },
+    {
+      "epoch": 45.309734513274336,
+      "grad_norm": 5.724658966064453,
+      "learning_rate": 3.439153439153439e-05,
+      "loss": 0.1362,
+      "step": 1280
+    },
+    {
+      "epoch": 45.663716814159294,
+      "grad_norm": 15.177201271057129,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.1562,
+      "step": 1290
+    },
+    {
+      "epoch": 45.982300884955755,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.7622714042663574,
+      "eval_runtime": 5.6562,
+      "eval_samples_per_second": 70.719,
+      "eval_steps_per_second": 2.298,
+      "step": 1299
+    },
+    {
+      "epoch": 46.017699115044245,
+      "grad_norm": 14.262038230895996,
+      "learning_rate": 3.406084656084656e-05,
+      "loss": 0.1609,
+      "step": 1300
+    },
+    {
+      "epoch": 46.3716814159292,
+      "grad_norm": 10.63355541229248,
+      "learning_rate": 3.3895502645502647e-05,
+      "loss": 0.1297,
+      "step": 1310
+    },
+    {
+      "epoch": 46.72566371681416,
+      "grad_norm": 11.54215145111084,
+      "learning_rate": 3.3730158730158734e-05,
+      "loss": 0.1264,
+      "step": 1320
+    },
+    {
+      "epoch": 46.97345132743363,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.8314040899276733,
+      "eval_runtime": 5.9374,
+      "eval_samples_per_second": 67.369,
+      "eval_steps_per_second": 2.189,
+      "step": 1327
+    },
+    {
+      "epoch": 47.07964601769911,
+      "grad_norm": 7.798260688781738,
+      "learning_rate": 3.3564814814814815e-05,
+      "loss": 0.1552,
+      "step": 1330
+    },
+    {
+      "epoch": 47.43362831858407,
+      "grad_norm": 10.773923873901367,
+      "learning_rate": 3.33994708994709e-05,
+      "loss": 0.1188,
+      "step": 1340
+    },
+    {
+      "epoch": 47.78761061946903,
+      "grad_norm": 5.990432262420654,
+      "learning_rate": 3.3234126984126983e-05,
+      "loss": 0.1596,
+      "step": 1350
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.7830512523651123,
+      "eval_runtime": 5.8001,
+      "eval_samples_per_second": 68.964,
+      "eval_steps_per_second": 2.241,
+      "step": 1356
+    },
+    {
+      "epoch": 48.14159292035398,
+      "grad_norm": 11.099681854248047,
+      "learning_rate": 3.306878306878307e-05,
+      "loss": 0.1342,
+      "step": 1360
+    },
+    {
+      "epoch": 48.49557522123894,
+      "grad_norm": 7.706020355224609,
+      "learning_rate": 3.290343915343915e-05,
+      "loss": 0.1382,
+      "step": 1370
+    },
+    {
+      "epoch": 48.849557522123895,
+      "grad_norm": 5.685822010040283,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 0.1237,
+      "step": 1380
+    },
+    {
+      "epoch": 48.991150442477874,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.7949317097663879,
+      "eval_runtime": 5.6938,
+      "eval_samples_per_second": 70.252,
+      "eval_steps_per_second": 2.283,
+      "step": 1384
+    },
+    {
+      "epoch": 49.203539823008846,
+      "grad_norm": 10.283050537109375,
+      "learning_rate": 3.257275132275133e-05,
+      "loss": 0.1161,
+      "step": 1390
+    },
+    {
+      "epoch": 49.557522123893804,
+      "grad_norm": 6.40301513671875,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.1363,
+      "step": 1400
+    },
+    {
+      "epoch": 49.91150442477876,
+      "grad_norm": 17.212697982788086,
+      "learning_rate": 3.2242063492063495e-05,
+      "loss": 0.1355,
+      "step": 1410
+    },
+    {
+      "epoch": 49.982300884955755,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.781341552734375,
+      "eval_runtime": 5.872,
+      "eval_samples_per_second": 68.12,
+      "eval_steps_per_second": 2.214,
+      "step": 1412
+    },
+    {
+      "epoch": 50.26548672566372,
+      "grad_norm": 4.185158729553223,
+      "learning_rate": 3.2076719576719576e-05,
+      "loss": 0.1294,
+      "step": 1420
+    },
+    {
+      "epoch": 50.61946902654867,
+      "grad_norm": 10.888021469116211,
+      "learning_rate": 3.1911375661375664e-05,
+      "loss": 0.163,
+      "step": 1430
+    },
+    {
+      "epoch": 50.97345132743363,
+      "grad_norm": 8.630338668823242,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.1251,
+      "step": 1440
+    },
+    {
+      "epoch": 50.97345132743363,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.7647480964660645,
+      "eval_runtime": 5.8333,
+      "eval_samples_per_second": 68.571,
+      "eval_steps_per_second": 2.229,
+      "step": 1440
+    },
+    {
+      "epoch": 51.32743362831859,
+      "grad_norm": 19.542953491210938,
+      "learning_rate": 3.158068783068783e-05,
+      "loss": 0.1289,
+      "step": 1450
+    },
+    {
+      "epoch": 51.68141592920354,
+      "grad_norm": 14.15263843536377,
+      "learning_rate": 3.141534391534391e-05,
+      "loss": 0.1181,
+      "step": 1460
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.7552239894866943,
+      "eval_runtime": 6.0471,
+      "eval_samples_per_second": 66.148,
+      "eval_steps_per_second": 2.15,
+      "step": 1469
+    },
+    {
+      "epoch": 52.0353982300885,
+      "grad_norm": 8.696867942810059,
+      "learning_rate": 3.125e-05,
+      "loss": 0.1232,
+      "step": 1470
+    },
+    {
+      "epoch": 52.389380530973455,
+      "grad_norm": 15.115714073181152,
+      "learning_rate": 3.108465608465609e-05,
+      "loss": 0.128,
+      "step": 1480
+    },
+    {
+      "epoch": 52.743362831858406,
+      "grad_norm": 26.04839515686035,
+      "learning_rate": 3.091931216931217e-05,
+      "loss": 0.1224,
+      "step": 1490
+    },
+    {
+      "epoch": 52.991150442477874,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.8345909118652344,
+      "eval_runtime": 5.7656,
+      "eval_samples_per_second": 69.377,
+      "eval_steps_per_second": 2.255,
+      "step": 1497
+    },
+    {
+      "epoch": 53.097345132743364,
+      "grad_norm": 6.820947647094727,
+      "learning_rate": 3.075396825396826e-05,
+      "loss": 0.1088,
+      "step": 1500
+    },
+    {
+      "epoch": 53.45132743362832,
+      "grad_norm": 10.287090301513672,
+      "learning_rate": 3.058862433862434e-05,
+      "loss": 0.1094,
+      "step": 1510
+    },
+    {
+      "epoch": 53.80530973451327,
+      "grad_norm": 12.619726181030273,
+      "learning_rate": 3.0423280423280425e-05,
+      "loss": 0.1201,
+      "step": 1520
+    },
+    {
+      "epoch": 53.982300884955755,
+      "eval_accuracy": 0.7975,
+      "eval_loss": 0.7740535140037537,
+      "eval_runtime": 5.8431,
+      "eval_samples_per_second": 68.457,
+      "eval_steps_per_second": 2.225,
+      "step": 1525
+    },
+    {
+      "epoch": 54.15929203539823,
+      "grad_norm": 3.6249613761901855,
+      "learning_rate": 3.0257936507936506e-05,
+      "loss": 0.1278,
+      "step": 1530
+    },
+    {
+      "epoch": 54.51327433628319,
+      "grad_norm": 8.490986824035645,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.1359,
+      "step": 1540
+    },
+    {
+      "epoch": 54.86725663716814,
+      "grad_norm": 8.873104095458984,
+      "learning_rate": 2.9927248677248678e-05,
+      "loss": 0.1109,
+      "step": 1550
+    },
+    {
+      "epoch": 54.97345132743363,
+      "eval_accuracy": 0.785,
+      "eval_loss": 0.772351861000061,
+      "eval_runtime": 5.8419,
+      "eval_samples_per_second": 68.47,
+      "eval_steps_per_second": 2.225,
+      "step": 1553
+    },
+    {
+      "epoch": 55.2212389380531,
+      "grad_norm": 3.0876898765563965,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.1108,
+      "step": 1560
+    },
+    {
+      "epoch": 55.575221238938056,
+      "grad_norm": 6.528329372406006,
+      "learning_rate": 2.959656084656085e-05,
+      "loss": 0.1236,
+      "step": 1570
+    },
+    {
+      "epoch": 55.92920353982301,
+      "grad_norm": 11.930560111999512,
+      "learning_rate": 2.943121693121693e-05,
+      "loss": 0.1084,
+      "step": 1580
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.7904237508773804,
+      "eval_runtime": 5.7739,
+      "eval_samples_per_second": 69.277,
+      "eval_steps_per_second": 2.252,
+      "step": 1582
+    },
+    {
+      "epoch": 56.283185840707965,
+      "grad_norm": 6.980546951293945,
+      "learning_rate": 2.9265873015873018e-05,
+      "loss": 0.1144,
+      "step": 1590
+    },
+    {
+      "epoch": 56.63716814159292,
+      "grad_norm": 11.986266136169434,
+      "learning_rate": 2.91005291005291e-05,
+      "loss": 0.1084,
+      "step": 1600
+    },
+    {
+      "epoch": 56.991150442477874,
+      "grad_norm": 6.527588367462158,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 0.1187,
+      "step": 1610
+    },
+    {
+      "epoch": 56.991150442477874,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.7423826456069946,
+      "eval_runtime": 5.9051,
+      "eval_samples_per_second": 67.738,
+      "eval_steps_per_second": 2.201,
+      "step": 1610
+    },
+    {
+      "epoch": 57.34513274336283,
+      "grad_norm": 6.542221546173096,
+      "learning_rate": 2.876984126984127e-05,
+      "loss": 0.1191,
+      "step": 1620
+    },
+    {
+      "epoch": 57.69911504424779,
+      "grad_norm": 6.406174659729004,
+      "learning_rate": 2.8604497354497355e-05,
+      "loss": 0.0935,
+      "step": 1630
+    },
+    {
+      "epoch": 57.982300884955755,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.7410502433776855,
+      "eval_runtime": 6.0733,
+      "eval_samples_per_second": 65.862,
+      "eval_steps_per_second": 2.141,
+      "step": 1638
+    },
+    {
+      "epoch": 58.05309734513274,
+      "grad_norm": 5.907907485961914,
+      "learning_rate": 2.8439153439153442e-05,
+      "loss": 0.0776,
+      "step": 1640
+    },
+    {
+      "epoch": 58.4070796460177,
+      "grad_norm": 7.151067733764648,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 0.1022,
+      "step": 1650
+    },
+    {
+      "epoch": 58.76106194690266,
+      "grad_norm": 6.808224201202393,
+      "learning_rate": 2.810846560846561e-05,
+      "loss": 0.1023,
+      "step": 1660
+    },
+    {
+      "epoch": 58.97345132743363,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.7475782632827759,
+      "eval_runtime": 5.7079,
+      "eval_samples_per_second": 70.078,
+      "eval_steps_per_second": 2.278,
+      "step": 1666
+    },
+    {
+      "epoch": 59.11504424778761,
+      "grad_norm": 7.42250919342041,
+      "learning_rate": 2.7943121693121695e-05,
+      "loss": 0.1206,
+      "step": 1670
+    },
+    {
+      "epoch": 59.469026548672566,
+      "grad_norm": 11.038393020629883,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.1148,
+      "step": 1680
+    },
+    {
+      "epoch": 59.823008849557525,
+      "grad_norm": 6.563925266265869,
+      "learning_rate": 2.7612433862433863e-05,
+      "loss": 0.1166,
+      "step": 1690
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.7742089033126831,
+      "eval_runtime": 5.6896,
+      "eval_samples_per_second": 70.304,
+      "eval_steps_per_second": 2.285,
+      "step": 1695
+    },
+    {
+      "epoch": 60.176991150442475,
+      "grad_norm": 8.62690544128418,
+      "learning_rate": 2.7447089947089948e-05,
+      "loss": 0.1133,
+      "step": 1700
+    },
+    {
+      "epoch": 60.530973451327434,
+      "grad_norm": 8.701354026794434,
+      "learning_rate": 2.7281746031746032e-05,
+      "loss": 0.0961,
+      "step": 1710
+    },
+    {
+      "epoch": 60.88495575221239,
+      "grad_norm": 5.880581855773926,
+      "learning_rate": 2.7116402116402116e-05,
+      "loss": 0.099,
+      "step": 1720
+    },
+    {
+      "epoch": 60.991150442477874,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.7696540951728821,
+      "eval_runtime": 5.8242,
+      "eval_samples_per_second": 68.679,
+      "eval_steps_per_second": 2.232,
+      "step": 1723
+    },
+    {
+      "epoch": 61.23893805309734,
+      "grad_norm": 6.893290996551514,
+      "learning_rate": 2.6951058201058204e-05,
+      "loss": 0.0968,
+      "step": 1730
+    },
+    {
+      "epoch": 61.5929203539823,
+      "grad_norm": 9.383642196655273,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.0927,
+      "step": 1740
+    },
+    {
+      "epoch": 61.94690265486726,
+      "grad_norm": 10.903635025024414,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 0.1157,
+      "step": 1750
+    },
+    {
+      "epoch": 61.982300884955755,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.8537997603416443,
+      "eval_runtime": 5.862,
+      "eval_samples_per_second": 68.236,
+      "eval_steps_per_second": 2.218,
+      "step": 1751
+    },
+    {
+      "epoch": 62.30088495575221,
+      "grad_norm": 11.495246887207031,
+      "learning_rate": 2.6455026455026456e-05,
+      "loss": 0.1071,
+      "step": 1760
+    },
+    {
+      "epoch": 62.65486725663717,
+      "grad_norm": 8.735861778259277,
+      "learning_rate": 2.628968253968254e-05,
+      "loss": 0.1137,
+      "step": 1770
+    },
+    {
+      "epoch": 62.97345132743363,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.8544909954071045,
+      "eval_runtime": 5.719,
+      "eval_samples_per_second": 69.942,
+      "eval_steps_per_second": 2.273,
+      "step": 1779
+    },
+    {
+      "epoch": 63.008849557522126,
+      "grad_norm": 9.511134147644043,
+      "learning_rate": 2.6124338624338625e-05,
+      "loss": 0.0962,
+      "step": 1780
+    },
+    {
+      "epoch": 63.36283185840708,
+      "grad_norm": 9.274235725402832,
+      "learning_rate": 2.5958994708994712e-05,
+      "loss": 0.09,
+      "step": 1790
+    },
+    {
+      "epoch": 63.716814159292035,
+      "grad_norm": 17.82819175720215,
+      "learning_rate": 2.5793650793650796e-05,
+      "loss": 0.094,
+      "step": 1800
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.8463137745857239,
+      "eval_runtime": 5.7366,
+      "eval_samples_per_second": 69.727,
+      "eval_steps_per_second": 2.266,
+      "step": 1808
+    },
+    {
+      "epoch": 64.070796460177,
+      "grad_norm": 13.545799255371094,
+      "learning_rate": 2.562830687830688e-05,
+      "loss": 0.1186,
+      "step": 1810
+    },
+    {
+      "epoch": 64.42477876106194,
+      "grad_norm": 8.884902954101562,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.1027,
+      "step": 1820
+    },
+    {
+      "epoch": 64.77876106194691,
+      "grad_norm": 9.229199409484863,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 0.1161,
+      "step": 1830
+    },
+    {
+      "epoch": 64.99115044247787,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8350917100906372,
+      "eval_runtime": 5.7053,
+      "eval_samples_per_second": 70.11,
+      "eval_steps_per_second": 2.279,
+      "step": 1836
+    },
+    {
+      "epoch": 65.13274336283186,
+      "grad_norm": 4.687648296356201,
+      "learning_rate": 2.5132275132275137e-05,
+      "loss": 0.0954,
+      "step": 1840
+    },
+    {
+      "epoch": 65.48672566371681,
+      "grad_norm": 8.967106819152832,
+      "learning_rate": 2.496693121693122e-05,
+      "loss": 0.1102,
+      "step": 1850
+    },
+    {
+      "epoch": 65.84070796460178,
+      "grad_norm": 7.873806953430176,
+      "learning_rate": 2.4801587301587305e-05,
+      "loss": 0.08,
+      "step": 1860
+    },
+    {
+      "epoch": 65.98230088495575,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.8610497117042542,
+      "eval_runtime": 5.7201,
+      "eval_samples_per_second": 69.929,
+      "eval_steps_per_second": 2.273,
+      "step": 1864
+    },
+    {
+      "epoch": 66.19469026548673,
+      "grad_norm": 7.836842060089111,
+      "learning_rate": 2.463624338624339e-05,
+      "loss": 0.1068,
+      "step": 1870
+    },
+    {
+      "epoch": 66.54867256637168,
+      "grad_norm": 8.14975357055664,
+      "learning_rate": 2.4470899470899473e-05,
+      "loss": 0.0787,
+      "step": 1880
+    },
+    {
+      "epoch": 66.90265486725664,
+      "grad_norm": 5.568120956420898,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.0799,
+      "step": 1890
+    },
+    {
+      "epoch": 66.97345132743362,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.8592771887779236,
+      "eval_runtime": 5.7815,
+      "eval_samples_per_second": 69.186,
+      "eval_steps_per_second": 2.249,
+      "step": 1892
+    },
+    {
+      "epoch": 67.2566371681416,
+      "grad_norm": 5.271720886230469,
+      "learning_rate": 2.4140211640211642e-05,
+      "loss": 0.0781,
+      "step": 1900
+    },
+    {
+      "epoch": 67.61061946902655,
+      "grad_norm": 3.000176429748535,
+      "learning_rate": 2.3974867724867726e-05,
+      "loss": 0.0927,
+      "step": 1910
+    },
+    {
+      "epoch": 67.96460176991151,
+      "grad_norm": 1.825054407119751,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.0783,
+      "step": 1920
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.8423022627830505,
+      "eval_runtime": 5.6528,
+      "eval_samples_per_second": 70.762,
+      "eval_steps_per_second": 2.3,
+      "step": 1921
+    },
+    {
+      "epoch": 68.31858407079646,
+      "grad_norm": 9.14376449584961,
+      "learning_rate": 2.3644179894179898e-05,
+      "loss": 0.1037,
+      "step": 1930
+    },
+    {
+      "epoch": 68.67256637168141,
+      "grad_norm": 11.533547401428223,
+      "learning_rate": 2.3478835978835982e-05,
+      "loss": 0.0851,
+      "step": 1940
+    },
+    {
+      "epoch": 68.99115044247787,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.8265037536621094,
+      "eval_runtime": 5.9247,
+      "eval_samples_per_second": 67.514,
+      "eval_steps_per_second": 2.194,
+      "step": 1949
+    },
+    {
+      "epoch": 69.02654867256638,
+      "grad_norm": 8.8108549118042,
+      "learning_rate": 2.3313492063492066e-05,
+      "loss": 0.1005,
+      "step": 1950
+    },
+    {
+      "epoch": 69.38053097345133,
+      "grad_norm": 7.721718788146973,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0839,
+      "step": 1960
+    },
+    {
+      "epoch": 69.73451327433628,
+      "grad_norm": 9.032380104064941,
+      "learning_rate": 2.2982804232804235e-05,
+      "loss": 0.0775,
+      "step": 1970
+    },
+    {
+      "epoch": 69.98230088495575,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.8707697987556458,
+      "eval_runtime": 5.6882,
+      "eval_samples_per_second": 70.321,
+      "eval_steps_per_second": 2.285,
+      "step": 1977
+    },
+    {
+      "epoch": 70.08849557522124,
+      "grad_norm": 7.697175979614258,
+      "learning_rate": 2.281746031746032e-05,
+      "loss": 0.1005,
+      "step": 1980
+    },
+    {
+      "epoch": 70.4424778761062,
+      "grad_norm": 11.258265495300293,
+      "learning_rate": 2.2652116402116403e-05,
+      "loss": 0.1152,
+      "step": 1990
+    },
+    {
+      "epoch": 70.79646017699115,
+      "grad_norm": 6.715971946716309,
+      "learning_rate": 2.2486772486772487e-05,
+      "loss": 0.0902,
+      "step": 2000
+    },
+    {
+      "epoch": 70.97345132743362,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8180540204048157,
+      "eval_runtime": 5.7974,
+      "eval_samples_per_second": 68.996,
+      "eval_steps_per_second": 2.242,
+      "step": 2005
+    },
+    {
+      "epoch": 71.15044247787611,
+      "grad_norm": 8.447669982910156,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.0664,
+      "step": 2010
+    },
+    {
+      "epoch": 71.50442477876106,
+      "grad_norm": 10.469520568847656,
+      "learning_rate": 2.215608465608466e-05,
+      "loss": 0.0893,
+      "step": 2020
+    },
+    {
+      "epoch": 71.85840707964601,
+      "grad_norm": 6.971242904663086,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 0.0904,
+      "step": 2030
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.8296825885772705,
+      "eval_runtime": 5.7586,
+      "eval_samples_per_second": 69.462,
+      "eval_steps_per_second": 2.258,
+      "step": 2034
+    },
+    {
+      "epoch": 72.21238938053098,
+      "grad_norm": 6.059171199798584,
+      "learning_rate": 2.1825396825396827e-05,
+      "loss": 0.0767,
+      "step": 2040
+    },
+    {
+      "epoch": 72.56637168141593,
+      "grad_norm": 9.134629249572754,
+      "learning_rate": 2.166005291005291e-05,
+      "loss": 0.0897,
+      "step": 2050
+    },
+    {
+      "epoch": 72.92035398230088,
+      "grad_norm": 6.5583415031433105,
+      "learning_rate": 2.1494708994708996e-05,
+      "loss": 0.0898,
+      "step": 2060
+    },
+    {
+      "epoch": 72.99115044247787,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.8464323282241821,
+      "eval_runtime": 5.7076,
+      "eval_samples_per_second": 70.082,
+      "eval_steps_per_second": 2.278,
+      "step": 2062
+    },
+    {
+      "epoch": 73.27433628318585,
+      "grad_norm": 12.021257400512695,
+      "learning_rate": 2.132936507936508e-05,
+      "loss": 0.1061,
+      "step": 2070
+    },
+    {
+      "epoch": 73.6283185840708,
+      "grad_norm": 4.3469367027282715,
+      "learning_rate": 2.1164021164021164e-05,
+      "loss": 0.0744,
+      "step": 2080
+    },
+    {
+      "epoch": 73.98230088495575,
+      "grad_norm": 9.244330406188965,
+      "learning_rate": 2.0998677248677252e-05,
+      "loss": 0.1013,
+      "step": 2090
+    },
+    {
+      "epoch": 73.98230088495575,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8324652314186096,
+      "eval_runtime": 5.8164,
+      "eval_samples_per_second": 68.771,
+      "eval_steps_per_second": 2.235,
+      "step": 2090
+    },
+    {
+      "epoch": 74.33628318584071,
+      "grad_norm": 4.678669452667236,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.1001,
+      "step": 2100
+    },
+    {
+      "epoch": 74.69026548672566,
+      "grad_norm": 9.78695297241211,
+      "learning_rate": 2.066798941798942e-05,
+      "loss": 0.0726,
+      "step": 2110
+    },
+    {
+      "epoch": 74.97345132743362,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.8771929144859314,
+      "eval_runtime": 5.7555,
+      "eval_samples_per_second": 69.499,
+      "eval_steps_per_second": 2.259,
+      "step": 2118
+    },
+    {
+      "epoch": 75.04424778761062,
+      "grad_norm": 3.598501443862915,
+      "learning_rate": 2.0502645502645504e-05,
+      "loss": 0.0975,
+      "step": 2120
+    },
+    {
+      "epoch": 75.39823008849558,
+      "grad_norm": 10.049243927001953,
+      "learning_rate": 2.033730158730159e-05,
+      "loss": 0.0858,
+      "step": 2130
+    },
+    {
+      "epoch": 75.75221238938053,
+      "grad_norm": 10.887565612792969,
+      "learning_rate": 2.0171957671957673e-05,
+      "loss": 0.0745,
+      "step": 2140
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.8505265712738037,
+      "eval_runtime": 5.6825,
+      "eval_samples_per_second": 70.391,
+      "eval_steps_per_second": 2.288,
+      "step": 2147
+    },
+    {
+      "epoch": 76.10619469026548,
+      "grad_norm": 9.399345397949219,
+      "learning_rate": 2.0006613756613757e-05,
+      "loss": 0.0909,
+      "step": 2150
+    },
+    {
+      "epoch": 76.46017699115045,
+      "grad_norm": 3.6555662155151367,
+      "learning_rate": 1.984126984126984e-05,
+      "loss": 0.0799,
+      "step": 2160
+    },
+    {
+      "epoch": 76.8141592920354,
+      "grad_norm": 5.8622894287109375,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 0.0891,
+      "step": 2170
+    },
+    {
+      "epoch": 76.99115044247787,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8693811297416687,
+      "eval_runtime": 5.7342,
+      "eval_samples_per_second": 69.757,
+      "eval_steps_per_second": 2.267,
+      "step": 2175
+    },
+    {
+      "epoch": 77.16814159292035,
+      "grad_norm": 3.6685290336608887,
+      "learning_rate": 1.9510582010582013e-05,
+      "loss": 0.0909,
+      "step": 2180
+    },
+    {
+      "epoch": 77.52212389380531,
+      "grad_norm": 9.96608829498291,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 0.0962,
+      "step": 2190
+    },
+    {
+      "epoch": 77.87610619469027,
+      "grad_norm": 7.857000827789307,
+      "learning_rate": 1.917989417989418e-05,
+      "loss": 0.0791,
+      "step": 2200
+    },
+    {
+      "epoch": 77.98230088495575,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8765752911567688,
+      "eval_runtime": 5.7248,
+      "eval_samples_per_second": 69.872,
+      "eval_steps_per_second": 2.271,
+      "step": 2203
+    },
+    {
+      "epoch": 78.23008849557522,
+      "grad_norm": 10.403280258178711,
+      "learning_rate": 1.9014550264550266e-05,
+      "loss": 0.0622,
+      "step": 2210
+    },
+    {
+      "epoch": 78.58407079646018,
+      "grad_norm": 6.770401477813721,
+      "learning_rate": 1.884920634920635e-05,
+      "loss": 0.0689,
+      "step": 2220
+    },
+    {
+      "epoch": 78.93805309734513,
+      "grad_norm": 10.228433609008789,
+      "learning_rate": 1.8683862433862434e-05,
+      "loss": 0.0639,
+      "step": 2230
+    },
+    {
+      "epoch": 78.97345132743362,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.8461715579032898,
+      "eval_runtime": 6.0121,
+      "eval_samples_per_second": 66.532,
+      "eval_steps_per_second": 2.162,
+      "step": 2231
+    },
+    {
+      "epoch": 79.29203539823008,
+      "grad_norm": 6.610928535461426,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0705,
+      "step": 2240
+    },
+    {
+      "epoch": 79.64601769911505,
+      "grad_norm": 9.066596984863281,
+      "learning_rate": 1.8353174603174602e-05,
+      "loss": 0.0795,
+      "step": 2250
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 11.537944793701172,
+      "learning_rate": 1.818783068783069e-05,
+      "loss": 0.0676,
+      "step": 2260
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.8991250395774841,
+      "eval_runtime": 5.7259,
+      "eval_samples_per_second": 69.858,
+      "eval_steps_per_second": 2.27,
+      "step": 2260
+    },
+    {
+      "epoch": 80.35398230088495,
+      "grad_norm": 5.221861839294434,
+      "learning_rate": 1.8022486772486774e-05,
+      "loss": 0.0932,
+      "step": 2270
+    },
+    {
+      "epoch": 80.70796460176992,
+      "grad_norm": 6.904067039489746,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.0904,
+      "step": 2280
+    },
+    {
+      "epoch": 80.99115044247787,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.8550813794136047,
+      "eval_runtime": 5.7321,
+      "eval_samples_per_second": 69.782,
+      "eval_steps_per_second": 2.268,
+      "step": 2288
+    },
+    {
+      "epoch": 81.06194690265487,
+      "grad_norm": 10.940287590026855,
+      "learning_rate": 1.7691798941798943e-05,
+      "loss": 0.0942,
+      "step": 2290
+    },
+    {
+      "epoch": 81.41592920353982,
+      "grad_norm": 4.109130382537842,
+      "learning_rate": 1.7526455026455027e-05,
+      "loss": 0.0791,
+      "step": 2300
+    },
+    {
+      "epoch": 81.76991150442478,
+      "grad_norm": 10.844812393188477,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.0788,
+      "step": 2310
+    },
+    {
+      "epoch": 81.98230088495575,
+      "eval_accuracy": 0.795,
+      "eval_loss": 0.9301651120185852,
+      "eval_runtime": 5.6474,
+      "eval_samples_per_second": 70.829,
+      "eval_steps_per_second": 2.302,
+      "step": 2316
+    },
+    {
+      "epoch": 82.12389380530973,
+      "grad_norm": 3.5678551197052,
+      "learning_rate": 1.7195767195767195e-05,
+      "loss": 0.0603,
+      "step": 2320
+    },
+    {
+      "epoch": 82.47787610619469,
+      "grad_norm": 7.562065124511719,
+      "learning_rate": 1.703042328042328e-05,
+      "loss": 0.093,
+      "step": 2330
+    },
+    {
+      "epoch": 82.83185840707965,
+      "grad_norm": 10.092254638671875,
+      "learning_rate": 1.6865079365079367e-05,
+      "loss": 0.0787,
+      "step": 2340
+    },
+    {
+      "epoch": 82.97345132743362,
+      "eval_accuracy": 0.8025,
+      "eval_loss": 0.8706057071685791,
+      "eval_runtime": 5.8345,
+      "eval_samples_per_second": 68.558,
+      "eval_steps_per_second": 2.228,
+      "step": 2344
+    },
+    {
+      "epoch": 83.1858407079646,
+      "grad_norm": 4.765111923217773,
+      "learning_rate": 1.669973544973545e-05,
+      "loss": 0.0579,
+      "step": 2350
+    },
+    {
+      "epoch": 83.53982300884955,
+      "grad_norm": 6.426796913146973,
+      "learning_rate": 1.6534391534391536e-05,
+      "loss": 0.0697,
+      "step": 2360
+    },
+    {
+      "epoch": 83.89380530973452,
+      "grad_norm": 7.382542610168457,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 0.0918,
+      "step": 2370
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.868044912815094,
+      "eval_runtime": 5.7723,
+      "eval_samples_per_second": 69.297,
+      "eval_steps_per_second": 2.252,
+      "step": 2373
+    },
+    {
+      "epoch": 84.24778761061947,
+      "grad_norm": 5.388473987579346,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.0752,
+      "step": 2380
+    },
+    {
+      "epoch": 84.60176991150442,
+      "grad_norm": 6.751432418823242,
+      "learning_rate": 1.6038359788359788e-05,
+      "loss": 0.0671,
+      "step": 2390
+    },
+    {
+      "epoch": 84.95575221238938,
+      "grad_norm": 8.372601509094238,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.0681,
+      "step": 2400
+    },
+    {
+      "epoch": 84.99115044247787,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.8481296300888062,
+      "eval_runtime": 5.711,
+      "eval_samples_per_second": 70.04,
+      "eval_steps_per_second": 2.276,
+      "step": 2401
+    },
+    {
+      "epoch": 85.30973451327434,
+      "grad_norm": 6.79984712600708,
+      "learning_rate": 1.5707671957671957e-05,
+      "loss": 0.0634,
+      "step": 2410
+    },
+    {
+      "epoch": 85.66371681415929,
+      "grad_norm": 9.60888671875,
+      "learning_rate": 1.5542328042328044e-05,
+      "loss": 0.115,
+      "step": 2420
+    },
+    {
+      "epoch": 85.98230088495575,
+      "eval_accuracy": 0.8025,
+      "eval_loss": 0.8552606105804443,
+      "eval_runtime": 6.0227,
+      "eval_samples_per_second": 66.415,
+      "eval_steps_per_second": 2.158,
+      "step": 2429
+    },
+    {
+      "epoch": 86.01769911504425,
+      "grad_norm": 9.006217956542969,
+      "learning_rate": 1.537698412698413e-05,
+      "loss": 0.0741,
+      "step": 2430
+    },
+    {
+      "epoch": 86.3716814159292,
+      "grad_norm": 8.767806053161621,
+      "learning_rate": 1.5211640211640213e-05,
+      "loss": 0.0652,
+      "step": 2440
+    },
+    {
+      "epoch": 86.72566371681415,
+      "grad_norm": 6.8285675048828125,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 0.0599,
+      "step": 2450
+    },
+    {
+      "epoch": 86.97345132743362,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.8886809349060059,
+      "eval_runtime": 5.6679,
+      "eval_samples_per_second": 70.573,
+      "eval_steps_per_second": 2.294,
+      "step": 2457
+    },
+    {
+      "epoch": 87.07964601769912,
+      "grad_norm": 7.630321502685547,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 0.0805,
+      "step": 2460
+    },
+    {
+      "epoch": 87.43362831858407,
+      "grad_norm": 8.364428520202637,
+      "learning_rate": 1.4715608465608465e-05,
+      "loss": 0.0743,
+      "step": 2470
+    },
+    {
+      "epoch": 87.78761061946902,
+      "grad_norm": 8.15882682800293,
+      "learning_rate": 1.455026455026455e-05,
+      "loss": 0.0774,
+      "step": 2480
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.9255210161209106,
+      "eval_runtime": 5.684,
+      "eval_samples_per_second": 70.374,
+      "eval_steps_per_second": 2.287,
+      "step": 2486
+    },
+    {
+      "epoch": 88.14159292035399,
+      "grad_norm": 3.7120983600616455,
+      "learning_rate": 1.4384920634920635e-05,
+      "loss": 0.0635,
+      "step": 2490
+    },
+    {
+      "epoch": 88.49557522123894,
+      "grad_norm": 3.117091655731201,
+      "learning_rate": 1.4219576719576721e-05,
+      "loss": 0.0722,
+      "step": 2500
+    },
+    {
+      "epoch": 88.84955752212389,
+      "grad_norm": 4.884605407714844,
+      "learning_rate": 1.4054232804232805e-05,
+      "loss": 0.0701,
+      "step": 2510
+    },
+    {
+      "epoch": 88.99115044247787,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.8794758319854736,
+      "eval_runtime": 5.697,
+      "eval_samples_per_second": 70.213,
+      "eval_steps_per_second": 2.282,
+      "step": 2514
+    },
+    {
+      "epoch": 89.20353982300885,
+      "grad_norm": 6.620547294616699,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0626,
+      "step": 2520
+    },
+    {
+      "epoch": 89.5575221238938,
+      "grad_norm": 6.801345348358154,
+      "learning_rate": 1.3723544973544974e-05,
+      "loss": 0.0682,
+      "step": 2530
+    },
+    {
+      "epoch": 89.91150442477876,
+      "grad_norm": 5.619492053985596,
+      "learning_rate": 1.3558201058201058e-05,
+      "loss": 0.074,
+      "step": 2540
+    },
+    {
+      "epoch": 89.98230088495575,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.8634124994277954,
+      "eval_runtime": 5.7593,
+      "eval_samples_per_second": 69.453,
+      "eval_steps_per_second": 2.257,
+      "step": 2542
+    },
+    {
+      "epoch": 90.26548672566372,
+      "grad_norm": 10.153610229492188,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.0794,
+      "step": 2550
+    },
+    {
+      "epoch": 90.61946902654867,
+      "grad_norm": 5.089029312133789,
+      "learning_rate": 1.3227513227513228e-05,
+      "loss": 0.0611,
+      "step": 2560
+    },
+    {
+      "epoch": 90.97345132743362,
+      "grad_norm": 6.003979206085205,
+      "learning_rate": 1.3062169312169312e-05,
+      "loss": 0.0497,
+      "step": 2570
+    },
+    {
+      "epoch": 90.97345132743362,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.8793442249298096,
+      "eval_runtime": 6.0414,
+      "eval_samples_per_second": 66.21,
+      "eval_steps_per_second": 2.152,
+      "step": 2570
+    },
+    {
+      "epoch": 91.32743362831859,
+      "grad_norm": 6.3248090744018555,
+      "learning_rate": 1.2896825396825398e-05,
+      "loss": 0.0557,
+      "step": 2580
+    },
+    {
+      "epoch": 91.68141592920354,
+      "grad_norm": 4.216904640197754,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 0.0569,
+      "step": 2590
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.9006764888763428,
+      "eval_runtime": 5.7399,
+      "eval_samples_per_second": 69.688,
+      "eval_steps_per_second": 2.265,
+      "step": 2599
+    },
+    {
+      "epoch": 92.03539823008849,
+      "grad_norm": 6.895070552825928,
+      "learning_rate": 1.2566137566137568e-05,
+      "loss": 0.0769,
+      "step": 2600
+    },
+    {
+      "epoch": 92.38938053097345,
+      "grad_norm": 3.7500102519989014,
+      "learning_rate": 1.2400793650793652e-05,
+      "loss": 0.0543,
+      "step": 2610
+    },
+    {
+      "epoch": 92.7433628318584,
+      "grad_norm": 10.693458557128906,
+      "learning_rate": 1.2235449735449737e-05,
+      "loss": 0.0722,
+      "step": 2620
+    },
+    {
+      "epoch": 92.99115044247787,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.8700942993164062,
+      "eval_runtime": 5.6593,
+      "eval_samples_per_second": 70.681,
+      "eval_steps_per_second": 2.297,
+      "step": 2627
+    },
+    {
+      "epoch": 93.09734513274336,
+      "grad_norm": 5.407220363616943,
+      "learning_rate": 1.2070105820105821e-05,
+      "loss": 0.0822,
+      "step": 2630
+    },
+    {
+      "epoch": 93.45132743362832,
+      "grad_norm": 2.9195971488952637,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.0624,
+      "step": 2640
+    },
+    {
+      "epoch": 93.80530973451327,
+      "grad_norm": 7.752827167510986,
+      "learning_rate": 1.1739417989417991e-05,
+      "loss": 0.0674,
+      "step": 2650
+    },
+    {
+      "epoch": 93.98230088495575,
+      "eval_accuracy": 0.8225,
+      "eval_loss": 0.8879609704017639,
+      "eval_runtime": 5.7797,
+      "eval_samples_per_second": 69.208,
+      "eval_steps_per_second": 2.249,
+      "step": 2655
+    },
+    {
+      "epoch": 94.15929203539822,
+      "grad_norm": 6.314310550689697,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.0685,
+      "step": 2660
+    },
+    {
+      "epoch": 94.51327433628319,
+      "grad_norm": 9.070263862609863,
+      "learning_rate": 1.140873015873016e-05,
+      "loss": 0.0649,
+      "step": 2670
+    },
+    {
+      "epoch": 94.86725663716814,
+      "grad_norm": 4.211071968078613,
+      "learning_rate": 1.1243386243386244e-05,
+      "loss": 0.0643,
+      "step": 2680
+    },
+    {
+      "epoch": 94.97345132743362,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.8854994177818298,
+      "eval_runtime": 5.6723,
+      "eval_samples_per_second": 70.518,
+      "eval_steps_per_second": 2.292,
+      "step": 2683
+    },
+    {
+      "epoch": 95.22123893805309,
+      "grad_norm": 6.701349258422852,
+      "learning_rate": 1.107804232804233e-05,
+      "loss": 0.054,
+      "step": 2690
+    },
+    {
+      "epoch": 95.57522123893806,
+      "grad_norm": 9.44869327545166,
+      "learning_rate": 1.0912698412698414e-05,
+      "loss": 0.0594,
+      "step": 2700
+    },
+    {
+      "epoch": 95.929203539823,
+      "grad_norm": 5.749889373779297,
+      "learning_rate": 1.0747354497354498e-05,
+      "loss": 0.0583,
+      "step": 2710
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.8918322920799255,
+      "eval_runtime": 5.8266,
+      "eval_samples_per_second": 68.651,
+      "eval_steps_per_second": 2.231,
+      "step": 2712
+    },
+    {
+      "epoch": 96.28318584070796,
+      "grad_norm": 9.790497779846191,
+      "learning_rate": 1.0582010582010582e-05,
+      "loss": 0.0731,
+      "step": 2720
+    },
+    {
+      "epoch": 96.63716814159292,
+      "grad_norm": 10.20504379272461,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.067,
+      "step": 2730
+    },
+    {
+      "epoch": 96.99115044247787,
+      "grad_norm": 9.304971694946289,
+      "learning_rate": 1.0251322751322752e-05,
+      "loss": 0.0558,
+      "step": 2740
+    },
+    {
+      "epoch": 96.99115044247787,
+      "eval_accuracy": 0.8275,
+      "eval_loss": 0.8735535144805908,
+      "eval_runtime": 5.748,
+      "eval_samples_per_second": 69.59,
+      "eval_steps_per_second": 2.262,
+      "step": 2740
+    },
+    {
+      "epoch": 97.34513274336283,
+      "grad_norm": 2.155658483505249,
+      "learning_rate": 1.0085978835978836e-05,
+      "loss": 0.0952,
+      "step": 2750
+    },
+    {
+      "epoch": 97.69911504424779,
+      "grad_norm": 4.216080665588379,
+      "learning_rate": 9.92063492063492e-06,
+      "loss": 0.0622,
+      "step": 2760
+    },
+    {
+      "epoch": 97.98230088495575,
+      "eval_accuracy": 0.815,
+      "eval_loss": 0.905790388584137,
+      "eval_runtime": 6.0004,
+      "eval_samples_per_second": 66.662,
+      "eval_steps_per_second": 2.167,
+      "step": 2768
+    },
+    {
+      "epoch": 98.05309734513274,
+      "grad_norm": 5.462803840637207,
+      "learning_rate": 9.755291005291007e-06,
+      "loss": 0.0576,
+      "step": 2770
+    },
+    {
+      "epoch": 98.40707964601769,
+      "grad_norm": 6.204135894775391,
+      "learning_rate": 9.58994708994709e-06,
+      "loss": 0.0871,
+      "step": 2780
+    },
+    {
+      "epoch": 98.76106194690266,
+      "grad_norm": 7.025479316711426,
+      "learning_rate": 9.424603174603175e-06,
+      "loss": 0.0689,
+      "step": 2790
+    },
+    {
+      "epoch": 98.97345132743362,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.9006683230400085,
+      "eval_runtime": 5.6446,
+      "eval_samples_per_second": 70.864,
+      "eval_steps_per_second": 2.303,
+      "step": 2796
+    },
+    {
+      "epoch": 99.11504424778761,
+      "grad_norm": 12.175108909606934,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0653,
+      "step": 2800
+    },
+    {
+      "epoch": 99.46902654867256,
+      "grad_norm": 2.277102470397949,
+      "learning_rate": 9.093915343915345e-06,
+      "loss": 0.0533,
+      "step": 2810
+    },
+    {
+      "epoch": 99.82300884955752,
+      "grad_norm": 3.374624252319336,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 0.0782,
+      "step": 2820
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.8025,
+      "eval_loss": 0.9216282367706299,
+      "eval_runtime": 5.6935,
+      "eval_samples_per_second": 70.255,
+      "eval_steps_per_second": 2.283,
+      "step": 2825
+    },
+    {
+      "epoch": 100.17699115044248,
+      "grad_norm": 4.110525131225586,
+      "learning_rate": 8.763227513227513e-06,
+      "loss": 0.0678,
+      "step": 2830
+    },
+    {
+      "epoch": 100.53097345132744,
+      "grad_norm": 1.8253668546676636,
+      "learning_rate": 8.597883597883598e-06,
+      "loss": 0.0506,
+      "step": 2840
+    },
+    {
+      "epoch": 100.88495575221239,
+      "grad_norm": 5.427482604980469,
+      "learning_rate": 8.432539682539684e-06,
+      "loss": 0.0696,
+      "step": 2850
+    },
+    {
+      "epoch": 100.99115044247787,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.9158985614776611,
+      "eval_runtime": 5.7392,
+      "eval_samples_per_second": 69.696,
+      "eval_steps_per_second": 2.265,
+      "step": 2853
+    },
+    {
+      "epoch": 101.23893805309734,
+      "grad_norm": 11.669960975646973,
+      "learning_rate": 8.267195767195768e-06,
+      "loss": 0.0424,
+      "step": 2860
+    },
+    {
+      "epoch": 101.59292035398231,
+      "grad_norm": 3.504544496536255,
+      "learning_rate": 8.101851851851852e-06,
+      "loss": 0.0676,
+      "step": 2870
+    },
+    {
+      "epoch": 101.94690265486726,
+      "grad_norm": 4.86131477355957,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.0554,
+      "step": 2880
+    },
+    {
+      "epoch": 101.98230088495575,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.9194761514663696,
+      "eval_runtime": 5.7011,
+      "eval_samples_per_second": 70.162,
+      "eval_steps_per_second": 2.28,
+      "step": 2881
+    },
+    {
+      "epoch": 102.30088495575221,
+      "grad_norm": 10.070198059082031,
+      "learning_rate": 7.771164021164022e-06,
+      "loss": 0.0784,
+      "step": 2890
+    },
+    {
+      "epoch": 102.65486725663717,
+      "grad_norm": 6.48520040512085,
+      "learning_rate": 7.605820105820106e-06,
+      "loss": 0.0585,
+      "step": 2900
+    },
+    {
+      "epoch": 102.97345132743362,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.9314340949058533,
+      "eval_runtime": 5.7273,
+      "eval_samples_per_second": 69.841,
+      "eval_steps_per_second": 2.27,
+      "step": 2909
+    },
+    {
+      "epoch": 103.00884955752213,
+      "grad_norm": 3.9195964336395264,
+      "learning_rate": 7.4404761904761905e-06,
+      "loss": 0.068,
+      "step": 2910
+    },
+    {
+      "epoch": 103.36283185840708,
+      "grad_norm": 7.709494590759277,
+      "learning_rate": 7.275132275132275e-06,
+      "loss": 0.0555,
+      "step": 2920
+    },
+    {
+      "epoch": 103.71681415929204,
+      "grad_norm": 5.181375026702881,
+      "learning_rate": 7.1097883597883606e-06,
+      "loss": 0.0541,
+      "step": 2930
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.825,
+      "eval_loss": 0.893872082233429,
+      "eval_runtime": 5.7025,
+      "eval_samples_per_second": 70.145,
+      "eval_steps_per_second": 2.28,
+      "step": 2938
+    },
+    {
+      "epoch": 104.070796460177,
+      "grad_norm": 11.922988891601562,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.0656,
+      "step": 2940
+    },
+    {
+      "epoch": 104.42477876106194,
+      "grad_norm": 6.153034687042236,
+      "learning_rate": 6.779100529100529e-06,
+      "loss": 0.0668,
+      "step": 2950
+    },
+    {
+      "epoch": 104.77876106194691,
+      "grad_norm": 7.586311340332031,
+      "learning_rate": 6.613756613756614e-06,
+      "loss": 0.0636,
+      "step": 2960
+    },
+    {
+      "epoch": 104.99115044247787,
+      "eval_accuracy": 0.8025,
+      "eval_loss": 0.9045028686523438,
+      "eval_runtime": 5.7995,
+      "eval_samples_per_second": 68.972,
+      "eval_steps_per_second": 2.242,
+      "step": 2966
+    },
+    {
+      "epoch": 105.13274336283186,
+      "grad_norm": 7.499364852905273,
+      "learning_rate": 6.448412698412699e-06,
+      "loss": 0.0578,
+      "step": 2970
+    },
+    {
+      "epoch": 105.48672566371681,
+      "grad_norm": 5.914554595947266,
+      "learning_rate": 6.283068783068784e-06,
+      "loss": 0.0683,
+      "step": 2980
+    },
+    {
+      "epoch": 105.84070796460178,
+      "grad_norm": 5.446691513061523,
+      "learning_rate": 6.117724867724868e-06,
+      "loss": 0.0684,
+      "step": 2990
+    },
+    {
+      "epoch": 105.98230088495575,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.8892062306404114,
+      "eval_runtime": 5.7229,
+      "eval_samples_per_second": 69.895,
+      "eval_steps_per_second": 2.272,
+      "step": 2994
+    },
+    {
+      "epoch": 106.19469026548673,
+      "grad_norm": 5.555883407592773,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 0.0629,
+      "step": 3000
+    },
+    {
+      "epoch": 106.54867256637168,
+      "grad_norm": 6.0038042068481445,
+      "learning_rate": 5.787037037037038e-06,
+      "loss": 0.0637,
+      "step": 3010
+    },
+    {
+      "epoch": 106.90265486725664,
+      "grad_norm": 4.660765647888184,
+      "learning_rate": 5.621693121693122e-06,
+      "loss": 0.0608,
+      "step": 3020
+    },
+    {
+      "epoch": 106.97345132743362,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.8998861908912659,
+      "eval_runtime": 5.6896,
+      "eval_samples_per_second": 70.303,
+      "eval_steps_per_second": 2.285,
+      "step": 3022
+    },
+    {
+      "epoch": 107.2566371681416,
+      "grad_norm": 2.3250956535339355,
+      "learning_rate": 5.456349206349207e-06,
+      "loss": 0.065,
+      "step": 3030
+    },
+    {
+      "epoch": 107.61061946902655,
+      "grad_norm": 3.4695749282836914,
+      "learning_rate": 5.291005291005291e-06,
+      "loss": 0.0614,
+      "step": 3040
+    },
+    {
+      "epoch": 107.96460176991151,
+      "grad_norm": 1.7842631340026855,
+      "learning_rate": 5.125661375661376e-06,
+      "loss": 0.0663,
+      "step": 3050
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.9033371210098267,
+      "eval_runtime": 6.1003,
+      "eval_samples_per_second": 65.571,
+      "eval_steps_per_second": 2.131,
+      "step": 3051
+    },
+    {
+      "epoch": 108.31858407079646,
+      "grad_norm": 4.970130920410156,
+      "learning_rate": 4.96031746031746e-06,
+      "loss": 0.0466,
+      "step": 3060
+    },
+    {
+      "epoch": 108.67256637168141,
+      "grad_norm": 6.935737609863281,
+      "learning_rate": 4.794973544973545e-06,
+      "loss": 0.054,
+      "step": 3070
+    },
+    {
+      "epoch": 108.99115044247787,
+      "eval_accuracy": 0.805,
+      "eval_loss": 0.9248512387275696,
+      "eval_runtime": 5.6759,
+      "eval_samples_per_second": 70.473,
+      "eval_steps_per_second": 2.29,
+      "step": 3079
+    },
+    {
+      "epoch": 109.02654867256638,
+      "grad_norm": 1.8442103862762451,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.0681,
+      "step": 3080
+    },
+    {
+      "epoch": 109.38053097345133,
+      "grad_norm": 6.584358215332031,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 0.0551,
+      "step": 3090
+    },
+    {
+      "epoch": 109.73451327433628,
+      "grad_norm": 2.5174403190612793,
+      "learning_rate": 4.298941798941799e-06,
+      "loss": 0.0538,
+      "step": 3100
+    },
+    {
+      "epoch": 109.98230088495575,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.9065310955047607,
+      "eval_runtime": 5.7721,
+      "eval_samples_per_second": 69.299,
+      "eval_steps_per_second": 2.252,
+      "step": 3107
+    },
+    {
+      "epoch": 110.08849557522124,
+      "grad_norm": 3.406076669692993,
+      "learning_rate": 4.133597883597884e-06,
+      "loss": 0.0768,
+      "step": 3110
+    },
+    {
+      "epoch": 110.4424778761062,
+      "grad_norm": 3.832432746887207,
+      "learning_rate": 3.968253968253968e-06,
+      "loss": 0.0674,
+      "step": 3120
+    },
+    {
+      "epoch": 110.79646017699115,
+      "grad_norm": 2.3623971939086914,
+      "learning_rate": 3.802910052910053e-06,
+      "loss": 0.0696,
+      "step": 3130
+    },
+    {
+      "epoch": 110.97345132743362,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.9002352952957153,
+      "eval_runtime": 5.823,
+      "eval_samples_per_second": 68.693,
+      "eval_steps_per_second": 2.233,
+      "step": 3135
+    },
+    {
+      "epoch": 111.15044247787611,
+      "grad_norm": 8.914955139160156,
+      "learning_rate": 3.6375661375661373e-06,
+      "loss": 0.059,
+      "step": 3140
+    },
+    {
+      "epoch": 111.50442477876106,
+      "grad_norm": 6.295753479003906,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 0.0496,
+      "step": 3150
+    },
+    {
+      "epoch": 111.85840707964601,
+      "grad_norm": 4.604882717132568,
+      "learning_rate": 3.306878306878307e-06,
+      "loss": 0.0585,
+      "step": 3160
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.8025,
+      "eval_loss": 0.9105786085128784,
+      "eval_runtime": 5.6843,
+      "eval_samples_per_second": 70.369,
+      "eval_steps_per_second": 2.287,
+      "step": 3164
+    },
+    {
+      "epoch": 112.21238938053098,
+      "grad_norm": 6.111964702606201,
+      "learning_rate": 3.141534391534392e-06,
+      "loss": 0.0387,
+      "step": 3170
+    },
+    {
+      "epoch": 112.56637168141593,
+      "grad_norm": 9.29433536529541,
+      "learning_rate": 2.9761904761904763e-06,
+      "loss": 0.0623,
+      "step": 3180
+    },
+    {
+      "epoch": 112.92035398230088,
+      "grad_norm": 10.9270601272583,
+      "learning_rate": 2.810846560846561e-06,
+      "loss": 0.0641,
+      "step": 3190
+    },
+    {
+      "epoch": 112.99115044247787,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.9088242053985596,
+      "eval_runtime": 5.7312,
+      "eval_samples_per_second": 69.794,
+      "eval_steps_per_second": 2.268,
+      "step": 3192
+    },
+    {
+      "epoch": 113.27433628318585,
+      "grad_norm": 9.549851417541504,
+      "learning_rate": 2.6455026455026455e-06,
+      "loss": 0.0555,
+      "step": 3200
+    },
+    {
+      "epoch": 113.6283185840708,
+      "grad_norm": 7.800489902496338,
+      "learning_rate": 2.48015873015873e-06,
+      "loss": 0.0527,
+      "step": 3210
+    },
+    {
+      "epoch": 113.98230088495575,
+      "grad_norm": 4.22268533706665,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.0611,
+      "step": 3220
+    },
+    {
+      "epoch": 113.98230088495575,
+      "eval_accuracy": 0.8075,
+      "eval_loss": 0.915170431137085,
+      "eval_runtime": 5.6521,
+      "eval_samples_per_second": 70.77,
+      "eval_steps_per_second": 2.3,
+      "step": 3220
+    },
+    {
+      "epoch": 114.33628318584071,
+      "grad_norm": 6.939643383026123,
+      "learning_rate": 2.1494708994708994e-06,
+      "loss": 0.092,
+      "step": 3230
+    },
+    {
+      "epoch": 114.69026548672566,
+      "grad_norm": 4.18217658996582,
+      "learning_rate": 1.984126984126984e-06,
+      "loss": 0.0528,
+      "step": 3240
+    },
+    {
+      "epoch": 114.97345132743362,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.9140109419822693,
+      "eval_runtime": 5.9093,
+      "eval_samples_per_second": 67.69,
+      "eval_steps_per_second": 2.2,
+      "step": 3248
+    },
+    {
+      "epoch": 115.04424778761062,
+      "grad_norm": 2.470015287399292,
+      "learning_rate": 1.8187830687830687e-06,
+      "loss": 0.0664,
+      "step": 3250
+    },
+    {
+      "epoch": 115.39823008849558,
+      "grad_norm": 5.625057220458984,
+      "learning_rate": 1.6534391534391535e-06,
+      "loss": 0.0567,
+      "step": 3260
+    },
+    {
+      "epoch": 115.75221238938053,
+      "grad_norm": 8.182403564453125,
+      "learning_rate": 1.4880952380952381e-06,
+      "loss": 0.0631,
+      "step": 3270
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.9184489250183105,
+      "eval_runtime": 5.7237,
+      "eval_samples_per_second": 69.885,
+      "eval_steps_per_second": 2.271,
+      "step": 3277
+    },
+    {
+      "epoch": 116.10619469026548,
+      "grad_norm": 3.7127795219421387,
+      "learning_rate": 1.3227513227513228e-06,
+      "loss": 0.0667,
+      "step": 3280
+    },
+    {
+      "epoch": 116.46017699115045,
+      "grad_norm": 9.592253684997559,
+      "learning_rate": 1.1574074074074074e-06,
+      "loss": 0.0559,
+      "step": 3290
+    },
+    {
+      "epoch": 116.8141592920354,
+      "grad_norm": 12.001859664916992,
+      "learning_rate": 9.92063492063492e-07,
+      "loss": 0.0744,
+      "step": 3300
+    },
+    {
+      "epoch": 116.99115044247787,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.9216000437736511,
+      "eval_runtime": 5.7416,
+      "eval_samples_per_second": 69.667,
+      "eval_steps_per_second": 2.264,
+      "step": 3305
+    },
+    {
+      "epoch": 117.16814159292035,
+      "grad_norm": 5.99811315536499,
+      "learning_rate": 8.267195767195768e-07,
+      "loss": 0.051,
+      "step": 3310
+    },
+    {
+      "epoch": 117.52212389380531,
+      "grad_norm": 4.772040367126465,
+      "learning_rate": 6.613756613756614e-07,
+      "loss": 0.0705,
+      "step": 3320
+    },
+    {
+      "epoch": 117.87610619469027,
+      "grad_norm": 3.2538766860961914,
+      "learning_rate": 4.96031746031746e-07,
+      "loss": 0.0407,
+      "step": 3330
+    },
+    {
+      "epoch": 117.98230088495575,
+      "eval_accuracy": 0.8125,
+      "eval_loss": 0.9210975766181946,
+      "eval_runtime": 5.6807,
+      "eval_samples_per_second": 70.414,
+      "eval_steps_per_second": 2.288,
+      "step": 3333
+    },
+    {
+      "epoch": 118.23008849557522,
+      "grad_norm": 5.481634140014648,
+      "learning_rate": 3.306878306878307e-07,
+      "loss": 0.0682,
+      "step": 3340
+    },
+    {
+      "epoch": 118.58407079646018,
+      "grad_norm": 7.475958824157715,
+      "learning_rate": 1.6534391534391535e-07,
+      "loss": 0.058,
+      "step": 3350
+    },
+    {
+      "epoch": 118.93805309734513,
+      "grad_norm": 12.294817924499512,
+      "learning_rate": 0.0,
+      "loss": 0.0573,
+      "step": 3360
+    },
+    {
+      "epoch": 118.93805309734513,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.92020583152771,
+      "eval_runtime": 5.7978,
+      "eval_samples_per_second": 68.992,
+      "eval_steps_per_second": 2.242,
+      "step": 3360
+    },
+    {
+      "epoch": 118.93805309734513,
+      "step": 3360,
+      "total_flos": 1.0779764781475824e+19,
+      "train_loss": 0.2818299961143306,
+      "train_runtime": 9749.4057,
+      "train_samples_per_second": 44.31,
+      "train_steps_per_second": 0.345
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3360,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 120,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0779764781475824e+19,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2392f981e96b83548cc7bc5f652d693f538b4183f76bb5d40470838910a22254
+size 5240