End of training

Browse files

Files changed (12) hide show

README.md +120 -0
adapter_config.json +32 -0
adapter_model.safetensors +3 -0
added_tokens.json +3 -0
all_results.json +7 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +50 -0
train_results.json +7 -0
trainer_state.json +2286 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,120 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- generated_from_trainer
+base_model: mistralai/Mistral-7B-v0.1
+metrics:
+- accuracy
+model-index:
+- name: Mistral-7B-v0.1_district-court-db
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Mistral-7B-v0.1_district-court-db
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0353
+- Precision Micro: 0.8057
+- Precision Macro: 0.7027
+- Recall Micro: 0.8057
+- Recall Macro: 0.6940
+- F1 Micro: 0.8057
+- F1 Macro: 0.6867
+- Accuracy: 0.8057
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 2.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Precision Micro | Precision Macro | Recall Micro | Recall Macro | F1 Micro | F1 Macro | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:---------------:|:---------------:|:------------:|:------------:|:--------:|:--------:|:--------:|
+| 0.1114        | 0.04  | 50   | 0.2315          | 0.3613          | 0.1236          | 0.3613       | 0.1194       | 0.3613   | 0.0986   | 0.3613   |
+| 0.1009        | 0.08  | 100  | 0.1300          | 0.4868          | 0.2602          | 0.4868       | 0.2927       | 0.4868   | 0.2574   | 0.4868   |
+| 0.0655        | 0.12  | 150  | 0.1111          | 0.5821          | 0.4592          | 0.5821       | 0.3260       | 0.5821   | 0.3407   | 0.5821   |
+| 0.0675        | 0.16  | 200  | 0.0980          | 0.6104          | 0.4309          | 0.6104       | 0.4116       | 0.6104   | 0.3994   | 0.6104   |
+| 0.0613        | 0.2   | 250  | 0.0868          | 0.6349          | 0.5027          | 0.6349       | 0.4238       | 0.6349   | 0.4328   | 0.6349   |
+| 0.0423        | 0.24  | 300  | 0.0829          | 0.6406          | 0.4971          | 0.6406       | 0.5150       | 0.6406   | 0.4838   | 0.6406   |
+| 0.0495        | 0.28  | 350  | 0.0647          | 0.6840          | 0.5621          | 0.6840       | 0.5110       | 0.6840   | 0.5118   | 0.6840   |
+| 0.0696        | 0.32  | 400  | 0.0583          | 0.7236          | 0.5854          | 0.7236       | 0.5476       | 0.7236   | 0.5523   | 0.7236   |
+| 0.0551        | 0.36  | 450  | 0.0470          | 0.7538          | 0.6037          | 0.7538       | 0.5804       | 0.7538   | 0.5801   | 0.7538   |
+| 0.0485        | 0.4   | 500  | 0.0467          | 0.7632          | 0.6244          | 0.7632       | 0.6093       | 0.7632   | 0.5976   | 0.7632   |
+| 0.0514        | 0.44  | 550  | 0.0491          | 0.7453          | 0.6624          | 0.7453       | 0.6055       | 0.7453   | 0.6149   | 0.7453   |
+| 0.0537        | 0.48  | 600  | 0.0469          | 0.7547          | 0.6565          | 0.7547       | 0.6140       | 0.7547   | 0.5956   | 0.7547   |
+| 0.0503        | 0.52  | 650  | 0.0473          | 0.7434          | 0.6365          | 0.7434       | 0.5711       | 0.7434   | 0.5711   | 0.7434   |
+| 0.0502        | 0.56  | 700  | 0.0429          | 0.7991          | 0.6675          | 0.7991       | 0.6430       | 0.7991   | 0.6487   | 0.7991   |
+| 0.0568        | 0.6   | 750  | 0.0421          | 0.7830          | 0.6400          | 0.7830       | 0.6197       | 0.7830   | 0.6035   | 0.7830   |
+| 0.0456        | 0.64  | 800  | 0.0385          | 0.8038          | 0.6660          | 0.8038       | 0.7100       | 0.8038   | 0.6795   | 0.8038   |
+| 0.0465        | 0.68  | 850  | 0.0423          | 0.7868          | 0.7080          | 0.7868       | 0.6536       | 0.7868   | 0.6638   | 0.7868   |
+| 0.0517        | 0.72  | 900  | 0.0405          | 0.7830          | 0.6482          | 0.7830       | 0.5953       | 0.7830   | 0.6044   | 0.7830   |
+| 0.0449        | 0.76  | 950  | 0.0395          | 0.7962          | 0.6783          | 0.7962       | 0.6782       | 0.7962   | 0.6595   | 0.7962   |
+| 0.0438        | 0.79  | 1000 | 0.0415          | 0.7651          | 0.6310          | 0.7651       | 0.6519       | 0.7651   | 0.6270   | 0.7651   |
+| 0.0368        | 0.83  | 1050 | 0.0367          | 0.8142          | 0.7077          | 0.8142       | 0.6998       | 0.8142   | 0.6885   | 0.8142   |
+| 0.0351        | 0.87  | 1100 | 0.0350          | 0.8151          | 0.6864          | 0.8151       | 0.6838       | 0.8151   | 0.6796   | 0.8151   |
+| 0.042         | 0.91  | 1150 | 0.0362          | 0.8066          | 0.6895          | 0.8066       | 0.6593       | 0.8066   | 0.6627   | 0.8066   |
+| 0.0449        | 0.95  | 1200 | 0.0367          | 0.7925          | 0.6685          | 0.7925       | 0.6671       | 0.7925   | 0.6583   | 0.7925   |
+| 0.0331        | 0.99  | 1250 | 0.0382          | 0.8019          | 0.6760          | 0.8019       | 0.6848       | 0.8019   | 0.6661   | 0.8019   |
+| 0.0367        | 1.03  | 1300 | 0.0372          | 0.8038          | 0.7119          | 0.8038       | 0.6501       | 0.8038   | 0.6590   | 0.8038   |
+| 0.0357        | 1.07  | 1350 | 0.0375          | 0.7991          | 0.6822          | 0.7991       | 0.6657       | 0.7991   | 0.6639   | 0.7991   |
+| 0.0405        | 1.11  | 1400 | 0.0354          | 0.8104          | 0.6735          | 0.8104       | 0.7011       | 0.8104   | 0.6823   | 0.8104   |
+| 0.0281        | 1.15  | 1450 | 0.0338          | 0.8302          | 0.6881          | 0.8302       | 0.7082       | 0.8302   | 0.6937   | 0.8302   |
+| 0.0362        | 1.19  | 1500 | 0.0351          | 0.8123          | 0.7044          | 0.8123       | 0.6559       | 0.8123   | 0.6607   | 0.8123   |
+| 0.0214        | 1.23  | 1550 | 0.0350          | 0.8104          | 0.7081          | 0.8104       | 0.6749       | 0.8104   | 0.6779   | 0.8104   |
+| 0.0321        | 1.27  | 1600 | 0.0368          | 0.8094          | 0.7541          | 0.8094       | 0.7254       | 0.8094   | 0.7278   | 0.8094   |
+| 0.0332        | 1.31  | 1650 | 0.0339          | 0.8255          | 0.7291          | 0.8255       | 0.7104       | 0.8255   | 0.7081   | 0.8255   |
+| 0.0306        | 1.35  | 1700 | 0.0339          | 0.8179          | 0.6816          | 0.8179       | 0.6804       | 0.8179   | 0.6770   | 0.8179   |
+| 0.0231        | 1.39  | 1750 | 0.0373          | 0.8179          | 0.6983          | 0.8179       | 0.6881       | 0.8179   | 0.6890   | 0.8179   |
+| 0.0351        | 1.43  | 1800 | 0.0356          | 0.8217          | 0.6989          | 0.8217       | 0.6917       | 0.8217   | 0.6893   | 0.8217   |
+| 0.0259        | 1.47  | 1850 | 0.0335          | 0.8208          | 0.6999          | 0.8208       | 0.6823       | 0.8208   | 0.6885   | 0.8208   |
+| 0.0371        | 1.51  | 1900 | 0.0367          | 0.8123          | 0.7412          | 0.8123       | 0.6617       | 0.8123   | 0.6817   | 0.8123   |
+| 0.0288        | 1.55  | 1950 | 0.0347          | 0.8179          | 0.6758          | 0.8179       | 0.6916       | 0.8179   | 0.6808   | 0.8179   |
+| 0.0252        | 1.59  | 2000 | 0.0357          | 0.8113          | 0.7003          | 0.8113       | 0.6714       | 0.8113   | 0.6787   | 0.8113   |
+| 0.0374        | 1.63  | 2050 | 0.0332          | 0.8208          | 0.7747          | 0.8208       | 0.7233       | 0.8208   | 0.7379   | 0.8208   |
+| 0.0356        | 1.67  | 2100 | 0.0323          | 0.8283          | 0.7425          | 0.8283       | 0.7046       | 0.8283   | 0.7162   | 0.8283   |
+| 0.0294        | 1.71  | 2150 | 0.0346          | 0.8113          | 0.7173          | 0.8113       | 0.7227       | 0.8113   | 0.7101   | 0.8113   |
+| 0.035         | 1.75  | 2200 | 0.0338          | 0.8236          | 0.7591          | 0.8236       | 0.7307       | 0.8236   | 0.7390   | 0.8236   |
+| 0.0432        | 1.79  | 2250 | 0.0348          | 0.8217          | 0.7694          | 0.8217       | 0.7204       | 0.8217   | 0.7295   | 0.8217   |
+| 0.0325        | 1.83  | 2300 | 0.0324          | 0.8330          | 0.7441          | 0.8330       | 0.7231       | 0.8330   | 0.7261   | 0.8330   |
+| 0.0318        | 1.87  | 2350 | 0.0321          | 0.8311          | 0.7397          | 0.8311       | 0.7241       | 0.8311   | 0.7248   | 0.8311   |
+| 0.0315        | 1.91  | 2400 | 0.0335          | 0.8179          | 0.6793          | 0.8179       | 0.7035       | 0.8179   | 0.6858   | 0.8179   |
+| 0.0331        | 1.95  | 2450 | 0.0335          | 0.8179          | 0.7295          | 0.8179       | 0.6879       | 0.8179   | 0.6956   | 0.8179   |
+| 0.0293        | 1.99  | 2500 | 0.0353          | 0.8057          | 0.7027          | 0.8057       | 0.6940       | 0.8057   | 0.6867   | 0.8057   |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.37.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.17.1
+- Tokenizers 0.15.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "gate_proj",
+    "score",
+    "v_proj",
+    "o_proj",
+    "q_proj",
+    "down_proj",
+    "up_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a422c5174be4eb7630594a16f33d5bc3e20cdf0c0d2abdbf1a70dd0cd05a2b8
+size 337444704

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.05790289470982191,
+    "train_runtime": 10296.0519,
+    "train_samples_per_second": 3.91,
+    "train_steps_per_second": 0.244
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,50 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.0,
+    "train_loss": 0.05790289470982191,
+    "train_runtime": 10296.0519,
+    "train_samples_per_second": 3.91,
+    "train_steps_per_second": 0.244
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2286 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9996026226902444,
+  "eval_steps": 50,
+  "global_step": 2516,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 3e-05,
+      "loss": 2.1025,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3e-05,
+      "loss": 0.2678,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 3e-05,
+      "loss": 0.1686,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 3e-05,
+      "loss": 0.1283,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3e-05,
+      "loss": 0.1114,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.3613207547169811,
+      "eval_f1_macro": 0.09860460155366327,
+      "eval_f1_micro": 0.3613207547169811,
+      "eval_loss": 0.2315492480993271,
+      "eval_precision_macro": 0.12357052455449527,
+      "eval_precision_micro": 0.3613207547169811,
+      "eval_recall_macro": 0.11941290624193263,
+      "eval_recall_micro": 0.3613207547169811,
+      "eval_runtime": 66.9606,
+      "eval_samples_per_second": 15.83,
+      "eval_steps_per_second": 3.958,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 3e-05,
+      "loss": 0.6159,
+      "step": 60
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 0.1207,
+      "step": 70
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3e-05,
+      "loss": 0.0914,
+      "step": 80
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3e-05,
+      "loss": 0.0971,
+      "step": 90
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3e-05,
+      "loss": 0.1009,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.4867924528301887,
+      "eval_f1_macro": 0.2574441564495774,
+      "eval_f1_micro": 0.4867924528301887,
+      "eval_loss": 0.1300116926431656,
+      "eval_precision_macro": 0.26018914773023644,
+      "eval_precision_micro": 0.4867924528301887,
+      "eval_recall_macro": 0.2927378841554505,
+      "eval_recall_micro": 0.4867924528301887,
+      "eval_runtime": 66.8969,
+      "eval_samples_per_second": 15.845,
+      "eval_steps_per_second": 3.961,
+      "step": 100
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 3e-05,
+      "loss": 0.2813,
+      "step": 110
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 3e-05,
+      "loss": 0.0721,
+      "step": 120
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 3e-05,
+      "loss": 0.0789,
+      "step": 130
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 3e-05,
+      "loss": 0.0559,
+      "step": 140
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 3e-05,
+      "loss": 0.0655,
+      "step": 150
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.5820754716981132,
+      "eval_f1_macro": 0.3406909384301982,
+      "eval_f1_micro": 0.5820754716981132,
+      "eval_loss": 0.11111029237508774,
+      "eval_precision_macro": 0.4592469495612598,
+      "eval_precision_micro": 0.5820754716981132,
+      "eval_recall_macro": 0.32597718546465326,
+      "eval_recall_micro": 0.5820754716981132,
+      "eval_runtime": 67.3369,
+      "eval_samples_per_second": 15.742,
+      "eval_steps_per_second": 3.935,
+      "step": 150
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 3e-05,
+      "loss": 0.2815,
+      "step": 160
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 3e-05,
+      "loss": 0.0738,
+      "step": 170
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 3e-05,
+      "loss": 0.06,
+      "step": 180
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 3e-05,
+      "loss": 0.064,
+      "step": 190
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 3e-05,
+      "loss": 0.0675,
+      "step": 200
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.6103773584905661,
+      "eval_f1_macro": 0.39941812670769666,
+      "eval_f1_micro": 0.6103773584905661,
+      "eval_loss": 0.09801042824983597,
+      "eval_precision_macro": 0.4309243547594424,
+      "eval_precision_micro": 0.6103773584905661,
+      "eval_recall_macro": 0.4115863977855726,
+      "eval_recall_micro": 0.6103773584905661,
+      "eval_runtime": 66.8379,
+      "eval_samples_per_second": 15.859,
+      "eval_steps_per_second": 3.965,
+      "step": 200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 3e-05,
+      "loss": 0.2238,
+      "step": 210
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 3e-05,
+      "loss": 0.0665,
+      "step": 220
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 3e-05,
+      "loss": 0.0526,
+      "step": 230
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 3e-05,
+      "loss": 0.0622,
+      "step": 240
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3e-05,
+      "loss": 0.0613,
+      "step": 250
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.6349056603773585,
+      "eval_f1_macro": 0.43281084183779084,
+      "eval_f1_micro": 0.6349056603773585,
+      "eval_loss": 0.0867743045091629,
+      "eval_precision_macro": 0.5027159556787124,
+      "eval_precision_micro": 0.6349056603773585,
+      "eval_recall_macro": 0.42379042156244773,
+      "eval_recall_micro": 0.6349056603773585,
+      "eval_runtime": 66.7898,
+      "eval_samples_per_second": 15.871,
+      "eval_steps_per_second": 3.968,
+      "step": 250
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3e-05,
+      "loss": 0.211,
+      "step": 260
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3e-05,
+      "loss": 0.0642,
+      "step": 270
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3e-05,
+      "loss": 0.0571,
+      "step": 280
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3e-05,
+      "loss": 0.0595,
+      "step": 290
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3e-05,
+      "loss": 0.0423,
+      "step": 300
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.6405660377358491,
+      "eval_f1_macro": 0.48377541137861874,
+      "eval_f1_micro": 0.6405660377358491,
+      "eval_loss": 0.08292412012815475,
+      "eval_precision_macro": 0.4971153033333408,
+      "eval_precision_micro": 0.6405660377358491,
+      "eval_recall_macro": 0.5150079548728711,
+      "eval_recall_micro": 0.6405660377358491,
+      "eval_runtime": 66.8647,
+      "eval_samples_per_second": 15.853,
+      "eval_steps_per_second": 3.963,
+      "step": 300
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3e-05,
+      "loss": 0.1501,
+      "step": 310
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3e-05,
+      "loss": 0.0583,
+      "step": 320
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3e-05,
+      "loss": 0.0406,
+      "step": 330
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3e-05,
+      "loss": 0.0512,
+      "step": 340
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3e-05,
+      "loss": 0.0495,
+      "step": 350
+    },
+    {
+      "epoch": 0.28,
+      "eval_accuracy": 0.6839622641509434,
+      "eval_f1_macro": 0.5117892165590059,
+      "eval_f1_micro": 0.6839622641509434,
+      "eval_loss": 0.06472181528806686,
+      "eval_precision_macro": 0.5620645130448471,
+      "eval_precision_micro": 0.6839622641509434,
+      "eval_recall_macro": 0.5110243944495119,
+      "eval_recall_micro": 0.6839622641509434,
+      "eval_runtime": 66.951,
+      "eval_samples_per_second": 15.832,
+      "eval_steps_per_second": 3.958,
+      "step": 350
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3e-05,
+      "loss": 0.126,
+      "step": 360
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3e-05,
+      "loss": 0.0659,
+      "step": 370
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3e-05,
+      "loss": 0.0521,
+      "step": 380
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3e-05,
+      "loss": 0.0558,
+      "step": 390
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3e-05,
+      "loss": 0.0696,
+      "step": 400
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.7235849056603774,
+      "eval_f1_macro": 0.5523304099808589,
+      "eval_f1_micro": 0.7235849056603774,
+      "eval_loss": 0.05833260715007782,
+      "eval_precision_macro": 0.5853706474287289,
+      "eval_precision_micro": 0.7235849056603774,
+      "eval_recall_macro": 0.5476004753387752,
+      "eval_recall_micro": 0.7235849056603774,
+      "eval_runtime": 67.3456,
+      "eval_samples_per_second": 15.74,
+      "eval_steps_per_second": 3.935,
+      "step": 400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3e-05,
+      "loss": 0.0861,
+      "step": 410
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3e-05,
+      "loss": 0.0457,
+      "step": 420
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0549,
+      "step": 430
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3e-05,
+      "loss": 0.0505,
+      "step": 440
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3e-05,
+      "loss": 0.0551,
+      "step": 450
+    },
+    {
+      "epoch": 0.36,
+      "eval_accuracy": 0.7537735849056604,
+      "eval_f1_macro": 0.580144082849279,
+      "eval_f1_micro": 0.7537735849056603,
+      "eval_loss": 0.04702736809849739,
+      "eval_precision_macro": 0.6037061602706483,
+      "eval_precision_micro": 0.7537735849056604,
+      "eval_recall_macro": 0.5804359588026832,
+      "eval_recall_micro": 0.7537735849056604,
+      "eval_runtime": 66.8194,
+      "eval_samples_per_second": 15.864,
+      "eval_steps_per_second": 3.966,
+      "step": 450
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3e-05,
+      "loss": 0.0701,
+      "step": 460
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3e-05,
+      "loss": 0.0483,
+      "step": 470
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3e-05,
+      "loss": 0.0427,
+      "step": 480
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3e-05,
+      "loss": 0.0437,
+      "step": 490
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3e-05,
+      "loss": 0.0485,
+      "step": 500
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.7632075471698113,
+      "eval_f1_macro": 0.5976025328641371,
+      "eval_f1_micro": 0.7632075471698113,
+      "eval_loss": 0.046745266765356064,
+      "eval_precision_macro": 0.6244027962032025,
+      "eval_precision_micro": 0.7632075471698113,
+      "eval_recall_macro": 0.6092701629048938,
+      "eval_recall_micro": 0.7632075471698113,
+      "eval_runtime": 66.8345,
+      "eval_samples_per_second": 15.86,
+      "eval_steps_per_second": 3.965,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0676,
+      "step": 510
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0424,
+      "step": 520
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3e-05,
+      "loss": 0.0533,
+      "step": 530
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3e-05,
+      "loss": 0.0405,
+      "step": 540
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3e-05,
+      "loss": 0.0514,
+      "step": 550
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.7452830188679245,
+      "eval_f1_macro": 0.6148723643378806,
+      "eval_f1_micro": 0.7452830188679244,
+      "eval_loss": 0.0491117425262928,
+      "eval_precision_macro": 0.6623956744108057,
+      "eval_precision_micro": 0.7452830188679245,
+      "eval_recall_macro": 0.6055074363524768,
+      "eval_recall_micro": 0.7452830188679245,
+      "eval_runtime": 66.8014,
+      "eval_samples_per_second": 15.868,
+      "eval_steps_per_second": 3.967,
+      "step": 550
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3e-05,
+      "loss": 0.0657,
+      "step": 560
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3e-05,
+      "loss": 0.0491,
+      "step": 570
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3e-05,
+      "loss": 0.0415,
+      "step": 580
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3e-05,
+      "loss": 0.0485,
+      "step": 590
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3e-05,
+      "loss": 0.0537,
+      "step": 600
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.7547169811320755,
+      "eval_f1_macro": 0.5955912007854481,
+      "eval_f1_micro": 0.7547169811320754,
+      "eval_loss": 0.04687512293457985,
+      "eval_precision_macro": 0.6564521374886103,
+      "eval_precision_micro": 0.7547169811320755,
+      "eval_recall_macro": 0.6140077817767989,
+      "eval_recall_micro": 0.7547169811320755,
+      "eval_runtime": 67.0823,
+      "eval_samples_per_second": 15.801,
+      "eval_steps_per_second": 3.95,
+      "step": 600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3e-05,
+      "loss": 0.0494,
+      "step": 610
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3e-05,
+      "loss": 0.0472,
+      "step": 620
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 3e-05,
+      "loss": 0.045,
+      "step": 630
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 3e-05,
+      "loss": 0.0447,
+      "step": 640
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 3e-05,
+      "loss": 0.0503,
+      "step": 650
+    },
+    {
+      "epoch": 0.52,
+      "eval_accuracy": 0.7433962264150943,
+      "eval_f1_macro": 0.5711369889957133,
+      "eval_f1_micro": 0.7433962264150943,
+      "eval_loss": 0.04730157181620598,
+      "eval_precision_macro": 0.6365229300442473,
+      "eval_precision_micro": 0.7433962264150943,
+      "eval_recall_macro": 0.5711131524489298,
+      "eval_recall_micro": 0.7433962264150943,
+      "eval_runtime": 66.9933,
+      "eval_samples_per_second": 15.822,
+      "eval_steps_per_second": 3.956,
+      "step": 650
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 3e-05,
+      "loss": 0.0632,
+      "step": 660
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 3e-05,
+      "loss": 0.0525,
+      "step": 670
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3e-05,
+      "loss": 0.0369,
+      "step": 680
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 3e-05,
+      "loss": 0.0392,
+      "step": 690
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 3e-05,
+      "loss": 0.0502,
+      "step": 700
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.7990566037735849,
+      "eval_f1_macro": 0.6486516495348912,
+      "eval_f1_micro": 0.799056603773585,
+      "eval_loss": 0.04286834970116615,
+      "eval_precision_macro": 0.6674675949162269,
+      "eval_precision_micro": 0.7990566037735849,
+      "eval_recall_macro": 0.6430318401752134,
+      "eval_recall_micro": 0.7990566037735849,
+      "eval_runtime": 66.7816,
+      "eval_samples_per_second": 15.873,
+      "eval_steps_per_second": 3.968,
+      "step": 700
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 3e-05,
+      "loss": 0.0562,
+      "step": 710
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 3e-05,
+      "loss": 0.0417,
+      "step": 720
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 3e-05,
+      "loss": 0.0384,
+      "step": 730
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 3e-05,
+      "loss": 0.0386,
+      "step": 740
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3e-05,
+      "loss": 0.0568,
+      "step": 750
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.7830188679245284,
+      "eval_f1_macro": 0.6035355055785452,
+      "eval_f1_micro": 0.7830188679245284,
+      "eval_loss": 0.04214347526431084,
+      "eval_precision_macro": 0.6399716318087022,
+      "eval_precision_micro": 0.7830188679245284,
+      "eval_recall_macro": 0.6197061339803496,
+      "eval_recall_micro": 0.7830188679245284,
+      "eval_runtime": 66.9036,
+      "eval_samples_per_second": 15.844,
+      "eval_steps_per_second": 3.961,
+      "step": 750
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3e-05,
+      "loss": 0.0524,
+      "step": 760
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 3e-05,
+      "loss": 0.0403,
+      "step": 770
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3e-05,
+      "loss": 0.0346,
+      "step": 780
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 3e-05,
+      "loss": 0.0436,
+      "step": 790
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3e-05,
+      "loss": 0.0456,
+      "step": 800
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.8037735849056604,
+      "eval_f1_macro": 0.6795100443217031,
+      "eval_f1_micro": 0.8037735849056604,
+      "eval_loss": 0.03851619362831116,
+      "eval_precision_macro": 0.6660272950062351,
+      "eval_precision_micro": 0.8037735849056604,
+      "eval_recall_macro": 0.7100461955802515,
+      "eval_recall_micro": 0.8037735849056604,
+      "eval_runtime": 66.7565,
+      "eval_samples_per_second": 15.879,
+      "eval_steps_per_second": 3.97,
+      "step": 800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3e-05,
+      "loss": 0.0404,
+      "step": 810
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 3e-05,
+      "loss": 0.0415,
+      "step": 820
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3e-05,
+      "loss": 0.034,
+      "step": 830
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3e-05,
+      "loss": 0.0465,
+      "step": 840
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3e-05,
+      "loss": 0.0465,
+      "step": 850
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 0.7867924528301887,
+      "eval_f1_macro": 0.6637790925123535,
+      "eval_f1_micro": 0.7867924528301887,
+      "eval_loss": 0.04226187616586685,
+      "eval_precision_macro": 0.70799384577877,
+      "eval_precision_micro": 0.7867924528301887,
+      "eval_recall_macro": 0.6535685213398926,
+      "eval_recall_micro": 0.7867924528301887,
+      "eval_runtime": 66.8456,
+      "eval_samples_per_second": 15.857,
+      "eval_steps_per_second": 3.964,
+      "step": 850
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3e-05,
+      "loss": 0.0428,
+      "step": 860
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 3e-05,
+      "loss": 0.0455,
+      "step": 870
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 3e-05,
+      "loss": 0.0467,
+      "step": 880
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3e-05,
+      "loss": 0.0381,
+      "step": 890
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3e-05,
+      "loss": 0.0517,
+      "step": 900
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.7830188679245284,
+      "eval_f1_macro": 0.604409711538349,
+      "eval_f1_micro": 0.7830188679245284,
+      "eval_loss": 0.04051998630166054,
+      "eval_precision_macro": 0.6482245905845607,
+      "eval_precision_micro": 0.7830188679245284,
+      "eval_recall_macro": 0.5953272937433359,
+      "eval_recall_micro": 0.7830188679245284,
+      "eval_runtime": 66.9721,
+      "eval_samples_per_second": 15.827,
+      "eval_steps_per_second": 3.957,
+      "step": 900
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 3e-05,
+      "loss": 0.0406,
+      "step": 910
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3e-05,
+      "loss": 0.037,
+      "step": 920
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 3e-05,
+      "loss": 0.0445,
+      "step": 930
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3e-05,
+      "loss": 0.0359,
+      "step": 940
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3e-05,
+      "loss": 0.0449,
+      "step": 950
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.7962264150943397,
+      "eval_f1_macro": 0.6595487480161657,
+      "eval_f1_micro": 0.7962264150943396,
+      "eval_loss": 0.03951858729124069,
+      "eval_precision_macro": 0.678313535245044,
+      "eval_precision_micro": 0.7962264150943397,
+      "eval_recall_macro": 0.6782248779232171,
+      "eval_recall_micro": 0.7962264150943397,
+      "eval_runtime": 67.2586,
+      "eval_samples_per_second": 15.76,
+      "eval_steps_per_second": 3.94,
+      "step": 950
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 3e-05,
+      "loss": 0.0473,
+      "step": 960
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 3e-05,
+      "loss": 0.0387,
+      "step": 970
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 3e-05,
+      "loss": 0.0393,
+      "step": 980
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3e-05,
+      "loss": 0.0344,
+      "step": 990
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3e-05,
+      "loss": 0.0438,
+      "step": 1000
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.7650943396226415,
+      "eval_f1_macro": 0.6269730408930883,
+      "eval_f1_micro": 0.7650943396226415,
+      "eval_loss": 0.041479434818029404,
+      "eval_precision_macro": 0.6310264924491513,
+      "eval_precision_micro": 0.7650943396226415,
+      "eval_recall_macro": 0.651893356526834,
+      "eval_recall_micro": 0.7650943396226415,
+      "eval_runtime": 66.8963,
+      "eval_samples_per_second": 15.845,
+      "eval_steps_per_second": 3.961,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3e-05,
+      "loss": 0.0454,
+      "step": 1010
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3e-05,
+      "loss": 0.0389,
+      "step": 1020
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 3e-05,
+      "loss": 0.0385,
+      "step": 1030
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3e-05,
+      "loss": 0.0465,
+      "step": 1040
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3e-05,
+      "loss": 0.0368,
+      "step": 1050
+    },
+    {
+      "epoch": 0.83,
+      "eval_accuracy": 0.8141509433962264,
+      "eval_f1_macro": 0.6884941209926929,
+      "eval_f1_micro": 0.8141509433962264,
+      "eval_loss": 0.036739904433488846,
+      "eval_precision_macro": 0.7076595104531683,
+      "eval_precision_micro": 0.8141509433962264,
+      "eval_recall_macro": 0.6998335623662951,
+      "eval_recall_micro": 0.8141509433962264,
+      "eval_runtime": 66.8429,
+      "eval_samples_per_second": 15.858,
+      "eval_steps_per_second": 3.965,
+      "step": 1050
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3e-05,
+      "loss": 0.0315,
+      "step": 1060
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3e-05,
+      "loss": 0.048,
+      "step": 1070
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3e-05,
+      "loss": 0.0423,
+      "step": 1080
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0399,
+      "step": 1090
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0351,
+      "step": 1100
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.8150943396226416,
+      "eval_f1_macro": 0.6795761385716744,
+      "eval_f1_micro": 0.8150943396226416,
+      "eval_loss": 0.03497824817895889,
+      "eval_precision_macro": 0.6863775670636837,
+      "eval_precision_micro": 0.8150943396226416,
+      "eval_recall_macro": 0.6837727133564548,
+      "eval_recall_micro": 0.8150943396226416,
+      "eval_runtime": 66.7682,
+      "eval_samples_per_second": 15.876,
+      "eval_steps_per_second": 3.969,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3e-05,
+      "loss": 0.0356,
+      "step": 1110
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3e-05,
+      "loss": 0.034,
+      "step": 1120
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 3e-05,
+      "loss": 0.0379,
+      "step": 1130
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3e-05,
+      "loss": 0.0354,
+      "step": 1140
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3e-05,
+      "loss": 0.042,
+      "step": 1150
+    },
+    {
+      "epoch": 0.91,
+      "eval_accuracy": 0.8066037735849056,
+      "eval_f1_macro": 0.662741723846436,
+      "eval_f1_micro": 0.8066037735849056,
+      "eval_loss": 0.036217570304870605,
+      "eval_precision_macro": 0.6895018843592504,
+      "eval_precision_micro": 0.8066037735849056,
+      "eval_recall_macro": 0.6592689442585865,
+      "eval_recall_micro": 0.8066037735849056,
+      "eval_runtime": 66.8597,
+      "eval_samples_per_second": 15.854,
+      "eval_steps_per_second": 3.964,
+      "step": 1150
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3e-05,
+      "loss": 0.0405,
+      "step": 1160
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3e-05,
+      "loss": 0.0408,
+      "step": 1170
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3e-05,
+      "loss": 0.0522,
+      "step": 1180
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3e-05,
+      "loss": 0.0356,
+      "step": 1190
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3e-05,
+      "loss": 0.0449,
+      "step": 1200
+    },
+    {
+      "epoch": 0.95,
+      "eval_accuracy": 0.7924528301886793,
+      "eval_f1_macro": 0.6582734622403671,
+      "eval_f1_micro": 0.7924528301886793,
+      "eval_loss": 0.036735132336616516,
+      "eval_precision_macro": 0.6685428560679947,
+      "eval_precision_micro": 0.7924528301886793,
+      "eval_recall_macro": 0.6671460190032963,
+      "eval_recall_micro": 0.7924528301886793,
+      "eval_runtime": 66.7753,
+      "eval_samples_per_second": 15.874,
+      "eval_steps_per_second": 3.969,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3e-05,
+      "loss": 0.0422,
+      "step": 1210
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3e-05,
+      "loss": 0.0469,
+      "step": 1220
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3e-05,
+      "loss": 0.0403,
+      "step": 1230
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3e-05,
+      "loss": 0.0401,
+      "step": 1240
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3e-05,
+      "loss": 0.0331,
+      "step": 1250
+    },
+    {
+      "epoch": 0.99,
+      "eval_accuracy": 0.8018867924528302,
+      "eval_f1_macro": 0.6660554002763479,
+      "eval_f1_micro": 0.8018867924528302,
+      "eval_loss": 0.038156915456056595,
+      "eval_precision_macro": 0.6760235498659594,
+      "eval_precision_micro": 0.8018867924528302,
+      "eval_recall_macro": 0.6847602869615839,
+      "eval_recall_micro": 0.8018867924528302,
+      "eval_runtime": 66.972,
+      "eval_samples_per_second": 15.828,
+      "eval_steps_per_second": 3.957,
+      "step": 1250
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3e-05,
+      "loss": 0.0403,
+      "step": 1260
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3e-05,
+      "loss": 0.0391,
+      "step": 1270
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3e-05,
+      "loss": 0.0315,
+      "step": 1280
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3e-05,
+      "loss": 0.0334,
+      "step": 1290
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3e-05,
+      "loss": 0.0367,
+      "step": 1300
+    },
+    {
+      "epoch": 1.03,
+      "eval_accuracy": 0.8037735849056604,
+      "eval_f1_macro": 0.6590298558707023,
+      "eval_f1_micro": 0.8037735849056604,
+      "eval_loss": 0.037248801440000534,
+      "eval_precision_macro": 0.711878576411288,
+      "eval_precision_micro": 0.8037735849056604,
+      "eval_recall_macro": 0.6500565322393169,
+      "eval_recall_micro": 0.8037735849056604,
+      "eval_runtime": 66.9977,
+      "eval_samples_per_second": 15.821,
+      "eval_steps_per_second": 3.955,
+      "step": 1300
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 3e-05,
+      "loss": 0.0323,
+      "step": 1310
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3e-05,
+      "loss": 0.0283,
+      "step": 1320
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3e-05,
+      "loss": 0.0317,
+      "step": 1330
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3e-05,
+      "loss": 0.0368,
+      "step": 1340
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3e-05,
+      "loss": 0.0357,
+      "step": 1350
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.7990566037735849,
+      "eval_f1_macro": 0.6639410239226647,
+      "eval_f1_micro": 0.799056603773585,
+      "eval_loss": 0.03749080002307892,
+      "eval_precision_macro": 0.68220871249212,
+      "eval_precision_micro": 0.7990566037735849,
+      "eval_recall_macro": 0.6657052159769387,
+      "eval_recall_micro": 0.7990566037735849,
+      "eval_runtime": 67.3114,
+      "eval_samples_per_second": 15.748,
+      "eval_steps_per_second": 3.937,
+      "step": 1350
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3e-05,
+      "loss": 0.0411,
+      "step": 1360
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3e-05,
+      "loss": 0.035,
+      "step": 1370
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3e-05,
+      "loss": 0.0365,
+      "step": 1380
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 3e-05,
+      "loss": 0.0321,
+      "step": 1390
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3e-05,
+      "loss": 0.0405,
+      "step": 1400
+    },
+    {
+      "epoch": 1.11,
+      "eval_accuracy": 0.810377358490566,
+      "eval_f1_macro": 0.6823173521717408,
+      "eval_f1_micro": 0.8103773584905661,
+      "eval_loss": 0.03539792075753212,
+      "eval_precision_macro": 0.6735195406597105,
+      "eval_precision_micro": 0.810377358490566,
+      "eval_recall_macro": 0.7010849626749771,
+      "eval_recall_micro": 0.810377358490566,
+      "eval_runtime": 66.9573,
+      "eval_samples_per_second": 15.831,
+      "eval_steps_per_second": 3.958,
+      "step": 1400
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 3e-05,
+      "loss": 0.0403,
+      "step": 1410
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3e-05,
+      "loss": 0.0355,
+      "step": 1420
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3e-05,
+      "loss": 0.0262,
+      "step": 1430
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3e-05,
+      "loss": 0.0314,
+      "step": 1440
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3e-05,
+      "loss": 0.0281,
+      "step": 1450
+    },
+    {
+      "epoch": 1.15,
+      "eval_accuracy": 0.8301886792452831,
+      "eval_f1_macro": 0.6936579743869716,
+      "eval_f1_micro": 0.8301886792452831,
+      "eval_loss": 0.03378523513674736,
+      "eval_precision_macro": 0.6880699408956382,
+      "eval_precision_micro": 0.8301886792452831,
+      "eval_recall_macro": 0.7081810763903263,
+      "eval_recall_micro": 0.8301886792452831,
+      "eval_runtime": 66.8615,
+      "eval_samples_per_second": 15.854,
+      "eval_steps_per_second": 3.963,
+      "step": 1450
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3e-05,
+      "loss": 0.0426,
+      "step": 1460
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 3e-05,
+      "loss": 0.0331,
+      "step": 1470
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3e-05,
+      "loss": 0.0274,
+      "step": 1480
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3e-05,
+      "loss": 0.0303,
+      "step": 1490
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 3e-05,
+      "loss": 0.0362,
+      "step": 1500
+    },
+    {
+      "epoch": 1.19,
+      "eval_accuracy": 0.8122641509433962,
+      "eval_f1_macro": 0.6607417290714642,
+      "eval_f1_micro": 0.8122641509433962,
+      "eval_loss": 0.0350893959403038,
+      "eval_precision_macro": 0.7043834982343933,
+      "eval_precision_micro": 0.8122641509433962,
+      "eval_recall_macro": 0.6559410812932247,
+      "eval_recall_micro": 0.8122641509433962,
+      "eval_runtime": 67.0277,
+      "eval_samples_per_second": 15.814,
+      "eval_steps_per_second": 3.954,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3e-05,
+      "loss": 0.0359,
+      "step": 1510
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 3e-05,
+      "loss": 0.0223,
+      "step": 1520
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 3e-05,
+      "loss": 0.0284,
+      "step": 1530
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 3e-05,
+      "loss": 0.0445,
+      "step": 1540
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3e-05,
+      "loss": 0.0214,
+      "step": 1550
+    },
+    {
+      "epoch": 1.23,
+      "eval_accuracy": 0.810377358490566,
+      "eval_f1_macro": 0.6778793723330956,
+      "eval_f1_micro": 0.8103773584905661,
+      "eval_loss": 0.035039015114307404,
+      "eval_precision_macro": 0.7081161930503027,
+      "eval_precision_micro": 0.810377358490566,
+      "eval_recall_macro": 0.6748998812700701,
+      "eval_recall_micro": 0.810377358490566,
+      "eval_runtime": 67.0902,
+      "eval_samples_per_second": 15.8,
+      "eval_steps_per_second": 3.95,
+      "step": 1550
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3e-05,
+      "loss": 0.0396,
+      "step": 1560
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3e-05,
+      "loss": 0.0421,
+      "step": 1570
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 3e-05,
+      "loss": 0.0367,
+      "step": 1580
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 3e-05,
+      "loss": 0.029,
+      "step": 1590
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3e-05,
+      "loss": 0.0321,
+      "step": 1600
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 0.809433962264151,
+      "eval_f1_macro": 0.7277842533202593,
+      "eval_f1_micro": 0.809433962264151,
+      "eval_loss": 0.036841992288827896,
+      "eval_precision_macro": 0.754059995164892,
+      "eval_precision_micro": 0.809433962264151,
+      "eval_recall_macro": 0.7253784421960152,
+      "eval_recall_micro": 0.809433962264151,
+      "eval_runtime": 67.1117,
+      "eval_samples_per_second": 15.795,
+      "eval_steps_per_second": 3.949,
+      "step": 1600
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3e-05,
+      "loss": 0.0338,
+      "step": 1610
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3e-05,
+      "loss": 0.0361,
+      "step": 1620
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 3e-05,
+      "loss": 0.0415,
+      "step": 1630
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 3e-05,
+      "loss": 0.0354,
+      "step": 1640
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 3e-05,
+      "loss": 0.0332,
+      "step": 1650
+    },
+    {
+      "epoch": 1.31,
+      "eval_accuracy": 0.8254716981132075,
+      "eval_f1_macro": 0.7081292929169892,
+      "eval_f1_micro": 0.8254716981132075,
+      "eval_loss": 0.03387230262160301,
+      "eval_precision_macro": 0.7291239674093415,
+      "eval_precision_micro": 0.8254716981132075,
+      "eval_recall_macro": 0.7104202884103088,
+      "eval_recall_micro": 0.8254716981132075,
+      "eval_runtime": 67.285,
+      "eval_samples_per_second": 15.754,
+      "eval_steps_per_second": 3.938,
+      "step": 1650
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 3e-05,
+      "loss": 0.0337,
+      "step": 1660
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3e-05,
+      "loss": 0.0281,
+      "step": 1670
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0269,
+      "step": 1680
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0339,
+      "step": 1690
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3e-05,
+      "loss": 0.0306,
+      "step": 1700
+    },
+    {
+      "epoch": 1.35,
+      "eval_accuracy": 0.8179245283018868,
+      "eval_f1_macro": 0.6769788054372391,
+      "eval_f1_micro": 0.8179245283018868,
+      "eval_loss": 0.03388019651174545,
+      "eval_precision_macro": 0.6816133549156956,
+      "eval_precision_micro": 0.8179245283018868,
+      "eval_recall_macro": 0.680429225227406,
+      "eval_recall_micro": 0.8179245283018868,
+      "eval_runtime": 67.4515,
+      "eval_samples_per_second": 15.715,
+      "eval_steps_per_second": 3.929,
+      "step": 1700
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3e-05,
+      "loss": 0.0376,
+      "step": 1710
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 3e-05,
+      "loss": 0.0243,
+      "step": 1720
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 3e-05,
+      "loss": 0.0302,
+      "step": 1730
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3e-05,
+      "loss": 0.0334,
+      "step": 1740
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 3e-05,
+      "loss": 0.0231,
+      "step": 1750
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8179245283018868,
+      "eval_f1_macro": 0.6890240801949487,
+      "eval_f1_micro": 0.8179245283018868,
+      "eval_loss": 0.03725350275635719,
+      "eval_precision_macro": 0.6983358697605533,
+      "eval_precision_micro": 0.8179245283018868,
+      "eval_recall_macro": 0.6881012857058126,
+      "eval_recall_micro": 0.8179245283018868,
+      "eval_runtime": 67.1945,
+      "eval_samples_per_second": 15.775,
+      "eval_steps_per_second": 3.944,
+      "step": 1750
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 3e-05,
+      "loss": 0.0351,
+      "step": 1760
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0312,
+      "step": 1770
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 3e-05,
+      "loss": 0.036,
+      "step": 1780
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 3e-05,
+      "loss": 0.0336,
+      "step": 1790
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 3e-05,
+      "loss": 0.0351,
+      "step": 1800
+    },
+    {
+      "epoch": 1.43,
+      "eval_accuracy": 0.8216981132075472,
+      "eval_f1_macro": 0.6893274603000062,
+      "eval_f1_micro": 0.821698113207547,
+      "eval_loss": 0.035641398280858994,
+      "eval_precision_macro": 0.6989494989333128,
+      "eval_precision_micro": 0.8216981132075472,
+      "eval_recall_macro": 0.6917495141935277,
+      "eval_recall_micro": 0.8216981132075472,
+      "eval_runtime": 72.4563,
+      "eval_samples_per_second": 14.629,
+      "eval_steps_per_second": 3.657,
+      "step": 1800
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 3e-05,
+      "loss": 0.0315,
+      "step": 1810
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3e-05,
+      "loss": 0.0378,
+      "step": 1820
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 3e-05,
+      "loss": 0.0297,
+      "step": 1830
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 3e-05,
+      "loss": 0.0405,
+      "step": 1840
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3e-05,
+      "loss": 0.0259,
+      "step": 1850
+    },
+    {
+      "epoch": 1.47,
+      "eval_accuracy": 0.8207547169811321,
+      "eval_f1_macro": 0.6884764059910556,
+      "eval_f1_micro": 0.8207547169811321,
+      "eval_loss": 0.033535219728946686,
+      "eval_precision_macro": 0.6999273971863751,
+      "eval_precision_micro": 0.8207547169811321,
+      "eval_recall_macro": 0.6823064809142775,
+      "eval_recall_micro": 0.8207547169811321,
+      "eval_runtime": 75.3135,
+      "eval_samples_per_second": 14.074,
+      "eval_steps_per_second": 3.519,
+      "step": 1850
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3e-05,
+      "loss": 0.0313,
+      "step": 1860
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3e-05,
+      "loss": 0.0411,
+      "step": 1870
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3e-05,
+      "loss": 0.0294,
+      "step": 1880
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3e-05,
+      "loss": 0.0357,
+      "step": 1890
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3e-05,
+      "loss": 0.0371,
+      "step": 1900
+    },
+    {
+      "epoch": 1.51,
+      "eval_accuracy": 0.8122641509433962,
+      "eval_f1_macro": 0.6817031059683786,
+      "eval_f1_micro": 0.8122641509433962,
+      "eval_loss": 0.03668028488755226,
+      "eval_precision_macro": 0.7411726936728738,
+      "eval_precision_micro": 0.8122641509433962,
+      "eval_recall_macro": 0.6617258448443556,
+      "eval_recall_micro": 0.8122641509433962,
+      "eval_runtime": 68.4416,
+      "eval_samples_per_second": 15.488,
+      "eval_steps_per_second": 3.872,
+      "step": 1900
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3e-05,
+      "loss": 0.0414,
+      "step": 1910
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3e-05,
+      "loss": 0.0359,
+      "step": 1920
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3e-05,
+      "loss": 0.0364,
+      "step": 1930
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3e-05,
+      "loss": 0.0328,
+      "step": 1940
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 3e-05,
+      "loss": 0.0288,
+      "step": 1950
+    },
+    {
+      "epoch": 1.55,
+      "eval_accuracy": 0.8179245283018868,
+      "eval_f1_macro": 0.6808261949093507,
+      "eval_f1_micro": 0.8179245283018868,
+      "eval_loss": 0.03465178981423378,
+      "eval_precision_macro": 0.6758330579285278,
+      "eval_precision_micro": 0.8179245283018868,
+      "eval_recall_macro": 0.6916444013212283,
+      "eval_recall_micro": 0.8179245283018868,
+      "eval_runtime": 67.4794,
+      "eval_samples_per_second": 15.708,
+      "eval_steps_per_second": 3.927,
+      "step": 1950
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 3e-05,
+      "loss": 0.0292,
+      "step": 1960
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 3e-05,
+      "loss": 0.0372,
+      "step": 1970
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 3e-05,
+      "loss": 0.0371,
+      "step": 1980
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 3e-05,
+      "loss": 0.0292,
+      "step": 1990
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 3e-05,
+      "loss": 0.0252,
+      "step": 2000
+    },
+    {
+      "epoch": 1.59,
+      "eval_accuracy": 0.8113207547169812,
+      "eval_f1_macro": 0.6786603793711855,
+      "eval_f1_micro": 0.8113207547169812,
+      "eval_loss": 0.03572586923837662,
+      "eval_precision_macro": 0.7003439014078875,
+      "eval_precision_micro": 0.8113207547169812,
+      "eval_recall_macro": 0.6714151723581485,
+      "eval_recall_micro": 0.8113207547169812,
+      "eval_runtime": 67.3677,
+      "eval_samples_per_second": 15.735,
+      "eval_steps_per_second": 3.934,
+      "step": 2000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 0.0418,
+      "step": 2010
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 3e-05,
+      "loss": 0.0306,
+      "step": 2020
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 3e-05,
+      "loss": 0.0264,
+      "step": 2030
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 3e-05,
+      "loss": 0.0352,
+      "step": 2040
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 3e-05,
+      "loss": 0.0374,
+      "step": 2050
+    },
+    {
+      "epoch": 1.63,
+      "eval_accuracy": 0.8207547169811321,
+      "eval_f1_macro": 0.7378651093912652,
+      "eval_f1_micro": 0.8207547169811321,
+      "eval_loss": 0.03318563476204872,
+      "eval_precision_macro": 0.7746611477051377,
+      "eval_precision_micro": 0.8207547169811321,
+      "eval_recall_macro": 0.7232885741364632,
+      "eval_recall_micro": 0.8207547169811321,
+      "eval_runtime": 67.1675,
+      "eval_samples_per_second": 15.781,
+      "eval_steps_per_second": 3.945,
+      "step": 2050
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 3e-05,
+      "loss": 0.0334,
+      "step": 2060
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3e-05,
+      "loss": 0.0275,
+      "step": 2070
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 3e-05,
+      "loss": 0.0367,
+      "step": 2080
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 3e-05,
+      "loss": 0.0347,
+      "step": 2090
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3e-05,
+      "loss": 0.0356,
+      "step": 2100
+    },
+    {
+      "epoch": 1.67,
+      "eval_accuracy": 0.8283018867924529,
+      "eval_f1_macro": 0.7162407407283602,
+      "eval_f1_micro": 0.8283018867924529,
+      "eval_loss": 0.032257240265607834,
+      "eval_precision_macro": 0.7425264980116305,
+      "eval_precision_micro": 0.8283018867924529,
+      "eval_recall_macro": 0.7045621292629789,
+      "eval_recall_micro": 0.8283018867924529,
+      "eval_runtime": 67.05,
+      "eval_samples_per_second": 15.809,
+      "eval_steps_per_second": 3.952,
+      "step": 2100
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3e-05,
+      "loss": 0.0345,
+      "step": 2110
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3e-05,
+      "loss": 0.0324,
+      "step": 2120
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3e-05,
+      "loss": 0.0317,
+      "step": 2130
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 3e-05,
+      "loss": 0.0372,
+      "step": 2140
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 3e-05,
+      "loss": 0.0294,
+      "step": 2150
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.8113207547169812,
+      "eval_f1_macro": 0.7100925220691637,
+      "eval_f1_micro": 0.8113207547169812,
+      "eval_loss": 0.03457261621952057,
+      "eval_precision_macro": 0.7173368388422002,
+      "eval_precision_micro": 0.8113207547169812,
+      "eval_recall_macro": 0.722749933086757,
+      "eval_recall_micro": 0.8113207547169812,
+      "eval_runtime": 66.9989,
+      "eval_samples_per_second": 15.821,
+      "eval_steps_per_second": 3.955,
+      "step": 2150
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 3e-05,
+      "loss": 0.0322,
+      "step": 2160
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 3e-05,
+      "loss": 0.038,
+      "step": 2170
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 3e-05,
+      "loss": 0.0283,
+      "step": 2180
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 3e-05,
+      "loss": 0.0346,
+      "step": 2190
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 3e-05,
+      "loss": 0.035,
+      "step": 2200
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.8235849056603773,
+      "eval_f1_macro": 0.7390128397138074,
+      "eval_f1_micro": 0.8235849056603773,
+      "eval_loss": 0.033848535269498825,
+      "eval_precision_macro": 0.7590826949473053,
+      "eval_precision_micro": 0.8235849056603773,
+      "eval_recall_macro": 0.730688195944597,
+      "eval_recall_micro": 0.8235849056603773,
+      "eval_runtime": 66.9638,
+      "eval_samples_per_second": 15.829,
+      "eval_steps_per_second": 3.957,
+      "step": 2200
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 3e-05,
+      "loss": 0.0347,
+      "step": 2210
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 3e-05,
+      "loss": 0.0252,
+      "step": 2220
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 3e-05,
+      "loss": 0.037,
+      "step": 2230
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 3e-05,
+      "loss": 0.0352,
+      "step": 2240
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 3e-05,
+      "loss": 0.0432,
+      "step": 2250
+    },
+    {
+      "epoch": 1.79,
+      "eval_accuracy": 0.8216981132075472,
+      "eval_f1_macro": 0.7295141356598547,
+      "eval_f1_micro": 0.821698113207547,
+      "eval_loss": 0.03482788801193237,
+      "eval_precision_macro": 0.7693704211435056,
+      "eval_precision_micro": 0.8216981132075472,
+      "eval_recall_macro": 0.7204303826474574,
+      "eval_recall_micro": 0.8216981132075472,
+      "eval_runtime": 67.0744,
+      "eval_samples_per_second": 15.803,
+      "eval_steps_per_second": 3.951,
+      "step": 2250
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 3e-05,
+      "loss": 0.0313,
+      "step": 2260
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 3e-05,
+      "loss": 0.0367,
+      "step": 2270
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 3e-05,
+      "loss": 0.0294,
+      "step": 2280
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 3e-05,
+      "loss": 0.0265,
+      "step": 2290
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3e-05,
+      "loss": 0.0325,
+      "step": 2300
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 0.8330188679245283,
+      "eval_f1_macro": 0.7260646503551377,
+      "eval_f1_micro": 0.8330188679245283,
+      "eval_loss": 0.032365720719099045,
+      "eval_precision_macro": 0.7440576765333733,
+      "eval_precision_micro": 0.8330188679245283,
+      "eval_recall_macro": 0.7231434220015308,
+      "eval_recall_micro": 0.8330188679245283,
+      "eval_runtime": 67.0867,
+      "eval_samples_per_second": 15.8,
+      "eval_steps_per_second": 3.95,
+      "step": 2300
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3e-05,
+      "loss": 0.0361,
+      "step": 2310
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 3e-05,
+      "loss": 0.029,
+      "step": 2320
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3e-05,
+      "loss": 0.0325,
+      "step": 2330
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 3e-05,
+      "loss": 0.0266,
+      "step": 2340
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0318,
+      "step": 2350
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 0.8311320754716981,
+      "eval_f1_macro": 0.7248036031015876,
+      "eval_f1_micro": 0.8311320754716981,
+      "eval_loss": 0.03213372081518173,
+      "eval_precision_macro": 0.7397395837984007,
+      "eval_precision_micro": 0.8311320754716981,
+      "eval_recall_macro": 0.7241410864722072,
+      "eval_recall_micro": 0.8311320754716981,
+      "eval_runtime": 67.1828,
+      "eval_samples_per_second": 15.778,
+      "eval_steps_per_second": 3.944,
+      "step": 2350
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3e-05,
+      "loss": 0.0339,
+      "step": 2360
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 3e-05,
+      "loss": 0.0359,
+      "step": 2370
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 3e-05,
+      "loss": 0.0296,
+      "step": 2380
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3e-05,
+      "loss": 0.0249,
+      "step": 2390
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 3e-05,
+      "loss": 0.0315,
+      "step": 2400
+    },
+    {
+      "epoch": 1.91,
+      "eval_accuracy": 0.8179245283018868,
+      "eval_f1_macro": 0.6858375088253653,
+      "eval_f1_micro": 0.8179245283018868,
+      "eval_loss": 0.033517900854349136,
+      "eval_precision_macro": 0.6792945547363913,
+      "eval_precision_micro": 0.8179245283018868,
+      "eval_recall_macro": 0.7034801209007658,
+      "eval_recall_micro": 0.8179245283018868,
+      "eval_runtime": 67.2538,
+      "eval_samples_per_second": 15.761,
+      "eval_steps_per_second": 3.94,
+      "step": 2400
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3e-05,
+      "loss": 0.037,
+      "step": 2410
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 3e-05,
+      "loss": 0.032,
+      "step": 2420
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3e-05,
+      "loss": 0.0333,
+      "step": 2430
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3e-05,
+      "loss": 0.0369,
+      "step": 2440
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 3e-05,
+      "loss": 0.0331,
+      "step": 2450
+    },
+    {
+      "epoch": 1.95,
+      "eval_accuracy": 0.8179245283018868,
+      "eval_f1_macro": 0.6955540611871792,
+      "eval_f1_micro": 0.8179245283018868,
+      "eval_loss": 0.033520761877298355,
+      "eval_precision_macro": 0.7294988206190055,
+      "eval_precision_micro": 0.8179245283018868,
+      "eval_recall_macro": 0.6879491415746545,
+      "eval_recall_micro": 0.8179245283018868,
+      "eval_runtime": 67.0948,
+      "eval_samples_per_second": 15.799,
+      "eval_steps_per_second": 3.95,
+      "step": 2450
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3e-05,
+      "loss": 0.035,
+      "step": 2460
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 3e-05,
+      "loss": 0.0323,
+      "step": 2470
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3e-05,
+      "loss": 0.0346,
+      "step": 2480
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 3e-05,
+      "loss": 0.0287,
+      "step": 2490
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 3e-05,
+      "loss": 0.0293,
+      "step": 2500
+    },
+    {
+      "epoch": 1.99,
+      "eval_accuracy": 0.8056603773584906,
+      "eval_f1_macro": 0.6866675132658472,
+      "eval_f1_micro": 0.8056603773584906,
+      "eval_loss": 0.03530614450573921,
+      "eval_precision_macro": 0.7026639102515493,
+      "eval_precision_micro": 0.8056603773584906,
+      "eval_recall_macro": 0.6939733521884667,
+      "eval_recall_micro": 0.8056603773584906,
+      "eval_runtime": 67.0079,
+      "eval_samples_per_second": 15.819,
+      "eval_steps_per_second": 3.955,
+      "step": 2500
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 3e-05,
+      "loss": 0.0347,
+      "step": 2510
+    },
+    {
+      "epoch": 2.0,
+      "step": 2516,
+      "total_flos": 6.250904333773187e+17,
+      "train_loss": 0.05790289470982191,
+      "train_runtime": 10296.0519,
+      "train_samples_per_second": 3.91,
+      "train_steps_per_second": 0.244
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2516,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 250,
+  "total_flos": 6.250904333773187e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9aa409b842e6508386b92f28b3d9a90969b3355d546c84d641c78491d8d4d0e8
+size 6712