End of training

Browse files

Files changed (5) hide show

README.md +140 -0
adapter_model.safetensors +1 -1
all_results.json +7 -0
train_results.json +7 -0
trainer_state.json +1140 -0

README.md ADDED Viewed

	@@ -0,0 +1,140 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- generated_from_trainer
+base_model: mistralai/Mistral-7B-v0.1
+datasets:
+- mbe
+metrics:
+- accuracy
+model-index:
+- name: Mistral-7B-v0.1_mbe_positive
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Mistral-7B-v0.1_mbe_positive
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the mbe dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.0233
+- Accuracy: 0.6809
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 2.3217        | 0.07  | 10   | 0.7263          | 0.4901   |
+| 0.56          | 0.13  | 20   | 0.6898          | 0.5526   |
+| 0.5281        | 0.2   | 30   | 0.6465          | 0.5888   |
+| 0.994         | 0.27  | 40   | 0.7351          | 0.5987   |
+| 0.4785        | 0.33  | 50   | 0.6004          | 0.6118   |
+| 0.4732        | 0.4   | 60   | 0.5783          | 0.6349   |
+| 0.4466        | 0.47  | 70   | 0.5714          | 0.6414   |
+| 0.8737        | 0.53  | 80   | 0.5673          | 0.6184   |
+| 0.4471        | 0.6   | 90   | 0.5631          | 0.6283   |
+| 0.46          | 0.67  | 100  | 0.5504          | 0.6349   |
+| 0.3294        | 0.73  | 110  | 0.6010          | 0.625    |
+| 0.6526        | 0.8   | 120  | 0.5731          | 0.6283   |
+| 0.3712        | 0.87  | 130  | 0.5379          | 0.6447   |
+| 0.3341        | 0.93  | 140  | 0.5409          | 0.6283   |
+| 0.552         | 1.0   | 150  | 0.5311          | 0.6382   |
+| 0.4681        | 1.07  | 160  | 0.5371          | 0.6414   |
+| 0.3119        | 1.14  | 170  | 0.6172          | 0.6283   |
+| 0.3082        | 1.2   | 180  | 0.5361          | 0.6513   |
+| 0.5217        | 1.27  | 190  | 0.5468          | 0.625    |
+| 0.3888        | 1.34  | 200  | 0.5891          | 0.6316   |
+| 0.2841        | 1.4   | 210  | 0.5429          | 0.6283   |
+| 0.2728        | 1.47  | 220  | 0.5247          | 0.6382   |
+| 0.5563        | 1.54  | 230  | 0.5004          | 0.6513   |
+| 0.2862        | 1.6   | 240  | 0.4741          | 0.6546   |
+| 0.2289        | 1.67  | 250  | 0.5441          | 0.6513   |
+| 0.2481        | 1.74  | 260  | 0.5171          | 0.6513   |
+| 0.329         | 1.8   | 270  | 0.5371          | 0.6546   |
+| 0.1741        | 1.87  | 280  | 0.5412          | 0.6678   |
+| 0.2888        | 1.94  | 290  | 0.5131          | 0.6711   |
+| 0.4157        | 2.0   | 300  | 0.4555          | 0.6447   |
+| 0.1982        | 2.07  | 310  | 0.5670          | 0.6612   |
+| 0.106         | 2.14  | 320  | 0.7943          | 0.6678   |
+| 0.1718        | 2.2   | 330  | 0.7496          | 0.6645   |
+| 0.214         | 2.27  | 340  | 0.6264          | 0.6842   |
+| 0.1571        | 2.34  | 350  | 0.6139          | 0.6316   |
+| 0.1432        | 2.4   | 360  | 0.6199          | 0.6842   |
+| 0.1038        | 2.47  | 370  | 0.6368          | 0.6974   |
+| 0.1728        | 2.54  | 380  | 0.7889          | 0.6678   |
+| 0.14          | 2.6   | 390  | 0.7952          | 0.6546   |
+| 0.1522        | 2.67  | 400  | 0.7745          | 0.6579   |
+| 0.1345        | 2.74  | 410  | 0.7231          | 0.6513   |
+| 0.1587        | 2.8   | 420  | 0.7154          | 0.6480   |
+| 0.1391        | 2.87  | 430  | 0.6923          | 0.6513   |
+| 0.129         | 2.94  | 440  | 0.6484          | 0.6711   |
+| 0.2092        | 3.01  | 450  | 0.5822          | 0.6743   |
+| 0.015         | 3.07  | 460  | 1.1217          | 0.6579   |
+| 0.051         | 3.14  | 470  | 1.5790          | 0.6480   |
+| 0.0999        | 3.21  | 480  | 1.5168          | 0.6678   |
+| 0.1776        | 3.27  | 490  | 1.2342          | 0.6875   |
+| 0.0612        | 3.34  | 500  | 1.0371          | 0.6974   |
+| 0.0858        | 3.41  | 510  | 1.0277          | 0.6776   |
+| 0.0316        | 3.47  | 520  | 1.0387          | 0.6809   |
+| 0.1899        | 3.54  | 530  | 0.8185          | 0.6908   |
+| 0.1517        | 3.61  | 540  | 0.7054          | 0.6842   |
+| 0.0324        | 3.67  | 550  | 0.8505          | 0.6842   |
+| 0.0646        | 3.74  | 560  | 1.0057          | 0.6612   |
+| 0.1038        | 3.81  | 570  | 1.0027          | 0.6645   |
+| 0.0844        | 3.87  | 580  | 0.9926          | 0.6513   |
+| 0.0986        | 3.94  | 590  | 0.9246          | 0.6579   |
+| 0.0627        | 4.01  | 600  | 0.8539          | 0.6546   |
+| 0.0513        | 4.07  | 610  | 0.9247          | 0.6513   |
+| 0.0484        | 4.14  | 620  | 1.1128          | 0.6546   |
+| 0.0244        | 4.21  | 630  | 1.2702          | 0.6480   |
+| 0.0672        | 4.27  | 640  | 1.7169          | 0.6414   |
+| 0.0824        | 4.34  | 650  | 1.6627          | 0.6414   |
+| 0.0068        | 4.41  | 660  | 1.3425          | 0.6349   |
+| 0.044         | 4.47  | 670  | 1.2208          | 0.6612   |
+| 0.0378        | 4.54  | 680  | 1.2891          | 0.6447   |
+| 0.0411        | 4.61  | 690  | 1.3528          | 0.6612   |
+| 0.0215        | 4.67  | 700  | 1.2606          | 0.6678   |
+| 0.0438        | 4.74  | 710  | 1.2515          | 0.6546   |
+| 0.0936        | 4.81  | 720  | 1.0858          | 0.6645   |
+| 0.0305        | 4.87  | 730  | 0.9839          | 0.6579   |
+| 0.0282        | 4.94  | 740  | 1.0233          | 0.6809   |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.37.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.17.1
+- Tokenizers 0.15.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6750a0de3c3b0b4b17f6b1bf80f37ea8dfefbe40e915a076004065020c6fafc7
 size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:5610270074b0aaf10b547d5ac20a829a7b7b37e978e0c038d9fb532068565e5d
 size 335605144

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 4.97,
+    "train_loss": 0.25739487704614666,
+    "train_runtime": 4901.8806,
+    "train_samples_per_second": 2.444,
+    "train_steps_per_second": 0.152
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 4.97,
+    "train_loss": 0.25739487704614666,
+    "train_runtime": 4901.8806,
+    "train_samples_per_second": 2.444,
+    "train_steps_per_second": 0.152
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1140 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.974958263772955,
+  "eval_steps": 10,
+  "global_step": 745,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 3e-05,
+      "loss": 2.3217,
+      "step": 10
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.4901315789473684,
+      "eval_loss": 0.7262606620788574,
+      "eval_runtime": 25.3718,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.995,
+      "step": 10
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 3e-05,
+      "loss": 0.56,
+      "step": 20
+    },
+    {
+      "epoch": 0.13,
+      "eval_accuracy": 0.5526315789473685,
+      "eval_loss": 0.6898001432418823,
+      "eval_runtime": 25.3761,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3e-05,
+      "loss": 0.5281,
+      "step": 30
+    },
+    {
+      "epoch": 0.2,
+      "eval_accuracy": 0.5888157894736842,
+      "eval_loss": 0.6465093493461609,
+      "eval_runtime": 25.3947,
+      "eval_samples_per_second": 11.971,
+      "eval_steps_per_second": 2.993,
+      "step": 30
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3e-05,
+      "loss": 0.994,
+      "step": 40
+    },
+    {
+      "epoch": 0.27,
+      "eval_accuracy": 0.5986842105263158,
+      "eval_loss": 0.7351367473602295,
+      "eval_runtime": 25.4621,
+      "eval_samples_per_second": 11.939,
+      "eval_steps_per_second": 2.985,
+      "step": 40
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3e-05,
+      "loss": 0.4785,
+      "step": 50
+    },
+    {
+      "epoch": 0.33,
+      "eval_accuracy": 0.6118421052631579,
+      "eval_loss": 0.6004362106323242,
+      "eval_runtime": 25.4138,
+      "eval_samples_per_second": 11.962,
+      "eval_steps_per_second": 2.991,
+      "step": 50
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3e-05,
+      "loss": 0.4732,
+      "step": 60
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.6348684210526315,
+      "eval_loss": 0.5782976746559143,
+      "eval_runtime": 25.369,
+      "eval_samples_per_second": 11.983,
+      "eval_steps_per_second": 2.996,
+      "step": 60
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3e-05,
+      "loss": 0.4466,
+      "step": 70
+    },
+    {
+      "epoch": 0.47,
+      "eval_accuracy": 0.6414473684210527,
+      "eval_loss": 0.5713546872138977,
+      "eval_runtime": 25.3858,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 70
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 3e-05,
+      "loss": 0.8737,
+      "step": 80
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.618421052631579,
+      "eval_loss": 0.567269504070282,
+      "eval_runtime": 25.3639,
+      "eval_samples_per_second": 11.986,
+      "eval_steps_per_second": 2.996,
+      "step": 80
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3e-05,
+      "loss": 0.4471,
+      "step": 90
+    },
+    {
+      "epoch": 0.6,
+      "eval_accuracy": 0.6282894736842105,
+      "eval_loss": 0.5630530118942261,
+      "eval_runtime": 25.3754,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 90
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 3e-05,
+      "loss": 0.46,
+      "step": 100
+    },
+    {
+      "epoch": 0.67,
+      "eval_accuracy": 0.6348684210526315,
+      "eval_loss": 0.5503756999969482,
+      "eval_runtime": 25.3686,
+      "eval_samples_per_second": 11.983,
+      "eval_steps_per_second": 2.996,
+      "step": 100
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 3e-05,
+      "loss": 0.3294,
+      "step": 110
+    },
+    {
+      "epoch": 0.73,
+      "eval_accuracy": 0.625,
+      "eval_loss": 0.6009898781776428,
+      "eval_runtime": 25.3647,
+      "eval_samples_per_second": 11.985,
+      "eval_steps_per_second": 2.996,
+      "step": 110
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3e-05,
+      "loss": 0.6526,
+      "step": 120
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.6282894736842105,
+      "eval_loss": 0.5730816721916199,
+      "eval_runtime": 25.3832,
+      "eval_samples_per_second": 11.976,
+      "eval_steps_per_second": 2.994,
+      "step": 120
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3e-05,
+      "loss": 0.3712,
+      "step": 130
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.6447368421052632,
+      "eval_loss": 0.5378755331039429,
+      "eval_runtime": 25.3825,
+      "eval_samples_per_second": 11.977,
+      "eval_steps_per_second": 2.994,
+      "step": 130
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3e-05,
+      "loss": 0.3341,
+      "step": 140
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.6282894736842105,
+      "eval_loss": 0.5408769249916077,
+      "eval_runtime": 25.3787,
+      "eval_samples_per_second": 11.979,
+      "eval_steps_per_second": 2.995,
+      "step": 140
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3e-05,
+      "loss": 0.552,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6381578947368421,
+      "eval_loss": 0.5310616493225098,
+      "eval_runtime": 25.4512,
+      "eval_samples_per_second": 11.944,
+      "eval_steps_per_second": 2.986,
+      "step": 150
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3e-05,
+      "loss": 0.4681,
+      "step": 160
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.6414473684210527,
+      "eval_loss": 0.5371212959289551,
+      "eval_runtime": 25.3633,
+      "eval_samples_per_second": 11.986,
+      "eval_steps_per_second": 2.996,
+      "step": 160
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 3e-05,
+      "loss": 0.3119,
+      "step": 170
+    },
+    {
+      "epoch": 1.14,
+      "eval_accuracy": 0.6282894736842105,
+      "eval_loss": 0.6171860694885254,
+      "eval_runtime": 25.3622,
+      "eval_samples_per_second": 11.986,
+      "eval_steps_per_second": 2.997,
+      "step": 170
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3e-05,
+      "loss": 0.3082,
+      "step": 180
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.5360857844352722,
+      "eval_runtime": 25.3868,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 180
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 3e-05,
+      "loss": 0.5217,
+      "step": 190
+    },
+    {
+      "epoch": 1.27,
+      "eval_accuracy": 0.625,
+      "eval_loss": 0.5467653870582581,
+      "eval_runtime": 25.3846,
+      "eval_samples_per_second": 11.976,
+      "eval_steps_per_second": 2.994,
+      "step": 190
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3e-05,
+      "loss": 0.3888,
+      "step": 200
+    },
+    {
+      "epoch": 1.34,
+      "eval_accuracy": 0.631578947368421,
+      "eval_loss": 0.5891463756561279,
+      "eval_runtime": 25.374,
+      "eval_samples_per_second": 11.981,
+      "eval_steps_per_second": 2.995,
+      "step": 200
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 3e-05,
+      "loss": 0.2841,
+      "step": 210
+    },
+    {
+      "epoch": 1.4,
+      "eval_accuracy": 0.6282894736842105,
+      "eval_loss": 0.5428625345230103,
+      "eval_runtime": 25.3734,
+      "eval_samples_per_second": 11.981,
+      "eval_steps_per_second": 2.995,
+      "step": 210
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 3e-05,
+      "loss": 0.2728,
+      "step": 220
+    },
+    {
+      "epoch": 1.47,
+      "eval_accuracy": 0.6381578947368421,
+      "eval_loss": 0.5246651768684387,
+      "eval_runtime": 25.3858,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 220
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3e-05,
+      "loss": 0.5563,
+      "step": 230
+    },
+    {
+      "epoch": 1.54,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.5003584027290344,
+      "eval_runtime": 25.3763,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 230
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 0.2862,
+      "step": 240
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 0.4741169810295105,
+      "eval_runtime": 25.3852,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 240
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3e-05,
+      "loss": 0.2289,
+      "step": 250
+    },
+    {
+      "epoch": 1.67,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.5441343188285828,
+      "eval_runtime": 25.3897,
+      "eval_samples_per_second": 11.973,
+      "eval_steps_per_second": 2.993,
+      "step": 250
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 3e-05,
+      "loss": 0.2481,
+      "step": 260
+    },
+    {
+      "epoch": 1.74,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.5170696377754211,
+      "eval_runtime": 25.3747,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 260
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 3e-05,
+      "loss": 0.329,
+      "step": 270
+    },
+    {
+      "epoch": 1.8,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 0.5371391177177429,
+      "eval_runtime": 25.3708,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.996,
+      "step": 270
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 3e-05,
+      "loss": 0.1741,
+      "step": 280
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 0.6677631578947368,
+      "eval_loss": 0.5411613583564758,
+      "eval_runtime": 25.3792,
+      "eval_samples_per_second": 11.978,
+      "eval_steps_per_second": 2.995,
+      "step": 280
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 3e-05,
+      "loss": 0.2888,
+      "step": 290
+    },
+    {
+      "epoch": 1.94,
+      "eval_accuracy": 0.6710526315789473,
+      "eval_loss": 0.5130823850631714,
+      "eval_runtime": 25.3665,
+      "eval_samples_per_second": 11.984,
+      "eval_steps_per_second": 2.996,
+      "step": 290
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3e-05,
+      "loss": 0.4157,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6447368421052632,
+      "eval_loss": 0.45547178387641907,
+      "eval_runtime": 25.356,
+      "eval_samples_per_second": 11.989,
+      "eval_steps_per_second": 2.997,
+      "step": 300
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 3e-05,
+      "loss": 0.1982,
+      "step": 310
+    },
+    {
+      "epoch": 2.07,
+      "eval_accuracy": 0.6611842105263158,
+      "eval_loss": 0.5670450329780579,
+      "eval_runtime": 25.3778,
+      "eval_samples_per_second": 11.979,
+      "eval_steps_per_second": 2.995,
+      "step": 310
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3e-05,
+      "loss": 0.106,
+      "step": 320
+    },
+    {
+      "epoch": 2.14,
+      "eval_accuracy": 0.6677631578947368,
+      "eval_loss": 0.7942893505096436,
+      "eval_runtime": 25.3984,
+      "eval_samples_per_second": 11.969,
+      "eval_steps_per_second": 2.992,
+      "step": 320
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3e-05,
+      "loss": 0.1718,
+      "step": 330
+    },
+    {
+      "epoch": 2.2,
+      "eval_accuracy": 0.6644736842105263,
+      "eval_loss": 0.7496399879455566,
+      "eval_runtime": 25.3753,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 330
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 3e-05,
+      "loss": 0.214,
+      "step": 340
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 0.6842105263157895,
+      "eval_loss": 0.626396656036377,
+      "eval_runtime": 25.3727,
+      "eval_samples_per_second": 11.981,
+      "eval_steps_per_second": 2.995,
+      "step": 340
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 3e-05,
+      "loss": 0.1571,
+      "step": 350
+    },
+    {
+      "epoch": 2.34,
+      "eval_accuracy": 0.631578947368421,
+      "eval_loss": 0.6138848066329956,
+      "eval_runtime": 25.3708,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.996,
+      "step": 350
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1432,
+      "step": 360
+    },
+    {
+      "epoch": 2.4,
+      "eval_accuracy": 0.6842105263157895,
+      "eval_loss": 0.6198970675468445,
+      "eval_runtime": 25.3819,
+      "eval_samples_per_second": 11.977,
+      "eval_steps_per_second": 2.994,
+      "step": 360
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 3e-05,
+      "loss": 0.1038,
+      "step": 370
+    },
+    {
+      "epoch": 2.47,
+      "eval_accuracy": 0.6973684210526315,
+      "eval_loss": 0.636822521686554,
+      "eval_runtime": 25.4286,
+      "eval_samples_per_second": 11.955,
+      "eval_steps_per_second": 2.989,
+      "step": 370
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 3e-05,
+      "loss": 0.1728,
+      "step": 380
+    },
+    {
+      "epoch": 2.54,
+      "eval_accuracy": 0.6677631578947368,
+      "eval_loss": 0.7889474630355835,
+      "eval_runtime": 25.3888,
+      "eval_samples_per_second": 11.974,
+      "eval_steps_per_second": 2.993,
+      "step": 380
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 3e-05,
+      "loss": 0.14,
+      "step": 390
+    },
+    {
+      "epoch": 2.6,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 0.795179545879364,
+      "eval_runtime": 25.3862,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 390
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3e-05,
+      "loss": 0.1522,
+      "step": 400
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.6578947368421053,
+      "eval_loss": 0.7745038866996765,
+      "eval_runtime": 25.3703,
+      "eval_samples_per_second": 11.983,
+      "eval_steps_per_second": 2.996,
+      "step": 400
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 3e-05,
+      "loss": 0.1345,
+      "step": 410
+    },
+    {
+      "epoch": 2.74,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.7230806946754456,
+      "eval_runtime": 25.3678,
+      "eval_samples_per_second": 11.984,
+      "eval_steps_per_second": 2.996,
+      "step": 410
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3e-05,
+      "loss": 0.1587,
+      "step": 420
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 0.6480263157894737,
+      "eval_loss": 0.7153956890106201,
+      "eval_runtime": 25.3506,
+      "eval_samples_per_second": 11.992,
+      "eval_steps_per_second": 2.998,
+      "step": 420
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 3e-05,
+      "loss": 0.1391,
+      "step": 430
+    },
+    {
+      "epoch": 2.87,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.6923157572746277,
+      "eval_runtime": 25.3652,
+      "eval_samples_per_second": 11.985,
+      "eval_steps_per_second": 2.996,
+      "step": 430
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 3e-05,
+      "loss": 0.129,
+      "step": 440
+    },
+    {
+      "epoch": 2.94,
+      "eval_accuracy": 0.6710526315789473,
+      "eval_loss": 0.6483842730522156,
+      "eval_runtime": 25.3639,
+      "eval_samples_per_second": 11.986,
+      "eval_steps_per_second": 2.996,
+      "step": 440
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3e-05,
+      "loss": 0.2092,
+      "step": 450
+    },
+    {
+      "epoch": 3.01,
+      "eval_accuracy": 0.6743421052631579,
+      "eval_loss": 0.5821840167045593,
+      "eval_runtime": 25.3814,
+      "eval_samples_per_second": 11.977,
+      "eval_steps_per_second": 2.994,
+      "step": 450
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 3e-05,
+      "loss": 0.015,
+      "step": 460
+    },
+    {
+      "epoch": 3.07,
+      "eval_accuracy": 0.6578947368421053,
+      "eval_loss": 1.1217145919799805,
+      "eval_runtime": 25.3698,
+      "eval_samples_per_second": 11.983,
+      "eval_steps_per_second": 2.996,
+      "step": 460
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 3e-05,
+      "loss": 0.051,
+      "step": 470
+    },
+    {
+      "epoch": 3.14,
+      "eval_accuracy": 0.6480263157894737,
+      "eval_loss": 1.5789867639541626,
+      "eval_runtime": 25.3704,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.996,
+      "step": 470
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 3e-05,
+      "loss": 0.0999,
+      "step": 480
+    },
+    {
+      "epoch": 3.21,
+      "eval_accuracy": 0.6677631578947368,
+      "eval_loss": 1.5168237686157227,
+      "eval_runtime": 25.3794,
+      "eval_samples_per_second": 11.978,
+      "eval_steps_per_second": 2.995,
+      "step": 480
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 3e-05,
+      "loss": 0.1776,
+      "step": 490
+    },
+    {
+      "epoch": 3.27,
+      "eval_accuracy": 0.6875,
+      "eval_loss": 1.2342281341552734,
+      "eval_runtime": 25.3944,
+      "eval_samples_per_second": 11.971,
+      "eval_steps_per_second": 2.993,
+      "step": 490
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0612,
+      "step": 500
+    },
+    {
+      "epoch": 3.34,
+      "eval_accuracy": 0.6973684210526315,
+      "eval_loss": 1.0370548963546753,
+      "eval_runtime": 25.385,
+      "eval_samples_per_second": 11.976,
+      "eval_steps_per_second": 2.994,
+      "step": 500
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0858,
+      "step": 510
+    },
+    {
+      "epoch": 3.41,
+      "eval_accuracy": 0.6776315789473685,
+      "eval_loss": 1.0277096033096313,
+      "eval_runtime": 25.386,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 510
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 3e-05,
+      "loss": 0.0316,
+      "step": 520
+    },
+    {
+      "epoch": 3.47,
+      "eval_accuracy": 0.680921052631579,
+      "eval_loss": 1.0386649370193481,
+      "eval_runtime": 25.3706,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.996,
+      "step": 520
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 3e-05,
+      "loss": 0.1899,
+      "step": 530
+    },
+    {
+      "epoch": 3.54,
+      "eval_accuracy": 0.6907894736842105,
+      "eval_loss": 0.8184946775436401,
+      "eval_runtime": 25.3771,
+      "eval_samples_per_second": 11.979,
+      "eval_steps_per_second": 2.995,
+      "step": 530
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1517,
+      "step": 540
+    },
+    {
+      "epoch": 3.61,
+      "eval_accuracy": 0.6842105263157895,
+      "eval_loss": 0.7053664922714233,
+      "eval_runtime": 25.3758,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 540
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 3e-05,
+      "loss": 0.0324,
+      "step": 550
+    },
+    {
+      "epoch": 3.67,
+      "eval_accuracy": 0.6842105263157895,
+      "eval_loss": 0.8504552245140076,
+      "eval_runtime": 25.3714,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.995,
+      "step": 550
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 3e-05,
+      "loss": 0.0646,
+      "step": 560
+    },
+    {
+      "epoch": 3.74,
+      "eval_accuracy": 0.6611842105263158,
+      "eval_loss": 1.0056827068328857,
+      "eval_runtime": 25.3614,
+      "eval_samples_per_second": 11.987,
+      "eval_steps_per_second": 2.997,
+      "step": 560
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1038,
+      "step": 570
+    },
+    {
+      "epoch": 3.81,
+      "eval_accuracy": 0.6644736842105263,
+      "eval_loss": 1.0026819705963135,
+      "eval_runtime": 25.376,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 570
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0844,
+      "step": 580
+    },
+    {
+      "epoch": 3.87,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.9926165342330933,
+      "eval_runtime": 25.3651,
+      "eval_samples_per_second": 11.985,
+      "eval_steps_per_second": 2.996,
+      "step": 580
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 3e-05,
+      "loss": 0.0986,
+      "step": 590
+    },
+    {
+      "epoch": 3.94,
+      "eval_accuracy": 0.6578947368421053,
+      "eval_loss": 0.9245979189872742,
+      "eval_runtime": 25.3574,
+      "eval_samples_per_second": 11.989,
+      "eval_steps_per_second": 2.997,
+      "step": 590
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 3e-05,
+      "loss": 0.0627,
+      "step": 600
+    },
+    {
+      "epoch": 4.01,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 0.8538947105407715,
+      "eval_runtime": 25.3724,
+      "eval_samples_per_second": 11.982,
+      "eval_steps_per_second": 2.995,
+      "step": 600
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3e-05,
+      "loss": 0.0513,
+      "step": 610
+    },
+    {
+      "epoch": 4.07,
+      "eval_accuracy": 0.6513157894736842,
+      "eval_loss": 0.924721896648407,
+      "eval_runtime": 25.4077,
+      "eval_samples_per_second": 11.965,
+      "eval_steps_per_second": 2.991,
+      "step": 610
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 3e-05,
+      "loss": 0.0484,
+      "step": 620
+    },
+    {
+      "epoch": 4.14,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 1.112806797027588,
+      "eval_runtime": 25.3865,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 620
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 3e-05,
+      "loss": 0.0244,
+      "step": 630
+    },
+    {
+      "epoch": 4.21,
+      "eval_accuracy": 0.6480263157894737,
+      "eval_loss": 1.2701855897903442,
+      "eval_runtime": 25.3744,
+      "eval_samples_per_second": 11.981,
+      "eval_steps_per_second": 2.995,
+      "step": 630
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 3e-05,
+      "loss": 0.0672,
+      "step": 640
+    },
+    {
+      "epoch": 4.27,
+      "eval_accuracy": 0.6414473684210527,
+      "eval_loss": 1.716863751411438,
+      "eval_runtime": 25.3891,
+      "eval_samples_per_second": 11.974,
+      "eval_steps_per_second": 2.993,
+      "step": 640
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0824,
+      "step": 650
+    },
+    {
+      "epoch": 4.34,
+      "eval_accuracy": 0.6414473684210527,
+      "eval_loss": 1.662705659866333,
+      "eval_runtime": 25.3803,
+      "eval_samples_per_second": 11.978,
+      "eval_steps_per_second": 2.994,
+      "step": 650
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0068,
+      "step": 660
+    },
+    {
+      "epoch": 4.41,
+      "eval_accuracy": 0.6348684210526315,
+      "eval_loss": 1.342494010925293,
+      "eval_runtime": 25.376,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 660
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 3e-05,
+      "loss": 0.044,
+      "step": 670
+    },
+    {
+      "epoch": 4.47,
+      "eval_accuracy": 0.6611842105263158,
+      "eval_loss": 1.2208458185195923,
+      "eval_runtime": 25.3753,
+      "eval_samples_per_second": 11.98,
+      "eval_steps_per_second": 2.995,
+      "step": 670
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 3e-05,
+      "loss": 0.0378,
+      "step": 680
+    },
+    {
+      "epoch": 4.54,
+      "eval_accuracy": 0.6447368421052632,
+      "eval_loss": 1.289115309715271,
+      "eval_runtime": 25.3905,
+      "eval_samples_per_second": 11.973,
+      "eval_steps_per_second": 2.993,
+      "step": 680
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 3e-05,
+      "loss": 0.0411,
+      "step": 690
+    },
+    {
+      "epoch": 4.61,
+      "eval_accuracy": 0.6611842105263158,
+      "eval_loss": 1.3528344631195068,
+      "eval_runtime": 25.3678,
+      "eval_samples_per_second": 11.984,
+      "eval_steps_per_second": 2.996,
+      "step": 690
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 3e-05,
+      "loss": 0.0215,
+      "step": 700
+    },
+    {
+      "epoch": 4.67,
+      "eval_accuracy": 0.6677631578947368,
+      "eval_loss": 1.2606314420700073,
+      "eval_runtime": 25.3852,
+      "eval_samples_per_second": 11.975,
+      "eval_steps_per_second": 2.994,
+      "step": 700
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 3e-05,
+      "loss": 0.0438,
+      "step": 710
+    },
+    {
+      "epoch": 4.74,
+      "eval_accuracy": 0.6546052631578947,
+      "eval_loss": 1.2514981031417847,
+      "eval_runtime": 25.3679,
+      "eval_samples_per_second": 11.984,
+      "eval_steps_per_second": 2.996,
+      "step": 710
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 3e-05,
+      "loss": 0.0936,
+      "step": 720
+    },
+    {
+      "epoch": 4.81,
+      "eval_accuracy": 0.6644736842105263,
+      "eval_loss": 1.0857858657836914,
+      "eval_runtime": 25.3812,
+      "eval_samples_per_second": 11.977,
+      "eval_steps_per_second": 2.994,
+      "step": 720
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0305,
+      "step": 730
+    },
+    {
+      "epoch": 4.87,
+      "eval_accuracy": 0.6578947368421053,
+      "eval_loss": 0.9838737845420837,
+      "eval_runtime": 25.3673,
+      "eval_samples_per_second": 11.984,
+      "eval_steps_per_second": 2.996,
+      "step": 730
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 3e-05,
+      "loss": 0.0282,
+      "step": 740
+    },
+    {
+      "epoch": 4.94,
+      "eval_accuracy": 0.680921052631579,
+      "eval_loss": 1.0233386754989624,
+      "eval_runtime": 25.3685,
+      "eval_samples_per_second": 11.983,
+      "eval_steps_per_second": 2.996,
+      "step": 740
+    },
+    {
+      "epoch": 4.97,
+      "step": 745,
+      "total_flos": 2.959225892752589e+17,
+      "train_loss": 0.25739487704614666,
+      "train_runtime": 4901.8806,
+      "train_samples_per_second": 2.444,
+      "train_steps_per_second": 0.152
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 745,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 150,
+  "total_flos": 2.959225892752589e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}