Evaluation on the test set completed on 2024_09_08.

Browse files

Files changed (8) hide show

README.md +156 -0
all_results.json +17 -0
logs/events.out.tfevents.1725551843.datavisu2 +2 -2
logs/events.out.tfevents.1725747316.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +12 -0
train_results.json +9 -0
trainer_state.json +1598 -0

README.md ADDED Viewed

	@@ -0,0 +1,156 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-large
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: DinoVdeau-large-2024_09_05-batch-size32_epochs150_freeze
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# DinoVdeau-large-2024_09_05-batch-size32_epochs150_freeze
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1209
+- F1 Micro: 0.8228
+- F1 Macro: 0.7175
+- Roc Auc: 0.8813
+- Accuracy: 0.3111
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | F1 Micro | F1 Macro | Roc Auc | Accuracy | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:-------:|:--------:|:------:|
+| No log        | 1.0   | 273   | 0.1690          | 0.7517   | 0.5430   | 0.8384  | 0.2231   | 0.001  |
+| 0.2719        | 2.0   | 546   | 0.1538          | 0.7657   | 0.5721   | 0.8396  | 0.2401   | 0.001  |
+| 0.2719        | 3.0   | 819   | 0.1483          | 0.7773   | 0.6138   | 0.8516  | 0.2346   | 0.001  |
+| 0.1694        | 4.0   | 1092  | 0.1480          | 0.7723   | 0.6225   | 0.8407  | 0.2495   | 0.001  |
+| 0.1694        | 5.0   | 1365  | 0.1458          | 0.7797   | 0.6302   | 0.8470  | 0.2495   | 0.001  |
+| 0.1625        | 6.0   | 1638  | 0.1450          | 0.7798   | 0.6093   | 0.8477  | 0.2481   | 0.001  |
+| 0.1625        | 7.0   | 1911  | 0.1475          | 0.7767   | 0.6248   | 0.8454  | 0.2526   | 0.001  |
+| 0.1592        | 8.0   | 2184  | 0.1457          | 0.7804   | 0.6249   | 0.8521  | 0.2574   | 0.001  |
+| 0.1592        | 9.0   | 2457  | 0.1417          | 0.7869   | 0.6526   | 0.8561  | 0.2574   | 0.001  |
+| 0.157         | 10.0  | 2730  | 0.1436          | 0.7757   | 0.6290   | 0.8403  | 0.2547   | 0.001  |
+| 0.1563        | 11.0  | 3003  | 0.1428          | 0.7887   | 0.6448   | 0.8569  | 0.2640   | 0.001  |
+| 0.1563        | 12.0  | 3276  | 0.1439          | 0.7905   | 0.6493   | 0.8638  | 0.2581   | 0.001  |
+| 0.1558        | 13.0  | 3549  | 0.1391          | 0.7907   | 0.6562   | 0.8551  | 0.2713   | 0.001  |
+| 0.1558        | 14.0  | 3822  | 0.1409          | 0.7838   | 0.6338   | 0.8485  | 0.2644   | 0.001  |
+| 0.1543        | 15.0  | 4095  | 0.1396          | 0.7907   | 0.6463   | 0.8603  | 0.2578   | 0.001  |
+| 0.1543        | 16.0  | 4368  | 0.1390          | 0.7913   | 0.6594   | 0.8564  | 0.2654   | 0.001  |
+| 0.1535        | 17.0  | 4641  | 0.1418          | 0.7940   | 0.6586   | 0.8665  | 0.2564   | 0.001  |
+| 0.1535        | 18.0  | 4914  | 0.1416          | 0.7957   | 0.6560   | 0.8646  | 0.2658   | 0.001  |
+| 0.1549        | 19.0  | 5187  | 0.1403          | 0.7886   | 0.6524   | 0.8536  | 0.2630   | 0.001  |
+| 0.1549        | 20.0  | 5460  | 0.1476          | 0.7911   | 0.6558   | 0.8568  | 0.2613   | 0.001  |
+| 0.154         | 21.0  | 5733  | 0.1429          | 0.7880   | 0.6397   | 0.8568  | 0.2658   | 0.001  |
+| 0.1529        | 22.0  | 6006  | 0.1414          | 0.7937   | 0.6508   | 0.8654  | 0.2613   | 0.001  |
+| 0.1529        | 23.0  | 6279  | 0.1415          | 0.7976   | 0.6618   | 0.8613  | 0.2685   | 0.0001 |
+| 0.1449        | 24.0  | 6552  | 0.1323          | 0.8045   | 0.6751   | 0.8665  | 0.2789   | 0.0001 |
+| 0.1449        | 25.0  | 6825  | 0.1310          | 0.8044   | 0.6724   | 0.8688  | 0.2793   | 0.0001 |
+| 0.1416        | 26.0  | 7098  | 0.1327          | 0.8036   | 0.6689   | 0.8646  | 0.2821   | 0.0001 |
+| 0.1416        | 27.0  | 7371  | 0.1317          | 0.8069   | 0.6797   | 0.8715  | 0.2817   | 0.0001 |
+| 0.1391        | 28.0  | 7644  | 0.1288          | 0.8072   | 0.6818   | 0.8698  | 0.2775   | 0.0001 |
+| 0.1391        | 29.0  | 7917  | 0.1294          | 0.8038   | 0.6808   | 0.8629  | 0.2845   | 0.0001 |
+| 0.138         | 30.0  | 8190  | 0.1294          | 0.8077   | 0.6826   | 0.8702  | 0.2859   | 0.0001 |
+| 0.138         | 31.0  | 8463  | 0.1274          | 0.8074   | 0.6779   | 0.8666  | 0.2879   | 0.0001 |
+| 0.1364        | 32.0  | 8736  | 0.1278          | 0.8104   | 0.6869   | 0.8728  | 0.2883   | 0.0001 |
+| 0.1359        | 33.0  | 9009  | 0.1277          | 0.8077   | 0.6811   | 0.8692  | 0.2869   | 0.0001 |
+| 0.1359        | 34.0  | 9282  | 0.1266          | 0.8109   | 0.6874   | 0.8714  | 0.2883   | 0.0001 |
+| 0.1341        | 35.0  | 9555  | 0.1262          | 0.8104   | 0.6885   | 0.8716  | 0.2904   | 0.0001 |
+| 0.1341        | 36.0  | 9828  | 0.1269          | 0.8070   | 0.6876   | 0.8657  | 0.2827   | 0.0001 |
+| 0.1339        | 37.0  | 10101 | 0.1266          | 0.8082   | 0.6834   | 0.8678  | 0.2866   | 0.0001 |
+| 0.1339        | 38.0  | 10374 | 0.1255          | 0.8106   | 0.6936   | 0.8707  | 0.2956   | 0.0001 |
+| 0.1307        | 39.0  | 10647 | 0.1249          | 0.8142   | 0.6986   | 0.8768  | 0.2928   | 0.0001 |
+| 0.1307        | 40.0  | 10920 | 0.1258          | 0.8138   | 0.6990   | 0.8773  | 0.2935   | 0.0001 |
+| 0.1317        | 41.0  | 11193 | 0.1253          | 0.8101   | 0.6924   | 0.8688  | 0.2924   | 0.0001 |
+| 0.1317        | 42.0  | 11466 | 0.1244          | 0.8138   | 0.6970   | 0.8738  | 0.3004   | 0.0001 |
+| 0.1308        | 43.0  | 11739 | 0.1245          | 0.8131   | 0.6956   | 0.8734  | 0.2949   | 0.0001 |
+| 0.1307        | 44.0  | 12012 | 0.1250          | 0.8130   | 0.6915   | 0.8743  | 0.2966   | 0.0001 |
+| 0.1307        | 45.0  | 12285 | 0.1240          | 0.8137   | 0.7051   | 0.8740  | 0.2963   | 0.0001 |
+| 0.1295        | 46.0  | 12558 | 0.1241          | 0.8131   | 0.6988   | 0.8733  | 0.2976   | 0.0001 |
+| 0.1295        | 47.0  | 12831 | 0.1243          | 0.8119   | 0.6958   | 0.8716  | 0.2956   | 0.0001 |
+| 0.1293        | 48.0  | 13104 | 0.1239          | 0.8135   | 0.6990   | 0.8744  | 0.2956   | 0.0001 |
+| 0.1293        | 49.0  | 13377 | 0.1243          | 0.8153   | 0.7007   | 0.8775  | 0.2997   | 0.0001 |
+| 0.1274        | 50.0  | 13650 | 0.1241          | 0.8152   | 0.7000   | 0.8769  | 0.2980   | 0.0001 |
+| 0.1274        | 51.0  | 13923 | 0.1248          | 0.8153   | 0.7056   | 0.8803  | 0.3011   | 0.0001 |
+| 0.1271        | 52.0  | 14196 | 0.1243          | 0.8157   | 0.7036   | 0.8751  | 0.3049   | 0.0001 |
+| 0.1271        | 53.0  | 14469 | 0.1241          | 0.8153   | 0.7032   | 0.8778  | 0.3021   | 0.0001 |
+| 0.1275        | 54.0  | 14742 | 0.1234          | 0.8152   | 0.7068   | 0.8753  | 0.3021   | 0.0001 |
+| 0.1256        | 55.0  | 15015 | 0.1231          | 0.8166   | 0.7076   | 0.8776  | 0.3018   | 0.0001 |
+| 0.1256        | 56.0  | 15288 | 0.1228          | 0.8190   | 0.7088   | 0.8822  | 0.3067   | 0.0001 |
+| 0.1258        | 57.0  | 15561 | 0.1226          | 0.8160   | 0.7080   | 0.8767  | 0.3070   | 0.0001 |
+| 0.1258        | 58.0  | 15834 | 0.1233          | 0.8170   | 0.7073   | 0.8773  | 0.3021   | 0.0001 |
+| 0.1258        | 59.0  | 16107 | 0.1227          | 0.8172   | 0.7135   | 0.8781  | 0.3021   | 0.0001 |
+| 0.1258        | 60.0  | 16380 | 0.1233          | 0.8143   | 0.7040   | 0.8729  | 0.3021   | 0.0001 |
+| 0.1252        | 61.0  | 16653 | 0.1234          | 0.8168   | 0.7121   | 0.8784  | 0.3042   | 0.0001 |
+| 0.1252        | 62.0  | 16926 | 0.1223          | 0.8169   | 0.7125   | 0.8764  | 0.3049   | 0.0001 |
+| 0.1238        | 63.0  | 17199 | 0.1231          | 0.8151   | 0.7090   | 0.8752  | 0.3035   | 0.0001 |
+| 0.1238        | 64.0  | 17472 | 0.1228          | 0.8183   | 0.7114   | 0.8785  | 0.3067   | 0.0001 |
+| 0.1247        | 65.0  | 17745 | 0.1231          | 0.8185   | 0.7156   | 0.8802  | 0.3035   | 0.0001 |
+| 0.123         | 66.0  | 18018 | 0.1225          | 0.8193   | 0.7084   | 0.8809  | 0.3021   | 0.0001 |
+| 0.123         | 67.0  | 18291 | 0.1222          | 0.8186   | 0.7136   | 0.8814  | 0.3032   | 0.0001 |
+| 0.1224        | 68.0  | 18564 | 0.1220          | 0.8201   | 0.7169   | 0.8818  | 0.3091   | 0.0001 |
+| 0.1224        | 69.0  | 18837 | 0.1228          | 0.8171   | 0.7165   | 0.8768  | 0.3018   | 0.0001 |
+| 0.1228        | 70.0  | 19110 | 0.1227          | 0.8177   | 0.7131   | 0.8765  | 0.3042   | 0.0001 |
+| 0.1228        | 71.0  | 19383 | 0.1232          | 0.8155   | 0.7123   | 0.8733  | 0.2980   | 0.0001 |
+| 0.1224        | 72.0  | 19656 | 0.1222          | 0.8177   | 0.7181   | 0.8780  | 0.3056   | 0.0001 |
+| 0.1224        | 73.0  | 19929 | 0.1221          | 0.8162   | 0.7047   | 0.8760  | 0.3077   | 0.0001 |
+| 0.122         | 74.0  | 20202 | 0.1230          | 0.8148   | 0.7070   | 0.8732  | 0.2973   | 0.0001 |
+| 0.122         | 75.0  | 20475 | 0.1214          | 0.8176   | 0.7124   | 0.8768  | 0.3049   | 1e-05  |
+| 0.1201        | 76.0  | 20748 | 0.1209          | 0.8213   | 0.7265   | 0.8828  | 0.3067   | 1e-05  |
+| 0.1192        | 77.0  | 21021 | 0.1216          | 0.8221   | 0.7249   | 0.8860  | 0.3073   | 1e-05  |
+| 0.1192        | 78.0  | 21294 | 0.1211          | 0.8210   | 0.7233   | 0.8828  | 0.3056   | 1e-05  |
+| 0.1178        | 79.0  | 21567 | 0.1211          | 0.8181   | 0.7158   | 0.8769  | 0.3056   | 1e-05  |
+| 0.1178        | 80.0  | 21840 | 0.1210          | 0.8200   | 0.7197   | 0.8824  | 0.3091   | 1e-05  |
+| 0.1178        | 81.0  | 22113 | 0.1205          | 0.8190   | 0.7194   | 0.8784  | 0.3105   | 1e-05  |
+| 0.1178        | 82.0  | 22386 | 0.1205          | 0.8187   | 0.7213   | 0.8782  | 0.3070   | 1e-05  |
+| 0.1162        | 83.0  | 22659 | 0.1215          | 0.8171   | 0.7136   | 0.8754  | 0.3049   | 1e-05  |
+| 0.1162        | 84.0  | 22932 | 0.1209          | 0.8212   | 0.7226   | 0.8817  | 0.3115   | 1e-05  |
+| 0.1174        | 85.0  | 23205 | 0.1206          | 0.8213   | 0.7219   | 0.8823  | 0.3094   | 1e-05  |
+| 0.1174        | 86.0  | 23478 | 0.1210          | 0.8207   | 0.7256   | 0.8811  | 0.3084   | 1e-05  |
+| 0.1167        | 87.0  | 23751 | 0.1210          | 0.8192   | 0.7163   | 0.8800  | 0.3073   | 1e-05  |
+| 0.116         | 88.0  | 24024 | 0.1208          | 0.8219   | 0.7180   | 0.8831  | 0.3094   | 1e-05  |
+| 0.116         | 89.0  | 24297 | 0.1213          | 0.8236   | 0.7293   | 0.8872  | 0.3125   | 0.0000 |
+| 0.1161        | 90.0  | 24570 | 0.1211          | 0.8228   | 0.7250   | 0.8869  | 0.3108   | 0.0000 |
+| 0.1161        | 91.0  | 24843 | 0.1206          | 0.8191   | 0.7187   | 0.8779  | 0.3105   | 0.0000 |
+| 0.1162        | 92.0  | 25116 | 0.1208          | 0.8196   | 0.7150   | 0.8793  | 0.3105   | 0.0000 |
+### Framework versions
+- Transformers 4.41.1
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 92.0,
+    "eval_accuracy": 0.3110726643598616,
+    "eval_f1_macro": 0.717494808151598,
+    "eval_f1_micro": 0.8227620520968348,
+    "eval_loss": 0.12092562019824982,
+    "eval_roc_auc": 0.8813312240951509,
+    "eval_runtime": 517.8306,
+    "eval_samples_per_second": 5.581,
+    "eval_steps_per_second": 0.176,
+    "learning_rate": 1.0000000000000002e-06,
+    "total_flos": 1.1890234809282512e+21,
+    "train_loss": 0.1360613288991788,
+    "train_runtime": 194834.2342,
+    "train_samples_per_second": 6.71,
+    "train_steps_per_second": 0.21
+}

logs/events.out.tfevents.1725551843.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d075dd55deb5275fcd5e0924835c14835eb229188101f287003efdc795754717
-size 66181

 version https://git-lfs.github.com/spec/v1
+oid sha256:22761b21b7f09c898c8a3be7bb825fc2297a9450d631d3f1432ad7c5ebe4a519
+size 67907

logs/events.out.tfevents.1725747316.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d27d87170f8d275177bba31df36d666ca613d8e52201aca22927dc75ae44c36c
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9f23af3956a02791d74920997064bcbbba1f9428486469a8e2dfee92095225f
 size 1228107508

 version https://git-lfs.github.com/spec/v1
+oid sha256:99d9299d936d5fabb20d882aee36aecbb03c5cd8bc0a76e625d0467248d98dbf
 size 1228107508

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 92.0,
+    "eval_accuracy": 0.3110726643598616,
+    "eval_f1_macro": 0.717494808151598,
+    "eval_f1_micro": 0.8227620520968348,
+    "eval_loss": 0.12092562019824982,
+    "eval_roc_auc": 0.8813312240951509,
+    "eval_runtime": 517.8306,
+    "eval_samples_per_second": 5.581,
+    "eval_steps_per_second": 0.176,
+    "learning_rate": 1.0000000000000002e-06
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 92.0,
+    "learning_rate": 1.0000000000000002e-06,
+    "total_flos": 1.1890234809282512e+21,
+    "train_loss": 0.1360613288991788,
+    "train_runtime": 194834.2342,
+    "train_samples_per_second": 6.71,
+    "train_steps_per_second": 0.21
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1598 @@

+{
+  "best_metric": 0.12050338089466095,
+  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/fine_scale/DinoVdeau-large-2024_09_05-batch-size32_epochs150_freeze/checkpoint-22386",
+  "epoch": 92.0,
+  "eval_steps": 500,
+  "global_step": 25116,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.22314622314622315,
+      "eval_f1_macro": 0.5430112866470752,
+      "eval_f1_micro": 0.7516596896274684,
+      "eval_loss": 0.16899551451206207,
+      "eval_roc_auc": 0.8384250127967259,
+      "eval_runtime": 514.8139,
+      "eval_samples_per_second": 5.606,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.001,
+      "step": 273
+    },
+    {
+      "epoch": 1.8315018315018317,
+      "grad_norm": 0.9695320725440979,
+      "learning_rate": 0.001,
+      "loss": 0.2719,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.24012474012474014,
+      "eval_f1_macro": 0.5721428312627432,
+      "eval_f1_micro": 0.765669700910273,
+      "eval_loss": 0.153842031955719,
+      "eval_roc_auc": 0.8396070197954885,
+      "eval_runtime": 520.9151,
+      "eval_samples_per_second": 5.54,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.001,
+      "step": 546
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.23458073458073458,
+      "eval_f1_macro": 0.6137585525531024,
+      "eval_f1_micro": 0.7772688719253604,
+      "eval_loss": 0.14828726649284363,
+      "eval_roc_auc": 0.851613165443153,
+      "eval_runtime": 519.0164,
+      "eval_samples_per_second": 5.561,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.001,
+      "step": 819
+    },
+    {
+      "epoch": 3.663003663003663,
+      "grad_norm": 0.24952150881290436,
+      "learning_rate": 0.001,
+      "loss": 0.1694,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.2494802494802495,
+      "eval_f1_macro": 0.6224730910908008,
+      "eval_f1_micro": 0.7722737615963591,
+      "eval_loss": 0.1479637324810028,
+      "eval_roc_auc": 0.8406560025496872,
+      "eval_runtime": 512.3298,
+      "eval_samples_per_second": 5.633,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.001,
+      "step": 1092
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.2494802494802495,
+      "eval_f1_macro": 0.6302307709949958,
+      "eval_f1_micro": 0.779738930569409,
+      "eval_loss": 0.14575305581092834,
+      "eval_roc_auc": 0.8469713476749664,
+      "eval_runtime": 509.5723,
+      "eval_samples_per_second": 5.664,
+      "eval_steps_per_second": 0.179,
+      "learning_rate": 0.001,
+      "step": 1365
+    },
+    {
+      "epoch": 5.4945054945054945,
+      "grad_norm": 0.17697261273860931,
+      "learning_rate": 0.001,
+      "loss": 0.1625,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.2480942480942481,
+      "eval_f1_macro": 0.6092591780781843,
+      "eval_f1_micro": 0.7798061948433986,
+      "eval_loss": 0.14499613642692566,
+      "eval_roc_auc": 0.8476621294180898,
+      "eval_runtime": 511.5766,
+      "eval_samples_per_second": 5.641,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.001,
+      "step": 1638
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.2525987525987526,
+      "eval_f1_macro": 0.624806622732382,
+      "eval_f1_micro": 0.7767369242779079,
+      "eval_loss": 0.1474585235118866,
+      "eval_roc_auc": 0.8453623673245133,
+      "eval_runtime": 510.6821,
+      "eval_samples_per_second": 5.651,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.001,
+      "step": 1911
+    },
+    {
+      "epoch": 7.326007326007326,
+      "grad_norm": 0.24790136516094208,
+      "learning_rate": 0.001,
+      "loss": 0.1592,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.25744975744975745,
+      "eval_f1_macro": 0.6249401475720361,
+      "eval_f1_micro": 0.7803859753759638,
+      "eval_loss": 0.14568069577217102,
+      "eval_roc_auc": 0.8520784887308331,
+      "eval_runtime": 514.1071,
+      "eval_samples_per_second": 5.614,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.001,
+      "step": 2184
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.25744975744975745,
+      "eval_f1_macro": 0.652642904607388,
+      "eval_f1_micro": 0.7868685150535805,
+      "eval_loss": 0.14169421792030334,
+      "eval_roc_auc": 0.8560913219420118,
+      "eval_runtime": 518.322,
+      "eval_samples_per_second": 5.568,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.001,
+      "step": 2457
+    },
+    {
+      "epoch": 9.157509157509157,
+      "grad_norm": 0.2022881656885147,
+      "learning_rate": 0.001,
+      "loss": 0.157,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.25467775467775466,
+      "eval_f1_macro": 0.6289931868767601,
+      "eval_f1_micro": 0.7757335098168984,
+      "eval_loss": 0.1436299830675125,
+      "eval_roc_auc": 0.8403493908543921,
+      "eval_runtime": 514.5559,
+      "eval_samples_per_second": 5.609,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.001,
+      "step": 2730
+    },
+    {
+      "epoch": 10.989010989010989,
+      "grad_norm": 0.16650938987731934,
+      "learning_rate": 0.001,
+      "loss": 0.1563,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.26403326403326405,
+      "eval_f1_macro": 0.6447870111639475,
+      "eval_f1_micro": 0.7886988341417751,
+      "eval_loss": 0.1428152322769165,
+      "eval_roc_auc": 0.8569209092596786,
+      "eval_runtime": 515.3716,
+      "eval_samples_per_second": 5.6,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.001,
+      "step": 3003
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.25814275814275817,
+      "eval_f1_macro": 0.6493205009564239,
+      "eval_f1_micro": 0.7904845227679873,
+      "eval_loss": 0.1438700556755066,
+      "eval_roc_auc": 0.8637698939454586,
+      "eval_runtime": 512.0567,
+      "eval_samples_per_second": 5.636,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.001,
+      "step": 3276
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.163461372256279,
+      "learning_rate": 0.001,
+      "loss": 0.1558,
+      "step": 3500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.2713097713097713,
+      "eval_f1_macro": 0.6561811626743236,
+      "eval_f1_micro": 0.7906956746065871,
+      "eval_loss": 0.13913600146770477,
+      "eval_roc_auc": 0.8551388511813229,
+      "eval_runtime": 511.5092,
+      "eval_samples_per_second": 5.642,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.001,
+      "step": 3549
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.2643797643797644,
+      "eval_f1_macro": 0.6337626365639194,
+      "eval_f1_micro": 0.783810807286006,
+      "eval_loss": 0.14094506204128265,
+      "eval_roc_auc": 0.8484895839481307,
+      "eval_runtime": 513.4311,
+      "eval_samples_per_second": 5.621,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.001,
+      "step": 3822
+    },
+    {
+      "epoch": 14.652014652014651,
+      "grad_norm": 0.17725127935409546,
+      "learning_rate": 0.001,
+      "loss": 0.1543,
+      "step": 4000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.2577962577962578,
+      "eval_f1_macro": 0.6463067634895379,
+      "eval_f1_micro": 0.7907172995780591,
+      "eval_loss": 0.1396123319864273,
+      "eval_roc_auc": 0.8603407738558333,
+      "eval_runtime": 520.2063,
+      "eval_samples_per_second": 5.548,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.001,
+      "step": 4095
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.2654192654192654,
+      "eval_f1_macro": 0.6593840515969085,
+      "eval_f1_micro": 0.7913274487959551,
+      "eval_loss": 0.13904806971549988,
+      "eval_roc_auc": 0.856418510343081,
+      "eval_runtime": 522.3782,
+      "eval_samples_per_second": 5.525,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.001,
+      "step": 4368
+    },
+    {
+      "epoch": 16.483516483516482,
+      "grad_norm": 0.16505596041679382,
+      "learning_rate": 0.001,
+      "loss": 0.1535,
+      "step": 4500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.2564102564102564,
+      "eval_f1_macro": 0.6585824628325464,
+      "eval_f1_micro": 0.7939832128313804,
+      "eval_loss": 0.1418265849351883,
+      "eval_roc_auc": 0.8664525383660324,
+      "eval_runtime": 520.8828,
+      "eval_samples_per_second": 5.541,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.001,
+      "step": 4641
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.26576576576576577,
+      "eval_f1_macro": 0.6560187518750095,
+      "eval_f1_micro": 0.7957187827911858,
+      "eval_loss": 0.14155420660972595,
+      "eval_roc_auc": 0.864558649781785,
+      "eval_runtime": 521.9656,
+      "eval_samples_per_second": 5.529,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.001,
+      "step": 4914
+    },
+    {
+      "epoch": 18.315018315018314,
+      "grad_norm": 0.176731139421463,
+      "learning_rate": 0.001,
+      "loss": 0.1549,
+      "step": 5000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.262993762993763,
+      "eval_f1_macro": 0.6524018082903621,
+      "eval_f1_micro": 0.7885625699767461,
+      "eval_loss": 0.14027266204357147,
+      "eval_roc_auc": 0.8535729424099051,
+      "eval_runtime": 525.594,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 5187
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.26126126126126126,
+      "eval_f1_macro": 0.6558190248610255,
+      "eval_f1_micro": 0.7910696719558615,
+      "eval_loss": 0.14759798347949982,
+      "eval_roc_auc": 0.8567849608157283,
+      "eval_runtime": 533.1376,
+      "eval_samples_per_second": 5.413,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.001,
+      "step": 5460
+    },
+    {
+      "epoch": 20.146520146520146,
+      "grad_norm": 0.15767891705036163,
+      "learning_rate": 0.001,
+      "loss": 0.154,
+      "step": 5500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.26576576576576577,
+      "eval_f1_macro": 0.6397027546064713,
+      "eval_f1_micro": 0.7879767016708474,
+      "eval_loss": 0.14285211265087128,
+      "eval_roc_auc": 0.8567511447301636,
+      "eval_runtime": 527.0011,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 5733
+    },
+    {
+      "epoch": 21.978021978021978,
+      "grad_norm": 0.18300685286521912,
+      "learning_rate": 0.001,
+      "loss": 0.1529,
+      "step": 6000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.26126126126126126,
+      "eval_f1_macro": 0.650810186340724,
+      "eval_f1_micro": 0.7936799099512236,
+      "eval_loss": 0.141402930021286,
+      "eval_roc_auc": 0.8653510005054305,
+      "eval_runtime": 525.9127,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 6006
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.26853776853776856,
+      "eval_f1_macro": 0.6618136826297922,
+      "eval_f1_micro": 0.7975794766896787,
+      "eval_loss": 0.1415141373872757,
+      "eval_roc_auc": 0.8613092204030781,
+      "eval_runtime": 530.5247,
+      "eval_samples_per_second": 5.44,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 6279
+    },
+    {
+      "epoch": 23.80952380952381,
+      "grad_norm": 0.16848017275333405,
+      "learning_rate": 0.0001,
+      "loss": 0.1449,
+      "step": 6500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.27893277893277896,
+      "eval_f1_macro": 0.6750686264509598,
+      "eval_f1_micro": 0.8044778018063861,
+      "eval_loss": 0.13230843842029572,
+      "eval_roc_auc": 0.8664561198395929,
+      "eval_runtime": 521.5756,
+      "eval_samples_per_second": 5.533,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 6552
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.27927927927927926,
+      "eval_f1_macro": 0.6724022117445357,
+      "eval_f1_micro": 0.8044072500946213,
+      "eval_loss": 0.13101588189601898,
+      "eval_roc_auc": 0.868781233937024,
+      "eval_runtime": 523.3306,
+      "eval_samples_per_second": 5.515,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 6825
+    },
+    {
+      "epoch": 25.641025641025642,
+      "grad_norm": 0.16336454451084137,
+      "learning_rate": 0.0001,
+      "loss": 0.1416,
+      "step": 7000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.28205128205128205,
+      "eval_f1_macro": 0.6689442300740391,
+      "eval_f1_micro": 0.8035965398218775,
+      "eval_loss": 0.13268393278121948,
+      "eval_roc_auc": 0.8645798435204571,
+      "eval_runtime": 532.8406,
+      "eval_samples_per_second": 5.416,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.0001,
+      "step": 7098
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.2817047817047817,
+      "eval_f1_macro": 0.679681812643572,
+      "eval_f1_micro": 0.8068647969861867,
+      "eval_loss": 0.1317097693681717,
+      "eval_roc_auc": 0.8714747032608311,
+      "eval_runtime": 527.4278,
+      "eval_samples_per_second": 5.472,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 7371
+    },
+    {
+      "epoch": 27.47252747252747,
+      "grad_norm": 0.1572931855916977,
+      "learning_rate": 0.0001,
+      "loss": 0.1391,
+      "step": 7500
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.27754677754677753,
+      "eval_f1_macro": 0.6818462300001074,
+      "eval_f1_micro": 0.8072126727334008,
+      "eval_loss": 0.12880520522594452,
+      "eval_roc_auc": 0.8697994857701482,
+      "eval_runtime": 536.9046,
+      "eval_samples_per_second": 5.375,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 7644
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.2844767844767845,
+      "eval_f1_macro": 0.6807929806344717,
+      "eval_f1_micro": 0.8038088702067427,
+      "eval_loss": 0.12942521274089813,
+      "eval_roc_auc": 0.8628519636133017,
+      "eval_runtime": 520.5065,
+      "eval_samples_per_second": 5.545,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 7917
+    },
+    {
+      "epoch": 29.304029304029303,
+      "grad_norm": 0.19199338555335999,
+      "learning_rate": 0.0001,
+      "loss": 0.138,
+      "step": 8000
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.28586278586278585,
+      "eval_f1_macro": 0.6825529208005033,
+      "eval_f1_micro": 0.8077149835761811,
+      "eval_loss": 0.12943296134471893,
+      "eval_roc_auc": 0.8701959964759374,
+      "eval_runtime": 543.5755,
+      "eval_samples_per_second": 5.309,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 0.0001,
+      "step": 8190
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.28794178794178793,
+      "eval_f1_macro": 0.6779122940127521,
+      "eval_f1_micro": 0.8073808915025994,
+      "eval_loss": 0.12738928198814392,
+      "eval_roc_auc": 0.8666172459085354,
+      "eval_runtime": 521.4164,
+      "eval_samples_per_second": 5.535,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 8463
+    },
+    {
+      "epoch": 31.135531135531135,
+      "grad_norm": 0.1997932642698288,
+      "learning_rate": 0.0001,
+      "loss": 0.1364,
+      "step": 8500
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.2882882882882883,
+      "eval_f1_macro": 0.6868638344898197,
+      "eval_f1_micro": 0.8104185890445432,
+      "eval_loss": 0.12775012850761414,
+      "eval_roc_auc": 0.8728485806633693,
+      "eval_runtime": 519.8308,
+      "eval_samples_per_second": 5.552,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 8736
+    },
+    {
+      "epoch": 32.967032967032964,
+      "grad_norm": 0.19476589560508728,
+      "learning_rate": 0.0001,
+      "loss": 0.1359,
+      "step": 9000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.2869022869022869,
+      "eval_f1_macro": 0.6810807224403135,
+      "eval_f1_micro": 0.8077248140635565,
+      "eval_loss": 0.12765593826770782,
+      "eval_roc_auc": 0.8692062891212271,
+      "eval_runtime": 514.7142,
+      "eval_samples_per_second": 5.607,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 9009
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.2882882882882883,
+      "eval_f1_macro": 0.687361527737602,
+      "eval_f1_micro": 0.8108837797932926,
+      "eval_loss": 0.12660712003707886,
+      "eval_roc_auc": 0.8714320206807965,
+      "eval_runtime": 514.9645,
+      "eval_samples_per_second": 5.604,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 9282
+    },
+    {
+      "epoch": 34.798534798534796,
+      "grad_norm": 0.2034957855939865,
+      "learning_rate": 0.0001,
+      "loss": 0.1341,
+      "step": 9500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.29036729036729036,
+      "eval_f1_macro": 0.688483181989703,
+      "eval_f1_micro": 0.8103963941193815,
+      "eval_loss": 0.1262102574110031,
+      "eval_roc_auc": 0.8715800817488106,
+      "eval_runtime": 525.0872,
+      "eval_samples_per_second": 5.496,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 9555
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.28274428274428276,
+      "eval_f1_macro": 0.6876394944988364,
+      "eval_f1_micro": 0.8070400273399119,
+      "eval_loss": 0.12687553465366364,
+      "eval_roc_auc": 0.8657418371913091,
+      "eval_runtime": 513.0757,
+      "eval_samples_per_second": 5.625,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 9828
+    },
+    {
+      "epoch": 36.63003663003663,
+      "grad_norm": 0.20557202398777008,
+      "learning_rate": 0.0001,
+      "loss": 0.1339,
+      "step": 10000
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.28655578655578656,
+      "eval_f1_macro": 0.6833930255395054,
+      "eval_f1_micro": 0.8081597960050999,
+      "eval_loss": 0.12656189501285553,
+      "eval_roc_auc": 0.8678163688633396,
+      "eval_runtime": 515.3436,
+      "eval_samples_per_second": 5.6,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 10101
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.6936175483283518,
+      "eval_f1_micro": 0.8106371284826448,
+      "eval_loss": 0.12547720968723297,
+      "eval_roc_auc": 0.8706625538294134,
+      "eval_runtime": 512.1358,
+      "eval_samples_per_second": 5.635,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 10374
+    },
+    {
+      "epoch": 38.46153846153846,
+      "grad_norm": 0.2112371176481247,
+      "learning_rate": 0.0001,
+      "loss": 0.1307,
+      "step": 10500
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.2927927927927928,
+      "eval_f1_macro": 0.6985657340894045,
+      "eval_f1_micro": 0.8141880626875626,
+      "eval_loss": 0.12485096603631973,
+      "eval_roc_auc": 0.8767653445350737,
+      "eval_runtime": 512.6109,
+      "eval_samples_per_second": 5.63,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 10647
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.2934857934857935,
+      "eval_f1_macro": 0.6989554260935754,
+      "eval_f1_micro": 0.8138017044273539,
+      "eval_loss": 0.1257668137550354,
+      "eval_roc_auc": 0.8773247787534647,
+      "eval_runtime": 513.8833,
+      "eval_samples_per_second": 5.616,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 10920
+    },
+    {
+      "epoch": 40.29304029304029,
+      "grad_norm": 0.23032954335212708,
+      "learning_rate": 0.0001,
+      "loss": 0.1317,
+      "step": 11000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.29244629244629244,
+      "eval_f1_macro": 0.6923923602014324,
+      "eval_f1_micro": 0.8101351925856646,
+      "eval_loss": 0.12528541684150696,
+      "eval_roc_auc": 0.8687915491174283,
+      "eval_runtime": 513.0005,
+      "eval_samples_per_second": 5.626,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 11193
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.3004158004158004,
+      "eval_f1_macro": 0.6970236383039276,
+      "eval_f1_micro": 0.8138018093835474,
+      "eval_loss": 0.12443084269762039,
+      "eval_roc_auc": 0.8737649281720051,
+      "eval_runtime": 525.5315,
+      "eval_samples_per_second": 5.492,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 11466
+    },
+    {
+      "epoch": 42.124542124542124,
+      "grad_norm": 0.23487386107444763,
+      "learning_rate": 0.0001,
+      "loss": 0.1308,
+      "step": 11500
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.2948717948717949,
+      "eval_f1_macro": 0.6956334056896907,
+      "eval_f1_micro": 0.8131470414948238,
+      "eval_loss": 0.12451612949371338,
+      "eval_roc_auc": 0.8733690344991142,
+      "eval_runtime": 514.3778,
+      "eval_samples_per_second": 5.611,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 11739
+    },
+    {
+      "epoch": 43.956043956043956,
+      "grad_norm": 0.25621357560157776,
+      "learning_rate": 0.0001,
+      "loss": 0.1307,
+      "step": 12000
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.2966042966042966,
+      "eval_f1_macro": 0.6915470420512126,
+      "eval_f1_micro": 0.812950847173293,
+      "eval_loss": 0.12501148879528046,
+      "eval_roc_auc": 0.8742664283667729,
+      "eval_runtime": 519.3764,
+      "eval_samples_per_second": 5.557,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 12012
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.29625779625779625,
+      "eval_f1_macro": 0.7050548840380568,
+      "eval_f1_micro": 0.8136846971798428,
+      "eval_loss": 0.12397606670856476,
+      "eval_roc_auc": 0.8740443367647517,
+      "eval_runtime": 515.8997,
+      "eval_samples_per_second": 5.594,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.0001,
+      "step": 12285
+    },
+    {
+      "epoch": 45.78754578754579,
+      "grad_norm": 0.22914335131645203,
+      "learning_rate": 0.0001,
+      "loss": 0.1295,
+      "step": 12500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.29764379764379767,
+      "eval_f1_macro": 0.6987723620069867,
+      "eval_f1_micro": 0.8130628734954971,
+      "eval_loss": 0.12409698963165283,
+      "eval_roc_auc": 0.8733228777555885,
+      "eval_runtime": 516.6269,
+      "eval_samples_per_second": 5.586,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.0001,
+      "step": 12558
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.6957628076563835,
+      "eval_f1_micro": 0.811911298838437,
+      "eval_loss": 0.12429661303758621,
+      "eval_roc_auc": 0.8716271908692008,
+      "eval_runtime": 518.0917,
+      "eval_samples_per_second": 5.57,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.0001,
+      "step": 12831
+    },
+    {
+      "epoch": 47.61904761904762,
+      "grad_norm": 0.25639113783836365,
+      "learning_rate": 0.0001,
+      "loss": 0.1293,
+      "step": 13000
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.6990296569974817,
+      "eval_f1_micro": 0.8135280295401142,
+      "eval_loss": 0.12393072247505188,
+      "eval_roc_auc": 0.874436809929186,
+      "eval_runtime": 517.4634,
+      "eval_samples_per_second": 5.577,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.0001,
+      "step": 13104
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.29972279972279975,
+      "eval_f1_macro": 0.7007060102949784,
+      "eval_f1_micro": 0.8152993625265614,
+      "eval_loss": 0.1242954283952713,
+      "eval_roc_auc": 0.8774914581184896,
+      "eval_runtime": 511.3749,
+      "eval_samples_per_second": 5.644,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 13377
+    },
+    {
+      "epoch": 49.45054945054945,
+      "grad_norm": 0.27197974920272827,
+      "learning_rate": 0.0001,
+      "loss": 0.1274,
+      "step": 13500
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.29799029799029797,
+      "eval_f1_macro": 0.6999734070385492,
+      "eval_f1_micro": 0.8151919866444074,
+      "eval_loss": 0.12405084818601608,
+      "eval_roc_auc": 0.8769273693258459,
+      "eval_runtime": 509.3276,
+      "eval_samples_per_second": 5.666,
+      "eval_steps_per_second": 0.179,
+      "learning_rate": 0.0001,
+      "step": 13650
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.3011088011088011,
+      "eval_f1_macro": 0.7055935576453343,
+      "eval_f1_micro": 0.8153039745759215,
+      "eval_loss": 0.12483017891645432,
+      "eval_roc_auc": 0.8803007418345086,
+      "eval_runtime": 511.0056,
+      "eval_samples_per_second": 5.648,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 13923
+    },
+    {
+      "epoch": 51.282051282051285,
+      "grad_norm": 0.23091430962085724,
+      "learning_rate": 0.0001,
+      "loss": 0.1271,
+      "step": 14000
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.3049203049203049,
+      "eval_f1_macro": 0.7035566403965832,
+      "eval_f1_micro": 0.8157241959217996,
+      "eval_loss": 0.12426182627677917,
+      "eval_roc_auc": 0.8750656737623661,
+      "eval_runtime": 511.1647,
+      "eval_samples_per_second": 5.646,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 14196
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.7031528349086803,
+      "eval_f1_micro": 0.8152648882600192,
+      "eval_loss": 0.12408608943223953,
+      "eval_roc_auc": 0.8778170234547618,
+      "eval_runtime": 520.4,
+      "eval_samples_per_second": 5.546,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 14469
+    },
+    {
+      "epoch": 53.11355311355312,
+      "grad_norm": 0.23177389800548553,
+      "learning_rate": 0.0001,
+      "loss": 0.1275,
+      "step": 14500
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.7067666695453366,
+      "eval_f1_micro": 0.8152251458307105,
+      "eval_loss": 0.12344320118427277,
+      "eval_roc_auc": 0.8753333050750151,
+      "eval_runtime": 522.8329,
+      "eval_samples_per_second": 5.52,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 14742
+    },
+    {
+      "epoch": 54.94505494505494,
+      "grad_norm": 0.3403611481189728,
+      "learning_rate": 0.0001,
+      "loss": 0.1256,
+      "step": 15000
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.30180180180180183,
+      "eval_f1_macro": 0.7075536762185066,
+      "eval_f1_micro": 0.8166332665330662,
+      "eval_loss": 0.12307523190975189,
+      "eval_roc_auc": 0.8776256091187804,
+      "eval_runtime": 513.5394,
+      "eval_samples_per_second": 5.62,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 0.0001,
+      "step": 15015
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.30665280665280664,
+      "eval_f1_macro": 0.7087921855865761,
+      "eval_f1_micro": 0.8189626693095475,
+      "eval_loss": 0.12282071262598038,
+      "eval_roc_auc": 0.8821854285803199,
+      "eval_runtime": 519.2592,
+      "eval_samples_per_second": 5.558,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 0.0001,
+      "step": 15288
+    },
+    {
+      "epoch": 56.776556776556774,
+      "grad_norm": 0.28649473190307617,
+      "learning_rate": 0.0001,
+      "loss": 0.1258,
+      "step": 15500
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.306999306999307,
+      "eval_f1_macro": 0.7079839879234633,
+      "eval_f1_micro": 0.8160328019748128,
+      "eval_loss": 0.12259934842586517,
+      "eval_roc_auc": 0.8766650096203477,
+      "eval_runtime": 523.8952,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 15561
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.7072503847729165,
+      "eval_f1_micro": 0.8170145133631687,
+      "eval_loss": 0.12334763258695602,
+      "eval_roc_auc": 0.8773053153896588,
+      "eval_runtime": 522.7463,
+      "eval_samples_per_second": 5.521,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 15834
+    },
+    {
+      "epoch": 58.608058608058606,
+      "grad_norm": 0.2677023112773895,
+      "learning_rate": 0.0001,
+      "loss": 0.1258,
+      "step": 16000
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.713532815646164,
+      "eval_f1_micro": 0.8172105834237543,
+      "eval_loss": 0.12272054702043533,
+      "eval_roc_auc": 0.8780682765680952,
+      "eval_runtime": 524.8476,
+      "eval_samples_per_second": 5.499,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 16107
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.7039801220819605,
+      "eval_f1_micro": 0.8142579609764339,
+      "eval_loss": 0.12334387749433517,
+      "eval_roc_auc": 0.8729462194126062,
+      "eval_runtime": 526.97,
+      "eval_samples_per_second": 5.477,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 16380
+    },
+    {
+      "epoch": 60.43956043956044,
+      "grad_norm": 0.273879736661911,
+      "learning_rate": 0.0001,
+      "loss": 0.1252,
+      "step": 16500
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.3042273042273042,
+      "eval_f1_macro": 0.7120578542808926,
+      "eval_f1_micro": 0.816814564846061,
+      "eval_loss": 0.12339764833450317,
+      "eval_roc_auc": 0.8783554248995846,
+      "eval_runtime": 524.4656,
+      "eval_samples_per_second": 5.503,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 16653
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.3049203049203049,
+      "eval_f1_macro": 0.7124854785684515,
+      "eval_f1_micro": 0.8169309505831026,
+      "eval_loss": 0.12234435975551605,
+      "eval_roc_auc": 0.876382515863111,
+      "eval_runtime": 518.389,
+      "eval_samples_per_second": 5.567,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 0.0001,
+      "step": 16926
+    },
+    {
+      "epoch": 62.27106227106227,
+      "grad_norm": 0.2836596667766571,
+      "learning_rate": 0.0001,
+      "loss": 0.1238,
+      "step": 17000
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.30353430353430355,
+      "eval_f1_macro": 0.709030237195192,
+      "eval_f1_micro": 0.8151443922095366,
+      "eval_loss": 0.12311259657144547,
+      "eval_roc_auc": 0.875227363209172,
+      "eval_runtime": 523.1406,
+      "eval_samples_per_second": 5.517,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 17199
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.30665280665280664,
+      "eval_f1_macro": 0.7114197657112039,
+      "eval_f1_micro": 0.8183222681531587,
+      "eval_loss": 0.12282687425613403,
+      "eval_roc_auc": 0.8785221042646094,
+      "eval_runtime": 525.9879,
+      "eval_samples_per_second": 5.487,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 17472
+    },
+    {
+      "epoch": 64.1025641025641,
+      "grad_norm": 0.327009916305542,
+      "learning_rate": 0.0001,
+      "loss": 0.1247,
+      "step": 17500
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.30353430353430355,
+      "eval_f1_macro": 0.715610525327271,
+      "eval_f1_micro": 0.8185065204751224,
+      "eval_loss": 0.12305620312690735,
+      "eval_roc_auc": 0.8802214933483853,
+      "eval_runtime": 527.6963,
+      "eval_samples_per_second": 5.469,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 17745
+    },
+    {
+      "epoch": 65.93406593406593,
+      "grad_norm": 0.3439556360244751,
+      "learning_rate": 0.0001,
+      "loss": 0.123,
+      "step": 18000
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.30214830214830213,
+      "eval_f1_macro": 0.7083957677770276,
+      "eval_f1_micro": 0.8193021036471515,
+      "eval_loss": 0.12252139300107956,
+      "eval_roc_auc": 0.8809488409975973,
+      "eval_runtime": 523.6027,
+      "eval_samples_per_second": 5.512,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 18018
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.3031878031878032,
+      "eval_f1_macro": 0.713563304331985,
+      "eval_f1_micro": 0.8185542268382505,
+      "eval_loss": 0.12215397506952286,
+      "eval_roc_auc": 0.8813502879665707,
+      "eval_runtime": 528.5406,
+      "eval_samples_per_second": 5.46,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 18291
+    },
+    {
+      "epoch": 67.76556776556777,
+      "grad_norm": 0.3434881269931793,
+      "learning_rate": 0.0001,
+      "loss": 0.1224,
+      "step": 18500
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.3090783090783091,
+      "eval_f1_macro": 0.7169216330412181,
+      "eval_f1_micro": 0.8201218248870841,
+      "eval_loss": 0.12200037389993668,
+      "eval_roc_auc": 0.8818022645643908,
+      "eval_runtime": 525.6971,
+      "eval_samples_per_second": 5.49,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 18564
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.30180180180180183,
+      "eval_f1_macro": 0.7165157275423649,
+      "eval_f1_micro": 0.8171493231633209,
+      "eval_loss": 0.12282921373844147,
+      "eval_roc_auc": 0.8767867663076429,
+      "eval_runtime": 539.1574,
+      "eval_samples_per_second": 5.353,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 18837
+    },
+    {
+      "epoch": 69.59706959706959,
+      "grad_norm": 0.2773456275463104,
+      "learning_rate": 0.0001,
+      "loss": 0.1228,
+      "step": 19000
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.3042273042273042,
+      "eval_f1_macro": 0.7130922408537738,
+      "eval_f1_micro": 0.8176893032631977,
+      "eval_loss": 0.12265007942914963,
+      "eval_roc_auc": 0.8764658555456234,
+      "eval_runtime": 532.0042,
+      "eval_samples_per_second": 5.425,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.0001,
+      "step": 19110
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.29799029799029797,
+      "eval_f1_macro": 0.7123118599173115,
+      "eval_f1_micro": 0.8155257705805251,
+      "eval_loss": 0.12318737804889679,
+      "eval_roc_auc": 0.8733064995562728,
+      "eval_runtime": 512.5227,
+      "eval_samples_per_second": 5.631,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 0.0001,
+      "step": 19383
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 0.32921841740608215,
+      "learning_rate": 0.0001,
+      "loss": 0.1224,
+      "step": 19500
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.30561330561330563,
+      "eval_f1_macro": 0.7181217472368024,
+      "eval_f1_micro": 0.8177146438270315,
+      "eval_loss": 0.12224896252155304,
+      "eval_roc_auc": 0.8780131460200304,
+      "eval_runtime": 526.8353,
+      "eval_samples_per_second": 5.478,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 19656
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.3076923076923077,
+      "eval_f1_macro": 0.7046690012290543,
+      "eval_f1_micro": 0.8161570403926011,
+      "eval_loss": 0.12214501202106476,
+      "eval_roc_auc": 0.8759937448960649,
+      "eval_runtime": 523.4325,
+      "eval_samples_per_second": 5.514,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 19929
+    },
+    {
+      "epoch": 73.26007326007326,
+      "grad_norm": 0.27500712871551514,
+      "learning_rate": 0.0001,
+      "loss": 0.122,
+      "step": 20000
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.2972972972972973,
+      "eval_f1_macro": 0.7070482653980339,
+      "eval_f1_micro": 0.8147835269271382,
+      "eval_loss": 0.12297073751688004,
+      "eval_roc_auc": 0.8731965201490751,
+      "eval_runtime": 521.6748,
+      "eval_samples_per_second": 5.532,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 20202
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.3049203049203049,
+      "eval_f1_macro": 0.7123584497861349,
+      "eval_f1_micro": 0.8175831550689987,
+      "eval_loss": 0.12141965329647064,
+      "eval_roc_auc": 0.876778409536002,
+      "eval_runtime": 521.9582,
+      "eval_samples_per_second": 5.529,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 1e-05,
+      "step": 20475
+    },
+    {
+      "epoch": 75.0915750915751,
+      "grad_norm": 0.34586936235427856,
+      "learning_rate": 1e-05,
+      "loss": 0.1201,
+      "step": 20500
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.30665280665280664,
+      "eval_f1_macro": 0.7265282519195887,
+      "eval_f1_micro": 0.8212704324436167,
+      "eval_loss": 0.12091591954231262,
+      "eval_roc_auc": 0.8828403151052873,
+      "eval_runtime": 515.687,
+      "eval_samples_per_second": 5.596,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 1e-05,
+      "step": 20748
+    },
+    {
+      "epoch": 76.92307692307692,
+      "grad_norm": 0.3650946617126465,
+      "learning_rate": 1e-05,
+      "loss": 0.1192,
+      "step": 21000
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.30734580734580735,
+      "eval_f1_macro": 0.7249141687532618,
+      "eval_f1_micro": 0.8221009885557243,
+      "eval_loss": 0.12162773311138153,
+      "eval_roc_auc": 0.88597146196019,
+      "eval_runtime": 505.8066,
+      "eval_samples_per_second": 5.706,
+      "eval_steps_per_second": 0.18,
+      "learning_rate": 1e-05,
+      "step": 21021
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.30561330561330563,
+      "eval_f1_macro": 0.7232913822219021,
+      "eval_f1_micro": 0.821013443640124,
+      "eval_loss": 0.12114103883504868,
+      "eval_roc_auc": 0.8828214151193448,
+      "eval_runtime": 515.423,
+      "eval_samples_per_second": 5.599,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 21294
+    },
+    {
+      "epoch": 78.75457875457876,
+      "grad_norm": 0.3805921673774719,
+      "learning_rate": 1e-05,
+      "loss": 0.1178,
+      "step": 21500
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.30561330561330563,
+      "eval_f1_macro": 0.7157592534107864,
+      "eval_f1_micro": 0.8181284095677717,
+      "eval_loss": 0.1210767850279808,
+      "eval_roc_auc": 0.8769422854254683,
+      "eval_runtime": 524.7026,
+      "eval_samples_per_second": 5.5,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 1e-05,
+      "step": 21567
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.3090783090783091,
+      "eval_f1_macro": 0.7196736600383237,
+      "eval_f1_micro": 0.8200463116109824,
+      "eval_loss": 0.12099559605121613,
+      "eval_roc_auc": 0.8823936101146178,
+      "eval_runtime": 518.5996,
+      "eval_samples_per_second": 5.565,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 1e-05,
+      "step": 21840
+    },
+    {
+      "epoch": 80.58608058608058,
+      "grad_norm": 0.38496658205986023,
+      "learning_rate": 1e-05,
+      "loss": 0.1178,
+      "step": 22000
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.31046431046431044,
+      "eval_f1_macro": 0.7194056763702963,
+      "eval_f1_micro": 0.8189727287937092,
+      "eval_loss": 0.12053155153989792,
+      "eval_roc_auc": 0.8783734261636972,
+      "eval_runtime": 517.5249,
+      "eval_samples_per_second": 5.577,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 1e-05,
+      "step": 22113
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.306999306999307,
+      "eval_f1_macro": 0.7212694332008583,
+      "eval_f1_micro": 0.8186875235267054,
+      "eval_loss": 0.12050338089466095,
+      "eval_roc_auc": 0.8782284502601733,
+      "eval_runtime": 511.5713,
+      "eval_samples_per_second": 5.641,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 1e-05,
+      "step": 22386
+    },
+    {
+      "epoch": 82.41758241758242,
+      "grad_norm": 0.29807013273239136,
+      "learning_rate": 1e-05,
+      "loss": 0.1162,
+      "step": 22500
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.3049203049203049,
+      "eval_f1_macro": 0.7136069207682542,
+      "eval_f1_micro": 0.817129142279675,
+      "eval_loss": 0.12153622508049011,
+      "eval_roc_auc": 0.8753921914755026,
+      "eval_runtime": 514.5554,
+      "eval_samples_per_second": 5.609,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 22659
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.3115038115038115,
+      "eval_f1_macro": 0.72263281374496,
+      "eval_f1_micro": 0.8212135055442501,
+      "eval_loss": 0.12091034650802612,
+      "eval_roc_auc": 0.8817381602117871,
+      "eval_runtime": 514.2801,
+      "eval_samples_per_second": 5.612,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 22932
+    },
+    {
+      "epoch": 84.24908424908425,
+      "grad_norm": 0.4926730692386627,
+      "learning_rate": 1e-05,
+      "loss": 0.1174,
+      "step": 23000
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.30942480942480943,
+      "eval_f1_macro": 0.7219026145386024,
+      "eval_f1_micro": 0.8212908842183808,
+      "eval_loss": 0.12058679759502411,
+      "eval_roc_auc": 0.8823288887291161,
+      "eval_runtime": 513.2258,
+      "eval_samples_per_second": 5.623,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 23205
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.30838530838530837,
+      "eval_f1_macro": 0.7255503995321377,
+      "eval_f1_micro": 0.8206727371003285,
+      "eval_loss": 0.1210218220949173,
+      "eval_roc_auc": 0.8810894976708349,
+      "eval_runtime": 516.6336,
+      "eval_samples_per_second": 5.586,
+      "eval_steps_per_second": 0.176,
+      "learning_rate": 1e-05,
+      "step": 23478
+    },
+    {
+      "epoch": 86.08058608058609,
+      "grad_norm": 0.3941400647163391,
+      "learning_rate": 1e-05,
+      "loss": 0.1167,
+      "step": 23500
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.30734580734580735,
+      "eval_f1_macro": 0.7163464112504625,
+      "eval_f1_micro": 0.81919187715867,
+      "eval_loss": 0.12097787857055664,
+      "eval_roc_auc": 0.8800195357981024,
+      "eval_runtime": 514.309,
+      "eval_samples_per_second": 5.611,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 23751
+    },
+    {
+      "epoch": 87.91208791208791,
+      "grad_norm": 0.30446189641952515,
+      "learning_rate": 1e-05,
+      "loss": 0.116,
+      "step": 24000
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.30942480942480943,
+      "eval_f1_macro": 0.7179611359738045,
+      "eval_f1_micro": 0.8219223445649475,
+      "eval_loss": 0.12078534066677094,
+      "eval_roc_auc": 0.8831166385335435,
+      "eval_runtime": 513.9044,
+      "eval_samples_per_second": 5.616,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1e-05,
+      "step": 24024
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 0.3125433125433125,
+      "eval_f1_macro": 0.7293063087262872,
+      "eval_f1_micro": 0.8235824319895118,
+      "eval_loss": 0.1213160827755928,
+      "eval_roc_auc": 0.8871674997505042,
+      "eval_runtime": 514.1086,
+      "eval_samples_per_second": 5.614,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 24297
+    },
+    {
+      "epoch": 89.74358974358974,
+      "grad_norm": 0.2996889054775238,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1161,
+      "step": 24500
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.3108108108108108,
+      "eval_f1_macro": 0.7249894355418997,
+      "eval_f1_micro": 0.8228019165403988,
+      "eval_loss": 0.12110408395528793,
+      "eval_roc_auc": 0.8868651536304606,
+      "eval_runtime": 511.9928,
+      "eval_samples_per_second": 5.637,
+      "eval_steps_per_second": 0.178,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 24570
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 0.31046431046431044,
+      "eval_f1_macro": 0.7187027508297176,
+      "eval_f1_micro": 0.8191074795725959,
+      "eval_loss": 0.1205781027674675,
+      "eval_roc_auc": 0.8779146622039986,
+      "eval_runtime": 513.1929,
+      "eval_samples_per_second": 5.624,
+      "eval_steps_per_second": 0.177,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 24843
+    },
+    {
+      "epoch": 91.57509157509158,
+      "grad_norm": 0.30445897579193115,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1162,
+      "step": 25000
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.31046431046431044,
+      "eval_f1_macro": 0.7150284118631205,
+      "eval_f1_micro": 0.8196009683612989,
+      "eval_loss": 0.12076584249734879,
+      "eval_roc_auc": 0.8793405313350767,
+      "eval_runtime": 520.7671,
+      "eval_samples_per_second": 5.542,
+      "eval_steps_per_second": 0.175,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 25116
+    },
+    {
+      "epoch": 92.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 25116,
+      "total_flos": 1.1890234809282512e+21,
+      "train_loss": 0.1360613288991788,
+      "train_runtime": 194834.2342,
+      "train_samples_per_second": 6.71,
+      "train_steps_per_second": 0.21
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 40950,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1890234809282512e+21,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}