Evaluation on the test set completed on 2024_06_03.

Browse files

Files changed (8) hide show

README.md +175 -0
all_results.json +17 -0
logs/events.out.tfevents.1717167376.datavisu2 +2 -2
logs/events.out.tfevents.1717405982.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +12 -0
train_results.json +9 -0
trainer_state.json +1915 -0

README.md ADDED Viewed

	@@ -0,0 +1,175 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-large
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: DinoVdeau-large-2024_05_31-batch-size32_epochs150_freeze
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# DinoVdeau-large-2024_05_31-batch-size32_epochs150_freeze
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1235
+- F1 Micro: 0.8217
+- F1 Macro: 0.7173
+- Roc Auc: 0.8829
+- Accuracy: 0.3183
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | F1 Micro | F1 Macro | Roc Auc | Accuracy | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:-------:|:--------:|:------:|
+| No log        | 1.0   | 273   | 0.1727          | 0.7472   | 0.5105   | 0.8326  | 0.2372   | 0.001  |
+| 0.2751        | 2.0   | 546   | 0.1584          | 0.7591   | 0.5755   | 0.8364  | 0.2506   | 0.001  |
+| 0.2751        | 3.0   | 819   | 0.1513          | 0.7712   | 0.5998   | 0.8511  | 0.2468   | 0.001  |
+| 0.1714        | 4.0   | 1092  | 0.1497          | 0.7649   | 0.6103   | 0.8344  | 0.2516   | 0.001  |
+| 0.1714        | 5.0   | 1365  | 0.1479          | 0.7743   | 0.6048   | 0.8514  | 0.2619   | 0.001  |
+| 0.1664        | 6.0   | 1638  | 0.1465          | 0.7744   | 0.6142   | 0.8476  | 0.2386   | 0.001  |
+| 0.1664        | 7.0   | 1911  | 0.1471          | 0.7746   | 0.6379   | 0.8434  | 0.2523   | 0.001  |
+| 0.1613        | 8.0   | 2184  | 0.1488          | 0.7730   | 0.6350   | 0.8432  | 0.2492   | 0.001  |
+| 0.1613        | 9.0   | 2457  | 0.1696          | 0.7571   | 0.5914   | 0.8382  | 0.1708   | 0.001  |
+| 0.1607        | 10.0  | 2730  | 0.1497          | 0.7753   | 0.6155   | 0.8459  | 0.2633   | 0.001  |
+| 0.1589        | 11.0  | 3003  | 0.1469          | 0.7747   | 0.6157   | 0.8483  | 0.2592   | 0.001  |
+| 0.1589        | 12.0  | 3276  | 0.1456          | 0.7830   | 0.6489   | 0.8598  | 0.2558   | 0.001  |
+| 0.1578        | 13.0  | 3549  | 0.1428          | 0.7843   | 0.6581   | 0.8557  | 0.2554   | 0.001  |
+| 0.1578        | 14.0  | 3822  | 0.1435          | 0.7832   | 0.6419   | 0.8542  | 0.2506   | 0.001  |
+| 0.158         | 15.0  | 4095  | 0.1454          | 0.7811   | 0.6573   | 0.8563  | 0.2534   | 0.001  |
+| 0.158         | 16.0  | 4368  | 0.1448          | 0.7866   | 0.6504   | 0.8603  | 0.2640   | 0.001  |
+| 0.1587        | 17.0  | 4641  | 0.1431          | 0.7819   | 0.6441   | 0.8543  | 0.2595   | 0.001  |
+| 0.1587        | 18.0  | 4914  | 0.1447          | 0.7839   | 0.6413   | 0.8548  | 0.2547   | 0.001  |
+| 0.1571        | 19.0  | 5187  | 0.1415          | 0.7836   | 0.6442   | 0.8506  | 0.2647   | 0.001  |
+| 0.1571        | 20.0  | 5460  | 0.1406          | 0.7839   | 0.6437   | 0.8513  | 0.2609   | 0.001  |
+| 0.1577        | 21.0  | 5733  | 0.1414          | 0.7847   | 0.6461   | 0.8527  | 0.2575   | 0.001  |
+| 0.1556        | 22.0  | 6006  | 0.1386          | 0.7884   | 0.6587   | 0.8567  | 0.2619   | 0.001  |
+| 0.1556        | 23.0  | 6279  | 0.1382          | 0.7900   | 0.6503   | 0.8567  | 0.2681   | 0.001  |
+| 0.1558        | 24.0  | 6552  | 0.1389          | 0.7881   | 0.6519   | 0.8561  | 0.2650   | 0.001  |
+| 0.1558        | 25.0  | 6825  | 0.1397          | 0.7883   | 0.6554   | 0.8556  | 0.2695   | 0.001  |
+| 0.1551        | 26.0  | 7098  | 0.1401          | 0.7794   | 0.6350   | 0.8453  | 0.2650   | 0.001  |
+| 0.1551        | 27.0  | 7371  | 0.1402          | 0.7915   | 0.6668   | 0.8638  | 0.2499   | 0.001  |
+| 0.156         | 28.0  | 7644  | 0.1389          | 0.7908   | 0.6576   | 0.8581  | 0.2640   | 0.001  |
+| 0.156         | 29.0  | 7917  | 0.1401          | 0.7940   | 0.6657   | 0.8654  | 0.2681   | 0.001  |
+| 0.155         | 30.0  | 8190  | 0.1346          | 0.7987   | 0.6711   | 0.8669  | 0.2740   | 0.0001 |
+| 0.155         | 31.0  | 8463  | 0.1324          | 0.7978   | 0.6774   | 0.8613  | 0.2784   | 0.0001 |
+| 0.1466        | 32.0  | 8736  | 0.1333          | 0.8019   | 0.6779   | 0.8704  | 0.2729   | 0.0001 |
+| 0.1431        | 33.0  | 9009  | 0.1317          | 0.8034   | 0.6849   | 0.8673  | 0.2795   | 0.0001 |
+| 0.1431        | 34.0  | 9282  | 0.1307          | 0.8021   | 0.6836   | 0.8660  | 0.2798   | 0.0001 |
+| 0.1413        | 35.0  | 9555  | 0.1303          | 0.8046   | 0.6903   | 0.8719  | 0.2853   | 0.0001 |
+| 0.1413        | 36.0  | 9828  | 0.1297          | 0.8051   | 0.6932   | 0.8664  | 0.2901   | 0.0001 |
+| 0.14          | 37.0  | 10101 | 0.1296          | 0.8035   | 0.6885   | 0.8671  | 0.2884   | 0.0001 |
+| 0.14          | 38.0  | 10374 | 0.1293          | 0.8043   | 0.6888   | 0.8673  | 0.2870   | 0.0001 |
+| 0.1391        | 39.0  | 10647 | 0.1304          | 0.8033   | 0.6870   | 0.8645  | 0.2877   | 0.0001 |
+| 0.1391        | 40.0  | 10920 | 0.1289          | 0.8064   | 0.6935   | 0.8713  | 0.2908   | 0.0001 |
+| 0.1375        | 41.0  | 11193 | 0.1298          | 0.8037   | 0.6924   | 0.8650  | 0.2870   | 0.0001 |
+| 0.1375        | 42.0  | 11466 | 0.1285          | 0.8086   | 0.6900   | 0.8722  | 0.2960   | 0.0001 |
+| 0.1369        | 43.0  | 11739 | 0.1285          | 0.8067   | 0.6898   | 0.8708  | 0.2870   | 0.0001 |
+| 0.1356        | 44.0  | 12012 | 0.1286          | 0.8078   | 0.6931   | 0.8706  | 0.2922   | 0.0001 |
+| 0.1356        | 45.0  | 12285 | 0.1276          | 0.8107   | 0.7037   | 0.8752  | 0.2956   | 0.0001 |
+| 0.1348        | 46.0  | 12558 | 0.1278          | 0.8078   | 0.6951   | 0.8703  | 0.2956   | 0.0001 |
+| 0.1348        | 47.0  | 12831 | 0.1277          | 0.8114   | 0.7063   | 0.8774  | 0.2919   | 0.0001 |
+| 0.1343        | 48.0  | 13104 | 0.1276          | 0.8052   | 0.6955   | 0.8649  | 0.2908   | 0.0001 |
+| 0.1343        | 49.0  | 13377 | 0.1278          | 0.8099   | 0.7021   | 0.8740  | 0.2884   | 0.0001 |
+| 0.1344        | 50.0  | 13650 | 0.1270          | 0.8102   | 0.7060   | 0.8725  | 0.2939   | 0.0001 |
+| 0.1344        | 51.0  | 13923 | 0.1274          | 0.8129   | 0.7098   | 0.8780  | 0.2977   | 0.0001 |
+| 0.1331        | 52.0  | 14196 | 0.1274          | 0.8122   | 0.7076   | 0.8765  | 0.2919   | 0.0001 |
+| 0.1331        | 53.0  | 14469 | 0.1278          | 0.8084   | 0.6942   | 0.8700  | 0.2932   | 0.0001 |
+| 0.1325        | 54.0  | 14742 | 0.1264          | 0.8096   | 0.6945   | 0.8717  | 0.2939   | 0.0001 |
+| 0.1318        | 55.0  | 15015 | 0.1261          | 0.8117   | 0.7114   | 0.8724  | 0.2984   | 0.0001 |
+| 0.1318        | 56.0  | 15288 | 0.1269          | 0.8113   | 0.7063   | 0.8734  | 0.2991   | 0.0001 |
+| 0.1311        | 57.0  | 15561 | 0.1260          | 0.8135   | 0.7093   | 0.8757  | 0.2991   | 0.0001 |
+| 0.1311        | 58.0  | 15834 | 0.1269          | 0.8129   | 0.7038   | 0.8764  | 0.2925   | 0.0001 |
+| 0.1307        | 59.0  | 16107 | 0.1266          | 0.8112   | 0.7074   | 0.8727  | 0.2922   | 0.0001 |
+| 0.1307        | 60.0  | 16380 | 0.1264          | 0.8091   | 0.6985   | 0.8704  | 0.2932   | 0.0001 |
+| 0.1303        | 61.0  | 16653 | 0.1258          | 0.8097   | 0.7041   | 0.8680  | 0.2960   | 0.0001 |
+| 0.1303        | 62.0  | 16926 | 0.1270          | 0.8133   | 0.7066   | 0.8771  | 0.2912   | 0.0001 |
+| 0.1299        | 63.0  | 17199 | 0.1257          | 0.8111   | 0.7060   | 0.8692  | 0.2970   | 0.0001 |
+| 0.1299        | 64.0  | 17472 | 0.1253          | 0.8139   | 0.7090   | 0.8757  | 0.2939   | 0.0001 |
+| 0.1284        | 65.0  | 17745 | 0.1251          | 0.8127   | 0.7047   | 0.8726  | 0.2963   | 0.0001 |
+| 0.1283        | 66.0  | 18018 | 0.1256          | 0.8140   | 0.7119   | 0.8767  | 0.2949   | 0.0001 |
+| 0.1283        | 67.0  | 18291 | 0.1254          | 0.8111   | 0.7062   | 0.8702  | 0.2939   | 0.0001 |
+| 0.1281        | 68.0  | 18564 | 0.1256          | 0.8152   | 0.7113   | 0.8782  | 0.2960   | 0.0001 |
+| 0.1281        | 69.0  | 18837 | 0.1258          | 0.8143   | 0.7141   | 0.8767  | 0.2994   | 0.0001 |
+| 0.1274        | 70.0  | 19110 | 0.1248          | 0.8162   | 0.7184   | 0.8781  | 0.2984   | 0.0001 |
+| 0.1274        | 71.0  | 19383 | 0.1255          | 0.8134   | 0.7097   | 0.8746  | 0.2963   | 0.0001 |
+| 0.1274        | 72.0  | 19656 | 0.1268          | 0.8133   | 0.7067   | 0.8783  | 0.2980   | 0.0001 |
+| 0.1274        | 73.0  | 19929 | 0.1294          | 0.8154   | 0.7201   | 0.8787  | 0.3004   | 0.0001 |
+| 0.1272        | 74.0  | 20202 | 0.1252          | 0.8141   | 0.7157   | 0.8753  | 0.2960   | 0.0001 |
+| 0.1272        | 75.0  | 20475 | 0.1253          | 0.8165   | 0.7162   | 0.8776  | 0.2998   | 0.0001 |
+| 0.1265        | 76.0  | 20748 | 0.1251          | 0.8126   | 0.7051   | 0.8738  | 0.2980   | 0.0001 |
+| 0.1253        | 77.0  | 21021 | 0.1238          | 0.8170   | 0.7199   | 0.8783  | 0.3018   | 1e-05  |
+| 0.1253        | 78.0  | 21294 | 0.1243          | 0.8142   | 0.7125   | 0.8738  | 0.2998   | 1e-05  |
+| 0.1231        | 79.0  | 21567 | 0.1235          | 0.8182   | 0.7211   | 0.8800  | 0.3029   | 1e-05  |
+| 0.1231        | 80.0  | 21840 | 0.1240          | 0.8199   | 0.7272   | 0.8845  | 0.3022   | 1e-05  |
+| 0.1232        | 81.0  | 22113 | 0.1242          | 0.8163   | 0.7214   | 0.8763  | 0.3011   | 1e-05  |
+| 0.1232        | 82.0  | 22386 | 0.1238          | 0.8184   | 0.7221   | 0.8806  | 0.3042   | 1e-05  |
+| 0.1223        | 83.0  | 22659 | 0.1235          | 0.8180   | 0.7213   | 0.8794  | 0.3018   | 1e-05  |
+| 0.1223        | 84.0  | 22932 | 0.1237          | 0.8177   | 0.7233   | 0.8814  | 0.3025   | 1e-05  |
+| 0.1216        | 85.0  | 23205 | 0.1232          | 0.8164   | 0.7142   | 0.8759  | 0.3046   | 1e-05  |
+| 0.1216        | 86.0  | 23478 | 0.1237          | 0.8165   | 0.7243   | 0.8763  | 0.3035   | 1e-05  |
+| 0.1217        | 87.0  | 23751 | 0.1235          | 0.8181   | 0.7201   | 0.8787  | 0.3022   | 1e-05  |
+| 0.1206        | 88.0  | 24024 | 0.1239          | 0.8188   | 0.7209   | 0.8824  | 0.3035   | 1e-05  |
+| 0.1206        | 89.0  | 24297 | 0.1237          | 0.8176   | 0.7172   | 0.8786  | 0.3029   | 1e-05  |
+| 0.1215        | 90.0  | 24570 | 0.1232          | 0.8170   | 0.7203   | 0.8768  | 0.3059   | 1e-05  |
+| 0.1215        | 91.0  | 24843 | 0.1235          | 0.8199   | 0.7244   | 0.8821  | 0.3035   | 1e-05  |
+| 0.1216        | 92.0  | 25116 | 0.1241          | 0.8201   | 0.7264   | 0.8828  | 0.3056   | 1e-05  |
+| 0.1216        | 93.0  | 25389 | 0.1233          | 0.8192   | 0.7266   | 0.8824  | 0.3029   | 1e-05  |
+| 0.1203        | 94.0  | 25662 | 0.1240          | 0.8148   | 0.7139   | 0.8757  | 0.2977   | 1e-05  |
+| 0.1203        | 95.0  | 25935 | 0.1237          | 0.8203   | 0.7273   | 0.8847  | 0.2980   | 1e-05  |
+| 0.1215        | 96.0  | 26208 | 0.1237          | 0.8193   | 0.7203   | 0.8807  | 0.3049   | 1e-05  |
+| 0.1215        | 97.0  | 26481 | 0.1235          | 0.8186   | 0.7213   | 0.8818  | 0.3008   | 0.0000 |
+| 0.1211        | 98.0  | 26754 | 0.1231          | 0.8168   | 0.7173   | 0.8775  | 0.3039   | 0.0000 |
+| 0.1202        | 99.0  | 27027 | 0.1234          | 0.8195   | 0.7266   | 0.8828  | 0.3022   | 0.0000 |
+| 0.1202        | 100.0 | 27300 | 0.1234          | 0.8177   | 0.7212   | 0.8792  | 0.3025   | 0.0000 |
+| 0.1202        | 101.0 | 27573 | 0.1230          | 0.8196   | 0.7275   | 0.8822  | 0.3008   | 0.0000 |
+| 0.1202        | 102.0 | 27846 | 0.1234          | 0.8154   | 0.7137   | 0.8739  | 0.3015   | 0.0000 |
+| 0.1212        | 103.0 | 28119 | 0.1239          | 0.8164   | 0.7145   | 0.8761  | 0.2994   | 0.0000 |
+| 0.1212        | 104.0 | 28392 | 0.1235          | 0.8171   | 0.7189   | 0.8781  | 0.3015   | 0.0000 |
+| 0.1205        | 105.0 | 28665 | 0.1234          | 0.8191   | 0.7225   | 0.8824  | 0.3018   | 0.0000 |
+| 0.1205        | 106.0 | 28938 | 0.1240          | 0.8179   | 0.7183   | 0.8820  | 0.3022   | 0.0000 |
+| 0.1209        | 107.0 | 29211 | 0.1234          | 0.8188   | 0.7270   | 0.8822  | 0.3015   | 0.0000 |
+| 0.1209        | 108.0 | 29484 | 0.1234          | 0.8162   | 0.7226   | 0.8762  | 0.2998   | 0.0000 |
+| 0.1201        | 109.0 | 29757 | 0.1236          | 0.8216   | 0.7257   | 0.8868  | 0.3035   | 0.0000 |
+| 0.1205        | 110.0 | 30030 | 0.1237          | 0.8204   | 0.7232   | 0.8842  | 0.3032   | 0.0000 |
+| 0.1205        | 111.0 | 30303 | 0.1232          | 0.8178   | 0.7224   | 0.8771  | 0.3053   | 0.0000 |
+### Framework versions
+- Transformers 4.41.1
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 111.0,
+    "eval_accuracy": 0.3182608695652174,
+    "eval_f1_macro": 0.7172549519840059,
+    "eval_f1_micro": 0.82173859382071,
+    "eval_loss": 0.12350255995988846,
+    "eval_roc_auc": 0.8829346301484131,
+    "eval_runtime": 536.2665,
+    "eval_samples_per_second": 5.361,
+    "eval_steps_per_second": 0.168,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 1.4332659431723232e+21,
+    "train_loss": 0.13822040822849538,
+    "train_runtime": 237956.1018,
+    "train_samples_per_second": 5.489,
+    "train_steps_per_second": 0.172
+}

logs/events.out.tfevents.1717167376.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3788cb904c227f4da28ed41a73080283355399f6d74c9256a402c3b95ad250c4
-size 78902

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3521d09317b6177abdf24c5baff013d1b2a7e781d075ec611ce1b1da654455b
+size 80413

logs/events.out.tfevents.1717405982.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dc2c7ab38af042ddaa051b1f78f0aef45743939543eb73aa492c23526d357b4
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47db2790270b6d6a96f09444a07339d00e6f931026ef1fe7e822c84a4af8340c
 size 1228107508

 version https://git-lfs.github.com/spec/v1
+oid sha256:a268f9568d0716a90b0307ce0efa598acdfa84c6432d1973306680941b129a08
 size 1228107508

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 111.0,
+    "eval_accuracy": 0.3182608695652174,
+    "eval_f1_macro": 0.7172549519840059,
+    "eval_f1_micro": 0.82173859382071,
+    "eval_loss": 0.12350255995988846,
+    "eval_roc_auc": 0.8829346301484131,
+    "eval_runtime": 536.2665,
+    "eval_samples_per_second": 5.361,
+    "eval_steps_per_second": 0.168,
+    "learning_rate": 1.0000000000000002e-07
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 111.0,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 1.4332659431723232e+21,
+    "train_loss": 0.13822040822849538,
+    "train_runtime": 237956.1018,
+    "train_samples_per_second": 5.489,
+    "train_steps_per_second": 0.172
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1915 @@

+{
+  "best_metric": 0.12300820648670197,
+  "best_model_checkpoint": "/home1/datawork/mcontini/models/multilabel/huggingface/DinoVdeau-large-2024_05_31-batch-size32_epochs150_freeze/checkpoint-27573",
+  "epoch": 111.0,
+  "eval_steps": 500,
+  "global_step": 30303,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.23719491234101064,
+      "eval_f1_macro": 0.51050515939363,
+      "eval_f1_micro": 0.7471888818698673,
+      "eval_loss": 0.17266152799129486,
+      "eval_roc_auc": 0.8326243241283786,
+      "eval_runtime": 528.4205,
+      "eval_samples_per_second": 5.505,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.001,
+      "step": 273
+    },
+    {
+      "epoch": 1.8315018315018317,
+      "grad_norm": 0.2667010724544525,
+      "learning_rate": 0.001,
+      "loss": 0.2751,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.2506015812994156,
+      "eval_f1_macro": 0.5754792679279648,
+      "eval_f1_micro": 0.759063829787234,
+      "eval_loss": 0.15843337774276733,
+      "eval_roc_auc": 0.8363896810255705,
+      "eval_runtime": 540.7289,
+      "eval_samples_per_second": 5.38,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 0.001,
+      "step": 546
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.24682021313166036,
+      "eval_f1_macro": 0.5997966166279454,
+      "eval_f1_micro": 0.7712364371467471,
+      "eval_loss": 0.15126323699951172,
+      "eval_roc_auc": 0.8510669293802386,
+      "eval_runtime": 526.2016,
+      "eval_samples_per_second": 5.528,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 819
+    },
+    {
+      "epoch": 3.663003663003663,
+      "grad_norm": 0.2700529992580414,
+      "learning_rate": 0.001,
+      "loss": 0.1714,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.2516328635269852,
+      "eval_f1_macro": 0.6102972679327003,
+      "eval_f1_micro": 0.7649153278332611,
+      "eval_loss": 0.14971894025802612,
+      "eval_roc_auc": 0.8343823287511987,
+      "eval_runtime": 526.9869,
+      "eval_samples_per_second": 5.52,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 1092
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.26194568580268135,
+      "eval_f1_macro": 0.6048101972148001,
+      "eval_f1_micro": 0.7743272938347361,
+      "eval_loss": 0.14786843955516815,
+      "eval_roc_auc": 0.851433496224377,
+      "eval_runtime": 527.9687,
+      "eval_samples_per_second": 5.51,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.001,
+      "step": 1365
+    },
+    {
+      "epoch": 5.4945054945054945,
+      "grad_norm": 0.22031261026859283,
+      "learning_rate": 0.001,
+      "loss": 0.1664,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.23856995531110348,
+      "eval_f1_macro": 0.6142379178757014,
+      "eval_f1_micro": 0.7744215397559949,
+      "eval_loss": 0.1464792788028717,
+      "eval_roc_auc": 0.8475986141620167,
+      "eval_runtime": 524.7924,
+      "eval_samples_per_second": 5.543,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 1638
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.25232038501203163,
+      "eval_f1_macro": 0.6378919485445709,
+      "eval_f1_micro": 0.7745991019884542,
+      "eval_loss": 0.1471046507358551,
+      "eval_roc_auc": 0.8434055352108081,
+      "eval_runtime": 526.2444,
+      "eval_samples_per_second": 5.528,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 1911
+    },
+    {
+      "epoch": 7.326007326007326,
+      "grad_norm": 0.22752803564071655,
+      "learning_rate": 0.001,
+      "loss": 0.1613,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.2492265383293228,
+      "eval_f1_macro": 0.6349994110674028,
+      "eval_f1_micro": 0.7730045646516785,
+      "eval_loss": 0.14884118735790253,
+      "eval_roc_auc": 0.8431799269621351,
+      "eval_runtime": 522.6769,
+      "eval_samples_per_second": 5.566,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.001,
+      "step": 2184
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.17084908903403231,
+      "eval_f1_macro": 0.5913962348409779,
+      "eval_f1_micro": 0.7571320373643019,
+      "eval_loss": 0.1696147322654724,
+      "eval_roc_auc": 0.8382156770442014,
+      "eval_runtime": 524.2587,
+      "eval_samples_per_second": 5.549,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.001,
+      "step": 2457
+    },
+    {
+      "epoch": 9.157509157509157,
+      "grad_norm": 0.1698230803012848,
+      "learning_rate": 0.001,
+      "loss": 0.1607,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.2633207287727741,
+      "eval_f1_macro": 0.6155340436417148,
+      "eval_f1_micro": 0.7752799457074991,
+      "eval_loss": 0.14972557127475739,
+      "eval_roc_auc": 0.8458981216058233,
+      "eval_runtime": 525.2478,
+      "eval_samples_per_second": 5.538,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 2730
+    },
+    {
+      "epoch": 10.989010989010989,
+      "grad_norm": 0.18454667925834656,
+      "learning_rate": 0.001,
+      "loss": 0.1589,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.2591955998624957,
+      "eval_f1_macro": 0.6157336320155493,
+      "eval_f1_micro": 0.7746945972041475,
+      "eval_loss": 0.14687682688236237,
+      "eval_roc_auc": 0.8483143864682651,
+      "eval_runtime": 527.1812,
+      "eval_samples_per_second": 5.518,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 3003
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.25575799243726366,
+      "eval_f1_macro": 0.6488857718028787,
+      "eval_f1_micro": 0.7830250450155508,
+      "eval_loss": 0.14556235074996948,
+      "eval_roc_auc": 0.8597932614995001,
+      "eval_runtime": 527.5141,
+      "eval_samples_per_second": 5.515,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 3276
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.16842660307884216,
+      "learning_rate": 0.001,
+      "loss": 0.1578,
+      "step": 3500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.2554142316947405,
+      "eval_f1_macro": 0.6580664808969154,
+      "eval_f1_micro": 0.7843104596935376,
+      "eval_loss": 0.1428324580192566,
+      "eval_roc_auc": 0.8557355060660653,
+      "eval_runtime": 526.9892,
+      "eval_samples_per_second": 5.52,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.001,
+      "step": 3549
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.2506015812994156,
+      "eval_f1_macro": 0.6418882151192971,
+      "eval_f1_micro": 0.7831899072604227,
+      "eval_loss": 0.14352969825267792,
+      "eval_roc_auc": 0.8542397387049757,
+      "eval_runtime": 552.828,
+      "eval_samples_per_second": 5.262,
+      "eval_steps_per_second": 0.165,
+      "learning_rate": 0.001,
+      "step": 3822
+    },
+    {
+      "epoch": 14.652014652014651,
+      "grad_norm": 0.16212721168994904,
+      "learning_rate": 0.001,
+      "loss": 0.158,
+      "step": 4000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.25335166723960123,
+      "eval_f1_macro": 0.6573171730380419,
+      "eval_f1_micro": 0.7810577597952191,
+      "eval_loss": 0.14535032212734222,
+      "eval_roc_auc": 0.8562740234249071,
+      "eval_runtime": 543.9143,
+      "eval_samples_per_second": 5.348,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 0.001,
+      "step": 4095
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.26400825025782054,
+      "eval_f1_macro": 0.6503641322273297,
+      "eval_f1_micro": 0.7865547601415288,
+      "eval_loss": 0.1448182314634323,
+      "eval_roc_auc": 0.8602699185077041,
+      "eval_runtime": 528.0191,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.001,
+      "step": 4368
+    },
+    {
+      "epoch": 16.483516483516482,
+      "grad_norm": 0.15847235918045044,
+      "learning_rate": 0.001,
+      "loss": 0.1587,
+      "step": 4500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.2595393606050189,
+      "eval_f1_macro": 0.6441131277200526,
+      "eval_f1_micro": 0.7819386012413047,
+      "eval_loss": 0.14306068420410156,
+      "eval_roc_auc": 0.8543391801851071,
+      "eval_runtime": 533.465,
+      "eval_samples_per_second": 5.453,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.001,
+      "step": 4641
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.25472671020969406,
+      "eval_f1_macro": 0.6412796509721743,
+      "eval_f1_micro": 0.7838684089675614,
+      "eval_loss": 0.1446852684020996,
+      "eval_roc_auc": 0.8547791265270707,
+      "eval_runtime": 537.7058,
+      "eval_samples_per_second": 5.41,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.001,
+      "step": 4914
+    },
+    {
+      "epoch": 18.315018315018314,
+      "grad_norm": 0.14501237869262695,
+      "learning_rate": 0.001,
+      "loss": 0.1571,
+      "step": 5000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.26469577174286696,
+      "eval_f1_macro": 0.6441719729073186,
+      "eval_f1_micro": 0.7836073910832345,
+      "eval_loss": 0.1414887011051178,
+      "eval_roc_auc": 0.8505868762044602,
+      "eval_runtime": 542.1965,
+      "eval_samples_per_second": 5.365,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 0.001,
+      "step": 5187
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.2609144035751117,
+      "eval_f1_macro": 0.6436752083994657,
+      "eval_f1_micro": 0.7838809251976828,
+      "eval_loss": 0.1405678391456604,
+      "eval_roc_auc": 0.8513351741993039,
+      "eval_runtime": 537.1864,
+      "eval_samples_per_second": 5.415,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.001,
+      "step": 5460
+    },
+    {
+      "epoch": 20.146520146520146,
+      "grad_norm": 0.16518211364746094,
+      "learning_rate": 0.001,
+      "loss": 0.1577,
+      "step": 5500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.25747679614987967,
+      "eval_f1_macro": 0.6461144436259285,
+      "eval_f1_micro": 0.7847450484618627,
+      "eval_loss": 0.14136537909507751,
+      "eval_roc_auc": 0.8527206442391784,
+      "eval_runtime": 535.7541,
+      "eval_samples_per_second": 5.43,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.001,
+      "step": 5733
+    },
+    {
+      "epoch": 21.978021978021978,
+      "grad_norm": 0.14056652784347534,
+      "learning_rate": 0.001,
+      "loss": 0.1556,
+      "step": 6000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.26194568580268135,
+      "eval_f1_macro": 0.6587430664519773,
+      "eval_f1_micro": 0.78838833814364,
+      "eval_loss": 0.1386082023382187,
+      "eval_roc_auc": 0.8567127686586293,
+      "eval_runtime": 534.4718,
+      "eval_samples_per_second": 5.443,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.001,
+      "step": 6006
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.268133379168099,
+      "eval_f1_macro": 0.6502835561459052,
+      "eval_f1_micro": 0.7900436534586972,
+      "eval_loss": 0.13822348415851593,
+      "eval_roc_auc": 0.8566583659653727,
+      "eval_runtime": 532.9053,
+      "eval_samples_per_second": 5.459,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.001,
+      "step": 6279
+    },
+    {
+      "epoch": 23.80952380952381,
+      "grad_norm": 0.19816666841506958,
+      "learning_rate": 0.001,
+      "loss": 0.1558,
+      "step": 6500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.2650395324853902,
+      "eval_f1_macro": 0.6519157870757598,
+      "eval_f1_micro": 0.7880997276346112,
+      "eval_loss": 0.13893215358257294,
+      "eval_roc_auc": 0.8560751822992996,
+      "eval_runtime": 537.3622,
+      "eval_samples_per_second": 5.413,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.001,
+      "step": 6552
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.2695084221381918,
+      "eval_f1_macro": 0.6553890148296274,
+      "eval_f1_micro": 0.7883266848624816,
+      "eval_loss": 0.1396929770708084,
+      "eval_roc_auc": 0.8556256648938046,
+      "eval_runtime": 530.4438,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.001,
+      "step": 6825
+    },
+    {
+      "epoch": 25.641025641025642,
+      "grad_norm": 0.160660982131958,
+      "learning_rate": 0.001,
+      "loss": 0.1551,
+      "step": 7000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.2650395324853902,
+      "eval_f1_macro": 0.6349973216617472,
+      "eval_f1_micro": 0.7793733121865489,
+      "eval_loss": 0.14012907445430756,
+      "eval_roc_auc": 0.8453129082029109,
+      "eval_runtime": 532.4751,
+      "eval_samples_per_second": 5.463,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.001,
+      "step": 7098
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.2499140598143692,
+      "eval_f1_macro": 0.6667665130743651,
+      "eval_f1_micro": 0.7915316128502852,
+      "eval_loss": 0.1402139514684677,
+      "eval_roc_auc": 0.8637912699884471,
+      "eval_runtime": 535.9247,
+      "eval_samples_per_second": 5.428,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.001,
+      "step": 7371
+    },
+    {
+      "epoch": 27.47252747252747,
+      "grad_norm": 0.15610536932945251,
+      "learning_rate": 0.001,
+      "loss": 0.156,
+      "step": 7500
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.26400825025782054,
+      "eval_f1_macro": 0.6575889205208383,
+      "eval_f1_micro": 0.7907676869041647,
+      "eval_loss": 0.1389472633600235,
+      "eval_roc_auc": 0.8581090945395875,
+      "eval_runtime": 536.3338,
+      "eval_samples_per_second": 5.424,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.001,
+      "step": 7644
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.268133379168099,
+      "eval_f1_macro": 0.6657248014277785,
+      "eval_f1_micro": 0.793982620101656,
+      "eval_loss": 0.14010308682918549,
+      "eval_roc_auc": 0.8654152756895732,
+      "eval_runtime": 547.3885,
+      "eval_samples_per_second": 5.314,
+      "eval_steps_per_second": 0.166,
+      "learning_rate": 0.001,
+      "step": 7917
+    },
+    {
+      "epoch": 29.304029304029303,
+      "grad_norm": 0.15964308381080627,
+      "learning_rate": 0.0001,
+      "loss": 0.155,
+      "step": 8000
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.2739773117909935,
+      "eval_f1_macro": 0.6710788331447379,
+      "eval_f1_micro": 0.7986502613061192,
+      "eval_loss": 0.13457615673542023,
+      "eval_roc_auc": 0.8668929367093478,
+      "eval_runtime": 547.6107,
+      "eval_samples_per_second": 5.312,
+      "eval_steps_per_second": 0.166,
+      "learning_rate": 0.0001,
+      "step": 8190
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.2784462014437951,
+      "eval_f1_macro": 0.6773801465956272,
+      "eval_f1_micro": 0.7977876476996564,
+      "eval_loss": 0.1323619782924652,
+      "eval_roc_auc": 0.8613412783291686,
+      "eval_runtime": 550.0815,
+      "eval_samples_per_second": 5.288,
+      "eval_steps_per_second": 0.165,
+      "learning_rate": 0.0001,
+      "step": 8463
+    },
+    {
+      "epoch": 31.135531135531135,
+      "grad_norm": 0.15679965913295746,
+      "learning_rate": 0.0001,
+      "loss": 0.1466,
+      "step": 8500
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.27294602956342384,
+      "eval_f1_macro": 0.6778747090268944,
+      "eval_f1_micro": 0.8018979833926453,
+      "eval_loss": 0.13328427076339722,
+      "eval_roc_auc": 0.8704036395061567,
+      "eval_runtime": 536.2816,
+      "eval_samples_per_second": 5.424,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 8736
+    },
+    {
+      "epoch": 32.967032967032964,
+      "grad_norm": 0.16012457013130188,
+      "learning_rate": 0.0001,
+      "loss": 0.1431,
+      "step": 9000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.2794774836713647,
+      "eval_f1_macro": 0.6849041252254977,
+      "eval_f1_micro": 0.8033507506013103,
+      "eval_loss": 0.13171622157096863,
+      "eval_roc_auc": 0.8672834939642976,
+      "eval_runtime": 523.1156,
+      "eval_samples_per_second": 5.561,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 9009
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.27982124441388795,
+      "eval_f1_macro": 0.6836107081350358,
+      "eval_f1_micro": 0.8020612558700079,
+      "eval_loss": 0.1307307630777359,
+      "eval_roc_auc": 0.8659768313427901,
+      "eval_runtime": 537.0527,
+      "eval_samples_per_second": 5.417,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 9282
+    },
+    {
+      "epoch": 34.798534798534796,
+      "grad_norm": 0.1809278130531311,
+      "learning_rate": 0.0001,
+      "loss": 0.1413,
+      "step": 9500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.2853214162942592,
+      "eval_f1_macro": 0.6903143910655651,
+      "eval_f1_micro": 0.8046306144154465,
+      "eval_loss": 0.13025963306427002,
+      "eval_roc_auc": 0.8719100555511805,
+      "eval_runtime": 531.2738,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.0001,
+      "step": 9555
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.290134066689584,
+      "eval_f1_macro": 0.6931792274102746,
+      "eval_f1_micro": 0.8050928824879983,
+      "eval_loss": 0.1296597272157669,
+      "eval_roc_auc": 0.8663567399138056,
+      "eval_runtime": 536.3308,
+      "eval_samples_per_second": 5.424,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 9828
+    },
+    {
+      "epoch": 36.63003663003663,
+      "grad_norm": 0.19757141172885895,
+      "learning_rate": 0.0001,
+      "loss": 0.14,
+      "step": 10000
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.288415262976968,
+      "eval_f1_macro": 0.6884731439645044,
+      "eval_f1_micro": 0.8034535718733136,
+      "eval_loss": 0.12961770594120026,
+      "eval_roc_auc": 0.8670685343995587,
+      "eval_runtime": 530.0276,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 10101
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.28704022000687524,
+      "eval_f1_macro": 0.68878596648098,
+      "eval_f1_micro": 0.8042539049518111,
+      "eval_loss": 0.12927678227424622,
+      "eval_roc_auc": 0.8672822510214007,
+      "eval_runtime": 524.5751,
+      "eval_samples_per_second": 5.545,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 10374
+    },
+    {
+      "epoch": 38.46153846153846,
+      "grad_norm": 0.16473665833473206,
+      "learning_rate": 0.0001,
+      "loss": 0.1391,
+      "step": 10500
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.2877277414919216,
+      "eval_f1_macro": 0.6869571453655325,
+      "eval_f1_micro": 0.8032656478961692,
+      "eval_loss": 0.13043531775474548,
+      "eval_roc_auc": 0.8645365442953599,
+      "eval_runtime": 528.3251,
+      "eval_samples_per_second": 5.506,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 10647
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.29082158817463044,
+      "eval_f1_macro": 0.693512791025367,
+      "eval_f1_micro": 0.8063839414256921,
+      "eval_loss": 0.12887024879455566,
+      "eval_roc_auc": 0.871282703561486,
+      "eval_runtime": 528.794,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 10920
+    },
+    {
+      "epoch": 40.29304029304029,
+      "grad_norm": 0.20218676328659058,
+      "learning_rate": 0.0001,
+      "loss": 0.1375,
+      "step": 11000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.28704022000687524,
+      "eval_f1_macro": 0.6924207618698955,
+      "eval_f1_micro": 0.8037148594377511,
+      "eval_loss": 0.12975196540355682,
+      "eval_roc_auc": 0.8650046241911243,
+      "eval_runtime": 527.8939,
+      "eval_samples_per_second": 5.511,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 11193
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.29597799931247853,
+      "eval_f1_macro": 0.6899593151302184,
+      "eval_f1_micro": 0.8086140163056905,
+      "eval_loss": 0.12854912877082825,
+      "eval_roc_auc": 0.8722169989386699,
+      "eval_runtime": 524.3169,
+      "eval_samples_per_second": 5.548,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 11466
+    },
+    {
+      "epoch": 42.124542124542124,
+      "grad_norm": 0.16020864248275757,
+      "learning_rate": 0.0001,
+      "loss": 0.1369,
+      "step": 11500
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.28704022000687524,
+      "eval_f1_macro": 0.6897522012507461,
+      "eval_f1_micro": 0.8066790352504639,
+      "eval_loss": 0.12848526239395142,
+      "eval_roc_auc": 0.8707810621913787,
+      "eval_runtime": 525.3547,
+      "eval_samples_per_second": 5.537,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 11739
+    },
+    {
+      "epoch": 43.956043956043956,
+      "grad_norm": 0.19073694944381714,
+      "learning_rate": 0.0001,
+      "loss": 0.1356,
+      "step": 12000
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.2921966311447233,
+      "eval_f1_macro": 0.6930773017154849,
+      "eval_f1_micro": 0.8077876984126985,
+      "eval_loss": 0.12860073149204254,
+      "eval_roc_auc": 0.8706428384735121,
+      "eval_runtime": 525.2422,
+      "eval_samples_per_second": 5.538,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 12012
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.2956342385699553,
+      "eval_f1_macro": 0.7036740023156066,
+      "eval_f1_micro": 0.8106891471599279,
+      "eval_loss": 0.12759028375148773,
+      "eval_roc_auc": 0.875156409696237,
+      "eval_runtime": 533.8409,
+      "eval_samples_per_second": 5.449,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 12285
+    },
+    {
+      "epoch": 45.78754578754579,
+      "grad_norm": 0.21702325344085693,
+      "learning_rate": 0.0001,
+      "loss": 0.1348,
+      "step": 12500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.2956342385699553,
+      "eval_f1_macro": 0.6950811210030032,
+      "eval_f1_micro": 0.8078483318155477,
+      "eval_loss": 0.12775476276874542,
+      "eval_roc_auc": 0.8702717141720853,
+      "eval_runtime": 527.4738,
+      "eval_samples_per_second": 5.515,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 12558
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.2918528704022001,
+      "eval_f1_macro": 0.7062619936159387,
+      "eval_f1_micro": 0.811402081977879,
+      "eval_loss": 0.12771955132484436,
+      "eval_roc_auc": 0.8774206947996357,
+      "eval_runtime": 527.1794,
+      "eval_samples_per_second": 5.518,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 12831
+    },
+    {
+      "epoch": 47.61904761904762,
+      "grad_norm": 0.24386179447174072,
+      "learning_rate": 0.0001,
+      "loss": 0.1343,
+      "step": 13000
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.29082158817463044,
+      "eval_f1_macro": 0.6955184040970307,
+      "eval_f1_micro": 0.8052384150436536,
+      "eval_loss": 0.12763886153697968,
+      "eval_roc_auc": 0.8648853772778264,
+      "eval_runtime": 528.8318,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 13104
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.288415262976968,
+      "eval_f1_macro": 0.7020626151896329,
+      "eval_f1_micro": 0.8098617549329287,
+      "eval_loss": 0.12784114480018616,
+      "eval_roc_auc": 0.8739923629273905,
+      "eval_runtime": 526.9073,
+      "eval_samples_per_second": 5.521,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 13377
+    },
+    {
+      "epoch": 49.45054945054945,
+      "grad_norm": 0.21291495859622955,
+      "learning_rate": 0.0001,
+      "loss": 0.1344,
+      "step": 13500
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.2939154348573393,
+      "eval_f1_macro": 0.705975464457343,
+      "eval_f1_micro": 0.8101997029212742,
+      "eval_loss": 0.12698890268802643,
+      "eval_roc_auc": 0.8724947311519554,
+      "eval_runtime": 522.9793,
+      "eval_samples_per_second": 5.562,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 13650
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.29769680302509455,
+      "eval_f1_macro": 0.709798905916108,
+      "eval_f1_micro": 0.8129121550109908,
+      "eval_loss": 0.12740205228328705,
+      "eval_roc_auc": 0.8779523759725448,
+      "eval_runtime": 527.2695,
+      "eval_samples_per_second": 5.517,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 13923
+    },
+    {
+      "epoch": 51.282051282051285,
+      "grad_norm": 0.25488388538360596,
+      "learning_rate": 0.0001,
+      "loss": 0.1331,
+      "step": 14000
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.2918528704022001,
+      "eval_f1_macro": 0.707621451538995,
+      "eval_f1_micro": 0.8121578560339897,
+      "eval_loss": 0.12743453681468964,
+      "eval_roc_auc": 0.8764757925731732,
+      "eval_runtime": 523.8403,
+      "eval_samples_per_second": 5.553,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 14196
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.29322791337229287,
+      "eval_f1_macro": 0.694158242732084,
+      "eval_f1_micro": 0.8083623693379792,
+      "eval_loss": 0.12782631814479828,
+      "eval_roc_auc": 0.8699585560701117,
+      "eval_runtime": 524.8463,
+      "eval_samples_per_second": 5.543,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 14469
+    },
+    {
+      "epoch": 53.11355311355312,
+      "grad_norm": 0.2432054579257965,
+      "learning_rate": 0.0001,
+      "loss": 0.1325,
+      "step": 14500
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.2939154348573393,
+      "eval_f1_macro": 0.6945407396863954,
+      "eval_f1_micro": 0.8095710389288371,
+      "eval_loss": 0.12641482055187225,
+      "eval_roc_auc": 0.8716949306639478,
+      "eval_runtime": 523.4227,
+      "eval_samples_per_second": 5.558,
+      "eval_steps_per_second": 0.174,
+      "learning_rate": 0.0001,
+      "step": 14742
+    },
+    {
+      "epoch": 54.94505494505494,
+      "grad_norm": 0.2511921226978302,
+      "learning_rate": 0.0001,
+      "loss": 0.1318,
+      "step": 15000
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.29838432451014096,
+      "eval_f1_macro": 0.711364278725223,
+      "eval_f1_micro": 0.8117057825241112,
+      "eval_loss": 0.12613853812217712,
+      "eval_roc_auc": 0.8724015462209637,
+      "eval_runtime": 528.7875,
+      "eval_samples_per_second": 5.501,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 15015
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.2990718459951873,
+      "eval_f1_macro": 0.7063129571309116,
+      "eval_f1_micro": 0.8113456464379947,
+      "eval_loss": 0.12689372897148132,
+      "eval_roc_auc": 0.8733654252519948,
+      "eval_runtime": 525.7416,
+      "eval_samples_per_second": 5.533,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 0.0001,
+      "step": 15288
+    },
+    {
+      "epoch": 56.776556776556774,
+      "grad_norm": 0.305794894695282,
+      "learning_rate": 0.0001,
+      "loss": 0.1311,
+      "step": 15500
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.2990718459951873,
+      "eval_f1_macro": 0.7092631560861781,
+      "eval_f1_micro": 0.8135370461639561,
+      "eval_loss": 0.12595032155513763,
+      "eval_roc_auc": 0.8756797627485114,
+      "eval_runtime": 537.7699,
+      "eval_samples_per_second": 5.409,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 15561
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.29254039188724645,
+      "eval_f1_macro": 0.7038026958133716,
+      "eval_f1_micro": 0.8129296235679215,
+      "eval_loss": 0.12691068649291992,
+      "eval_roc_auc": 0.8764486948051197,
+      "eval_runtime": 534.4471,
+      "eval_samples_per_second": 5.443,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 15834
+    },
+    {
+      "epoch": 58.608058608058606,
+      "grad_norm": 0.29350945353507996,
+      "learning_rate": 0.0001,
+      "loss": 0.1307,
+      "step": 16000
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.2921966311447233,
+      "eval_f1_macro": 0.7074106748802989,
+      "eval_f1_micro": 0.8112015199702616,
+      "eval_loss": 0.1266162097454071,
+      "eval_roc_auc": 0.8727472300115326,
+      "eval_runtime": 535.4803,
+      "eval_samples_per_second": 5.433,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 16107
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.29322791337229287,
+      "eval_f1_macro": 0.6985455534303677,
+      "eval_f1_micro": 0.8090558527179996,
+      "eval_loss": 0.1263982653617859,
+      "eval_roc_auc": 0.8704458199275943,
+      "eval_runtime": 538.1311,
+      "eval_samples_per_second": 5.406,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 16380
+    },
+    {
+      "epoch": 60.43956043956044,
+      "grad_norm": 0.24772068858146667,
+      "learning_rate": 0.0001,
+      "loss": 0.1303,
+      "step": 16500
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.29597799931247853,
+      "eval_f1_macro": 0.7041363825305129,
+      "eval_f1_micro": 0.8097471110366773,
+      "eval_loss": 0.12581084668636322,
+      "eval_roc_auc": 0.8680428967920301,
+      "eval_runtime": 536.9217,
+      "eval_samples_per_second": 5.418,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 16653
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.2911653489171537,
+      "eval_f1_macro": 0.7066021008547532,
+      "eval_f1_micro": 0.8132532581607222,
+      "eval_loss": 0.12699832022190094,
+      "eval_roc_auc": 0.8770731465947217,
+      "eval_runtime": 538.5901,
+      "eval_samples_per_second": 5.401,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 16926
+    },
+    {
+      "epoch": 62.27106227106227,
+      "grad_norm": 0.27737802267074585,
+      "learning_rate": 0.0001,
+      "loss": 0.1299,
+      "step": 17000
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.29700928154004813,
+      "eval_f1_macro": 0.7059955812986827,
+      "eval_f1_micro": 0.8111204013377926,
+      "eval_loss": 0.12574061751365662,
+      "eval_roc_auc": 0.8692192495020064,
+      "eval_runtime": 534.6194,
+      "eval_samples_per_second": 5.441,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 0.0001,
+      "step": 17199
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.2939154348573393,
+      "eval_f1_macro": 0.7090348173219025,
+      "eval_f1_micro": 0.8139229062217472,
+      "eval_loss": 0.1252606362104416,
+      "eval_roc_auc": 0.8757248015353863,
+      "eval_runtime": 540.564,
+      "eval_samples_per_second": 5.381,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 0.0001,
+      "step": 17472
+    },
+    {
+      "epoch": 64.1025641025641,
+      "grad_norm": 0.3310890793800354,
+      "learning_rate": 0.0001,
+      "loss": 0.1284,
+      "step": 17500
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.2963217600550017,
+      "eval_f1_macro": 0.70468515245698,
+      "eval_f1_micro": 0.8126994653292992,
+      "eval_loss": 0.12513236701488495,
+      "eval_roc_auc": 0.8725629317210437,
+      "eval_runtime": 546.3743,
+      "eval_samples_per_second": 5.324,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 0.0001,
+      "step": 17745
+    },
+    {
+      "epoch": 65.93406593406593,
+      "grad_norm": 0.2919701635837555,
+      "learning_rate": 0.0001,
+      "loss": 0.1283,
+      "step": 18000
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.2949467170849089,
+      "eval_f1_macro": 0.7118614262032313,
+      "eval_f1_micro": 0.8140287622403409,
+      "eval_loss": 0.125584214925766,
+      "eval_roc_auc": 0.8766619971126628,
+      "eval_runtime": 538.5562,
+      "eval_samples_per_second": 5.401,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 18018
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.2939154348573393,
+      "eval_f1_macro": 0.7062384835160513,
+      "eval_f1_micro": 0.8111171298804116,
+      "eval_loss": 0.12539814412593842,
+      "eval_roc_auc": 0.8701631159427216,
+      "eval_runtime": 547.4711,
+      "eval_samples_per_second": 5.314,
+      "eval_steps_per_second": 0.166,
+      "learning_rate": 0.0001,
+      "step": 18291
+    },
+    {
+      "epoch": 67.76556776556777,
+      "grad_norm": 0.3583308756351471,
+      "learning_rate": 0.0001,
+      "loss": 0.1281,
+      "step": 18500
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.29597799931247853,
+      "eval_f1_macro": 0.7112630392285837,
+      "eval_f1_micro": 0.8151627792982313,
+      "eval_loss": 0.12564098834991455,
+      "eval_roc_auc": 0.8781836192989092,
+      "eval_runtime": 544.474,
+      "eval_samples_per_second": 5.343,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 0.0001,
+      "step": 18564
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.29941560673771056,
+      "eval_f1_macro": 0.7140636849121678,
+      "eval_f1_micro": 0.8142985980159057,
+      "eval_loss": 0.12584172189235687,
+      "eval_roc_auc": 0.8766551190920747,
+      "eval_runtime": 544.6719,
+      "eval_samples_per_second": 5.341,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 0.0001,
+      "step": 18837
+    },
+    {
+      "epoch": 69.59706959706959,
+      "grad_norm": 0.30125734210014343,
+      "learning_rate": 0.0001,
+      "loss": 0.1274,
+      "step": 19000
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.29838432451014096,
+      "eval_f1_macro": 0.718410533722422,
+      "eval_f1_micro": 0.8161761696205642,
+      "eval_loss": 0.12478043138980865,
+      "eval_roc_auc": 0.8781431798039784,
+      "eval_runtime": 533.1364,
+      "eval_samples_per_second": 5.456,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.0001,
+      "step": 19110
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.2963217600550017,
+      "eval_f1_macro": 0.7097253169772126,
+      "eval_f1_micro": 0.8134349886668041,
+      "eval_loss": 0.12550216913223267,
+      "eval_roc_auc": 0.8746253918294316,
+      "eval_runtime": 531.413,
+      "eval_samples_per_second": 5.474,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 0.0001,
+      "step": 19383
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 0.2948232591152191,
+      "learning_rate": 0.0001,
+      "loss": 0.1274,
+      "step": 19500
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.2980405637676177,
+      "eval_f1_macro": 0.7066535688303756,
+      "eval_f1_micro": 0.8132986082851795,
+      "eval_loss": 0.12681567668914795,
+      "eval_roc_auc": 0.8782642911316215,
+      "eval_runtime": 530.4686,
+      "eval_samples_per_second": 5.484,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 19656
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.30044688896528016,
+      "eval_f1_macro": 0.720052479680047,
+      "eval_f1_micro": 0.8154191311441974,
+      "eval_loss": 0.12942491471767426,
+      "eval_roc_auc": 0.8787365560050311,
+      "eval_runtime": 542.0988,
+      "eval_samples_per_second": 5.366,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 0.0001,
+      "step": 19929
+    },
+    {
+      "epoch": 73.26007326007326,
+      "grad_norm": 0.36606550216674805,
+      "learning_rate": 0.0001,
+      "loss": 0.1272,
+      "step": 20000
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.29597799931247853,
+      "eval_f1_macro": 0.7156506533830808,
+      "eval_f1_micro": 0.8141104799538981,
+      "eval_loss": 0.1252431720495224,
+      "eval_roc_auc": 0.8753470063705208,
+      "eval_runtime": 537.4536,
+      "eval_samples_per_second": 5.413,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 20202
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.29975936748023374,
+      "eval_f1_macro": 0.7162358218470065,
+      "eval_f1_micro": 0.8164923076923079,
+      "eval_loss": 0.12525109946727753,
+      "eval_roc_auc": 0.877641538433871,
+      "eval_runtime": 537.3121,
+      "eval_samples_per_second": 5.414,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 0.0001,
+      "step": 20475
+    },
+    {
+      "epoch": 75.0915750915751,
+      "grad_norm": 0.3238458037376404,
+      "learning_rate": 0.0001,
+      "loss": 0.1265,
+      "step": 20500
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.2980405637676177,
+      "eval_f1_macro": 0.7050812600051921,
+      "eval_f1_micro": 0.8126263668248401,
+      "eval_loss": 0.125084787607193,
+      "eval_roc_auc": 0.8738193347922841,
+      "eval_runtime": 528.5209,
+      "eval_samples_per_second": 5.504,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 0.0001,
+      "step": 20748
+    },
+    {
+      "epoch": 76.92307692307692,
+      "grad_norm": 0.3312053382396698,
+      "learning_rate": 1e-05,
+      "loss": 0.1253,
+      "step": 21000
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.301821931935373,
+      "eval_f1_macro": 0.7198797063603358,
+      "eval_f1_micro": 0.8169637369391518,
+      "eval_loss": 0.12381099909543991,
+      "eval_roc_auc": 0.8782657830663234,
+      "eval_runtime": 534.6595,
+      "eval_samples_per_second": 5.441,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 1e-05,
+      "step": 21021
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.29975936748023374,
+      "eval_f1_macro": 0.7125350103590883,
+      "eval_f1_micro": 0.8142230317079229,
+      "eval_loss": 0.12425024807453156,
+      "eval_roc_auc": 0.8737716029624661,
+      "eval_runtime": 531.5279,
+      "eval_samples_per_second": 5.473,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 1e-05,
+      "step": 21294
+    },
+    {
+      "epoch": 78.75457875457876,
+      "grad_norm": 0.3140043020248413,
+      "learning_rate": 1e-05,
+      "loss": 0.1231,
+      "step": 21500
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.3028532141629426,
+      "eval_f1_macro": 0.721102526527663,
+      "eval_f1_micro": 0.8181743958197256,
+      "eval_loss": 0.12345358729362488,
+      "eval_roc_auc": 0.8800411470550439,
+      "eval_runtime": 529.7514,
+      "eval_samples_per_second": 5.491,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 21567
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.30216569267789617,
+      "eval_f1_macro": 0.7272188807325698,
+      "eval_f1_micro": 0.8199023445381542,
+      "eval_loss": 0.12395191192626953,
+      "eval_roc_auc": 0.8844715187246072,
+      "eval_runtime": 537.5403,
+      "eval_samples_per_second": 5.412,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 1e-05,
+      "step": 21840
+    },
+    {
+      "epoch": 80.58608058608058,
+      "grad_norm": 0.2950115203857422,
+      "learning_rate": 1e-05,
+      "loss": 0.1232,
+      "step": 22000
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.3011344104503266,
+      "eval_f1_macro": 0.7213714212722541,
+      "eval_f1_micro": 0.816331575477917,
+      "eval_loss": 0.12421117722988129,
+      "eval_roc_auc": 0.876307363730011,
+      "eval_runtime": 531.2157,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 1e-05,
+      "step": 22113
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.3042282571330354,
+      "eval_f1_macro": 0.7220641511602056,
+      "eval_f1_micro": 0.8184078588024294,
+      "eval_loss": 0.1238287091255188,
+      "eval_roc_auc": 0.8806201457434719,
+      "eval_runtime": 539.7944,
+      "eval_samples_per_second": 5.389,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 1e-05,
+      "step": 22386
+    },
+    {
+      "epoch": 82.41758241758242,
+      "grad_norm": 0.3993464708328247,
+      "learning_rate": 1e-05,
+      "loss": 0.1223,
+      "step": 22500
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.301821931935373,
+      "eval_f1_macro": 0.7213144754619842,
+      "eval_f1_micro": 0.8180256808702052,
+      "eval_loss": 0.1235181912779808,
+      "eval_roc_auc": 0.8794490137968879,
+      "eval_runtime": 534.2182,
+      "eval_samples_per_second": 5.445,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 1e-05,
+      "step": 22659
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.3025094534204194,
+      "eval_f1_macro": 0.7232957874603048,
+      "eval_f1_micro": 0.8176539851394697,
+      "eval_loss": 0.12367285788059235,
+      "eval_roc_auc": 0.8813632229749234,
+      "eval_runtime": 527.4506,
+      "eval_samples_per_second": 5.515,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 1e-05,
+      "step": 22932
+    },
+    {
+      "epoch": 84.24908424908425,
+      "grad_norm": 0.2845182716846466,
+      "learning_rate": 1e-05,
+      "loss": 0.1216,
+      "step": 23000
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.3045720178755586,
+      "eval_f1_macro": 0.7142044524891776,
+      "eval_f1_micro": 0.8164039937288555,
+      "eval_loss": 0.12321745604276657,
+      "eval_roc_auc": 0.8759362394285842,
+      "eval_runtime": 530.9606,
+      "eval_samples_per_second": 5.479,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 1e-05,
+      "step": 23205
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.303540735647989,
+      "eval_f1_macro": 0.724290897047381,
+      "eval_f1_micro": 0.8165334212478365,
+      "eval_loss": 0.1237027570605278,
+      "eval_roc_auc": 0.8763461459677461,
+      "eval_runtime": 529.6733,
+      "eval_samples_per_second": 5.492,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 23478
+    },
+    {
+      "epoch": 86.08058608058609,
+      "grad_norm": 0.3410782516002655,
+      "learning_rate": 1e-05,
+      "loss": 0.1217,
+      "step": 23500
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 0.30216569267789617,
+      "eval_f1_macro": 0.7200937974757147,
+      "eval_f1_micro": 0.8180700172173485,
+      "eval_loss": 0.12352145463228226,
+      "eval_roc_auc": 0.8787459617460684,
+      "eval_runtime": 538.921,
+      "eval_samples_per_second": 5.398,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 1e-05,
+      "step": 23751
+    },
+    {
+      "epoch": 87.91208791208791,
+      "grad_norm": 0.33241167664527893,
+      "learning_rate": 1e-05,
+      "loss": 0.1206,
+      "step": 24000
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.303540735647989,
+      "eval_f1_macro": 0.7208874018784168,
+      "eval_f1_micro": 0.8187826933214387,
+      "eval_loss": 0.12393338233232498,
+      "eval_roc_auc": 0.8823836181053615,
+      "eval_runtime": 527.0575,
+      "eval_samples_per_second": 5.519,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 1e-05,
+      "step": 24024
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 0.3028532141629426,
+      "eval_f1_macro": 0.717195490689832,
+      "eval_f1_micro": 0.8175708900180297,
+      "eval_loss": 0.12368057668209076,
+      "eval_roc_auc": 0.8785904184808291,
+      "eval_runtime": 530.0815,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 24297
+    },
+    {
+      "epoch": 89.74358974358974,
+      "grad_norm": 0.33269670605659485,
+      "learning_rate": 1e-05,
+      "loss": 0.1215,
+      "step": 24500
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 0.30594706084565143,
+      "eval_f1_macro": 0.7202869112854988,
+      "eval_f1_micro": 0.8169988469774335,
+      "eval_loss": 0.12319833785295486,
+      "eval_roc_auc": 0.8768206895697999,
+      "eval_runtime": 527.39,
+      "eval_samples_per_second": 5.516,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 1e-05,
+      "step": 24570
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 0.303540735647989,
+      "eval_f1_macro": 0.7243798285402773,
+      "eval_f1_micro": 0.8199162022535897,
+      "eval_loss": 0.12350083887577057,
+      "eval_roc_auc": 0.88206963137479,
+      "eval_runtime": 529.1998,
+      "eval_samples_per_second": 5.497,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 24843
+    },
+    {
+      "epoch": 91.57509157509158,
+      "grad_norm": 0.2958417534828186,
+      "learning_rate": 1e-05,
+      "loss": 0.1216,
+      "step": 25000
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.30560330010312825,
+      "eval_f1_macro": 0.7264331892084873,
+      "eval_f1_micro": 0.820052770448549,
+      "eval_loss": 0.12410824745893478,
+      "eval_roc_auc": 0.8827789399747492,
+      "eval_runtime": 533.4656,
+      "eval_samples_per_second": 5.453,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 1e-05,
+      "step": 25116
+    },
+    {
+      "epoch": 93.0,
+      "eval_accuracy": 0.3028532141629426,
+      "eval_f1_macro": 0.7265708763385225,
+      "eval_f1_micro": 0.8191851972082453,
+      "eval_loss": 0.12333476543426514,
+      "eval_roc_auc": 0.8824025949099301,
+      "eval_runtime": 530.3618,
+      "eval_samples_per_second": 5.485,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 25389
+    },
+    {
+      "epoch": 93.4065934065934,
+      "grad_norm": 0.2711620032787323,
+      "learning_rate": 1e-05,
+      "loss": 0.1203,
+      "step": 25500
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 0.29769680302509455,
+      "eval_f1_macro": 0.7139339929197925,
+      "eval_f1_micro": 0.8147507922788823,
+      "eval_loss": 0.12396726757287979,
+      "eval_roc_auc": 0.8757366931622173,
+      "eval_runtime": 526.1521,
+      "eval_samples_per_second": 5.529,
+      "eval_steps_per_second": 0.173,
+      "learning_rate": 1e-05,
+      "step": 25662
+    },
+    {
+      "epoch": 95.0,
+      "eval_accuracy": 0.2980405637676177,
+      "eval_f1_macro": 0.7272882506355968,
+      "eval_f1_micro": 0.8202541859995964,
+      "eval_loss": 0.12366786599159241,
+      "eval_roc_auc": 0.8847183825064932,
+      "eval_runtime": 532.6436,
+      "eval_samples_per_second": 5.461,
+      "eval_steps_per_second": 0.171,
+      "learning_rate": 1e-05,
+      "step": 25935
+    },
+    {
+      "epoch": 95.23809523809524,
+      "grad_norm": 0.34573543071746826,
+      "learning_rate": 1e-05,
+      "loss": 0.1215,
+      "step": 26000
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.30491577861808183,
+      "eval_f1_macro": 0.7202747551284554,
+      "eval_f1_micro": 0.8192505510653931,
+      "eval_loss": 0.12370884418487549,
+      "eval_roc_auc": 0.8806645630588985,
+      "eval_runtime": 529.0949,
+      "eval_samples_per_second": 5.498,
+      "eval_steps_per_second": 0.172,
+      "learning_rate": 1e-05,
+      "step": 26208
+    },
+    {
+      "epoch": 97.0,
+      "eval_accuracy": 0.3007906497078034,
+      "eval_f1_macro": 0.7212605213289621,
+      "eval_f1_micro": 0.8185695138296577,
+      "eval_loss": 0.12347108125686646,
+      "eval_roc_auc": 0.8817785574346272,
+      "eval_runtime": 536.573,
+      "eval_samples_per_second": 5.421,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 26481
+    },
+    {
+      "epoch": 97.06959706959707,
+      "grad_norm": 0.42561525106430054,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1211,
+      "step": 26500
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 0.3038844963905122,
+      "eval_f1_macro": 0.7173148781861652,
+      "eval_f1_micro": 0.8167741405511973,
+      "eval_loss": 0.12309076637029648,
+      "eval_roc_auc": 0.8774588974005779,
+      "eval_runtime": 542.2112,
+      "eval_samples_per_second": 5.365,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 26754
+    },
+    {
+      "epoch": 98.9010989010989,
+      "grad_norm": 0.3780280351638794,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1202,
+      "step": 27000
+    },
+    {
+      "epoch": 99.0,
+      "eval_accuracy": 0.30216569267789617,
+      "eval_f1_macro": 0.7265958923493796,
+      "eval_f1_micro": 0.8195458231954581,
+      "eval_loss": 0.12337860465049744,
+      "eval_roc_auc": 0.8827991597222147,
+      "eval_runtime": 542.1069,
+      "eval_samples_per_second": 5.366,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 27027
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.3025094534204194,
+      "eval_f1_macro": 0.721153078194628,
+      "eval_f1_micro": 0.8176836250613447,
+      "eval_loss": 0.12339676916599274,
+      "eval_roc_auc": 0.8792346757035974,
+      "eval_runtime": 536.027,
+      "eval_samples_per_second": 5.427,
+      "eval_steps_per_second": 0.17,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 27300
+    },
+    {
+      "epoch": 100.73260073260073,
+      "grad_norm": 0.2755577862262726,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1202,
+      "step": 27500
+    },
+    {
+      "epoch": 101.0,
+      "eval_accuracy": 0.3007906497078034,
+      "eval_f1_macro": 0.727514273407078,
+      "eval_f1_micro": 0.8195522327414572,
+      "eval_loss": 0.12300820648670197,
+      "eval_roc_auc": 0.8822068193069091,
+      "eval_runtime": 540.6402,
+      "eval_samples_per_second": 5.381,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 27573
+    },
+    {
+      "epoch": 102.0,
+      "eval_accuracy": 0.30147817119284975,
+      "eval_f1_macro": 0.7137375786593034,
+      "eval_f1_micro": 0.8154413898909484,
+      "eval_loss": 0.12340469658374786,
+      "eval_roc_auc": 0.8739457087179753,
+      "eval_runtime": 543.6517,
+      "eval_samples_per_second": 5.351,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 27846
+    },
+    {
+      "epoch": 102.56410256410257,
+      "grad_norm": 0.41754451394081116,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1212,
+      "step": 28000
+    },
+    {
+      "epoch": 103.0,
+      "eval_accuracy": 0.29941560673771056,
+      "eval_f1_macro": 0.7145427089697738,
+      "eval_f1_micro": 0.8163972286374134,
+      "eval_loss": 0.12386961281299591,
+      "eval_roc_auc": 0.8760534147703873,
+      "eval_runtime": 542.2436,
+      "eval_samples_per_second": 5.365,
+      "eval_steps_per_second": 0.168,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 28119
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.30147817119284975,
+      "eval_f1_macro": 0.7188862048208717,
+      "eval_f1_micro": 0.8170896715732502,
+      "eval_loss": 0.1235337182879448,
+      "eval_roc_auc": 0.8781419368610816,
+      "eval_runtime": 543.5285,
+      "eval_samples_per_second": 5.352,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 28392
+    },
+    {
+      "epoch": 104.3956043956044,
+      "grad_norm": 0.33403730392456055,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1205,
+      "step": 28500
+    },
+    {
+      "epoch": 105.0,
+      "eval_accuracy": 0.301821931935373,
+      "eval_f1_macro": 0.7225140266508299,
+      "eval_f1_micro": 0.8191040415516962,
+      "eval_loss": 0.12342803180217743,
+      "eval_roc_auc": 0.8823571418087561,
+      "eval_runtime": 543.3377,
+      "eval_samples_per_second": 5.354,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 28665
+    },
+    {
+      "epoch": 106.0,
+      "eval_accuracy": 0.30216569267789617,
+      "eval_f1_macro": 0.7182648261775325,
+      "eval_f1_micro": 0.8179164977705716,
+      "eval_loss": 0.12395947426557541,
+      "eval_roc_auc": 0.8820072730405425,
+      "eval_runtime": 543.5076,
+      "eval_samples_per_second": 5.352,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 28938
+    },
+    {
+      "epoch": 106.22710622710623,
+      "grad_norm": 0.2938772439956665,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1209,
+      "step": 29000
+    },
+    {
+      "epoch": 107.0,
+      "eval_accuracy": 0.30147817119284975,
+      "eval_f1_macro": 0.7269935921863244,
+      "eval_f1_micro": 0.8188311688311688,
+      "eval_loss": 0.1234135553240776,
+      "eval_roc_auc": 0.882155731128044,
+      "eval_runtime": 539.5012,
+      "eval_samples_per_second": 5.392,
+      "eval_steps_per_second": 0.169,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 29211
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.29975936748023374,
+      "eval_f1_macro": 0.722601561126108,
+      "eval_f1_micro": 0.8162340337865678,
+      "eval_loss": 0.12344102561473846,
+      "eval_roc_auc": 0.8762293849402418,
+      "eval_runtime": 553.8091,
+      "eval_samples_per_second": 5.253,
+      "eval_steps_per_second": 0.164,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 29484
+    },
+    {
+      "epoch": 108.05860805860806,
+      "grad_norm": 0.3646715581417084,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.1201,
+      "step": 29500
+    },
+    {
+      "epoch": 109.0,
+      "eval_accuracy": 0.303540735647989,
+      "eval_f1_macro": 0.7257459935415149,
+      "eval_f1_micro": 0.8215820979470492,
+      "eval_loss": 0.12361280620098114,
+      "eval_roc_auc": 0.886760415710266,
+      "eval_runtime": 547.1195,
+      "eval_samples_per_second": 5.317,
+      "eval_steps_per_second": 0.166,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 29757
+    },
+    {
+      "epoch": 109.89010989010988,
+      "grad_norm": 0.3803616464138031,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.1205,
+      "step": 30000
+    },
+    {
+      "epoch": 110.0,
+      "eval_accuracy": 0.3031969749054658,
+      "eval_f1_macro": 0.7232171570839454,
+      "eval_f1_micro": 0.8204050284975141,
+      "eval_loss": 0.12370219826698303,
+      "eval_roc_auc": 0.8842430102758414,
+      "eval_runtime": 543.9694,
+      "eval_samples_per_second": 5.348,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 30030
+    },
+    {
+      "epoch": 111.0,
+      "eval_accuracy": 0.305259539360605,
+      "eval_f1_macro": 0.7223581742811798,
+      "eval_f1_micro": 0.8178334500803495,
+      "eval_loss": 0.12323758751153946,
+      "eval_roc_auc": 0.8770994575688328,
+      "eval_runtime": 543.4841,
+      "eval_samples_per_second": 5.353,
+      "eval_steps_per_second": 0.167,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 30303
+    },
+    {
+      "epoch": 111.0,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 30303,
+      "total_flos": 1.4332659431723232e+21,
+      "train_loss": 0.13822040822849538,
+      "train_runtime": 237956.1018,
+      "train_samples_per_second": 5.489,
+      "train_steps_per_second": 0.172
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 40950,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.4332659431723232e+21,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}