Evaluation on the test set completed on 2024_09_18.

Browse files

Files changed (8) hide show

README.md +147 -0
all_results.json +18 -0
logs/events.out.tfevents.1726594904.datavisu4 +2 -2
logs/events.out.tfevents.1726619814.datavisu4 +3 -0
model.safetensors +1 -1
test_results.json +13 -0
train_results.json +9 -0
trainer_state.json +1438 -0

README.md ADDED Viewed

	@@ -0,0 +1,147 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-large
+tags:
+- generated_from_trainer
+model-index:
+- name: drone-DinoVdeau-large-2024_09_17-batch-size64_epochs100_freeze
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# drone-DinoVdeau-large-2024_09_17-batch-size64_epochs100_freeze
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.3578
+- Mse: 0.0378
+- Rmse: 0.1943
+- Mae: 0.1288
+- R2: 0.4008
+- Explained Variance: 0.4014
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 64
+- eval_batch_size: 64
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 100
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | Mse    | Rmse   | Mae    | R2     | Explained Variance | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:------:|:------:|:------:|:------:|:------------------:|:------:|
+| No log        | 1.0   | 181   | 0.3858          | 0.0464 | 0.2153 | 0.1571 | 0.2624 | 0.2805             | 0.001  |
+| No log        | 2.0   | 362   | 0.3764          | 0.0440 | 0.2097 | 0.1467 | 0.3121 | 0.3209             | 0.001  |
+| 0.4473        | 3.0   | 543   | 0.3716          | 0.0425 | 0.2062 | 0.1450 | 0.3319 | 0.3394             | 0.001  |
+| 0.4473        | 4.0   | 724   | 0.3673          | 0.0410 | 0.2024 | 0.1395 | 0.3548 | 0.3566             | 0.001  |
+| 0.4473        | 5.0   | 905   | 0.3692          | 0.0419 | 0.2046 | 0.1393 | 0.3425 | 0.3494             | 0.001  |
+| 0.3892        | 6.0   | 1086  | 0.3673          | 0.0409 | 0.2022 | 0.1412 | 0.3554 | 0.3590             | 0.001  |
+| 0.3892        | 7.0   | 1267  | 0.3681          | 0.0415 | 0.2038 | 0.1408 | 0.3457 | 0.3499             | 0.001  |
+| 0.3892        | 8.0   | 1448  | 0.3656          | 0.0406 | 0.2015 | 0.1389 | 0.3596 | 0.3642             | 0.001  |
+| 0.3855        | 9.0   | 1629  | 0.3659          | 0.0408 | 0.2019 | 0.1344 | 0.3555 | 0.3613             | 0.001  |
+| 0.3855        | 10.0  | 1810  | 0.3666          | 0.0409 | 0.2023 | 0.1384 | 0.3533 | 0.3562             | 0.001  |
+| 0.3855        | 11.0  | 1991  | 0.3666          | 0.0409 | 0.2022 | 0.1366 | 0.3550 | 0.3574             | 0.001  |
+| 0.3816        | 12.0  | 2172  | 0.3663          | 0.0409 | 0.2021 | 0.1396 | 0.3587 | 0.3598             | 0.001  |
+| 0.3816        | 13.0  | 2353  | 0.3632          | 0.0398 | 0.1995 | 0.1361 | 0.3697 | 0.3705             | 0.001  |
+| 0.381         | 14.0  | 2534  | 0.3669          | 0.0410 | 0.2024 | 0.1423 | 0.3562 | 0.3628             | 0.001  |
+| 0.381         | 15.0  | 2715  | 0.3645          | 0.0404 | 0.2009 | 0.1395 | 0.3620 | 0.3645             | 0.001  |
+| 0.381         | 16.0  | 2896  | 0.3639          | 0.0400 | 0.2000 | 0.1357 | 0.3695 | 0.3715             | 0.001  |
+| 0.3811        | 17.0  | 3077  | 0.3667          | 0.0406 | 0.2016 | 0.1413 | 0.3622 | 0.3728             | 0.001  |
+| 0.3811        | 18.0  | 3258  | 0.3632          | 0.0398 | 0.1995 | 0.1368 | 0.3695 | 0.3705             | 0.001  |
+| 0.3811        | 19.0  | 3439  | 0.3630          | 0.0397 | 0.1994 | 0.1354 | 0.3719 | 0.3734             | 0.001  |
+| 0.3792        | 20.0  | 3620  | 0.3649          | 0.0405 | 0.2013 | 0.1349 | 0.3587 | 0.3622             | 0.001  |
+| 0.3792        | 21.0  | 3801  | 0.3665          | 0.0407 | 0.2017 | 0.1361 | 0.3585 | 0.3631             | 0.001  |
+| 0.3792        | 22.0  | 3982  | 0.3648          | 0.0400 | 0.2000 | 0.1369 | 0.3678 | 0.3705             | 0.001  |
+| 0.3808        | 23.0  | 4163  | 0.3633          | 0.0398 | 0.1996 | 0.1356 | 0.3705 | 0.3736             | 0.001  |
+| 0.3808        | 24.0  | 4344  | 0.3632          | 0.0397 | 0.1991 | 0.1393 | 0.3725 | 0.3761             | 0.001  |
+| 0.3796        | 25.0  | 4525  | 0.3638          | 0.0399 | 0.1997 | 0.1381 | 0.3698 | 0.3734             | 0.001  |
+| 0.3796        | 26.0  | 4706  | 0.3607          | 0.0390 | 0.1975 | 0.1329 | 0.3818 | 0.3836             | 0.0001 |
+| 0.3796        | 27.0  | 4887  | 0.3600          | 0.0387 | 0.1967 | 0.1353 | 0.3863 | 0.3878             | 0.0001 |
+| 0.3765        | 28.0  | 5068  | 0.3592          | 0.0384 | 0.1961 | 0.1337 | 0.3894 | 0.3904             | 0.0001 |
+| 0.3765        | 29.0  | 5249  | 0.3595          | 0.0385 | 0.1961 | 0.1350 | 0.3892 | 0.3915             | 0.0001 |
+| 0.3765        | 30.0  | 5430  | 0.3598          | 0.0386 | 0.1965 | 0.1350 | 0.3876 | 0.3893             | 0.0001 |
+| 0.373         | 31.0  | 5611  | 0.3587          | 0.0384 | 0.1959 | 0.1317 | 0.3907 | 0.3921             | 0.0001 |
+| 0.373         | 32.0  | 5792  | 0.3584          | 0.0383 | 0.1956 | 0.1326 | 0.3928 | 0.3932             | 0.0001 |
+| 0.373         | 33.0  | 5973  | 0.3581          | 0.0381 | 0.1953 | 0.1311 | 0.3945 | 0.3953             | 0.0001 |
+| 0.3735        | 34.0  | 6154  | 0.3580          | 0.0381 | 0.1951 | 0.1323 | 0.3953 | 0.3967             | 0.0001 |
+| 0.3735        | 35.0  | 6335  | 0.3579          | 0.0381 | 0.1951 | 0.1322 | 0.3949 | 0.3954             | 0.0001 |
+| 0.3711        | 36.0  | 6516  | 0.3592          | 0.0385 | 0.1963 | 0.1345 | 0.3895 | 0.3899             | 0.0001 |
+| 0.3711        | 37.0  | 6697  | 0.3575          | 0.0380 | 0.1949 | 0.1313 | 0.3966 | 0.3970             | 0.0001 |
+| 0.3711        | 38.0  | 6878  | 0.3582          | 0.0383 | 0.1956 | 0.1326 | 0.3923 | 0.3936             | 0.0001 |
+| 0.3705        | 39.0  | 7059  | 0.3576          | 0.0380 | 0.1948 | 0.1313 | 0.3963 | 0.3965             | 0.0001 |
+| 0.3705        | 40.0  | 7240  | 0.3575          | 0.0379 | 0.1947 | 0.1333 | 0.3980 | 0.4000             | 0.0001 |
+| 0.3705        | 41.0  | 7421  | 0.3580          | 0.0381 | 0.1952 | 0.1317 | 0.3956 | 0.3988             | 0.0001 |
+| 0.3704        | 42.0  | 7602  | 0.3575          | 0.0380 | 0.1949 | 0.1330 | 0.3970 | 0.3986             | 0.0001 |
+| 0.3704        | 43.0  | 7783  | 0.3569          | 0.0377 | 0.1942 | 0.1325 | 0.4008 | 0.4020             | 0.0001 |
+| 0.3704        | 44.0  | 7964  | 0.3568          | 0.0377 | 0.1942 | 0.1305 | 0.4009 | 0.4026             | 0.0001 |
+| 0.3695        | 45.0  | 8145  | 0.3567          | 0.0376 | 0.1940 | 0.1319 | 0.4021 | 0.4033             | 0.0001 |
+| 0.3695        | 46.0  | 8326  | 0.3569          | 0.0377 | 0.1943 | 0.1298 | 0.3998 | 0.4015             | 0.0001 |
+| 0.369         | 47.0  | 8507  | 0.3574          | 0.0380 | 0.1948 | 0.1292 | 0.3973 | 0.3996             | 0.0001 |
+| 0.369         | 48.0  | 8688  | 0.3563          | 0.0376 | 0.1940 | 0.1302 | 0.4019 | 0.4041             | 0.0001 |
+| 0.369         | 49.0  | 8869  | 0.3566          | 0.0377 | 0.1940 | 0.1306 | 0.4011 | 0.4024             | 0.0001 |
+| 0.3691        | 50.0  | 9050  | 0.3571          | 0.0378 | 0.1944 | 0.1322 | 0.3998 | 0.4015             | 0.0001 |
+| 0.3691        | 51.0  | 9231  | 0.3584          | 0.0381 | 0.1952 | 0.1335 | 0.3958 | 0.4021             | 0.0001 |
+| 0.3691        | 52.0  | 9412  | 0.3561          | 0.0375 | 0.1936 | 0.1309 | 0.4042 | 0.4045             | 0.0001 |
+| 0.3677        | 53.0  | 9593  | 0.3565          | 0.0376 | 0.1939 | 0.1315 | 0.4026 | 0.4053             | 0.0001 |
+| 0.3677        | 54.0  | 9774  | 0.3567          | 0.0377 | 0.1943 | 0.1316 | 0.4011 | 0.4018             | 0.0001 |
+| 0.3677        | 55.0  | 9955  | 0.3565          | 0.0376 | 0.1939 | 0.1292 | 0.4026 | 0.4052             | 0.0001 |
+| 0.3684        | 56.0  | 10136 | 0.3567          | 0.0377 | 0.1941 | 0.1279 | 0.4017 | 0.4046             | 0.0001 |
+| 0.3684        | 57.0  | 10317 | 0.3562          | 0.0376 | 0.1938 | 0.1294 | 0.4032 | 0.4049             | 0.0001 |
+| 0.3684        | 58.0  | 10498 | 0.3565          | 0.0376 | 0.1938 | 0.1299 | 0.4036 | 0.4062             | 0.0001 |
+| 0.368         | 59.0  | 10679 | 0.3559          | 0.0375 | 0.1936 | 0.1292 | 0.4047 | 0.4061             | 1e-05  |
+| 0.368         | 60.0  | 10860 | 0.3559          | 0.0374 | 0.1934 | 0.1295 | 0.4060 | 0.4082             | 1e-05  |
+| 0.3664        | 61.0  | 11041 | 0.3555          | 0.0373 | 0.1932 | 0.1304 | 0.4072 | 0.4075             | 1e-05  |
+| 0.3664        | 62.0  | 11222 | 0.3565          | 0.0376 | 0.1939 | 0.1317 | 0.4036 | 0.4058             | 1e-05  |
+| 0.3664        | 63.0  | 11403 | 0.3556          | 0.0373 | 0.1930 | 0.1293 | 0.4075 | 0.4087             | 1e-05  |
+| 0.366         | 64.0  | 11584 | 0.3554          | 0.0373 | 0.1931 | 0.1296 | 0.4077 | 0.4089             | 1e-05  |
+| 0.366         | 65.0  | 11765 | 0.3560          | 0.0375 | 0.1938 | 0.1307 | 0.4049 | 0.4059             | 1e-05  |
+| 0.366         | 66.0  | 11946 | 0.3553          | 0.0372 | 0.1930 | 0.1300 | 0.4080 | 0.4085             | 1e-05  |
+| 0.3654        | 67.0  | 12127 | 0.3554          | 0.0373 | 0.1930 | 0.1299 | 0.4078 | 0.4082             | 1e-05  |
+| 0.3654        | 68.0  | 12308 | 0.3556          | 0.0374 | 0.1934 | 0.1302 | 0.4059 | 0.4074             | 1e-05  |
+| 0.3654        | 69.0  | 12489 | 0.3554          | 0.0373 | 0.1930 | 0.1298 | 0.4083 | 0.4086             | 1e-05  |
+| 0.3658        | 70.0  | 12670 | 0.3559          | 0.0374 | 0.1933 | 0.1307 | 0.4066 | 0.4094             | 1e-05  |
+| 0.3658        | 71.0  | 12851 | 0.3557          | 0.0374 | 0.1933 | 0.1296 | 0.4070 | 0.4073             | 1e-05  |
+| 0.366         | 72.0  | 13032 | 0.3557          | 0.0373 | 0.1932 | 0.1303 | 0.4070 | 0.4084             | 1e-05  |
+| 0.366         | 73.0  | 13213 | 0.3552          | 0.0372 | 0.1929 | 0.1299 | 0.4082 | 0.4090             | 0.0000 |
+| 0.366         | 74.0  | 13394 | 0.3552          | 0.0372 | 0.1929 | 0.1281 | 0.4087 | 0.4094             | 0.0000 |
+| 0.3654        | 75.0  | 13575 | 0.3558          | 0.0375 | 0.1936 | 0.1303 | 0.4047 | 0.4057             | 0.0000 |
+| 0.3654        | 76.0  | 13756 | 0.3555          | 0.0374 | 0.1933 | 0.1277 | 0.4061 | 0.4084             | 0.0000 |
+| 0.3654        | 77.0  | 13937 | 0.3562          | 0.0376 | 0.1938 | 0.1321 | 0.4042 | 0.4046             | 0.0000 |
+| 0.3663        | 78.0  | 14118 | 0.3553          | 0.0372 | 0.1929 | 0.1306 | 0.4087 | 0.4090             | 0.0000 |
+| 0.3663        | 79.0  | 14299 | 0.3569          | 0.0379 | 0.1947 | 0.1310 | 0.3999 | 0.4020             | 0.0000 |
+| 0.3663        | 80.0  | 14480 | 0.3563          | 0.0375 | 0.1936 | 0.1311 | 0.4052 | 0.4058             | 0.0000 |
+| 0.3655        | 81.0  | 14661 | 0.3555          | 0.0373 | 0.1930 | 0.1308 | 0.4079 | 0.4092             | 0.0000 |
+| 0.3655        | 82.0  | 14842 | 0.3556          | 0.0373 | 0.1932 | 0.1309 | 0.4072 | 0.4087             | 0.0000 |
+| 0.3651        | 83.0  | 15023 | 0.3557          | 0.0373 | 0.1932 | 0.1304 | 0.4074 | 0.4102             | 0.0000 |
+| 0.3651        | 84.0  | 15204 | 0.3558          | 0.0374 | 0.1934 | 0.1306 | 0.4063 | 0.4082             | 0.0000 |
+### Framework versions
+- Transformers 4.41.1
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 84.0,
+    "eval_explained_variance": 0.40141621002784145,
+    "eval_loss": 0.35779908299446106,
+    "eval_mae": 0.12878435850143433,
+    "eval_mse": 0.0377507321536541,
+    "eval_r2": 0.4007782891079936,
+    "eval_rmse": 0.1942954808473587,
+    "eval_runtime": 66.1225,
+    "eval_samples_per_second": 58.074,
+    "eval_steps_per_second": 0.907,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 2.180798470217171e+19,
+    "train_loss": 0.37467605181350044,
+    "train_runtime": 24668.9414,
+    "train_samples_per_second": 46.707,
+    "train_steps_per_second": 0.734
+}

logs/events.out.tfevents.1726594904.datavisu4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65a371da58318f87c91bd5c57ea3c9bd9383076e015403dd00c0b033c473b0af
-size 60082

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a34a7eb1d4d90ba5a31e1bc44c63418ed57e553753859abe96efcfba95c2474
+size 61604

logs/events.out.tfevents.1726619814.datavisu4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:957c57852743b5787cc14f19648bf7fc3bd61872d536e9bbec1281ea7a97e054
+size 135

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fa68f2e0bc790aaf6d22a03251ddd26f951327483ad455757fbaba1c5b508ed
 size 1222528676

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6ecd9a2842a6f0f53514690399f6362e6e3313a6cce5dc7b8f077c1f575284b
 size 1222528676

test_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 84.0,
+    "eval_explained_variance": 0.40141621002784145,
+    "eval_loss": 0.35779908299446106,
+    "eval_mae": 0.12878435850143433,
+    "eval_mse": 0.0377507321536541,
+    "eval_r2": 0.4007782891079936,
+    "eval_rmse": 0.1942954808473587,
+    "eval_runtime": 66.1225,
+    "eval_samples_per_second": 58.074,
+    "eval_steps_per_second": 0.907,
+    "learning_rate": 1.0000000000000002e-07
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 84.0,
+    "learning_rate": 1.0000000000000002e-07,
+    "total_flos": 2.180798470217171e+19,
+    "train_loss": 0.37467605181350044,
+    "train_runtime": 24668.9414,
+    "train_samples_per_second": 46.707,
+    "train_steps_per_second": 0.734
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1438 @@

+{
+  "best_metric": 0.35516515374183655,
+  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/drone/drone-DinoVdeau-large-2024_09_17-batch-size64_epochs100_freeze/checkpoint-13394",
+  "epoch": 84.0,
+  "eval_steps": 500,
+  "global_step": 15204,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_explained_variance": 0.28046968350043666,
+      "eval_loss": 0.38582414388656616,
+      "eval_mae": 0.15708860754966736,
+      "eval_mse": 0.04635250195860863,
+      "eval_r2": 0.26238919671070565,
+      "eval_rmse": 0.21529631316661835,
+      "eval_runtime": 68.5532,
+      "eval_samples_per_second": 56.073,
+      "eval_steps_per_second": 0.89,
+      "learning_rate": 0.001,
+      "step": 181
+    },
+    {
+      "epoch": 2.0,
+      "eval_explained_variance": 0.32091750548436093,
+      "eval_loss": 0.37635815143585205,
+      "eval_mae": 0.1467229723930359,
+      "eval_mse": 0.04398971050977707,
+      "eval_r2": 0.3120521114085856,
+      "eval_rmse": 0.20973724126815796,
+      "eval_runtime": 65.3616,
+      "eval_samples_per_second": 58.811,
+      "eval_steps_per_second": 0.933,
+      "learning_rate": 0.001,
+      "step": 362
+    },
+    {
+      "epoch": 2.7624309392265194,
+      "grad_norm": 0.29469817876815796,
+      "learning_rate": 0.001,
+      "loss": 0.4473,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_explained_variance": 0.3393913645010728,
+      "eval_loss": 0.3715941309928894,
+      "eval_mae": 0.1450481116771698,
+      "eval_mse": 0.04250793904066086,
+      "eval_r2": 0.33185449725151883,
+      "eval_rmse": 0.20617453753948212,
+      "eval_runtime": 65.4448,
+      "eval_samples_per_second": 58.737,
+      "eval_steps_per_second": 0.932,
+      "learning_rate": 0.001,
+      "step": 543
+    },
+    {
+      "epoch": 4.0,
+      "eval_explained_variance": 0.35663692767803484,
+      "eval_loss": 0.3672849237918854,
+      "eval_mae": 0.1395464986562729,
+      "eval_mse": 0.0409623458981514,
+      "eval_r2": 0.35477505001012255,
+      "eval_rmse": 0.20239156484603882,
+      "eval_runtime": 65.8223,
+      "eval_samples_per_second": 58.4,
+      "eval_steps_per_second": 0.927,
+      "learning_rate": 0.001,
+      "step": 724
+    },
+    {
+      "epoch": 5.0,
+      "eval_explained_variance": 0.3493932577279898,
+      "eval_loss": 0.3692065477371216,
+      "eval_mae": 0.1393202394247055,
+      "eval_mse": 0.041857048869132996,
+      "eval_r2": 0.3425061497286567,
+      "eval_rmse": 0.20458994805812836,
+      "eval_runtime": 66.3389,
+      "eval_samples_per_second": 57.945,
+      "eval_steps_per_second": 0.92,
+      "learning_rate": 0.001,
+      "step": 905
+    },
+    {
+      "epoch": 5.524861878453039,
+      "grad_norm": 0.19042304158210754,
+      "learning_rate": 0.001,
+      "loss": 0.3892,
+      "step": 1000
+    },
+    {
+      "epoch": 6.0,
+      "eval_explained_variance": 0.35904277287996733,
+      "eval_loss": 0.3672534227371216,
+      "eval_mae": 0.14119164645671844,
+      "eval_mse": 0.040877003222703934,
+      "eval_r2": 0.3553590945142445,
+      "eval_rmse": 0.2021806240081787,
+      "eval_runtime": 65.5836,
+      "eval_samples_per_second": 58.612,
+      "eval_steps_per_second": 0.93,
+      "learning_rate": 0.001,
+      "step": 1086
+    },
+    {
+      "epoch": 7.0,
+      "eval_explained_variance": 0.34988729311869693,
+      "eval_loss": 0.3680865168571472,
+      "eval_mae": 0.14079739153385162,
+      "eval_mse": 0.04153257608413696,
+      "eval_r2": 0.3456613343062778,
+      "eval_rmse": 0.2037954330444336,
+      "eval_runtime": 64.4017,
+      "eval_samples_per_second": 59.688,
+      "eval_steps_per_second": 0.947,
+      "learning_rate": 0.001,
+      "step": 1267
+    },
+    {
+      "epoch": 8.0,
+      "eval_explained_variance": 0.36423414945602417,
+      "eval_loss": 0.365603506565094,
+      "eval_mae": 0.13892073929309845,
+      "eval_mse": 0.04058730974793434,
+      "eval_r2": 0.35962535995096967,
+      "eval_rmse": 0.20146292448043823,
+      "eval_runtime": 64.831,
+      "eval_samples_per_second": 59.293,
+      "eval_steps_per_second": 0.941,
+      "learning_rate": 0.001,
+      "step": 1448
+    },
+    {
+      "epoch": 8.287292817679559,
+      "grad_norm": 0.1760077178478241,
+      "learning_rate": 0.001,
+      "loss": 0.3855,
+      "step": 1500
+    },
+    {
+      "epoch": 9.0,
+      "eval_explained_variance": 0.3612723258825449,
+      "eval_loss": 0.36585840582847595,
+      "eval_mae": 0.13438531756401062,
+      "eval_mse": 0.04076695442199707,
+      "eval_r2": 0.3554776353070419,
+      "eval_rmse": 0.20190827548503876,
+      "eval_runtime": 64.4706,
+      "eval_samples_per_second": 59.624,
+      "eval_steps_per_second": 0.946,
+      "learning_rate": 0.001,
+      "step": 1629
+    },
+    {
+      "epoch": 10.0,
+      "eval_explained_variance": 0.3561701728747441,
+      "eval_loss": 0.366574227809906,
+      "eval_mae": 0.13837845623493195,
+      "eval_mse": 0.04093795642256737,
+      "eval_r2": 0.3533183127533612,
+      "eval_rmse": 0.2023313045501709,
+      "eval_runtime": 63.2978,
+      "eval_samples_per_second": 60.729,
+      "eval_steps_per_second": 0.964,
+      "learning_rate": 0.001,
+      "step": 1810
+    },
+    {
+      "epoch": 11.0,
+      "eval_explained_variance": 0.3574172487625709,
+      "eval_loss": 0.36660775542259216,
+      "eval_mae": 0.13663478195667267,
+      "eval_mse": 0.04090488329529762,
+      "eval_r2": 0.35496352056496683,
+      "eval_rmse": 0.20224955677986145,
+      "eval_runtime": 66.2827,
+      "eval_samples_per_second": 57.994,
+      "eval_steps_per_second": 0.92,
+      "learning_rate": 0.001,
+      "step": 1991
+    },
+    {
+      "epoch": 11.049723756906078,
+      "grad_norm": 0.14891982078552246,
+      "learning_rate": 0.001,
+      "loss": 0.3816,
+      "step": 2000
+    },
+    {
+      "epoch": 12.0,
+      "eval_explained_variance": 0.3598099580177894,
+      "eval_loss": 0.36626219749450684,
+      "eval_mae": 0.13958622515201569,
+      "eval_mse": 0.04085636883974075,
+      "eval_r2": 0.35871773520484396,
+      "eval_rmse": 0.20212958753108978,
+      "eval_runtime": 64.7339,
+      "eval_samples_per_second": 59.382,
+      "eval_steps_per_second": 0.942,
+      "learning_rate": 0.001,
+      "step": 2172
+    },
+    {
+      "epoch": 13.0,
+      "eval_explained_variance": 0.37047534722548264,
+      "eval_loss": 0.3631901741027832,
+      "eval_mae": 0.1360856592655182,
+      "eval_mse": 0.03979066386818886,
+      "eval_r2": 0.3696611807758026,
+      "eval_rmse": 0.1994759738445282,
+      "eval_runtime": 65.3689,
+      "eval_samples_per_second": 58.805,
+      "eval_steps_per_second": 0.933,
+      "learning_rate": 0.001,
+      "step": 2353
+    },
+    {
+      "epoch": 13.812154696132596,
+      "grad_norm": 0.14235170185565948,
+      "learning_rate": 0.001,
+      "loss": 0.381,
+      "step": 2500
+    },
+    {
+      "epoch": 14.0,
+      "eval_explained_variance": 0.36284926304450404,
+      "eval_loss": 0.36694806814193726,
+      "eval_mae": 0.14229656755924225,
+      "eval_mse": 0.04098258540034294,
+      "eval_r2": 0.356153731540797,
+      "eval_rmse": 0.20244155824184418,
+      "eval_runtime": 64.126,
+      "eval_samples_per_second": 59.945,
+      "eval_steps_per_second": 0.951,
+      "learning_rate": 0.001,
+      "step": 2534
+    },
+    {
+      "epoch": 15.0,
+      "eval_explained_variance": 0.36449302159822905,
+      "eval_loss": 0.3644973933696747,
+      "eval_mae": 0.1395292580127716,
+      "eval_mse": 0.04036581516265869,
+      "eval_r2": 0.36203359510531696,
+      "eval_rmse": 0.2009124606847763,
+      "eval_runtime": 64.0305,
+      "eval_samples_per_second": 60.034,
+      "eval_steps_per_second": 0.953,
+      "learning_rate": 0.001,
+      "step": 2715
+    },
+    {
+      "epoch": 16.0,
+      "eval_explained_variance": 0.37152041838719296,
+      "eval_loss": 0.36393943428993225,
+      "eval_mae": 0.13569381833076477,
+      "eval_mse": 0.039987124502658844,
+      "eval_r2": 0.36948082804864185,
+      "eval_rmse": 0.19996780157089233,
+      "eval_runtime": 63.9139,
+      "eval_samples_per_second": 60.143,
+      "eval_steps_per_second": 0.954,
+      "learning_rate": 0.001,
+      "step": 2896
+    },
+    {
+      "epoch": 16.574585635359117,
+      "grad_norm": 0.13048891723155975,
+      "learning_rate": 0.001,
+      "loss": 0.3811,
+      "step": 3000
+    },
+    {
+      "epoch": 17.0,
+      "eval_explained_variance": 0.37284482900912946,
+      "eval_loss": 0.36665406823158264,
+      "eval_mae": 0.14128881692886353,
+      "eval_mse": 0.04064851254224777,
+      "eval_r2": 0.3621847777710853,
+      "eval_rmse": 0.20161476731300354,
+      "eval_runtime": 66.0408,
+      "eval_samples_per_second": 58.206,
+      "eval_steps_per_second": 0.924,
+      "learning_rate": 0.001,
+      "step": 3077
+    },
+    {
+      "epoch": 18.0,
+      "eval_explained_variance": 0.3705295782822829,
+      "eval_loss": 0.36318618059158325,
+      "eval_mae": 0.13683417439460754,
+      "eval_mse": 0.03981361910700798,
+      "eval_r2": 0.369508628045091,
+      "eval_rmse": 0.19953350722789764,
+      "eval_runtime": 63.7575,
+      "eval_samples_per_second": 60.291,
+      "eval_steps_per_second": 0.957,
+      "learning_rate": 0.001,
+      "step": 3258
+    },
+    {
+      "epoch": 19.0,
+      "eval_explained_variance": 0.3733598177249615,
+      "eval_loss": 0.36302879452705383,
+      "eval_mae": 0.13539017736911774,
+      "eval_mse": 0.03974781930446625,
+      "eval_r2": 0.3718927441003872,
+      "eval_rmse": 0.19936855137348175,
+      "eval_runtime": 63.4414,
+      "eval_samples_per_second": 60.591,
+      "eval_steps_per_second": 0.962,
+      "learning_rate": 0.001,
+      "step": 3439
+    },
+    {
+      "epoch": 19.337016574585636,
+      "grad_norm": 0.13633792102336884,
+      "learning_rate": 0.001,
+      "loss": 0.3792,
+      "step": 3500
+    },
+    {
+      "epoch": 20.0,
+      "eval_explained_variance": 0.3622324833503136,
+      "eval_loss": 0.36489424109458923,
+      "eval_mae": 0.13486731052398682,
+      "eval_mse": 0.04052112251520157,
+      "eval_r2": 0.35869592759647334,
+      "eval_rmse": 0.20129859447479248,
+      "eval_runtime": 64.295,
+      "eval_samples_per_second": 59.787,
+      "eval_steps_per_second": 0.949,
+      "learning_rate": 0.001,
+      "step": 3620
+    },
+    {
+      "epoch": 21.0,
+      "eval_explained_variance": 0.3630923858055702,
+      "eval_loss": 0.3665030300617218,
+      "eval_mae": 0.13610774278640747,
+      "eval_mse": 0.040700096637010574,
+      "eval_r2": 0.3584834523421166,
+      "eval_rmse": 0.20174264907836914,
+      "eval_runtime": 64.1739,
+      "eval_samples_per_second": 59.9,
+      "eval_steps_per_second": 0.951,
+      "learning_rate": 0.001,
+      "step": 3801
+    },
+    {
+      "epoch": 22.0,
+      "eval_explained_variance": 0.3704591485170218,
+      "eval_loss": 0.3647814095020294,
+      "eval_mae": 0.1368531733751297,
+      "eval_mse": 0.03999844938516617,
+      "eval_r2": 0.3677615209740873,
+      "eval_rmse": 0.19999612867832184,
+      "eval_runtime": 63.5961,
+      "eval_samples_per_second": 60.444,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.001,
+      "step": 3982
+    },
+    {
+      "epoch": 22.099447513812155,
+      "grad_norm": 0.1797100454568863,
+      "learning_rate": 0.001,
+      "loss": 0.3808,
+      "step": 4000
+    },
+    {
+      "epoch": 23.0,
+      "eval_explained_variance": 0.3736427976534917,
+      "eval_loss": 0.3633384704589844,
+      "eval_mae": 0.1356455683708191,
+      "eval_mse": 0.039849139750003815,
+      "eval_r2": 0.37049292256309013,
+      "eval_rmse": 0.1996224969625473,
+      "eval_runtime": 63.5905,
+      "eval_samples_per_second": 60.449,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.001,
+      "step": 4163
+    },
+    {
+      "epoch": 24.0,
+      "eval_explained_variance": 0.3761314291220445,
+      "eval_loss": 0.3632254898548126,
+      "eval_mae": 0.13934393227100372,
+      "eval_mse": 0.03965350612998009,
+      "eval_r2": 0.3725149173190659,
+      "eval_rmse": 0.19913187623023987,
+      "eval_runtime": 63.5074,
+      "eval_samples_per_second": 60.528,
+      "eval_steps_per_second": 0.961,
+      "learning_rate": 0.001,
+      "step": 4344
+    },
+    {
+      "epoch": 24.861878453038674,
+      "grad_norm": 0.10225138068199158,
+      "learning_rate": 0.001,
+      "loss": 0.3796,
+      "step": 4500
+    },
+    {
+      "epoch": 25.0,
+      "eval_explained_variance": 0.37342833555661714,
+      "eval_loss": 0.3638208210468292,
+      "eval_mae": 0.13812901079654694,
+      "eval_mse": 0.03988226130604744,
+      "eval_r2": 0.3698107462777432,
+      "eval_rmse": 0.19970543682575226,
+      "eval_runtime": 64.082,
+      "eval_samples_per_second": 59.986,
+      "eval_steps_per_second": 0.952,
+      "learning_rate": 0.001,
+      "step": 4525
+    },
+    {
+      "epoch": 26.0,
+      "eval_explained_variance": 0.38356072627581084,
+      "eval_loss": 0.3607248365879059,
+      "eval_mae": 0.132920041680336,
+      "eval_mse": 0.03901772201061249,
+      "eval_r2": 0.3818014601715421,
+      "eval_rmse": 0.19752904772758484,
+      "eval_runtime": 63.8273,
+      "eval_samples_per_second": 60.225,
+      "eval_steps_per_second": 0.956,
+      "learning_rate": 0.0001,
+      "step": 4706
+    },
+    {
+      "epoch": 27.0,
+      "eval_explained_variance": 0.3877932016666119,
+      "eval_loss": 0.3599555194377899,
+      "eval_mae": 0.13530299067497253,
+      "eval_mse": 0.038680098950862885,
+      "eval_r2": 0.3862897971569748,
+      "eval_rmse": 0.19667257368564606,
+      "eval_runtime": 63.6171,
+      "eval_samples_per_second": 60.424,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.0001,
+      "step": 4887
+    },
+    {
+      "epoch": 27.624309392265193,
+      "grad_norm": 0.09920254349708557,
+      "learning_rate": 0.0001,
+      "loss": 0.3765,
+      "step": 5000
+    },
+    {
+      "epoch": 28.0,
+      "eval_explained_variance": 0.39040088195067185,
+      "eval_loss": 0.35923057794570923,
+      "eval_mae": 0.13371111452579498,
+      "eval_mse": 0.038444750010967255,
+      "eval_r2": 0.3893828319749203,
+      "eval_rmse": 0.19607332348823547,
+      "eval_runtime": 63.6463,
+      "eval_samples_per_second": 60.396,
+      "eval_steps_per_second": 0.958,
+      "learning_rate": 0.0001,
+      "step": 5068
+    },
+    {
+      "epoch": 29.0,
+      "eval_explained_variance": 0.39147963432165295,
+      "eval_loss": 0.3595493733882904,
+      "eval_mae": 0.13497120141983032,
+      "eval_mse": 0.03846590965986252,
+      "eval_r2": 0.3891551349793923,
+      "eval_rmse": 0.1961272805929184,
+      "eval_runtime": 63.7787,
+      "eval_samples_per_second": 60.271,
+      "eval_steps_per_second": 0.956,
+      "learning_rate": 0.0001,
+      "step": 5249
+    },
+    {
+      "epoch": 30.0,
+      "eval_explained_variance": 0.3893452011621915,
+      "eval_loss": 0.35978832840919495,
+      "eval_mae": 0.13498304784297943,
+      "eval_mse": 0.03862994909286499,
+      "eval_r2": 0.3876274861623127,
+      "eval_rmse": 0.19654503464698792,
+      "eval_runtime": 63.918,
+      "eval_samples_per_second": 60.14,
+      "eval_steps_per_second": 0.954,
+      "learning_rate": 0.0001,
+      "step": 5430
+    },
+    {
+      "epoch": 30.386740331491712,
+      "grad_norm": 0.09680859744548798,
+      "learning_rate": 0.0001,
+      "loss": 0.373,
+      "step": 5500
+    },
+    {
+      "epoch": 31.0,
+      "eval_explained_variance": 0.39206390655957735,
+      "eval_loss": 0.35871124267578125,
+      "eval_mae": 0.131711944937706,
+      "eval_mse": 0.03838532418012619,
+      "eval_r2": 0.39069464683386806,
+      "eval_rmse": 0.19592173397541046,
+      "eval_runtime": 63.6009,
+      "eval_samples_per_second": 60.439,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.0001,
+      "step": 5611
+    },
+    {
+      "epoch": 32.0,
+      "eval_explained_variance": 0.39324428943487316,
+      "eval_loss": 0.35840144753456116,
+      "eval_mae": 0.13263028860092163,
+      "eval_mse": 0.0382704883813858,
+      "eval_r2": 0.39277553504116497,
+      "eval_rmse": 0.19562844932079315,
+      "eval_runtime": 63.4174,
+      "eval_samples_per_second": 60.614,
+      "eval_steps_per_second": 0.962,
+      "learning_rate": 0.0001,
+      "step": 5792
+    },
+    {
+      "epoch": 33.0,
+      "eval_explained_variance": 0.3953018326025743,
+      "eval_loss": 0.35809990763664246,
+      "eval_mae": 0.13110357522964478,
+      "eval_mse": 0.03812328726053238,
+      "eval_r2": 0.39453575095056653,
+      "eval_rmse": 0.19525185227394104,
+      "eval_runtime": 62.9848,
+      "eval_samples_per_second": 61.031,
+      "eval_steps_per_second": 0.968,
+      "learning_rate": 0.0001,
+      "step": 5973
+    },
+    {
+      "epoch": 33.149171270718234,
+      "grad_norm": 0.10557221621274948,
+      "learning_rate": 0.0001,
+      "loss": 0.3735,
+      "step": 6000
+    },
+    {
+      "epoch": 34.0,
+      "eval_explained_variance": 0.3966822119859549,
+      "eval_loss": 0.3580343723297119,
+      "eval_mae": 0.13232208788394928,
+      "eval_mse": 0.038077060133218765,
+      "eval_r2": 0.3953078482977419,
+      "eval_rmse": 0.19513344764709473,
+      "eval_runtime": 63.9448,
+      "eval_samples_per_second": 60.114,
+      "eval_steps_per_second": 0.954,
+      "learning_rate": 0.0001,
+      "step": 6154
+    },
+    {
+      "epoch": 35.0,
+      "eval_explained_variance": 0.39542460441589355,
+      "eval_loss": 0.3578670918941498,
+      "eval_mae": 0.13223391771316528,
+      "eval_mse": 0.038055673241615295,
+      "eval_r2": 0.3949423136793632,
+      "eval_rmse": 0.19507862627506256,
+      "eval_runtime": 62.8884,
+      "eval_samples_per_second": 61.124,
+      "eval_steps_per_second": 0.97,
+      "learning_rate": 0.0001,
+      "step": 6335
+    },
+    {
+      "epoch": 35.91160220994475,
+      "grad_norm": 0.11413700878620148,
+      "learning_rate": 0.0001,
+      "loss": 0.3711,
+      "step": 6500
+    },
+    {
+      "epoch": 36.0,
+      "eval_explained_variance": 0.38986305548594546,
+      "eval_loss": 0.35921958088874817,
+      "eval_mae": 0.13451573252677917,
+      "eval_mse": 0.0385238379240036,
+      "eval_r2": 0.3895210802446932,
+      "eval_rmse": 0.19627490639686584,
+      "eval_runtime": 63.9244,
+      "eval_samples_per_second": 60.134,
+      "eval_steps_per_second": 0.954,
+      "learning_rate": 0.0001,
+      "step": 6516
+    },
+    {
+      "epoch": 37.0,
+      "eval_explained_variance": 0.39700071628277117,
+      "eval_loss": 0.35754600167274475,
+      "eval_mae": 0.13133254647254944,
+      "eval_mse": 0.037971220910549164,
+      "eval_r2": 0.3965857587136563,
+      "eval_rmse": 0.19486205279827118,
+      "eval_runtime": 63.3201,
+      "eval_samples_per_second": 60.707,
+      "eval_steps_per_second": 0.963,
+      "learning_rate": 0.0001,
+      "step": 6697
+    },
+    {
+      "epoch": 38.0,
+      "eval_explained_variance": 0.39355502220300526,
+      "eval_loss": 0.35816583037376404,
+      "eval_mae": 0.13258841633796692,
+      "eval_mse": 0.038258858025074005,
+      "eval_r2": 0.39226546341596713,
+      "eval_rmse": 0.19559872150421143,
+      "eval_runtime": 62.6934,
+      "eval_samples_per_second": 61.314,
+      "eval_steps_per_second": 0.973,
+      "learning_rate": 0.0001,
+      "step": 6878
+    },
+    {
+      "epoch": 38.67403314917127,
+      "grad_norm": 0.147694930434227,
+      "learning_rate": 0.0001,
+      "loss": 0.3705,
+      "step": 7000
+    },
+    {
+      "epoch": 39.0,
+      "eval_explained_variance": 0.3965281844139099,
+      "eval_loss": 0.3575587570667267,
+      "eval_mae": 0.1313440054655075,
+      "eval_mse": 0.03796360641717911,
+      "eval_r2": 0.39630358388937376,
+      "eval_rmse": 0.19484251737594604,
+      "eval_runtime": 62.5891,
+      "eval_samples_per_second": 61.416,
+      "eval_steps_per_second": 0.975,
+      "learning_rate": 0.0001,
+      "step": 7059
+    },
+    {
+      "epoch": 40.0,
+      "eval_explained_variance": 0.399988224873176,
+      "eval_loss": 0.3574675917625427,
+      "eval_mae": 0.13325949013233185,
+      "eval_mse": 0.03790339455008507,
+      "eval_r2": 0.3980004685467563,
+      "eval_rmse": 0.19468794763088226,
+      "eval_runtime": 63.1438,
+      "eval_samples_per_second": 60.877,
+      "eval_steps_per_second": 0.966,
+      "learning_rate": 0.0001,
+      "step": 7240
+    },
+    {
+      "epoch": 41.0,
+      "eval_explained_variance": 0.39883482914704543,
+      "eval_loss": 0.35797080397605896,
+      "eval_mae": 0.13172872364521027,
+      "eval_mse": 0.03810995817184448,
+      "eval_r2": 0.3955525420135218,
+      "eval_rmse": 0.19521771371364594,
+      "eval_runtime": 63.8253,
+      "eval_samples_per_second": 60.227,
+      "eval_steps_per_second": 0.956,
+      "learning_rate": 0.0001,
+      "step": 7421
+    },
+    {
+      "epoch": 41.43646408839779,
+      "grad_norm": 0.13456250727176666,
+      "learning_rate": 0.0001,
+      "loss": 0.3704,
+      "step": 7500
+    },
+    {
+      "epoch": 42.0,
+      "eval_explained_variance": 0.39858559003243077,
+      "eval_loss": 0.3574862778186798,
+      "eval_mae": 0.13303333520889282,
+      "eval_mse": 0.03798728436231613,
+      "eval_r2": 0.39695276377811434,
+      "eval_rmse": 0.19490326941013336,
+      "eval_runtime": 67.394,
+      "eval_samples_per_second": 57.038,
+      "eval_steps_per_second": 0.905,
+      "learning_rate": 0.0001,
+      "step": 7602
+    },
+    {
+      "epoch": 43.0,
+      "eval_explained_variance": 0.40196093229147106,
+      "eval_loss": 0.3568632900714874,
+      "eval_mae": 0.13252291083335876,
+      "eval_mse": 0.03772151470184326,
+      "eval_r2": 0.4008098201061217,
+      "eval_rmse": 0.19422027468681335,
+      "eval_runtime": 64.6291,
+      "eval_samples_per_second": 59.478,
+      "eval_steps_per_second": 0.944,
+      "learning_rate": 0.0001,
+      "step": 7783
+    },
+    {
+      "epoch": 44.0,
+      "eval_explained_variance": 0.4026290269998404,
+      "eval_loss": 0.35680440068244934,
+      "eval_mae": 0.13054220378398895,
+      "eval_mse": 0.03770707920193672,
+      "eval_r2": 0.4009435040202465,
+      "eval_rmse": 0.1941831111907959,
+      "eval_runtime": 64.3612,
+      "eval_samples_per_second": 59.725,
+      "eval_steps_per_second": 0.948,
+      "learning_rate": 0.0001,
+      "step": 7964
+    },
+    {
+      "epoch": 44.19889502762431,
+      "grad_norm": 0.12347038835287094,
+      "learning_rate": 0.0001,
+      "loss": 0.3695,
+      "step": 8000
+    },
+    {
+      "epoch": 45.0,
+      "eval_explained_variance": 0.40327414182516247,
+      "eval_loss": 0.35672253370285034,
+      "eval_mae": 0.13190330564975739,
+      "eval_mse": 0.03762032091617584,
+      "eval_r2": 0.40209036636711937,
+      "eval_rmse": 0.193959578871727,
+      "eval_runtime": 63.5564,
+      "eval_samples_per_second": 60.482,
+      "eval_steps_per_second": 0.96,
+      "learning_rate": 0.0001,
+      "step": 8145
+    },
+    {
+      "epoch": 46.0,
+      "eval_explained_variance": 0.4014772314291734,
+      "eval_loss": 0.35691043734550476,
+      "eval_mae": 0.1298011690378189,
+      "eval_mse": 0.03774061053991318,
+      "eval_r2": 0.39979262898816803,
+      "eval_rmse": 0.19426943361759186,
+      "eval_runtime": 63.5835,
+      "eval_samples_per_second": 60.456,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.0001,
+      "step": 8326
+    },
+    {
+      "epoch": 46.96132596685083,
+      "grad_norm": 0.1476801335811615,
+      "learning_rate": 0.0001,
+      "loss": 0.369,
+      "step": 8500
+    },
+    {
+      "epoch": 47.0,
+      "eval_explained_variance": 0.39959606299033534,
+      "eval_loss": 0.3573501706123352,
+      "eval_mae": 0.12922033667564392,
+      "eval_mse": 0.03795965388417244,
+      "eval_r2": 0.39734844502667516,
+      "eval_rmse": 0.19483236968517303,
+      "eval_runtime": 64.1983,
+      "eval_samples_per_second": 59.877,
+      "eval_steps_per_second": 0.95,
+      "learning_rate": 0.0001,
+      "step": 8507
+    },
+    {
+      "epoch": 48.0,
+      "eval_explained_variance": 0.404104429941911,
+      "eval_loss": 0.35634738206863403,
+      "eval_mae": 0.13015295565128326,
+      "eval_mse": 0.03764864429831505,
+      "eval_r2": 0.4019054071784941,
+      "eval_rmse": 0.19403257966041565,
+      "eval_runtime": 63.8043,
+      "eval_samples_per_second": 60.247,
+      "eval_steps_per_second": 0.956,
+      "learning_rate": 0.0001,
+      "step": 8688
+    },
+    {
+      "epoch": 49.0,
+      "eval_explained_variance": 0.4024105530518752,
+      "eval_loss": 0.3566192090511322,
+      "eval_mae": 0.1305515021085739,
+      "eval_mse": 0.03765449672937393,
+      "eval_r2": 0.40112185894390806,
+      "eval_rmse": 0.19404765963554382,
+      "eval_runtime": 65.5486,
+      "eval_samples_per_second": 58.644,
+      "eval_steps_per_second": 0.931,
+      "learning_rate": 0.0001,
+      "step": 8869
+    },
+    {
+      "epoch": 49.72375690607735,
+      "grad_norm": 0.17585940659046173,
+      "learning_rate": 0.0001,
+      "loss": 0.3691,
+      "step": 9000
+    },
+    {
+      "epoch": 50.0,
+      "eval_explained_variance": 0.40147255475704485,
+      "eval_loss": 0.3571104109287262,
+      "eval_mae": 0.13218748569488525,
+      "eval_mse": 0.0377979539334774,
+      "eval_r2": 0.39978904676068683,
+      "eval_rmse": 0.19441695511341095,
+      "eval_runtime": 64.6683,
+      "eval_samples_per_second": 59.442,
+      "eval_steps_per_second": 0.943,
+      "learning_rate": 0.0001,
+      "step": 9050
+    },
+    {
+      "epoch": 51.0,
+      "eval_explained_variance": 0.4020539063673753,
+      "eval_loss": 0.3584417402744293,
+      "eval_mae": 0.13350461423397064,
+      "eval_mse": 0.03811892494559288,
+      "eval_r2": 0.39583579837070054,
+      "eval_rmse": 0.19524069130420685,
+      "eval_runtime": 64.7621,
+      "eval_samples_per_second": 59.356,
+      "eval_steps_per_second": 0.942,
+      "learning_rate": 0.0001,
+      "step": 9231
+    },
+    {
+      "epoch": 52.0,
+      "eval_explained_variance": 0.4045378336539635,
+      "eval_loss": 0.3561328649520874,
+      "eval_mae": 0.1308905929327011,
+      "eval_mse": 0.03748491033911705,
+      "eval_r2": 0.4042346756357482,
+      "eval_rmse": 0.19361020624637604,
+      "eval_runtime": 64.77,
+      "eval_samples_per_second": 59.349,
+      "eval_steps_per_second": 0.942,
+      "learning_rate": 0.0001,
+      "step": 9412
+    },
+    {
+      "epoch": 52.48618784530387,
+      "grad_norm": 0.15689648687839508,
+      "learning_rate": 0.0001,
+      "loss": 0.3677,
+      "step": 9500
+    },
+    {
+      "epoch": 53.0,
+      "eval_explained_variance": 0.4053275997822101,
+      "eval_loss": 0.35652926564216614,
+      "eval_mae": 0.13147617876529694,
+      "eval_mse": 0.03759394586086273,
+      "eval_r2": 0.4026062075156075,
+      "eval_rmse": 0.19389158487319946,
+      "eval_runtime": 64.8021,
+      "eval_samples_per_second": 59.319,
+      "eval_steps_per_second": 0.941,
+      "learning_rate": 0.0001,
+      "step": 9593
+    },
+    {
+      "epoch": 54.0,
+      "eval_explained_variance": 0.401798074062054,
+      "eval_loss": 0.3567388355731964,
+      "eval_mae": 0.13164331018924713,
+      "eval_mse": 0.03773793205618858,
+      "eval_r2": 0.40105556644385676,
+      "eval_rmse": 0.1942625343799591,
+      "eval_runtime": 65.4024,
+      "eval_samples_per_second": 58.775,
+      "eval_steps_per_second": 0.933,
+      "learning_rate": 0.0001,
+      "step": 9774
+    },
+    {
+      "epoch": 55.0,
+      "eval_explained_variance": 0.40524112719755906,
+      "eval_loss": 0.35645580291748047,
+      "eval_mae": 0.1291799694299698,
+      "eval_mse": 0.03761202096939087,
+      "eval_r2": 0.40258003846192925,
+      "eval_rmse": 0.19393819570541382,
+      "eval_runtime": 65.1148,
+      "eval_samples_per_second": 59.034,
+      "eval_steps_per_second": 0.937,
+      "learning_rate": 0.0001,
+      "step": 9955
+    },
+    {
+      "epoch": 55.248618784530386,
+      "grad_norm": 0.14432880282402039,
+      "learning_rate": 0.0001,
+      "loss": 0.3684,
+      "step": 10000
+    },
+    {
+      "epoch": 56.0,
+      "eval_explained_variance": 0.40458508179737973,
+      "eval_loss": 0.35665351152420044,
+      "eval_mae": 0.12790292501449585,
+      "eval_mse": 0.03767779469490051,
+      "eval_r2": 0.40173746899832624,
+      "eval_rmse": 0.19410768151283264,
+      "eval_runtime": 64.7859,
+      "eval_samples_per_second": 59.334,
+      "eval_steps_per_second": 0.942,
+      "learning_rate": 0.0001,
+      "step": 10136
+    },
+    {
+      "epoch": 57.0,
+      "eval_explained_variance": 0.40489131670731765,
+      "eval_loss": 0.35622259974479675,
+      "eval_mae": 0.12940338253974915,
+      "eval_mse": 0.03757502883672714,
+      "eval_r2": 0.40317412718530543,
+      "eval_rmse": 0.1938427984714508,
+      "eval_runtime": 64.354,
+      "eval_samples_per_second": 59.732,
+      "eval_steps_per_second": 0.948,
+      "learning_rate": 0.0001,
+      "step": 10317
+    },
+    {
+      "epoch": 58.0,
+      "eval_explained_variance": 0.40618401765823364,
+      "eval_loss": 0.35649776458740234,
+      "eval_mae": 0.12992320954799652,
+      "eval_mse": 0.03755363076925278,
+      "eval_r2": 0.40359610267984325,
+      "eval_rmse": 0.1937875896692276,
+      "eval_runtime": 63.5875,
+      "eval_samples_per_second": 60.452,
+      "eval_steps_per_second": 0.959,
+      "learning_rate": 0.0001,
+      "step": 10498
+    },
+    {
+      "epoch": 58.011049723756905,
+      "grad_norm": 0.17977654933929443,
+      "learning_rate": 1e-05,
+      "loss": 0.368,
+      "step": 10500
+    },
+    {
+      "epoch": 59.0,
+      "eval_explained_variance": 0.40612818186099714,
+      "eval_loss": 0.3559414744377136,
+      "eval_mae": 0.1292232871055603,
+      "eval_mse": 0.037484604865312576,
+      "eval_r2": 0.404684355302516,
+      "eval_rmse": 0.19360941648483276,
+      "eval_runtime": 63.0292,
+      "eval_samples_per_second": 60.988,
+      "eval_steps_per_second": 0.968,
+      "learning_rate": 1e-05,
+      "step": 10679
+    },
+    {
+      "epoch": 60.0,
+      "eval_explained_variance": 0.4082453021636376,
+      "eval_loss": 0.35587525367736816,
+      "eval_mae": 0.1295480728149414,
+      "eval_mse": 0.03739844262599945,
+      "eval_r2": 0.40598491760734956,
+      "eval_rmse": 0.1933867633342743,
+      "eval_runtime": 67.1089,
+      "eval_samples_per_second": 57.28,
+      "eval_steps_per_second": 0.909,
+      "learning_rate": 1e-05,
+      "step": 10860
+    },
+    {
+      "epoch": 60.773480662983424,
+      "grad_norm": 0.1965423822402954,
+      "learning_rate": 1e-05,
+      "loss": 0.3664,
+      "step": 11000
+    },
+    {
+      "epoch": 61.0,
+      "eval_explained_variance": 0.4074813173367427,
+      "eval_loss": 0.35549554228782654,
+      "eval_mae": 0.13036619126796722,
+      "eval_mse": 0.03731352090835571,
+      "eval_r2": 0.40719759569271147,
+      "eval_rmse": 0.1931670755147934,
+      "eval_runtime": 62.4919,
+      "eval_samples_per_second": 61.512,
+      "eval_steps_per_second": 0.976,
+      "learning_rate": 1e-05,
+      "step": 11041
+    },
+    {
+      "epoch": 62.0,
+      "eval_explained_variance": 0.4057550017650311,
+      "eval_loss": 0.3564907908439636,
+      "eval_mae": 0.13166674971580505,
+      "eval_mse": 0.03761378303170204,
+      "eval_r2": 0.4036480162510964,
+      "eval_rmse": 0.19394272565841675,
+      "eval_runtime": 64.0633,
+      "eval_samples_per_second": 60.003,
+      "eval_steps_per_second": 0.952,
+      "learning_rate": 1e-05,
+      "step": 11222
+    },
+    {
+      "epoch": 63.0,
+      "eval_explained_variance": 0.4086620624248798,
+      "eval_loss": 0.35556313395500183,
+      "eval_mae": 0.12934741377830505,
+      "eval_mse": 0.03726600110530853,
+      "eval_r2": 0.40751167332410276,
+      "eval_rmse": 0.1930440366268158,
+      "eval_runtime": 63.2366,
+      "eval_samples_per_second": 60.788,
+      "eval_steps_per_second": 0.965,
+      "learning_rate": 1e-05,
+      "step": 11403
+    },
+    {
+      "epoch": 63.53591160220994,
+      "grad_norm": 0.1525866687297821,
+      "learning_rate": 1e-05,
+      "loss": 0.366,
+      "step": 11500
+    },
+    {
+      "epoch": 64.0,
+      "eval_explained_variance": 0.40886356280400205,
+      "eval_loss": 0.35541364550590515,
+      "eval_mae": 0.1295996755361557,
+      "eval_mse": 0.03727412968873978,
+      "eval_r2": 0.40770017250386054,
+      "eval_rmse": 0.1930650919675827,
+      "eval_runtime": 63.8539,
+      "eval_samples_per_second": 60.2,
+      "eval_steps_per_second": 0.955,
+      "learning_rate": 1e-05,
+      "step": 11584
+    },
+    {
+      "epoch": 65.0,
+      "eval_explained_variance": 0.40589494430101836,
+      "eval_loss": 0.35602322220802307,
+      "eval_mae": 0.13072702288627625,
+      "eval_mse": 0.03753972053527832,
+      "eval_r2": 0.4048648390836954,
+      "eval_rmse": 0.19375169277191162,
+      "eval_runtime": 63.5254,
+      "eval_samples_per_second": 60.511,
+      "eval_steps_per_second": 0.96,
+      "learning_rate": 1e-05,
+      "step": 11765
+    },
+    {
+      "epoch": 66.0,
+      "eval_explained_variance": 0.4085214688227727,
+      "eval_loss": 0.35534363985061646,
+      "eval_mae": 0.13003438711166382,
+      "eval_mse": 0.03723596781492233,
+      "eval_r2": 0.40801214840672984,
+      "eval_rmse": 0.19296623766422272,
+      "eval_runtime": 66.0061,
+      "eval_samples_per_second": 58.237,
+      "eval_steps_per_second": 0.924,
+      "learning_rate": 1e-05,
+      "step": 11946
+    },
+    {
+      "epoch": 66.29834254143647,
+      "grad_norm": 0.18801870942115784,
+      "learning_rate": 1e-05,
+      "loss": 0.3654,
+      "step": 12000
+    },
+    {
+      "epoch": 67.0,
+      "eval_explained_variance": 0.4081741479726938,
+      "eval_loss": 0.3554227948188782,
+      "eval_mae": 0.12988974153995514,
+      "eval_mse": 0.03726029023528099,
+      "eval_r2": 0.4077790726698564,
+      "eval_rmse": 0.1930292397737503,
+      "eval_runtime": 65.2859,
+      "eval_samples_per_second": 58.879,
+      "eval_steps_per_second": 0.934,
+      "learning_rate": 1e-05,
+      "step": 12127
+    },
+    {
+      "epoch": 68.0,
+      "eval_explained_variance": 0.4073961698091947,
+      "eval_loss": 0.35557952523231506,
+      "eval_mae": 0.13015064597129822,
+      "eval_mse": 0.03740492835640907,
+      "eval_r2": 0.4058588832439236,
+      "eval_rmse": 0.19340354204177856,
+      "eval_runtime": 65.1267,
+      "eval_samples_per_second": 59.023,
+      "eval_steps_per_second": 0.937,
+      "learning_rate": 1e-05,
+      "step": 12308
+    },
+    {
+      "epoch": 69.0,
+      "eval_explained_variance": 0.4085943423784696,
+      "eval_loss": 0.3553701937198639,
+      "eval_mae": 0.12976409494876862,
+      "eval_mse": 0.03725024312734604,
+      "eval_r2": 0.40825238050595736,
+      "eval_rmse": 0.19300322234630585,
+      "eval_runtime": 64.7301,
+      "eval_samples_per_second": 59.385,
+      "eval_steps_per_second": 0.942,
+      "learning_rate": 1e-05,
+      "step": 12489
+    },
+    {
+      "epoch": 69.06077348066299,
+      "grad_norm": 0.15430860221385956,
+      "learning_rate": 1e-05,
+      "loss": 0.3658,
+      "step": 12500
+    },
+    {
+      "epoch": 70.0,
+      "eval_explained_variance": 0.4094207286834717,
+      "eval_loss": 0.35594871640205383,
+      "eval_mae": 0.13069316744804382,
+      "eval_mse": 0.03737233206629753,
+      "eval_r2": 0.40659481251933094,
+      "eval_rmse": 0.19331924617290497,
+      "eval_runtime": 66.4386,
+      "eval_samples_per_second": 57.858,
+      "eval_steps_per_second": 0.918,
+      "learning_rate": 1e-05,
+      "step": 12670
+    },
+    {
+      "epoch": 71.0,
+      "eval_explained_variance": 0.40725430158468395,
+      "eval_loss": 0.35573798418045044,
+      "eval_mae": 0.1295761913061142,
+      "eval_mse": 0.037380401045084,
+      "eval_r2": 0.40697699949296745,
+      "eval_rmse": 0.19334012269973755,
+      "eval_runtime": 65.624,
+      "eval_samples_per_second": 58.576,
+      "eval_steps_per_second": 0.93,
+      "learning_rate": 1e-05,
+      "step": 12851
+    },
+    {
+      "epoch": 71.8232044198895,
+      "grad_norm": 0.35482099652290344,
+      "learning_rate": 1e-05,
+      "loss": 0.366,
+      "step": 13000
+    },
+    {
+      "epoch": 72.0,
+      "eval_explained_variance": 0.40842239214823794,
+      "eval_loss": 0.35571375489234924,
+      "eval_mae": 0.13028408586978912,
+      "eval_mse": 0.03734128177165985,
+      "eval_r2": 0.40698361470433536,
+      "eval_rmse": 0.19323892891407013,
+      "eval_runtime": 64.0529,
+      "eval_samples_per_second": 60.013,
+      "eval_steps_per_second": 0.952,
+      "learning_rate": 1e-05,
+      "step": 13032
+    },
+    {
+      "epoch": 73.0,
+      "eval_explained_variance": 0.4089708603345431,
+      "eval_loss": 0.3552262485027313,
+      "eval_mae": 0.12985268235206604,
+      "eval_mse": 0.037223465740680695,
+      "eval_r2": 0.408222457948687,
+      "eval_rmse": 0.1929338425397873,
+      "eval_runtime": 65.5971,
+      "eval_samples_per_second": 58.6,
+      "eval_steps_per_second": 0.93,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13213
+    },
+    {
+      "epoch": 74.0,
+      "eval_explained_variance": 0.40937405824661255,
+      "eval_loss": 0.35516515374183655,
+      "eval_mae": 0.1281428188085556,
+      "eval_mse": 0.03721009939908981,
+      "eval_r2": 0.4087432799234766,
+      "eval_rmse": 0.1928991973400116,
+      "eval_runtime": 63.5094,
+      "eval_samples_per_second": 60.526,
+      "eval_steps_per_second": 0.96,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13394
+    },
+    {
+      "epoch": 74.58563535911603,
+      "grad_norm": 0.20831693708896637,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3654,
+      "step": 13500
+    },
+    {
+      "epoch": 75.0,
+      "eval_explained_variance": 0.40568819871315587,
+      "eval_loss": 0.3558255434036255,
+      "eval_mae": 0.13025221228599548,
+      "eval_mse": 0.037474822252988815,
+      "eval_r2": 0.40474793306670837,
+      "eval_rmse": 0.193584144115448,
+      "eval_runtime": 63.853,
+      "eval_samples_per_second": 60.201,
+      "eval_steps_per_second": 0.955,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13575
+    },
+    {
+      "epoch": 76.0,
+      "eval_explained_variance": 0.408390985085414,
+      "eval_loss": 0.3555220663547516,
+      "eval_mae": 0.12769028544425964,
+      "eval_mse": 0.03735670447349548,
+      "eval_r2": 0.40610327648301114,
+      "eval_rmse": 0.19327881932258606,
+      "eval_runtime": 66.3493,
+      "eval_samples_per_second": 57.936,
+      "eval_steps_per_second": 0.919,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13756
+    },
+    {
+      "epoch": 77.0,
+      "eval_explained_variance": 0.4046147374006418,
+      "eval_loss": 0.35615718364715576,
+      "eval_mae": 0.13205072283744812,
+      "eval_mse": 0.037551261484622955,
+      "eval_r2": 0.4042150129069256,
+      "eval_rmse": 0.19378148019313812,
+      "eval_runtime": 65.1729,
+      "eval_samples_per_second": 58.982,
+      "eval_steps_per_second": 0.936,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 13937
+    },
+    {
+      "epoch": 77.34806629834254,
+      "grad_norm": 0.20255261659622192,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.3663,
+      "step": 14000
+    },
+    {
+      "epoch": 78.0,
+      "eval_explained_variance": 0.4090478007610028,
+      "eval_loss": 0.35527750849723816,
+      "eval_mae": 0.13062655925750732,
+      "eval_mse": 0.037214502692222595,
+      "eval_r2": 0.4086604768416133,
+      "eval_rmse": 0.19291061162948608,
+      "eval_runtime": 66.5281,
+      "eval_samples_per_second": 57.78,
+      "eval_steps_per_second": 0.917,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14118
+    },
+    {
+      "epoch": 79.0,
+      "eval_explained_variance": 0.4019758334526649,
+      "eval_loss": 0.3569395840167999,
+      "eval_mae": 0.13103225827217102,
+      "eval_mse": 0.037889137864112854,
+      "eval_r2": 0.3999096598660514,
+      "eval_rmse": 0.19465132057666779,
+      "eval_runtime": 65.9236,
+      "eval_samples_per_second": 58.31,
+      "eval_steps_per_second": 0.925,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14299
+    },
+    {
+      "epoch": 80.0,
+      "eval_explained_variance": 0.4057845427439763,
+      "eval_loss": 0.35627198219299316,
+      "eval_mae": 0.13107524812221527,
+      "eval_mse": 0.037464920431375504,
+      "eval_r2": 0.40523034358958093,
+      "eval_rmse": 0.19355857372283936,
+      "eval_runtime": 66.5566,
+      "eval_samples_per_second": 57.755,
+      "eval_steps_per_second": 0.917,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 14480
+    },
+    {
+      "epoch": 80.11049723756906,
+      "grad_norm": 0.18743179738521576,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.3655,
+      "step": 14500
+    },
+    {
+      "epoch": 81.0,
+      "eval_explained_variance": 0.4091951067631061,
+      "eval_loss": 0.3555302619934082,
+      "eval_mae": 0.13077440857887268,
+      "eval_mse": 0.037267763167619705,
+      "eval_r2": 0.4078657020062894,
+      "eval_rmse": 0.1930485963821411,
+      "eval_runtime": 67.6736,
+      "eval_samples_per_second": 56.802,
+      "eval_steps_per_second": 0.901,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 14661
+    },
+    {
+      "epoch": 82.0,
+      "eval_explained_variance": 0.408656867650839,
+      "eval_loss": 0.35563620924949646,
+      "eval_mae": 0.13087815046310425,
+      "eval_mse": 0.03731405362486839,
+      "eval_r2": 0.4071799006076709,
+      "eval_rmse": 0.19316846132278442,
+      "eval_runtime": 68.4549,
+      "eval_samples_per_second": 56.154,
+      "eval_steps_per_second": 0.891,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 14842
+    },
+    {
+      "epoch": 82.87292817679558,
+      "grad_norm": 0.20405510067939758,
+      "learning_rate": 1.0000000000000002e-07,
+      "loss": 0.3651,
+      "step": 15000
+    },
+    {
+      "epoch": 83.0,
+      "eval_explained_variance": 0.41021374555734486,
+      "eval_loss": 0.35571029782295227,
+      "eval_mae": 0.13036301732063293,
+      "eval_mse": 0.03731907904148102,
+      "eval_r2": 0.4073602568430592,
+      "eval_rmse": 0.19318147003650665,
+      "eval_runtime": 68.1325,
+      "eval_samples_per_second": 56.419,
+      "eval_steps_per_second": 0.895,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15023
+    },
+    {
+      "epoch": 84.0,
+      "eval_explained_variance": 0.4082063390658452,
+      "eval_loss": 0.35581377148628235,
+      "eval_mae": 0.1305844783782959,
+      "eval_mse": 0.037393905222415924,
+      "eval_r2": 0.4062799764902456,
+      "eval_rmse": 0.19337503612041473,
+      "eval_runtime": 66.3433,
+      "eval_samples_per_second": 57.941,
+      "eval_steps_per_second": 0.919,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15204
+    },
+    {
+      "epoch": 84.0,
+      "learning_rate": 1.0000000000000002e-07,
+      "step": 15204,
+      "total_flos": 2.180798470217171e+19,
+      "train_loss": 0.37467605181350044,
+      "train_runtime": 24668.9414,
+      "train_samples_per_second": 46.707,
+      "train_steps_per_second": 0.734
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 18100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.180798470217171e+19,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}