diff --git "a/last-checkpoint/trainer_state.json" "b/last-checkpoint/trainer_state.json"
--- "a/last-checkpoint/trainer_state.json"
+++ "b/last-checkpoint/trainer_state.json"
@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.388462659026901,
+  "epoch": 0.6474377650448351,
   "eval_steps": 5,
-  "global_step": 1500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15624,6 +15624,10406 @@
       "eval_samples_per_second": 2.989,
       "eval_steps_per_second": 0.136,
       "step": 1500
+    },
+    {
+      "epoch": 0.388721634132919,
+      "grad_norm": 7.967579068140648,
+      "learning_rate": 9.587838791177963e-07,
+      "loss": 0.4003,
+      "step": 1501
+    },
+    {
+      "epoch": 0.3889806092389369,
+      "grad_norm": 4.618845884100969,
+      "learning_rate": 9.583058965121206e-07,
+      "loss": 0.3345,
+      "step": 1502
+    },
+    {
+      "epoch": 0.3892395843449548,
+      "grad_norm": 5.346673334225054,
+      "learning_rate": 9.578276413332875e-07,
+      "loss": 0.3575,
+      "step": 1503
+    },
+    {
+      "epoch": 0.3894985594509728,
+      "grad_norm": 5.697466165554965,
+      "learning_rate": 9.573491139724083e-07,
+      "loss": 0.4453,
+      "step": 1504
+    },
+    {
+      "epoch": 0.3897575345569907,
+      "grad_norm": 5.2630972374192755,
+      "learning_rate": 9.56870314820816e-07,
+      "loss": 0.3561,
+      "step": 1505
+    },
+    {
+      "epoch": 0.3897575345569907,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9125,
+      "eval_PRM F1 AUC": 0.8528025144054479,
+      "eval_PRM F1 AUC (fixed)": 0.8247773703509691,
+      "eval_PRM F1 Neg": 0.7307692307692307,
+      "eval_PRM NPV": 0.6551724137931034,
+      "eval_PRM Precision": 0.948051948051948,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2363291233778,
+      "eval_runtime": 15.0616,
+      "eval_samples_per_second": 2.921,
+      "eval_steps_per_second": 0.133,
+      "step": 1505
+    },
+    {
+      "epoch": 0.39001650966300866,
+      "grad_norm": 3.777040254982168,
+      "learning_rate": 9.563912442700661e-07,
+      "loss": 0.3645,
+      "step": 1506
+    },
+    {
+      "epoch": 0.39027548476902657,
+      "grad_norm": 3.1829088852941547,
+      "learning_rate": 9.559119027119371e-07,
+      "loss": 0.3168,
+      "step": 1507
+    },
+    {
+      "epoch": 0.39053445987504454,
+      "grad_norm": 3.6376117510857617,
+      "learning_rate": 9.554322905384269e-07,
+      "loss": 0.378,
+      "step": 1508
+    },
+    {
+      "epoch": 0.39079343498106245,
+      "grad_norm": 8.22323548130612,
+      "learning_rate": 9.54952408141757e-07,
+      "loss": 0.3481,
+      "step": 1509
+    },
+    {
+      "epoch": 0.39105241008708036,
+      "grad_norm": 7.604451735063203,
+      "learning_rate": 9.544722559143684e-07,
+      "loss": 0.3359,
+      "step": 1510
+    },
+    {
+      "epoch": 0.39105241008708036,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9125,
+      "eval_PRM F1 AUC": 0.8528025144054479,
+      "eval_PRM F1 AUC (fixed)": 0.818753273965427,
+      "eval_PRM F1 Neg": 0.7307692307692307,
+      "eval_PRM NPV": 0.6551724137931034,
+      "eval_PRM Precision": 0.948051948051948,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.24453581869602203,
+      "eval_runtime": 14.2697,
+      "eval_samples_per_second": 3.083,
+      "eval_steps_per_second": 0.14,
+      "step": 1510
+    },
+    {
+      "epoch": 0.3913113851930983,
+      "grad_norm": 5.896979933649967,
+      "learning_rate": 9.539918342489232e-07,
+      "loss": 0.3824,
+      "step": 1511
+    },
+    {
+      "epoch": 0.39157036029911624,
+      "grad_norm": 3.211554120427429,
+      "learning_rate": 9.535111435383043e-07,
+      "loss": 0.3195,
+      "step": 1512
+    },
+    {
+      "epoch": 0.3918293354051342,
+      "grad_norm": 2.6798542655354125,
+      "learning_rate": 9.530301841756139e-07,
+      "loss": 0.3249,
+      "step": 1513
+    },
+    {
+      "epoch": 0.3920883105111521,
+      "grad_norm": 6.785587452731779,
+      "learning_rate": 9.52548956554174e-07,
+      "loss": 0.3319,
+      "step": 1514
+    },
+    {
+      "epoch": 0.39234728561717,
+      "grad_norm": 6.07488058517214,
+      "learning_rate": 9.520674610675265e-07,
+      "loss": 0.3176,
+      "step": 1515
+    },
+    {
+      "epoch": 0.39234728561717,
+      "eval_PRM Accuracy": 0.9056603773584906,
+      "eval_PRM F1": 0.9390243902439024,
+      "eval_PRM F1 AUC": 0.8768988999476165,
+      "eval_PRM F1 AUC (fixed)": 0.8213724463069669,
+      "eval_PRM F1 Neg": 0.7916666666666666,
+      "eval_PRM NPV": 0.76,
+      "eval_PRM Precision": 0.9506172839506173,
+      "eval_PRM Recall": 0.927710843373494,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.23415261507034302,
+      "eval_runtime": 14.6219,
+      "eval_samples_per_second": 3.009,
+      "eval_steps_per_second": 0.137,
+      "step": 1515
+    },
+    {
+      "epoch": 0.392606260723188,
+      "grad_norm": 3.0395299401082605,
+      "learning_rate": 9.515856981094323e-07,
+      "loss": 0.2384,
+      "step": 1516
+    },
+    {
+      "epoch": 0.3928652358292059,
+      "grad_norm": 3.845802837421083,
+      "learning_rate": 9.511036680738703e-07,
+      "loss": 0.3435,
+      "step": 1517
+    },
+    {
+      "epoch": 0.3931242109352239,
+      "grad_norm": 5.389403587129739,
+      "learning_rate": 9.506213713550384e-07,
+      "loss": 0.4791,
+      "step": 1518
+    },
+    {
+      "epoch": 0.3933831860412418,
+      "grad_norm": 9.000139605946577,
+      "learning_rate": 9.501388083473524e-07,
+      "loss": 0.4559,
+      "step": 1519
+    },
+    {
+      "epoch": 0.3936421611472597,
+      "grad_norm": 7.39259048113181,
+      "learning_rate": 9.496559794454464e-07,
+      "loss": 0.4693,
+      "step": 1520
+    },
+    {
+      "epoch": 0.3936421611472597,
+      "eval_PRM Accuracy": 0.9056603773584906,
+      "eval_PRM F1": 0.9397590361445783,
+      "eval_PRM F1 AUC": 0.8611838658983763,
+      "eval_PRM F1 AUC (fixed)": 0.8279203771608172,
+      "eval_PRM F1 Neg": 0.782608695652174,
+      "eval_PRM NPV": 0.782608695652174,
+      "eval_PRM Precision": 0.9397590361445783,
+      "eval_PRM Recall": 0.9397590361445783,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22763299942016602,
+      "eval_runtime": 15.2442,
+      "eval_samples_per_second": 2.886,
+      "eval_steps_per_second": 0.131,
+      "step": 1520
+    },
+    {
+      "epoch": 0.39390113625327766,
+      "grad_norm": 6.186042956749198,
+      "learning_rate": 9.491728850441711e-07,
+      "loss": 0.4015,
+      "step": 1521
+    },
+    {
+      "epoch": 0.3941601113592956,
+      "grad_norm": 7.0652245611169695,
+      "learning_rate": 9.486895255385947e-07,
+      "loss": 0.3989,
+      "step": 1522
+    },
+    {
+      "epoch": 0.39441908646531354,
+      "grad_norm": 4.537471410549836,
+      "learning_rate": 9.482059013240025e-07,
+      "loss": 0.341,
+      "step": 1523
+    },
+    {
+      "epoch": 0.39467806157133145,
+      "grad_norm": 2.8105350778496474,
+      "learning_rate": 9.477220127958955e-07,
+      "loss": 0.2762,
+      "step": 1524
+    },
+    {
+      "epoch": 0.39493703667734936,
+      "grad_norm": 3.827521733683929,
+      "learning_rate": 9.472378603499919e-07,
+      "loss": 0.3103,
+      "step": 1525
+    },
+    {
+      "epoch": 0.39493703667734936,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8239916186485071,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22646942734718323,
+      "eval_runtime": 15.0861,
+      "eval_samples_per_second": 2.917,
+      "eval_steps_per_second": 0.133,
+      "step": 1525
+    },
+    {
+      "epoch": 0.39519601178336733,
+      "grad_norm": 3.5684855750803823,
+      "learning_rate": 9.467534443822249e-07,
+      "loss": 0.3505,
+      "step": 1526
+    },
+    {
+      "epoch": 0.39545498688938524,
+      "grad_norm": 4.211757250096138,
+      "learning_rate": 9.462687652887434e-07,
+      "loss": 0.3475,
+      "step": 1527
+    },
+    {
+      "epoch": 0.3957139619954032,
+      "grad_norm": 3.9955346599067147,
+      "learning_rate": 9.457838234659118e-07,
+      "loss": 0.4099,
+      "step": 1528
+    },
+    {
+      "epoch": 0.3959729371014211,
+      "grad_norm": 4.619680433983152,
+      "learning_rate": 9.452986193103089e-07,
+      "loss": 0.3414,
+      "step": 1529
+    },
+    {
+      "epoch": 0.3962319122074391,
+      "grad_norm": 8.085827130049163,
+      "learning_rate": 9.448131532187284e-07,
+      "loss": 0.387,
+      "step": 1530
+    },
+    {
+      "epoch": 0.3962319122074391,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9113924050632911,
+      "eval_PRM F1 AUC": 0.8685175484546883,
+      "eval_PRM F1 AUC (fixed)": 0.8163960188580408,
+      "eval_PRM F1 Neg": 0.7407407407407407,
+      "eval_PRM NPV": 0.6451612903225806,
+      "eval_PRM Precision": 0.96,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.8695652173913043,
+      "eval_loss": 0.2410266399383545,
+      "eval_runtime": 14.8446,
+      "eval_samples_per_second": 2.964,
+      "eval_steps_per_second": 0.135,
+      "step": 1530
+    },
+    {
+      "epoch": 0.396490887313457,
+      "grad_norm": 6.9949185617400245,
+      "learning_rate": 9.44327425588178e-07,
+      "loss": 0.3121,
+      "step": 1531
+    },
+    {
+      "epoch": 0.3967498624194749,
+      "grad_norm": 3.396161701582718,
+      "learning_rate": 9.438414368158792e-07,
+      "loss": 0.3915,
+      "step": 1532
+    },
+    {
+      "epoch": 0.3970088375254929,
+      "grad_norm": 3.253301134840018,
+      "learning_rate": 9.433551872992671e-07,
+      "loss": 0.2768,
+      "step": 1533
+    },
+    {
+      "epoch": 0.3972678126315108,
+      "grad_norm": 11.366561643113847,
+      "learning_rate": 9.428686774359906e-07,
+      "loss": 0.3476,
+      "step": 1534
+    },
+    {
+      "epoch": 0.39752678773752875,
+      "grad_norm": 5.6249170681103875,
+      "learning_rate": 9.423819076239108e-07,
+      "loss": 0.3954,
+      "step": 1535
+    },
+    {
+      "epoch": 0.39752678773752875,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.8187532739654269,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2305150032043457,
+      "eval_runtime": 14.877,
+      "eval_samples_per_second": 2.958,
+      "eval_steps_per_second": 0.134,
+      "step": 1535
+    },
+    {
+      "epoch": 0.39778576284354666,
+      "grad_norm": 3.476121108479144,
+      "learning_rate": 9.418948782611015e-07,
+      "loss": 0.3245,
+      "step": 1536
+    },
+    {
+      "epoch": 0.3980447379495646,
+      "grad_norm": 4.141270160746721,
+      "learning_rate": 9.414075897458491e-07,
+      "loss": 0.2943,
+      "step": 1537
+    },
+    {
+      "epoch": 0.39830371305558254,
+      "grad_norm": 3.6135377415071797,
+      "learning_rate": 9.409200424766513e-07,
+      "loss": 0.2702,
+      "step": 1538
+    },
+    {
+      "epoch": 0.39856268816160045,
+      "grad_norm": 2.717922771113031,
+      "learning_rate": 9.404322368522181e-07,
+      "loss": 0.3073,
+      "step": 1539
+    },
+    {
+      "epoch": 0.3988216632676184,
+      "grad_norm": 3.5871641161734877,
+      "learning_rate": 9.399441732714706e-07,
+      "loss": 0.4095,
+      "step": 1540
+    },
+    {
+      "epoch": 0.3988216632676184,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8184913567312728,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21936039626598358,
+      "eval_runtime": 15.4346,
+      "eval_samples_per_second": 2.851,
+      "eval_steps_per_second": 0.13,
+      "step": 1540
+    },
+    {
+      "epoch": 0.39908063837363633,
+      "grad_norm": 3.188644216295607,
+      "learning_rate": 9.394558521335409e-07,
+      "loss": 0.2844,
+      "step": 1541
+    },
+    {
+      "epoch": 0.39933961347965424,
+      "grad_norm": 6.54859753722624,
+      "learning_rate": 9.389672738377709e-07,
+      "loss": 0.3931,
+      "step": 1542
+    },
+    {
+      "epoch": 0.3995985885856722,
+      "grad_norm": 3.8231446280281642,
+      "learning_rate": 9.38478438783714e-07,
+      "loss": 0.2906,
+      "step": 1543
+    },
+    {
+      "epoch": 0.3998575636916901,
+      "grad_norm": 3.7127784502781993,
+      "learning_rate": 9.379893473711328e-07,
+      "loss": 0.3128,
+      "step": 1544
+    },
+    {
+      "epoch": 0.4001165387977081,
+      "grad_norm": 3.38321851419847,
+      "learning_rate": 9.375000000000001e-07,
+      "loss": 0.3173,
+      "step": 1545
+    },
+    {
+      "epoch": 0.4001165387977081,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8218962807752751,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21774643659591675,
+      "eval_runtime": 14.9003,
+      "eval_samples_per_second": 2.953,
+      "eval_steps_per_second": 0.134,
+      "step": 1545
+    },
+    {
+      "epoch": 0.400375513903726,
+      "grad_norm": 3.557217840230169,
+      "learning_rate": 9.370103970704975e-07,
+      "loss": 0.3828,
+      "step": 1546
+    },
+    {
+      "epoch": 0.40063448900974397,
+      "grad_norm": 8.849395387956283,
+      "learning_rate": 9.365205389830156e-07,
+      "loss": 0.4061,
+      "step": 1547
+    },
+    {
+      "epoch": 0.4008934641157619,
+      "grad_norm": 2.921087421087627,
+      "learning_rate": 9.360304261381542e-07,
+      "loss": 0.3177,
+      "step": 1548
+    },
+    {
+      "epoch": 0.4011524392217798,
+      "grad_norm": 4.234672156968746,
+      "learning_rate": 9.355400589367213e-07,
+      "loss": 0.3245,
+      "step": 1549
+    },
+    {
+      "epoch": 0.40141141432779776,
+      "grad_norm": 5.725932469896439,
+      "learning_rate": 9.350494377797322e-07,
+      "loss": 0.3294,
+      "step": 1550
+    },
+    {
+      "epoch": 0.40141141432779776,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8268727082242011,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22031234204769135,
+      "eval_runtime": 14.3288,
+      "eval_samples_per_second": 3.071,
+      "eval_steps_per_second": 0.14,
+      "step": 1550
+    },
+    {
+      "epoch": 0.40167038943381567,
+      "grad_norm": 8.642160997896136,
+      "learning_rate": 9.345585630684105e-07,
+      "loss": 0.3691,
+      "step": 1551
+    },
+    {
+      "epoch": 0.40192936453983363,
+      "grad_norm": 10.358474583053521,
+      "learning_rate": 9.340674352041873e-07,
+      "loss": 0.3275,
+      "step": 1552
+    },
+    {
+      "epoch": 0.40218833964585154,
+      "grad_norm": 4.968101854428275,
+      "learning_rate": 9.335760545887003e-07,
+      "loss": 0.4266,
+      "step": 1553
+    },
+    {
+      "epoch": 0.40244731475186946,
+      "grad_norm": 3.271958598226771,
+      "learning_rate": 9.330844216237942e-07,
+      "loss": 0.3257,
+      "step": 1554
+    },
+    {
+      "epoch": 0.4027062898578874,
+      "grad_norm": 4.12676860829523,
+      "learning_rate": 9.325925367115197e-07,
+      "loss": 0.4283,
+      "step": 1555
+    },
+    {
+      "epoch": 0.4027062898578874,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8232058669460451,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2232244610786438,
+      "eval_runtime": 14.8539,
+      "eval_samples_per_second": 2.962,
+      "eval_steps_per_second": 0.135,
+      "step": 1555
+    },
+    {
+      "epoch": 0.40296526496390533,
+      "grad_norm": 2.8116528583993916,
+      "learning_rate": 9.321004002541341e-07,
+      "loss": 0.3272,
+      "step": 1556
+    },
+    {
+      "epoch": 0.4032242400699233,
+      "grad_norm": 4.66248390250764,
+      "learning_rate": 9.316080126540998e-07,
+      "loss": 0.4285,
+      "step": 1557
+    },
+    {
+      "epoch": 0.4034832151759412,
+      "grad_norm": 4.513837861618739,
+      "learning_rate": 9.31115374314085e-07,
+      "loss": 0.4012,
+      "step": 1558
+    },
+    {
+      "epoch": 0.4037421902819591,
+      "grad_norm": 4.2647128198918685,
+      "learning_rate": 9.306224856369629e-07,
+      "loss": 0.24,
+      "step": 1559
+    },
+    {
+      "epoch": 0.4040011653879771,
+      "grad_norm": 4.98465110903521,
+      "learning_rate": 9.301293470258114e-07,
+      "loss": 0.3474,
+      "step": 1560
+    },
+    {
+      "epoch": 0.4040011653879771,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.819800942902043,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.22973184287548065,
+      "eval_runtime": 15.1897,
+      "eval_samples_per_second": 2.897,
+      "eval_steps_per_second": 0.132,
+      "step": 1560
+    },
+    {
+      "epoch": 0.404260140493995,
+      "grad_norm": 6.340696302675487,
+      "learning_rate": 9.296359588839125e-07,
+      "loss": 0.3774,
+      "step": 1561
+    },
+    {
+      "epoch": 0.40451911560001297,
+      "grad_norm": 4.009786635171831,
+      "learning_rate": 9.291423216147524e-07,
+      "loss": 0.3783,
+      "step": 1562
+    },
+    {
+      "epoch": 0.4047780907060309,
+      "grad_norm": 4.095710727042009,
+      "learning_rate": 9.286484356220215e-07,
+      "loss": 0.3646,
+      "step": 1563
+    },
+    {
+      "epoch": 0.4050370658120488,
+      "grad_norm": 3.3795032120863513,
+      "learning_rate": 9.281543013096132e-07,
+      "loss": 0.3555,
+      "step": 1564
+    },
+    {
+      "epoch": 0.40529604091806676,
+      "grad_norm": 3.5500135879051746,
+      "learning_rate": 9.276599190816238e-07,
+      "loss": 0.2768,
+      "step": 1565
+    },
+    {
+      "epoch": 0.40529604091806676,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8122053431115768,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22858896851539612,
+      "eval_runtime": 14.798,
+      "eval_samples_per_second": 2.973,
+      "eval_steps_per_second": 0.135,
+      "step": 1565
+    },
+    {
+      "epoch": 0.40555501602408467,
+      "grad_norm": 3.709950401983799,
+      "learning_rate": 9.271652893423527e-07,
+      "loss": 0.4145,
+      "step": 1566
+    },
+    {
+      "epoch": 0.40581399113010264,
+      "grad_norm": 4.33652144371034,
+      "learning_rate": 9.266704124963017e-07,
+      "loss": 0.3367,
+      "step": 1567
+    },
+    {
+      "epoch": 0.40607296623612055,
+      "grad_norm": 3.5503572210053713,
+      "learning_rate": 9.261752889481738e-07,
+      "loss": 0.3398,
+      "step": 1568
+    },
+    {
+      "epoch": 0.4063319413421385,
+      "grad_norm": 3.5308579058818217,
+      "learning_rate": 9.256799191028753e-07,
+      "loss": 0.2959,
+      "step": 1569
+    },
+    {
+      "epoch": 0.4065909164481564,
+      "grad_norm": 2.942235398456754,
+      "learning_rate": 9.251843033655131e-07,
+      "loss": 0.3303,
+      "step": 1570
+    },
+    {
+      "epoch": 0.4065909164481564,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.9259259259259259,
+      "eval_PRM F1 AUC": 0.8648507071765322,
+      "eval_PRM F1 AUC (fixed)": 0.8067050811943426,
+      "eval_PRM F1 Neg": 0.76,
+      "eval_PRM NPV": 0.7037037037037037,
+      "eval_PRM Precision": 0.9493670886075949,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2316356599330902,
+      "eval_runtime": 14.6623,
+      "eval_samples_per_second": 3.001,
+      "eval_steps_per_second": 0.136,
+      "step": 1570
+    },
+    {
+      "epoch": 0.40684989155417434,
+      "grad_norm": 3.110905983808249,
+      "learning_rate": 9.246884421413949e-07,
+      "loss": 0.3391,
+      "step": 1571
+    },
+    {
+      "epoch": 0.4071088666601923,
+      "grad_norm": 6.939051887466604,
+      "learning_rate": 9.241923358360294e-07,
+      "loss": 0.3787,
+      "step": 1572
+    },
+    {
+      "epoch": 0.4073678417662102,
+      "grad_norm": 3.7045178313961844,
+      "learning_rate": 9.236959848551258e-07,
+      "loss": 0.3536,
+      "step": 1573
+    },
+    {
+      "epoch": 0.4076268168722282,
+      "grad_norm": 4.9284738463473525,
+      "learning_rate": 9.231993896045936e-07,
+      "loss": 0.3511,
+      "step": 1574
+    },
+    {
+      "epoch": 0.4078857919782461,
+      "grad_norm": 4.0170268942643315,
+      "learning_rate": 9.227025504905417e-07,
+      "loss": 0.3561,
+      "step": 1575
+    },
+    {
+      "epoch": 0.4078857919782461,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.9259259259259259,
+      "eval_PRM F1 AUC": 0.8648507071765322,
+      "eval_PRM F1 AUC (fixed)": 0.8098480880041907,
+      "eval_PRM F1 Neg": 0.76,
+      "eval_PRM NPV": 0.7037037037037037,
+      "eval_PRM Precision": 0.9493670886075949,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2285064309835434,
+      "eval_runtime": 14.3724,
+      "eval_samples_per_second": 3.061,
+      "eval_steps_per_second": 0.139,
+      "step": 1575
+    },
+    {
+      "epoch": 0.408144767084264,
+      "grad_norm": 3.6292010693955086,
+      "learning_rate": 9.222054679192785e-07,
+      "loss": 0.2958,
+      "step": 1576
+    },
+    {
+      "epoch": 0.40840374219028197,
+      "grad_norm": 3.074604666947679,
+      "learning_rate": 9.217081422973116e-07,
+      "loss": 0.3354,
+      "step": 1577
+    },
+    {
+      "epoch": 0.4086627172962999,
+      "grad_norm": 4.533096410294307,
+      "learning_rate": 9.212105740313473e-07,
+      "loss": 0.2872,
+      "step": 1578
+    },
+    {
+      "epoch": 0.40892169240231785,
+      "grad_norm": 6.79973062891781,
+      "learning_rate": 9.207127635282906e-07,
+      "loss": 0.301,
+      "step": 1579
+    },
+    {
+      "epoch": 0.40918066750833576,
+      "grad_norm": 3.765681353148795,
+      "learning_rate": 9.20214711195244e-07,
+      "loss": 0.3086,
+      "step": 1580
+    },
+    {
+      "epoch": 0.40918066750833576,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.9259259259259259,
+      "eval_PRM F1 AUC": 0.8648507071765322,
+      "eval_PRM F1 AUC (fixed)": 0.8114195914091148,
+      "eval_PRM F1 Neg": 0.76,
+      "eval_PRM NPV": 0.7037037037037037,
+      "eval_PRM Precision": 0.9493670886075949,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.22827695310115814,
+      "eval_runtime": 14.5918,
+      "eval_samples_per_second": 3.015,
+      "eval_steps_per_second": 0.137,
+      "step": 1580
+    },
+    {
+      "epoch": 0.40943964261435367,
+      "grad_norm": 4.613099586737731,
+      "learning_rate": 9.197164174395084e-07,
+      "loss": 0.2904,
+      "step": 1581
+    },
+    {
+      "epoch": 0.40969861772037164,
+      "grad_norm": 3.3282662950413666,
+      "learning_rate": 9.192178826685814e-07,
+      "loss": 0.3379,
+      "step": 1582
+    },
+    {
+      "epoch": 0.40995759282638955,
+      "grad_norm": 3.7861278832972296,
+      "learning_rate": 9.187191072901587e-07,
+      "loss": 0.311,
+      "step": 1583
+    },
+    {
+      "epoch": 0.4102165679324075,
+      "grad_norm": 4.181741160395208,
+      "learning_rate": 9.182200917121318e-07,
+      "loss": 0.3841,
+      "step": 1584
+    },
+    {
+      "epoch": 0.41047554303842543,
+      "grad_norm": 6.821150870528454,
+      "learning_rate": 9.177208363425894e-07,
+      "loss": 0.3986,
+      "step": 1585
+    },
+    {
+      "epoch": 0.41047554303842543,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8127291775798847,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23270650207996368,
+      "eval_runtime": 14.6306,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 0.137,
+      "step": 1585
+    },
+    {
+      "epoch": 0.41073451814444334,
+      "grad_norm": 3.181380014402195,
+      "learning_rate": 9.172213415898157e-07,
+      "loss": 0.3496,
+      "step": 1586
+    },
+    {
+      "epoch": 0.4109934932504613,
+      "grad_norm": 4.202969566505007,
+      "learning_rate": 9.16721607862291e-07,
+      "loss": 0.3644,
+      "step": 1587
+    },
+    {
+      "epoch": 0.4112524683564792,
+      "grad_norm": 2.968705616731075,
+      "learning_rate": 9.162216355686907e-07,
+      "loss": 0.2971,
+      "step": 1588
+    },
+    {
+      "epoch": 0.4115114434624972,
+      "grad_norm": 2.8197104250663507,
+      "learning_rate": 9.157214251178859e-07,
+      "loss": 0.318,
+      "step": 1589
+    },
+    {
+      "epoch": 0.4117704185685151,
+      "grad_norm": 4.617171577840848,
+      "learning_rate": 9.152209769189417e-07,
+      "loss": 0.3833,
+      "step": 1590
+    },
+    {
+      "epoch": 0.4117704185685151,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.9259259259259259,
+      "eval_PRM F1 AUC": 0.8648507071765322,
+      "eval_PRM F1 AUC (fixed)": 0.8119434258774227,
+      "eval_PRM F1 Neg": 0.76,
+      "eval_PRM NPV": 0.7037037037037037,
+      "eval_PRM Precision": 0.9493670886075949,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.23377208411693573,
+      "eval_runtime": 14.7727,
+      "eval_samples_per_second": 2.978,
+      "eval_steps_per_second": 0.135,
+      "step": 1590
+    },
+    {
+      "epoch": 0.41202939367453306,
+      "grad_norm": 4.065809620813271,
+      "learning_rate": 9.147202913811186e-07,
+      "loss": 0.3289,
+      "step": 1591
+    },
+    {
+      "epoch": 0.412288368780551,
+      "grad_norm": 4.268544709017804,
+      "learning_rate": 9.142193689138699e-07,
+      "loss": 0.2772,
+      "step": 1592
+    },
+    {
+      "epoch": 0.4125473438865689,
+      "grad_norm": 6.581226734835593,
+      "learning_rate": 9.137182099268439e-07,
+      "loss": 0.3708,
+      "step": 1593
+    },
+    {
+      "epoch": 0.41280631899258685,
+      "grad_norm": 3.5546798516442504,
+      "learning_rate": 9.132168148298817e-07,
+      "loss": 0.3476,
+      "step": 1594
+    },
+    {
+      "epoch": 0.41306529409860476,
+      "grad_norm": 4.481149042660927,
+      "learning_rate": 9.127151840330175e-07,
+      "loss": 0.3521,
+      "step": 1595
+    },
+    {
+      "epoch": 0.41306529409860476,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.9259259259259259,
+      "eval_PRM F1 AUC": 0.8648507071765322,
+      "eval_PRM F1 AUC (fixed)": 0.8132530120481928,
+      "eval_PRM F1 Neg": 0.76,
+      "eval_PRM NPV": 0.7037037037037037,
+      "eval_PRM Precision": 0.9493670886075949,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2304309904575348,
+      "eval_runtime": 14.8136,
+      "eval_samples_per_second": 2.97,
+      "eval_steps_per_second": 0.135,
+      "step": 1595
+    },
+    {
+      "epoch": 0.41332426920462273,
+      "grad_norm": 3.570569170599757,
+      "learning_rate": 9.122133179464785e-07,
+      "loss": 0.3589,
+      "step": 1596
+    },
+    {
+      "epoch": 0.41358324431064064,
+      "grad_norm": 7.553813247270276,
+      "learning_rate": 9.117112169806835e-07,
+      "loss": 0.4214,
+      "step": 1597
+    },
+    {
+      "epoch": 0.41384221941665855,
+      "grad_norm": 5.820835980150305,
+      "learning_rate": 9.11208881546245e-07,
+      "loss": 0.3483,
+      "step": 1598
+    },
+    {
+      "epoch": 0.4141011945226765,
+      "grad_norm": 7.6282942209541496,
+      "learning_rate": 9.107063120539658e-07,
+      "loss": 0.404,
+      "step": 1599
+    },
+    {
+      "epoch": 0.41436016962869443,
+      "grad_norm": 3.568743519308355,
+      "learning_rate": 9.102035089148405e-07,
+      "loss": 0.3004,
+      "step": 1600
+    },
+    {
+      "epoch": 0.41436016962869443,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.8116815086432687,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.22910362482070923,
+      "eval_runtime": 14.6683,
+      "eval_samples_per_second": 3.0,
+      "eval_steps_per_second": 0.136,
+      "step": 1600
+    },
+    {
+      "epoch": 0.4146191447347124,
+      "grad_norm": 4.109072376223985,
+      "learning_rate": 9.097004725400549e-07,
+      "loss": 0.4477,
+      "step": 1601
+    },
+    {
+      "epoch": 0.4148781198407303,
+      "grad_norm": 4.930284637785742,
+      "learning_rate": 9.091972033409855e-07,
+      "loss": 0.3576,
+      "step": 1602
+    },
+    {
+      "epoch": 0.4151370949467482,
+      "grad_norm": 3.3043274415947788,
+      "learning_rate": 9.086937017291995e-07,
+      "loss": 0.3254,
+      "step": 1603
+    },
+    {
+      "epoch": 0.4153960700527662,
+      "grad_norm": 4.309456499070708,
+      "learning_rate": 9.081899681164536e-07,
+      "loss": 0.3716,
+      "step": 1604
+    },
+    {
+      "epoch": 0.4156550451587841,
+      "grad_norm": 5.998403938471746,
+      "learning_rate": 9.076860029146944e-07,
+      "loss": 0.4528,
+      "step": 1605
+    },
+    {
+      "epoch": 0.4156550451587841,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.8132530120481928,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2280660718679428,
+      "eval_runtime": 14.1784,
+      "eval_samples_per_second": 3.103,
+      "eval_steps_per_second": 0.141,
+      "step": 1605
+    },
+    {
+      "epoch": 0.41591402026480206,
+      "grad_norm": 8.11627497388889,
+      "learning_rate": 9.071818065360583e-07,
+      "loss": 0.3177,
+      "step": 1606
+    },
+    {
+      "epoch": 0.41617299537082,
+      "grad_norm": 3.846957144646813,
+      "learning_rate": 9.0667737939287e-07,
+      "loss": 0.2999,
+      "step": 1607
+    },
+    {
+      "epoch": 0.4164319704768379,
+      "grad_norm": 3.6591881455003787,
+      "learning_rate": 9.061727218976437e-07,
+      "loss": 0.3537,
+      "step": 1608
+    },
+    {
+      "epoch": 0.41669094558285585,
+      "grad_norm": 4.10036283772463,
+      "learning_rate": 9.056678344630814e-07,
+      "loss": 0.3731,
+      "step": 1609
+    },
+    {
+      "epoch": 0.41694992068887377,
+      "grad_norm": 3.5516059755511002,
+      "learning_rate": 9.051627175020737e-07,
+      "loss": 0.368,
+      "step": 1610
+    },
+    {
+      "epoch": 0.41694992068887377,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.8095861707700367,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2249169796705246,
+      "eval_runtime": 14.6382,
+      "eval_samples_per_second": 3.006,
+      "eval_steps_per_second": 0.137,
+      "step": 1610
+    },
+    {
+      "epoch": 0.41720889579489173,
+      "grad_norm": 2.9603314781588126,
+      "learning_rate": 9.046573714276983e-07,
+      "loss": 0.2897,
+      "step": 1611
+    },
+    {
+      "epoch": 0.41746787090090964,
+      "grad_norm": 3.0467493895826383,
+      "learning_rate": 9.041517966532205e-07,
+      "loss": 0.2727,
+      "step": 1612
+    },
+    {
+      "epoch": 0.4177268460069276,
+      "grad_norm": 4.234041070121353,
+      "learning_rate": 9.03645993592093e-07,
+      "loss": 0.3128,
+      "step": 1613
+    },
+    {
+      "epoch": 0.4179858211129455,
+      "grad_norm": 3.1692736034135915,
+      "learning_rate": 9.031399626579544e-07,
+      "loss": 0.3455,
+      "step": 1614
+    },
+    {
+      "epoch": 0.41824479621896343,
+      "grad_norm": 3.723254642276008,
+      "learning_rate": 9.026337042646305e-07,
+      "loss": 0.4032,
+      "step": 1615
+    },
+    {
+      "epoch": 0.41824479621896343,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.926829268292683,
+      "eval_PRM F1 AUC": 0.8491356731272918,
+      "eval_PRM F1 AUC (fixed)": 0.8135149292823468,
+      "eval_PRM F1 Neg": 0.75,
+      "eval_PRM NPV": 0.72,
+      "eval_PRM Precision": 0.9382716049382716,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22190698981285095,
+      "eval_runtime": 14.3855,
+      "eval_samples_per_second": 3.059,
+      "eval_steps_per_second": 0.139,
+      "step": 1615
+    },
+    {
+      "epoch": 0.4185037713249814,
+      "grad_norm": 5.1337874291904155,
+      "learning_rate": 9.021272188261324e-07,
+      "loss": 0.3979,
+      "step": 1616
+    },
+    {
+      "epoch": 0.4187627464309993,
+      "grad_norm": 5.164141850343155,
+      "learning_rate": 9.016205067566574e-07,
+      "loss": 0.3202,
+      "step": 1617
+    },
+    {
+      "epoch": 0.4190217215370173,
+      "grad_norm": 4.559613492730163,
+      "learning_rate": 9.011135684705881e-07,
+      "loss": 0.307,
+      "step": 1618
+    },
+    {
+      "epoch": 0.4192806966430352,
+      "grad_norm": 4.084012653608465,
+      "learning_rate": 9.006064043824915e-07,
+      "loss": 0.3692,
+      "step": 1619
+    },
+    {
+      "epoch": 0.4195396717490531,
+      "grad_norm": 6.417782731569771,
+      "learning_rate": 9.000990149071201e-07,
+      "loss": 0.3027,
+      "step": 1620
+    },
+    {
+      "epoch": 0.4195396717490531,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8082765845992667,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22353814542293549,
+      "eval_runtime": 14.7809,
+      "eval_samples_per_second": 2.977,
+      "eval_steps_per_second": 0.135,
+      "step": 1620
+    },
+    {
+      "epoch": 0.41979864685507107,
+      "grad_norm": 5.188024486858989,
+      "learning_rate": 8.995914004594102e-07,
+      "loss": 0.2677,
+      "step": 1621
+    },
+    {
+      "epoch": 0.420057621961089,
+      "grad_norm": 2.997558416900511,
+      "learning_rate": 8.990835614544816e-07,
+      "loss": 0.3337,
+      "step": 1622
+    },
+    {
+      "epoch": 0.42031659706710695,
+      "grad_norm": 3.376145696450939,
+      "learning_rate": 8.985754983076393e-07,
+      "loss": 0.3215,
+      "step": 1623
+    },
+    {
+      "epoch": 0.42057557217312486,
+      "grad_norm": 4.053299327110271,
+      "learning_rate": 8.980672114343702e-07,
+      "loss": 0.3135,
+      "step": 1624
+    },
+    {
+      "epoch": 0.42083454727914277,
+      "grad_norm": 3.3409444896076095,
+      "learning_rate": 8.975587012503444e-07,
+      "loss": 0.3845,
+      "step": 1625
+    },
+    {
+      "epoch": 0.42083454727914277,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8098480880041907,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22230681777000427,
+      "eval_runtime": 15.0731,
+      "eval_samples_per_second": 2.919,
+      "eval_steps_per_second": 0.133,
+      "step": 1625
+    },
+    {
+      "epoch": 0.42109352238516073,
+      "grad_norm": 3.0542917993365886,
+      "learning_rate": 8.97049968171415e-07,
+      "loss": 0.3275,
+      "step": 1626
+    },
+    {
+      "epoch": 0.42135249749117865,
+      "grad_norm": 6.9321757463148765,
+      "learning_rate": 8.965410126136168e-07,
+      "loss": 0.3334,
+      "step": 1627
+    },
+    {
+      "epoch": 0.4216114725971966,
+      "grad_norm": 3.503968279570744,
+      "learning_rate": 8.960318349931678e-07,
+      "loss": 0.3474,
+      "step": 1628
+    },
+    {
+      "epoch": 0.4218704477032145,
+      "grad_norm": 3.703424325494324,
+      "learning_rate": 8.95522435726466e-07,
+      "loss": 0.2793,
+      "step": 1629
+    },
+    {
+      "epoch": 0.42212942280923244,
+      "grad_norm": 4.18913896940311,
+      "learning_rate": 8.950128152300916e-07,
+      "loss": 0.339,
+      "step": 1630
+    },
+    {
+      "epoch": 0.42212942280923244,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8051335777894185,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2259032130241394,
+      "eval_runtime": 14.8898,
+      "eval_samples_per_second": 2.955,
+      "eval_steps_per_second": 0.134,
+      "step": 1630
+    },
+    {
+      "epoch": 0.4223883979152504,
+      "grad_norm": 8.73788308445668,
+      "learning_rate": 8.945029739208054e-07,
+      "loss": 0.3689,
+      "step": 1631
+    },
+    {
+      "epoch": 0.4226473730212683,
+      "grad_norm": 9.167204914219283,
+      "learning_rate": 8.939929122155491e-07,
+      "loss": 0.3369,
+      "step": 1632
+    },
+    {
+      "epoch": 0.4229063481272863,
+      "grad_norm": 6.917728506312492,
+      "learning_rate": 8.934826305314442e-07,
+      "loss": 0.3584,
+      "step": 1633
+    },
+    {
+      "epoch": 0.4231653232333042,
+      "grad_norm": 4.450739565929513,
+      "learning_rate": 8.929721292857925e-07,
+      "loss": 0.336,
+      "step": 1634
+    },
+    {
+      "epoch": 0.42342429833932216,
+      "grad_norm": 3.285587040095739,
+      "learning_rate": 8.924614088960751e-07,
+      "loss": 0.3152,
+      "step": 1635
+    },
+    {
+      "epoch": 0.42342429833932216,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9192546583850931,
+      "eval_PRM F1 AUC": 0.8588266107909901,
+      "eval_PRM F1 AUC (fixed)": 0.8038239916186485,
+      "eval_PRM F1 Neg": 0.7450980392156863,
+      "eval_PRM NPV": 0.6785714285714286,
+      "eval_PRM Precision": 0.9487179487179487,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.23187941312789917,
+      "eval_runtime": 14.6607,
+      "eval_samples_per_second": 3.001,
+      "eval_steps_per_second": 0.136,
+      "step": 1635
+    },
+    {
+      "epoch": 0.42368327344534007,
+      "grad_norm": 7.060694586928436,
+      "learning_rate": 8.919504697799524e-07,
+      "loss": 0.3987,
+      "step": 1636
+    },
+    {
+      "epoch": 0.423942248551358,
+      "grad_norm": 11.109205058450689,
+      "learning_rate": 8.914393123552636e-07,
+      "loss": 0.3281,
+      "step": 1637
+    },
+    {
+      "epoch": 0.42420122365737595,
+      "grad_norm": 7.022811322885632,
+      "learning_rate": 8.909279370400265e-07,
+      "loss": 0.303,
+      "step": 1638
+    },
+    {
+      "epoch": 0.42446019876339386,
+      "grad_norm": 3.6044168949453224,
+      "learning_rate": 8.904163442524372e-07,
+      "loss": 0.2626,
+      "step": 1639
+    },
+    {
+      "epoch": 0.4247191738694118,
+      "grad_norm": 2.1812320431467125,
+      "learning_rate": 8.899045344108694e-07,
+      "loss": 0.2518,
+      "step": 1640
+    },
+    {
+      "epoch": 0.4247191738694118,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8085385018334206,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2213054746389389,
+      "eval_runtime": 14.4822,
+      "eval_samples_per_second": 3.038,
+      "eval_steps_per_second": 0.138,
+      "step": 1640
+    },
+    {
+      "epoch": 0.42497814897542974,
+      "grad_norm": 8.026212733033912,
+      "learning_rate": 8.893925079338742e-07,
+      "loss": 0.4836,
+      "step": 1641
+    },
+    {
+      "epoch": 0.42523712408144765,
+      "grad_norm": 3.0719284366698014,
+      "learning_rate": 8.888802652401804e-07,
+      "loss": 0.3812,
+      "step": 1642
+    },
+    {
+      "epoch": 0.4254960991874656,
+      "grad_norm": 4.162047005295492,
+      "learning_rate": 8.883678067486934e-07,
+      "loss": 0.3519,
+      "step": 1643
+    },
+    {
+      "epoch": 0.4257550742934835,
+      "grad_norm": 4.138604905450256,
+      "learning_rate": 8.878551328784947e-07,
+      "loss": 0.3056,
+      "step": 1644
+    },
+    {
+      "epoch": 0.4260140493995015,
+      "grad_norm": 3.1895684773842303,
+      "learning_rate": 8.873422440488425e-07,
+      "loss": 0.3433,
+      "step": 1645
+    },
+    {
+      "epoch": 0.4260140493995015,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8098480880041907,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2170848846435547,
+      "eval_runtime": 14.3406,
+      "eval_samples_per_second": 3.068,
+      "eval_steps_per_second": 0.139,
+      "step": 1645
+    },
+    {
+      "epoch": 0.4262730245055194,
+      "grad_norm": 10.104451186337883,
+      "learning_rate": 8.868291406791701e-07,
+      "loss": 0.4841,
+      "step": 1646
+    },
+    {
+      "epoch": 0.4265319996115373,
+      "grad_norm": 3.0506595381944717,
+      "learning_rate": 8.86315823189087e-07,
+      "loss": 0.2578,
+      "step": 1647
+    },
+    {
+      "epoch": 0.4267909747175553,
+      "grad_norm": 4.742630810522798,
+      "learning_rate": 8.858022919983773e-07,
+      "loss": 0.3805,
+      "step": 1648
+    },
+    {
+      "epoch": 0.4270499498235732,
+      "grad_norm": 4.7268284590438565,
+      "learning_rate": 8.852885475270003e-07,
+      "loss": 0.2897,
+      "step": 1649
+    },
+    {
+      "epoch": 0.42730892492959116,
+      "grad_norm": 3.2082605322636737,
+      "learning_rate": 8.84774590195089e-07,
+      "loss": 0.3011,
+      "step": 1650
+    },
+    {
+      "epoch": 0.42730892492959116,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.926829268292683,
+      "eval_PRM F1 AUC": 0.8491356731272918,
+      "eval_PRM F1 AUC (fixed)": 0.8088004190675746,
+      "eval_PRM F1 Neg": 0.75,
+      "eval_PRM NPV": 0.72,
+      "eval_PRM Precision": 0.9382716049382716,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21894888579845428,
+      "eval_runtime": 14.9643,
+      "eval_samples_per_second": 2.94,
+      "eval_steps_per_second": 0.134,
+      "step": 1650
+    },
+    {
+      "epoch": 0.42756790003560907,
+      "grad_norm": 3.0707583362104627,
+      "learning_rate": 8.84260420422951e-07,
+      "loss": 0.3105,
+      "step": 1651
+    },
+    {
+      "epoch": 0.42782687514162704,
+      "grad_norm": 4.820078394832174,
+      "learning_rate": 8.837460386310677e-07,
+      "loss": 0.3234,
+      "step": 1652
+    },
+    {
+      "epoch": 0.42808585024764495,
+      "grad_norm": 5.7500950199688745,
+      "learning_rate": 8.832314452400939e-07,
+      "loss": 0.3539,
+      "step": 1653
+    },
+    {
+      "epoch": 0.42834482535366286,
+      "grad_norm": 5.8906413510144136,
+      "learning_rate": 8.82716640670857e-07,
+      "loss": 0.378,
+      "step": 1654
+    },
+    {
+      "epoch": 0.42860380045968083,
+      "grad_norm": 5.1040179958597305,
+      "learning_rate": 8.822016253443574e-07,
+      "loss": 0.3758,
+      "step": 1655
+    },
+    {
+      "epoch": 0.42860380045968083,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8074908328968047,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2200443148612976,
+      "eval_runtime": 14.6274,
+      "eval_samples_per_second": 3.008,
+      "eval_steps_per_second": 0.137,
+      "step": 1655
+    },
+    {
+      "epoch": 0.42886277556569874,
+      "grad_norm": 5.968232234324419,
+      "learning_rate": 8.816863996817678e-07,
+      "loss": 0.3191,
+      "step": 1656
+    },
+    {
+      "epoch": 0.4291217506717167,
+      "grad_norm": 3.494625178948273,
+      "learning_rate": 8.811709641044332e-07,
+      "loss": 0.4133,
+      "step": 1657
+    },
+    {
+      "epoch": 0.4293807257777346,
+      "grad_norm": 3.8755478263528986,
+      "learning_rate": 8.806553190338696e-07,
+      "loss": 0.2889,
+      "step": 1658
+    },
+    {
+      "epoch": 0.42963970088375253,
+      "grad_norm": 3.378532477924372,
+      "learning_rate": 8.80139464891765e-07,
+      "loss": 0.3859,
+      "step": 1659
+    },
+    {
+      "epoch": 0.4298986759897705,
+      "grad_norm": 3.6307844771657085,
+      "learning_rate": 8.79623402099978e-07,
+      "loss": 0.4118,
+      "step": 1660
+    },
+    {
+      "epoch": 0.4298986759897705,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8067050811943426,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22642911970615387,
+      "eval_runtime": 14.3915,
+      "eval_samples_per_second": 3.057,
+      "eval_steps_per_second": 0.139,
+      "step": 1660
+    },
+    {
+      "epoch": 0.4301576510957884,
+      "grad_norm": 3.77928032982321,
+      "learning_rate": 8.791071310805381e-07,
+      "loss": 0.3508,
+      "step": 1661
+    },
+    {
+      "epoch": 0.4304166262018064,
+      "grad_norm": 7.492823741749537,
+      "learning_rate": 8.785906522556447e-07,
+      "loss": 0.3253,
+      "step": 1662
+    },
+    {
+      "epoch": 0.4306756013078243,
+      "grad_norm": 5.060060882559026,
+      "learning_rate": 8.780739660476675e-07,
+      "loss": 0.3875,
+      "step": 1663
+    },
+    {
+      "epoch": 0.4309345764138422,
+      "grad_norm": 4.951964181321862,
+      "learning_rate": 8.775570728791454e-07,
+      "loss": 0.4134,
+      "step": 1664
+    },
+    {
+      "epoch": 0.43119355151986016,
+      "grad_norm": 3.7967973105566615,
+      "learning_rate": 8.770399731727872e-07,
+      "loss": 0.4639,
+      "step": 1665
+    },
+    {
+      "epoch": 0.43119355151986016,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137245,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23072762787342072,
+      "eval_runtime": 14.7853,
+      "eval_samples_per_second": 2.976,
+      "eval_steps_per_second": 0.135,
+      "step": 1665
+    },
+    {
+      "epoch": 0.4314525266258781,
+      "grad_norm": 3.3413203190585037,
+      "learning_rate": 8.7652266735147e-07,
+      "loss": 0.3265,
+      "step": 1666
+    },
+    {
+      "epoch": 0.43171150173189604,
+      "grad_norm": 3.2590127051152864,
+      "learning_rate": 8.760051558382396e-07,
+      "loss": 0.3307,
+      "step": 1667
+    },
+    {
+      "epoch": 0.43197047683791395,
+      "grad_norm": 3.015655163823686,
+      "learning_rate": 8.754874390563101e-07,
+      "loss": 0.2906,
+      "step": 1668
+    },
+    {
+      "epoch": 0.43222945194393186,
+      "grad_norm": 3.75276624789197,
+      "learning_rate": 8.749695174290635e-07,
+      "loss": 0.3691,
+      "step": 1669
+    },
+    {
+      "epoch": 0.43248842704994983,
+      "grad_norm": 2.8441005048542323,
+      "learning_rate": 8.744513913800493e-07,
+      "loss": 0.299,
+      "step": 1670
+    },
+    {
+      "epoch": 0.43248842704994983,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8006809848088005,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2328794002532959,
+      "eval_runtime": 14.5475,
+      "eval_samples_per_second": 3.025,
+      "eval_steps_per_second": 0.137,
+      "step": 1670
+    },
+    {
+      "epoch": 0.43274740215596774,
+      "grad_norm": 5.691176253313527,
+      "learning_rate": 8.739330613329839e-07,
+      "loss": 0.3112,
+      "step": 1671
+    },
+    {
+      "epoch": 0.4330063772619857,
+      "grad_norm": 4.073152889158902,
+      "learning_rate": 8.73414527711751e-07,
+      "loss": 0.4038,
+      "step": 1672
+    },
+    {
+      "epoch": 0.4332653523680036,
+      "grad_norm": 3.6181373476890712,
+      "learning_rate": 8.728957909404006e-07,
+      "loss": 0.2938,
+      "step": 1673
+    },
+    {
+      "epoch": 0.4335243274740216,
+      "grad_norm": 5.103103893659234,
+      "learning_rate": 8.723768514431487e-07,
+      "loss": 0.4224,
+      "step": 1674
+    },
+    {
+      "epoch": 0.4337833025800395,
+      "grad_norm": 12.451008210969361,
+      "learning_rate": 8.718577096443769e-07,
+      "loss": 0.4068,
+      "step": 1675
+    },
+    {
+      "epoch": 0.4337833025800395,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7959664745940283,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23811227083206177,
+      "eval_runtime": 14.6527,
+      "eval_samples_per_second": 3.003,
+      "eval_steps_per_second": 0.136,
+      "step": 1675
+    },
+    {
+      "epoch": 0.4340422776860574,
+      "grad_norm": 3.6393883954127024,
+      "learning_rate": 8.713383659686329e-07,
+      "loss": 0.366,
+      "step": 1676
+    },
+    {
+      "epoch": 0.4343012527920754,
+      "grad_norm": 3.7561613045552287,
+      "learning_rate": 8.708188208406287e-07,
+      "loss": 0.3487,
+      "step": 1677
+    },
+    {
+      "epoch": 0.4345602278980933,
+      "grad_norm": 4.112559032256317,
+      "learning_rate": 8.702990746852419e-07,
+      "loss": 0.3483,
+      "step": 1678
+    },
+    {
+      "epoch": 0.43481920300411125,
+      "grad_norm": 6.360240374228111,
+      "learning_rate": 8.697791279275138e-07,
+      "loss": 0.367,
+      "step": 1679
+    },
+    {
+      "epoch": 0.43507817811012917,
+      "grad_norm": 3.935694768901393,
+      "learning_rate": 8.692589809926498e-07,
+      "loss": 0.3179,
+      "step": 1680
+    },
+    {
+      "epoch": 0.43507817811012917,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7972760607647984,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23968106508255005,
+      "eval_runtime": 14.3665,
+      "eval_samples_per_second": 3.063,
+      "eval_steps_per_second": 0.139,
+      "step": 1680
+    },
+    {
+      "epoch": 0.4353371532161471,
+      "grad_norm": 3.5153240118439637,
+      "learning_rate": 8.687386343060193e-07,
+      "loss": 0.3567,
+      "step": 1681
+    },
+    {
+      "epoch": 0.43559612832216504,
+      "grad_norm": 3.4525502369359056,
+      "learning_rate": 8.682180882931552e-07,
+      "loss": 0.2657,
+      "step": 1682
+    },
+    {
+      "epoch": 0.43585510342818296,
+      "grad_norm": 2.8841332560401325,
+      "learning_rate": 8.67697343379753e-07,
+      "loss": 0.3499,
+      "step": 1683
+    },
+    {
+      "epoch": 0.4361140785342009,
+      "grad_norm": 3.9017587222557473,
+      "learning_rate": 8.671763999916708e-07,
+      "loss": 0.3808,
+      "step": 1684
+    },
+    {
+      "epoch": 0.43637305364021883,
+      "grad_norm": 3.3984910226128857,
+      "learning_rate": 8.666552585549295e-07,
+      "loss": 0.3615,
+      "step": 1685
+    },
+    {
+      "epoch": 0.43637305364021883,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.7970141435306444,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.24045367538928986,
+      "eval_runtime": 14.7529,
+      "eval_samples_per_second": 2.982,
+      "eval_steps_per_second": 0.136,
+      "step": 1685
+    },
+    {
+      "epoch": 0.43663202874623674,
+      "grad_norm": 3.3014876553458503,
+      "learning_rate": 8.661339194957115e-07,
+      "loss": 0.4039,
+      "step": 1686
+    },
+    {
+      "epoch": 0.4368910038522547,
+      "grad_norm": 4.494385054391037,
+      "learning_rate": 8.65612383240361e-07,
+      "loss": 0.3515,
+      "step": 1687
+    },
+    {
+      "epoch": 0.4371499789582726,
+      "grad_norm": 2.6955125987179436,
+      "learning_rate": 8.650906502153836e-07,
+      "loss": 0.2649,
+      "step": 1688
+    },
+    {
+      "epoch": 0.4374089540642906,
+      "grad_norm": 6.297182129219428,
+      "learning_rate": 8.645687208474455e-07,
+      "loss": 0.2861,
+      "step": 1689
+    },
+    {
+      "epoch": 0.4376679291703085,
+      "grad_norm": 5.525091990734904,
+      "learning_rate": 8.640465955633739e-07,
+      "loss": 0.3078,
+      "step": 1690
+    },
+    {
+      "epoch": 0.4376679291703085,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.7980618124672604,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23908013105392456,
+      "eval_runtime": 14.7326,
+      "eval_samples_per_second": 2.987,
+      "eval_steps_per_second": 0.136,
+      "step": 1690
+    },
+    {
+      "epoch": 0.4379269042763264,
+      "grad_norm": 6.634706936547658,
+      "learning_rate": 8.635242747901557e-07,
+      "loss": 0.347,
+      "step": 1691
+    },
+    {
+      "epoch": 0.4381858793823444,
+      "grad_norm": 4.002366725497352,
+      "learning_rate": 8.630017589549379e-07,
+      "loss": 0.3412,
+      "step": 1692
+    },
+    {
+      "epoch": 0.4384448544883623,
+      "grad_norm": 4.134430196470716,
+      "learning_rate": 8.624790484850272e-07,
+      "loss": 0.3839,
+      "step": 1693
+    },
+    {
+      "epoch": 0.43870382959438026,
+      "grad_norm": 3.0378928162284686,
+      "learning_rate": 8.619561438078893e-07,
+      "loss": 0.3878,
+      "step": 1694
+    },
+    {
+      "epoch": 0.43896280470039817,
+      "grad_norm": 3.288723716176208,
+      "learning_rate": 8.614330453511488e-07,
+      "loss": 0.3348,
+      "step": 1695
+    },
+    {
+      "epoch": 0.43896280470039817,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.7975379779989523,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23444853723049164,
+      "eval_runtime": 14.8246,
+      "eval_samples_per_second": 2.968,
+      "eval_steps_per_second": 0.135,
+      "step": 1695
+    },
+    {
+      "epoch": 0.43922177980641613,
+      "grad_norm": 8.049448219216604,
+      "learning_rate": 8.609097535425883e-07,
+      "loss": 0.3887,
+      "step": 1696
+    },
+    {
+      "epoch": 0.43948075491243405,
+      "grad_norm": 3.3624078209970314,
+      "learning_rate": 8.603862688101495e-07,
+      "loss": 0.3259,
+      "step": 1697
+    },
+    {
+      "epoch": 0.43973973001845196,
+      "grad_norm": 3.3402730111687,
+      "learning_rate": 8.59862591581931e-07,
+      "loss": 0.3547,
+      "step": 1698
+    },
+    {
+      "epoch": 0.4399987051244699,
+      "grad_norm": 5.347674530617662,
+      "learning_rate": 8.593387222861892e-07,
+      "loss": 0.3592,
+      "step": 1699
+    },
+    {
+      "epoch": 0.44025768023048784,
+      "grad_norm": 2.4360697552111823,
+      "learning_rate": 8.588146613513372e-07,
+      "loss": 0.2552,
+      "step": 1700
+    },
+    {
+      "epoch": 0.44025768023048784,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7985856469355683,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23092550039291382,
+      "eval_runtime": 14.6344,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 0.137,
+      "step": 1700
+    },
+    {
+      "epoch": 0.4405166553365058,
+      "grad_norm": 4.306812871104216,
+      "learning_rate": 8.582904092059455e-07,
+      "loss": 0.3437,
+      "step": 1701
+    },
+    {
+      "epoch": 0.4407756304425237,
+      "grad_norm": 3.1278230337251665,
+      "learning_rate": 8.577659662787402e-07,
+      "loss": 0.3315,
+      "step": 1702
+    },
+    {
+      "epoch": 0.4410346055485416,
+      "grad_norm": 3.9733312249032386,
+      "learning_rate": 8.572413329986043e-07,
+      "loss": 0.3765,
+      "step": 1703
+    },
+    {
+      "epoch": 0.4412935806545596,
+      "grad_norm": 5.1439565481682745,
+      "learning_rate": 8.567165097945755e-07,
+      "loss": 0.3978,
+      "step": 1704
+    },
+    {
+      "epoch": 0.4415525557605775,
+      "grad_norm": 3.1744327350930823,
+      "learning_rate": 8.561914970958474e-07,
+      "loss": 0.297,
+      "step": 1705
+    },
+    {
+      "epoch": 0.4415525557605775,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.926829268292683,
+      "eval_PRM F1 AUC": 0.8491356731272918,
+      "eval_PRM F1 AUC (fixed)": 0.7988475641697224,
+      "eval_PRM F1 Neg": 0.75,
+      "eval_PRM NPV": 0.72,
+      "eval_PRM Precision": 0.9382716049382716,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2263193577528,
+      "eval_runtime": 14.5952,
+      "eval_samples_per_second": 3.015,
+      "eval_steps_per_second": 0.137,
+      "step": 1705
+    },
+    {
+      "epoch": 0.44181153086659547,
+      "grad_norm": 3.980867274635927,
+      "learning_rate": 8.556662953317685e-07,
+      "loss": 0.3984,
+      "step": 1706
+    },
+    {
+      "epoch": 0.4420705059726134,
+      "grad_norm": 5.433404583374516,
+      "learning_rate": 8.551409049318421e-07,
+      "loss": 0.4307,
+      "step": 1707
+    },
+    {
+      "epoch": 0.4423294810786313,
+      "grad_norm": 4.083500146112218,
+      "learning_rate": 8.546153263257251e-07,
+      "loss": 0.2691,
+      "step": 1708
+    },
+    {
+      "epoch": 0.44258845618464926,
+      "grad_norm": 4.177337174850718,
+      "learning_rate": 8.540895599432289e-07,
+      "loss": 0.2824,
+      "step": 1709
+    },
+    {
+      "epoch": 0.44284743129066717,
+      "grad_norm": 3.819657658493383,
+      "learning_rate": 8.535636062143183e-07,
+      "loss": 0.3729,
+      "step": 1710
+    },
+    {
+      "epoch": 0.44284743129066717,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137244,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22645670175552368,
+      "eval_runtime": 14.5655,
+      "eval_samples_per_second": 3.021,
+      "eval_steps_per_second": 0.137,
+      "step": 1710
+    },
+    {
+      "epoch": 0.44310640639668514,
+      "grad_norm": 6.149136739751437,
+      "learning_rate": 8.530374655691114e-07,
+      "loss": 0.2731,
+      "step": 1711
+    },
+    {
+      "epoch": 0.44336538150270305,
+      "grad_norm": 2.9699105747130083,
+      "learning_rate": 8.525111384378788e-07,
+      "loss": 0.2906,
+      "step": 1712
+    },
+    {
+      "epoch": 0.44362435660872096,
+      "grad_norm": 6.085554456562368,
+      "learning_rate": 8.519846252510442e-07,
+      "loss": 0.2938,
+      "step": 1713
+    },
+    {
+      "epoch": 0.4438833317147389,
+      "grad_norm": 3.9239327771729,
+      "learning_rate": 8.51457926439183e-07,
+      "loss": 0.3472,
+      "step": 1714
+    },
+    {
+      "epoch": 0.44414230682075684,
+      "grad_norm": 5.16591458430438,
+      "learning_rate": 8.509310424330225e-07,
+      "loss": 0.3619,
+      "step": 1715
+    },
+    {
+      "epoch": 0.44414230682075684,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8025144054478784,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22760477662086487,
+      "eval_runtime": 14.6096,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.137,
+      "step": 1715
+    },
+    {
+      "epoch": 0.4444012819267748,
+      "grad_norm": 3.2973839717958078,
+      "learning_rate": 8.504039736634415e-07,
+      "loss": 0.3162,
+      "step": 1716
+    },
+    {
+      "epoch": 0.4446602570327927,
+      "grad_norm": 6.1341991140194825,
+      "learning_rate": 8.498767205614698e-07,
+      "loss": 0.2534,
+      "step": 1717
+    },
+    {
+      "epoch": 0.4449192321388107,
+      "grad_norm": 4.229791341567047,
+      "learning_rate": 8.493492835582881e-07,
+      "loss": 0.3914,
+      "step": 1718
+    },
+    {
+      "epoch": 0.4451782072448286,
+      "grad_norm": 3.127952731147352,
+      "learning_rate": 8.488216630852276e-07,
+      "loss": 0.3128,
+      "step": 1719
+    },
+    {
+      "epoch": 0.4454371823508465,
+      "grad_norm": 5.744906103307722,
+      "learning_rate": 8.482938595737688e-07,
+      "loss": 0.3569,
+      "step": 1720
+    },
+    {
+      "epoch": 0.4454371823508465,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8030382399161864,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22972126305103302,
+      "eval_runtime": 14.4328,
+      "eval_samples_per_second": 3.049,
+      "eval_steps_per_second": 0.139,
+      "step": 1720
+    },
+    {
+      "epoch": 0.4456961574568645,
+      "grad_norm": 3.221749661822224,
+      "learning_rate": 8.47765873455543e-07,
+      "loss": 0.279,
+      "step": 1721
+    },
+    {
+      "epoch": 0.4459551325628824,
+      "grad_norm": 4.723289273805276,
+      "learning_rate": 8.472377051623299e-07,
+      "loss": 0.3384,
+      "step": 1722
+    },
+    {
+      "epoch": 0.44621410766890035,
+      "grad_norm": 5.190704872161203,
+      "learning_rate": 8.46709355126059e-07,
+      "loss": 0.3831,
+      "step": 1723
+    },
+    {
+      "epoch": 0.44647308277491826,
+      "grad_norm": 3.700894177677377,
+      "learning_rate": 8.461808237788073e-07,
+      "loss": 0.3755,
+      "step": 1724
+    },
+    {
+      "epoch": 0.4467320578809362,
+      "grad_norm": 5.361390881022496,
+      "learning_rate": 8.456521115528013e-07,
+      "loss": 0.2964,
+      "step": 1725
+    },
+    {
+      "epoch": 0.4467320578809362,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8061812467260345,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23026610910892487,
+      "eval_runtime": 14.3767,
+      "eval_samples_per_second": 3.061,
+      "eval_steps_per_second": 0.139,
+      "step": 1725
+    },
+    {
+      "epoch": 0.44699103298695414,
+      "grad_norm": 3.7260651984985,
+      "learning_rate": 8.451232188804146e-07,
+      "loss": 0.2309,
+      "step": 1726
+    },
+    {
+      "epoch": 0.44725000809297205,
+      "grad_norm": 9.18710585126297,
+      "learning_rate": 8.445941461941689e-07,
+      "loss": 0.4108,
+      "step": 1727
+    },
+    {
+      "epoch": 0.44750898319899,
+      "grad_norm": 4.3562980575068515,
+      "learning_rate": 8.440648939267327e-07,
+      "loss": 0.4047,
+      "step": 1728
+    },
+    {
+      "epoch": 0.44776795830500793,
+      "grad_norm": 4.631338491954459,
+      "learning_rate": 8.435354625109213e-07,
+      "loss": 0.3096,
+      "step": 1729
+    },
+    {
+      "epoch": 0.44802693341102584,
+      "grad_norm": 5.199946198691332,
+      "learning_rate": 8.43005852379697e-07,
+      "loss": 0.3592,
+      "step": 1730
+    },
+    {
+      "epoch": 0.44802693341102584,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8027763226820324,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23249457776546478,
+      "eval_runtime": 14.4784,
+      "eval_samples_per_second": 3.039,
+      "eval_steps_per_second": 0.138,
+      "step": 1730
+    },
+    {
+      "epoch": 0.4482859085170438,
+      "grad_norm": 4.252128206129468,
+      "learning_rate": 8.424760639661679e-07,
+      "loss": 0.2651,
+      "step": 1731
+    },
+    {
+      "epoch": 0.4485448836230617,
+      "grad_norm": 2.9962798643102855,
+      "learning_rate": 8.419460977035881e-07,
+      "loss": 0.2554,
+      "step": 1732
+    },
+    {
+      "epoch": 0.4488038587290797,
+      "grad_norm": 4.844131624007952,
+      "learning_rate": 8.414159540253566e-07,
+      "loss": 0.4041,
+      "step": 1733
+    },
+    {
+      "epoch": 0.4490628338350976,
+      "grad_norm": 3.6798997934760007,
+      "learning_rate": 8.408856333650182e-07,
+      "loss": 0.3329,
+      "step": 1734
+    },
+    {
+      "epoch": 0.4493218089411155,
+      "grad_norm": 6.515688754440896,
+      "learning_rate": 8.40355136156262e-07,
+      "loss": 0.3116,
+      "step": 1735
+    },
+    {
+      "epoch": 0.4493218089411155,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.7996333158721844,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23652400076389313,
+      "eval_runtime": 14.8974,
+      "eval_samples_per_second": 2.954,
+      "eval_steps_per_second": 0.134,
+      "step": 1735
+    },
+    {
+      "epoch": 0.4495807840471335,
+      "grad_norm": 3.9581638756947073,
+      "learning_rate": 8.398244628329219e-07,
+      "loss": 0.366,
+      "step": 1736
+    },
+    {
+      "epoch": 0.4498397591531514,
+      "grad_norm": 3.620290892586666,
+      "learning_rate": 8.39293613828975e-07,
+      "loss": 0.3239,
+      "step": 1737
+    },
+    {
+      "epoch": 0.45009873425916935,
+      "grad_norm": 3.9645238037365997,
+      "learning_rate": 8.387625895785431e-07,
+      "loss": 0.2711,
+      "step": 1738
+    },
+    {
+      "epoch": 0.45035770936518726,
+      "grad_norm": 4.130706791680596,
+      "learning_rate": 8.382313905158905e-07,
+      "loss": 0.2967,
+      "step": 1739
+    },
+    {
+      "epoch": 0.45061668447120523,
+      "grad_norm": 3.0491448534210375,
+      "learning_rate": 8.377000170754249e-07,
+      "loss": 0.3032,
+      "step": 1740
+    },
+    {
+      "epoch": 0.45061668447120523,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137245,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23463712632656097,
+      "eval_runtime": 14.3925,
+      "eval_samples_per_second": 3.057,
+      "eval_steps_per_second": 0.139,
+      "step": 1740
+    },
+    {
+      "epoch": 0.45087565957722314,
+      "grad_norm": 5.554883859083742,
+      "learning_rate": 8.371684696916965e-07,
+      "loss": 0.4688,
+      "step": 1741
+    },
+    {
+      "epoch": 0.45113463468324105,
+      "grad_norm": 5.151171640193862,
+      "learning_rate": 8.366367487993978e-07,
+      "loss": 0.3429,
+      "step": 1742
+    },
+    {
+      "epoch": 0.451393609789259,
+      "grad_norm": 12.139519484164033,
+      "learning_rate": 8.361048548333627e-07,
+      "loss": 0.3423,
+      "step": 1743
+    },
+    {
+      "epoch": 0.45165258489527693,
+      "grad_norm": 5.7588441409715845,
+      "learning_rate": 8.355727882285676e-07,
+      "loss": 0.3353,
+      "step": 1744
+    },
+    {
+      "epoch": 0.4519115600012949,
+      "grad_norm": 4.245876555385781,
+      "learning_rate": 8.350405494201293e-07,
+      "loss": 0.3723,
+      "step": 1745
+    },
+    {
+      "epoch": 0.4519115600012949,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8001571503404925,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23753543198108673,
+      "eval_runtime": 14.6106,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.137,
+      "step": 1745
+    },
+    {
+      "epoch": 0.4521705351073128,
+      "grad_norm": 5.105790492903071,
+      "learning_rate": 8.345081388433056e-07,
+      "loss": 0.3382,
+      "step": 1746
+    },
+    {
+      "epoch": 0.4524295102133307,
+      "grad_norm": 4.329127432255067,
+      "learning_rate": 8.339755569334948e-07,
+      "loss": 0.3678,
+      "step": 1747
+    },
+    {
+      "epoch": 0.4526884853193487,
+      "grad_norm": 2.4926356319218477,
+      "learning_rate": 8.334428041262357e-07,
+      "loss": 0.2392,
+      "step": 1748
+    },
+    {
+      "epoch": 0.4529474604253666,
+      "grad_norm": 6.587054051496237,
+      "learning_rate": 8.329098808572059e-07,
+      "loss": 0.3374,
+      "step": 1749
+    },
+    {
+      "epoch": 0.45320643553138457,
+      "grad_norm": 4.297210622041225,
+      "learning_rate": 8.323767875622236e-07,
+      "loss": 0.3333,
+      "step": 1750
+    },
+    {
+      "epoch": 0.45320643553138457,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7964903090623363,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23380161821842194,
+      "eval_runtime": 15.005,
+      "eval_samples_per_second": 2.932,
+      "eval_steps_per_second": 0.133,
+      "step": 1750
+    },
+    {
+      "epoch": 0.4534654106374025,
+      "grad_norm": 4.692593441858384,
+      "learning_rate": 8.318435246772451e-07,
+      "loss": 0.3315,
+      "step": 1751
+    },
+    {
+      "epoch": 0.4537243857434204,
+      "grad_norm": 6.329874341355685,
+      "learning_rate": 8.313100926383659e-07,
+      "loss": 0.3813,
+      "step": 1752
+    },
+    {
+      "epoch": 0.45398336084943836,
+      "grad_norm": 4.526285043124399,
+      "learning_rate": 8.307764918818198e-07,
+      "loss": 0.2917,
+      "step": 1753
+    },
+    {
+      "epoch": 0.45424233595545627,
+      "grad_norm": 3.2859389770667335,
+      "learning_rate": 8.302427228439779e-07,
+      "loss": 0.3351,
+      "step": 1754
+    },
+    {
+      "epoch": 0.45450131106147423,
+      "grad_norm": 2.7047710293212797,
+      "learning_rate": 8.2970878596135e-07,
+      "loss": 0.2893,
+      "step": 1755
+    },
+    {
+      "epoch": 0.45450131106147423,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.7977998952331063,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22954775393009186,
+      "eval_runtime": 14.4544,
+      "eval_samples_per_second": 3.044,
+      "eval_steps_per_second": 0.138,
+      "step": 1755
+    },
+    {
+      "epoch": 0.45476028616749214,
+      "grad_norm": 6.079841409527296,
+      "learning_rate": 8.291746816705823e-07,
+      "loss": 0.3106,
+      "step": 1756
+    },
+    {
+      "epoch": 0.45501926127351006,
+      "grad_norm": 3.5916725818463653,
+      "learning_rate": 8.286404104084587e-07,
+      "loss": 0.3382,
+      "step": 1757
+    },
+    {
+      "epoch": 0.455278236379528,
+      "grad_norm": 4.325582783032666,
+      "learning_rate": 8.281059726118986e-07,
+      "loss": 0.3001,
+      "step": 1758
+    },
+    {
+      "epoch": 0.45553721148554593,
+      "grad_norm": 3.131271808003115,
+      "learning_rate": 8.275713687179585e-07,
+      "loss": 0.3106,
+      "step": 1759
+    },
+    {
+      "epoch": 0.4557961865915639,
+      "grad_norm": 2.965484663724944,
+      "learning_rate": 8.270365991638303e-07,
+      "loss": 0.3372,
+      "step": 1760
+    },
+    {
+      "epoch": 0.4557961865915639,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7951807228915664,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23178471624851227,
+      "eval_runtime": 14.8561,
+      "eval_samples_per_second": 2.962,
+      "eval_steps_per_second": 0.135,
+      "step": 1760
+    },
+    {
+      "epoch": 0.4560551616975818,
+      "grad_norm": 3.7398543631485195,
+      "learning_rate": 8.265016643868416e-07,
+      "loss": 0.3386,
+      "step": 1761
+    },
+    {
+      "epoch": 0.4563141368035998,
+      "grad_norm": 2.87885645422035,
+      "learning_rate": 8.259665648244548e-07,
+      "loss": 0.3598,
+      "step": 1762
+    },
+    {
+      "epoch": 0.4565731119096177,
+      "grad_norm": 3.71470035190551,
+      "learning_rate": 8.254313009142674e-07,
+      "loss": 0.3184,
+      "step": 1763
+    },
+    {
+      "epoch": 0.4568320870156356,
+      "grad_norm": 5.690174138505368,
+      "learning_rate": 8.24895873094011e-07,
+      "loss": 0.3148,
+      "step": 1764
+    },
+    {
+      "epoch": 0.45709106212165357,
+      "grad_norm": 3.5570654965175654,
+      "learning_rate": 8.243602818015515e-07,
+      "loss": 0.2779,
+      "step": 1765
+    },
+    {
+      "epoch": 0.45709106212165357,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7920377160817181,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23534613847732544,
+      "eval_runtime": 14.4916,
+      "eval_samples_per_second": 3.036,
+      "eval_steps_per_second": 0.138,
+      "step": 1765
+    },
+    {
+      "epoch": 0.4573500372276715,
+      "grad_norm": 4.20905549559305,
+      "learning_rate": 8.238245274748885e-07,
+      "loss": 0.3097,
+      "step": 1766
+    },
+    {
+      "epoch": 0.45760901233368945,
+      "grad_norm": 3.571089393427515,
+      "learning_rate": 8.232886105521545e-07,
+      "loss": 0.3772,
+      "step": 1767
+    },
+    {
+      "epoch": 0.45786798743970736,
+      "grad_norm": 3.319074236687981,
+      "learning_rate": 8.227525314716156e-07,
+      "loss": 0.3209,
+      "step": 1768
+    },
+    {
+      "epoch": 0.45812696254572527,
+      "grad_norm": 8.058991891459208,
+      "learning_rate": 8.222162906716699e-07,
+      "loss": 0.32,
+      "step": 1769
+    },
+    {
+      "epoch": 0.45838593765174324,
+      "grad_norm": 9.635358259079585,
+      "learning_rate": 8.216798885908483e-07,
+      "loss": 0.4383,
+      "step": 1770
+    },
+    {
+      "epoch": 0.45838593765174324,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137245,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2349451631307602,
+      "eval_runtime": 14.3021,
+      "eval_samples_per_second": 3.076,
+      "eval_steps_per_second": 0.14,
+      "step": 1770
+    },
+    {
+      "epoch": 0.45864491275776115,
+      "grad_norm": 5.322744420195617,
+      "learning_rate": 8.211433256678131e-07,
+      "loss": 0.3096,
+      "step": 1771
+    },
+    {
+      "epoch": 0.4589038878637791,
+      "grad_norm": 5.765628097437391,
+      "learning_rate": 8.206066023413585e-07,
+      "loss": 0.2796,
+      "step": 1772
+    },
+    {
+      "epoch": 0.459162862969797,
+      "grad_norm": 2.5397152562840755,
+      "learning_rate": 8.200697190504096e-07,
+      "loss": 0.2516,
+      "step": 1773
+    },
+    {
+      "epoch": 0.45942183807581494,
+      "grad_norm": 4.517139406857374,
+      "learning_rate": 8.195326762340228e-07,
+      "loss": 0.2757,
+      "step": 1774
+    },
+    {
+      "epoch": 0.4596808131818329,
+      "grad_norm": 2.8001331753915717,
+      "learning_rate": 8.189954743313843e-07,
+      "loss": 0.2975,
+      "step": 1775
+    },
+    {
+      "epoch": 0.4596808131818329,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8095861707700367,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23248286545276642,
+      "eval_runtime": 14.9726,
+      "eval_samples_per_second": 2.939,
+      "eval_steps_per_second": 0.134,
+      "step": 1775
+    },
+    {
+      "epoch": 0.4599397882878508,
+      "grad_norm": 3.7805513339775425,
+      "learning_rate": 8.184581137818108e-07,
+      "loss": 0.3274,
+      "step": 1776
+    },
+    {
+      "epoch": 0.4601987633938688,
+      "grad_norm": 3.8850221432331615,
+      "learning_rate": 8.179205950247487e-07,
+      "loss": 0.3689,
+      "step": 1777
+    },
+    {
+      "epoch": 0.4604577384998867,
+      "grad_norm": 3.0121384408551557,
+      "learning_rate": 8.173829184997737e-07,
+      "loss": 0.2926,
+      "step": 1778
+    },
+    {
+      "epoch": 0.46071671360590466,
+      "grad_norm": 3.53170730529767,
+      "learning_rate": 8.168450846465906e-07,
+      "loss": 0.352,
+      "step": 1779
+    },
+    {
+      "epoch": 0.46097568871192257,
+      "grad_norm": 8.160401469509367,
+      "learning_rate": 8.163070939050326e-07,
+      "loss": 0.2963,
+      "step": 1780
+    },
+    {
+      "epoch": 0.46097568871192257,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8101100052383446,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23153018951416016,
+      "eval_runtime": 14.7349,
+      "eval_samples_per_second": 2.986,
+      "eval_steps_per_second": 0.136,
+      "step": 1780
+    },
+    {
+      "epoch": 0.4612346638179405,
+      "grad_norm": 4.367160519908248,
+      "learning_rate": 8.157689467150617e-07,
+      "loss": 0.3595,
+      "step": 1781
+    },
+    {
+      "epoch": 0.46149363892395845,
+      "grad_norm": 6.551298425994705,
+      "learning_rate": 8.152306435167675e-07,
+      "loss": 0.432,
+      "step": 1782
+    },
+    {
+      "epoch": 0.46175261402997636,
+      "grad_norm": 5.659351614486442,
+      "learning_rate": 8.146921847503673e-07,
+      "loss": 0.3914,
+      "step": 1783
+    },
+    {
+      "epoch": 0.4620115891359943,
+      "grad_norm": 3.0275933641047263,
+      "learning_rate": 8.141535708562052e-07,
+      "loss": 0.3372,
+      "step": 1784
+    },
+    {
+      "epoch": 0.46227056424201224,
+      "grad_norm": 4.730560492765888,
+      "learning_rate": 8.136148022747529e-07,
+      "loss": 0.32,
+      "step": 1785
+    },
+    {
+      "epoch": 0.46227056424201224,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9113924050632911,
+      "eval_PRM F1 AUC": 0.8685175484546883,
+      "eval_PRM F1 AUC (fixed)": 0.8145625982189628,
+      "eval_PRM F1 Neg": 0.7407407407407407,
+      "eval_PRM NPV": 0.6451612903225806,
+      "eval_PRM Precision": 0.96,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.8695652173913043,
+      "eval_loss": 0.23782426118850708,
+      "eval_runtime": 14.7677,
+      "eval_samples_per_second": 2.979,
+      "eval_steps_per_second": 0.135,
+      "step": 1785
+    },
+    {
+      "epoch": 0.46252953934803015,
+      "grad_norm": 5.245711685236173,
+      "learning_rate": 8.130758794466081e-07,
+      "loss": 0.4484,
+      "step": 1786
+    },
+    {
+      "epoch": 0.4627885144540481,
+      "grad_norm": 6.407074676859616,
+      "learning_rate": 8.125368028124948e-07,
+      "loss": 0.3551,
+      "step": 1787
+    },
+    {
+      "epoch": 0.46304748956006603,
+      "grad_norm": 4.594617328789136,
+      "learning_rate": 8.119975728132627e-07,
+      "loss": 0.4103,
+      "step": 1788
+    },
+    {
+      "epoch": 0.463306464666084,
+      "grad_norm": 3.812322209886043,
+      "learning_rate": 8.114581898898868e-07,
+      "loss": 0.3434,
+      "step": 1789
+    },
+    {
+      "epoch": 0.4635654397721019,
+      "grad_norm": 4.42699867851653,
+      "learning_rate": 8.109186544834679e-07,
+      "loss": 0.3678,
+      "step": 1790
+    },
+    {
+      "epoch": 0.4635654397721019,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9113924050632911,
+      "eval_PRM F1 AUC": 0.8685175484546883,
+      "eval_PRM F1 AUC (fixed)": 0.8088004190675747,
+      "eval_PRM F1 Neg": 0.7407407407407407,
+      "eval_PRM NPV": 0.6451612903225806,
+      "eval_PRM Precision": 0.96,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.8695652173913043,
+      "eval_loss": 0.24409064650535583,
+      "eval_runtime": 14.7272,
+      "eval_samples_per_second": 2.988,
+      "eval_steps_per_second": 0.136,
+      "step": 1790
+    },
+    {
+      "epoch": 0.4638244148781198,
+      "grad_norm": 10.198150664547708,
+      "learning_rate": 8.103789670352304e-07,
+      "loss": 0.3643,
+      "step": 1791
+    },
+    {
+      "epoch": 0.4640833899841378,
+      "grad_norm": 9.547535616973445,
+      "learning_rate": 8.098391279865236e-07,
+      "loss": 0.3901,
+      "step": 1792
+    },
+    {
+      "epoch": 0.4643423650901557,
+      "grad_norm": 3.682422647079557,
+      "learning_rate": 8.092991377788209e-07,
+      "loss": 0.3185,
+      "step": 1793
+    },
+    {
+      "epoch": 0.46460134019617366,
+      "grad_norm": 4.563303944133527,
+      "learning_rate": 8.08758996853719e-07,
+      "loss": 0.2776,
+      "step": 1794
+    },
+    {
+      "epoch": 0.4648603153021916,
+      "grad_norm": 2.8936492624830685,
+      "learning_rate": 8.082187056529381e-07,
+      "loss": 0.2755,
+      "step": 1795
+    },
+    {
+      "epoch": 0.4648603153021916,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.7996333158721844,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23865698277950287,
+      "eval_runtime": 14.3072,
+      "eval_samples_per_second": 3.075,
+      "eval_steps_per_second": 0.14,
+      "step": 1795
+    },
+    {
+      "epoch": 0.4651192904082095,
+      "grad_norm": 3.2301474276592947,
+      "learning_rate": 8.076782646183214e-07,
+      "loss": 0.3311,
+      "step": 1796
+    },
+    {
+      "epoch": 0.46537826551422745,
+      "grad_norm": 3.3992629897493445,
+      "learning_rate": 8.071376741918341e-07,
+      "loss": 0.3538,
+      "step": 1797
+    },
+    {
+      "epoch": 0.46563724062024536,
+      "grad_norm": 4.891436235900483,
+      "learning_rate": 8.06596934815564e-07,
+      "loss": 0.3409,
+      "step": 1798
+    },
+    {
+      "epoch": 0.46589621572626333,
+      "grad_norm": 2.7678048082568214,
+      "learning_rate": 8.060560469317208e-07,
+      "loss": 0.3071,
+      "step": 1799
+    },
+    {
+      "epoch": 0.46615519083228124,
+      "grad_norm": 3.901486260296828,
+      "learning_rate": 8.055150109826352e-07,
+      "loss": 0.2969,
+      "step": 1800
+    },
+    {
+      "epoch": 0.46615519083228124,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8006809848088005,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23264627158641815,
+      "eval_runtime": 14.3344,
+      "eval_samples_per_second": 3.07,
+      "eval_steps_per_second": 0.14,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4664141659382992,
+      "grad_norm": 4.190246689208436,
+      "learning_rate": 8.049738274107594e-07,
+      "loss": 0.3229,
+      "step": 1801
+    },
+    {
+      "epoch": 0.4666731410443171,
+      "grad_norm": 6.341832105693065,
+      "learning_rate": 8.044324966586663e-07,
+      "loss": 0.2824,
+      "step": 1802
+    },
+    {
+      "epoch": 0.46693211615033503,
+      "grad_norm": 3.668661222275811,
+      "learning_rate": 8.038910191690486e-07,
+      "loss": 0.2618,
+      "step": 1803
+    },
+    {
+      "epoch": 0.467191091256353,
+      "grad_norm": 3.1454731514946133,
+      "learning_rate": 8.033493953847199e-07,
+      "loss": 0.3348,
+      "step": 1804
+    },
+    {
+      "epoch": 0.4674500663623709,
+      "grad_norm": 5.806055447923304,
+      "learning_rate": 8.028076257486127e-07,
+      "loss": 0.3321,
+      "step": 1805
+    },
+    {
+      "epoch": 0.4674500663623709,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137245,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22866840660572052,
+      "eval_runtime": 14.4366,
+      "eval_samples_per_second": 3.048,
+      "eval_steps_per_second": 0.139,
+      "step": 1805
+    },
+    {
+      "epoch": 0.4677090414683889,
+      "grad_norm": 3.411597990418709,
+      "learning_rate": 8.022657107037793e-07,
+      "loss": 0.3599,
+      "step": 1806
+    },
+    {
+      "epoch": 0.4679680165744068,
+      "grad_norm": 3.4708399054715016,
+      "learning_rate": 8.017236506933904e-07,
+      "loss": 0.2624,
+      "step": 1807
+    },
+    {
+      "epoch": 0.4682269916804247,
+      "grad_norm": 3.6053780892117873,
+      "learning_rate": 8.011814461607355e-07,
+      "loss": 0.2857,
+      "step": 1808
+    },
+    {
+      "epoch": 0.46848596678644266,
+      "grad_norm": 4.7200909437066105,
+      "learning_rate": 8.006390975492226e-07,
+      "loss": 0.3552,
+      "step": 1809
+    },
+    {
+      "epoch": 0.4687449418924606,
+      "grad_norm": 3.9219358614373485,
+      "learning_rate": 8.000966053023769e-07,
+      "loss": 0.3464,
+      "step": 1810
+    },
+    {
+      "epoch": 0.4687449418924606,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8017286537454165,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22844268381595612,
+      "eval_runtime": 14.2589,
+      "eval_samples_per_second": 3.086,
+      "eval_steps_per_second": 0.14,
+      "step": 1810
+    },
+    {
+      "epoch": 0.46900391699847854,
+      "grad_norm": 9.33731807939765,
+      "learning_rate": 7.995539698638417e-07,
+      "loss": 0.4929,
+      "step": 1811
+    },
+    {
+      "epoch": 0.46926289210449645,
+      "grad_norm": 3.3611852528836503,
+      "learning_rate": 7.990111916773768e-07,
+      "loss": 0.3093,
+      "step": 1812
+    },
+    {
+      "epoch": 0.46952186721051437,
+      "grad_norm": 7.494097866245163,
+      "learning_rate": 7.984682711868591e-07,
+      "loss": 0.456,
+      "step": 1813
+    },
+    {
+      "epoch": 0.46978084231653233,
+      "grad_norm": 4.179278594454299,
+      "learning_rate": 7.979252088362819e-07,
+      "loss": 0.4174,
+      "step": 1814
+    },
+    {
+      "epoch": 0.47003981742255024,
+      "grad_norm": 3.562185749898052,
+      "learning_rate": 7.973820050697545e-07,
+      "loss": 0.2682,
+      "step": 1815
+    },
+    {
+      "epoch": 0.47003981742255024,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.7991094814038764,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23334312438964844,
+      "eval_runtime": 14.4683,
+      "eval_samples_per_second": 3.041,
+      "eval_steps_per_second": 0.138,
+      "step": 1815
+    },
+    {
+      "epoch": 0.4702987925285682,
+      "grad_norm": 3.528772440221004,
+      "learning_rate": 7.968386603315015e-07,
+      "loss": 0.2492,
+      "step": 1816
+    },
+    {
+      "epoch": 0.4705577676345861,
+      "grad_norm": 4.466703649793415,
+      "learning_rate": 7.96295175065863e-07,
+      "loss": 0.2534,
+      "step": 1817
+    },
+    {
+      "epoch": 0.47081674274060403,
+      "grad_norm": 6.747629103938333,
+      "learning_rate": 7.957515497172944e-07,
+      "loss": 0.5479,
+      "step": 1818
+    },
+    {
+      "epoch": 0.471075717846622,
+      "grad_norm": 3.383659302958618,
+      "learning_rate": 7.952077847303652e-07,
+      "loss": 0.2997,
+      "step": 1819
+    },
+    {
+      "epoch": 0.4713346929526399,
+      "grad_norm": 5.80849933968738,
+      "learning_rate": 7.946638805497592e-07,
+      "loss": 0.265,
+      "step": 1820
+    },
+    {
+      "epoch": 0.4713346929526399,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.8987341772151899,
+      "eval_PRM F1 AUC": 0.8407543216343635,
+      "eval_PRM F1 AUC (fixed)": 0.7988475641697224,
+      "eval_PRM F1 Neg": 0.7037037037037037,
+      "eval_PRM NPV": 0.6129032258064516,
+      "eval_PRM Precision": 0.9466666666666667,
+      "eval_PRM Recall": 0.8554216867469879,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2402866780757904,
+      "eval_runtime": 14.4736,
+      "eval_samples_per_second": 3.04,
+      "eval_steps_per_second": 0.138,
+      "step": 1820
+    },
+    {
+      "epoch": 0.4715936680586579,
+      "grad_norm": 8.48922152390816,
+      "learning_rate": 7.941198376202739e-07,
+      "loss": 0.3338,
+      "step": 1821
+    },
+    {
+      "epoch": 0.4718526431646758,
+      "grad_norm": 5.267488243992496,
+      "learning_rate": 7.935756563868205e-07,
+      "loss": 0.2963,
+      "step": 1822
+    },
+    {
+      "epoch": 0.47211161827069376,
+      "grad_norm": 6.023567792691506,
+      "learning_rate": 7.930313372944234e-07,
+      "loss": 0.3222,
+      "step": 1823
+    },
+    {
+      "epoch": 0.47237059337671167,
+      "grad_norm": 3.1526189950294277,
+      "learning_rate": 7.924868807882194e-07,
+      "loss": 0.2923,
+      "step": 1824
+    },
+    {
+      "epoch": 0.4726295684827296,
+      "grad_norm": 4.3801800497460555,
+      "learning_rate": 7.919422873134579e-07,
+      "loss": 0.3398,
+      "step": 1825
+    },
+    {
+      "epoch": 0.4726295684827296,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8009429020429544,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23072166740894318,
+      "eval_runtime": 14.5874,
+      "eval_samples_per_second": 3.016,
+      "eval_steps_per_second": 0.137,
+      "step": 1825
+    },
+    {
+      "epoch": 0.47288854358874755,
+      "grad_norm": 4.115486615500542,
+      "learning_rate": 7.913975573155002e-07,
+      "loss": 0.3429,
+      "step": 1826
+    },
+    {
+      "epoch": 0.47314751869476546,
+      "grad_norm": 6.191927084917738,
+      "learning_rate": 7.908526912398193e-07,
+      "loss": 0.4079,
+      "step": 1827
+    },
+    {
+      "epoch": 0.4734064938007834,
+      "grad_norm": 6.07246804661019,
+      "learning_rate": 7.903076895319994e-07,
+      "loss": 0.3679,
+      "step": 1828
+    },
+    {
+      "epoch": 0.47366546890680133,
+      "grad_norm": 3.280543854753348,
+      "learning_rate": 7.897625526377357e-07,
+      "loss": 0.3458,
+      "step": 1829
+    },
+    {
+      "epoch": 0.47392444401281925,
+      "grad_norm": 3.5957909400024413,
+      "learning_rate": 7.892172810028343e-07,
+      "loss": 0.3064,
+      "step": 1830
+    },
+    {
+      "epoch": 0.47392444401281925,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8048716605552646,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22785210609436035,
+      "eval_runtime": 14.6248,
+      "eval_samples_per_second": 3.009,
+      "eval_steps_per_second": 0.137,
+      "step": 1830
+    },
+    {
+      "epoch": 0.4741834191188372,
+      "grad_norm": 3.677294337664697,
+      "learning_rate": 7.886718750732105e-07,
+      "loss": 0.3454,
+      "step": 1831
+    },
+    {
+      "epoch": 0.4744423942248551,
+      "grad_norm": 3.569993762111734,
+      "learning_rate": 7.881263352948908e-07,
+      "loss": 0.2533,
+      "step": 1832
+    },
+    {
+      "epoch": 0.4747013693308731,
+      "grad_norm": 6.430137577963266,
+      "learning_rate": 7.875806621140097e-07,
+      "loss": 0.3809,
+      "step": 1833
+    },
+    {
+      "epoch": 0.474960344436891,
+      "grad_norm": 3.800419683459649,
+      "learning_rate": 7.87034855976812e-07,
+      "loss": 0.2992,
+      "step": 1834
+    },
+    {
+      "epoch": 0.4752193195429089,
+      "grad_norm": 4.394140499507367,
+      "learning_rate": 7.864889173296507e-07,
+      "loss": 0.3417,
+      "step": 1835
+    },
+    {
+      "epoch": 0.4752193195429089,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8051335777894185,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2271353155374527,
+      "eval_runtime": 14.45,
+      "eval_samples_per_second": 3.045,
+      "eval_steps_per_second": 0.138,
+      "step": 1835
+    },
+    {
+      "epoch": 0.4754782946489269,
+      "grad_norm": 6.477449736941739,
+      "learning_rate": 7.859428466189871e-07,
+      "loss": 0.3568,
+      "step": 1836
+    },
+    {
+      "epoch": 0.4757372697549448,
+      "grad_norm": 3.9059162852311253,
+      "learning_rate": 7.853966442913905e-07,
+      "loss": 0.3428,
+      "step": 1837
+    },
+    {
+      "epoch": 0.47599624486096276,
+      "grad_norm": 3.782563962288157,
+      "learning_rate": 7.848503107935379e-07,
+      "loss": 0.3399,
+      "step": 1838
+    },
+    {
+      "epoch": 0.47625521996698067,
+      "grad_norm": 5.323181969546517,
+      "learning_rate": 7.84303846572214e-07,
+      "loss": 0.2577,
+      "step": 1839
+    },
+    {
+      "epoch": 0.4765141950729986,
+      "grad_norm": 4.6033390280073405,
+      "learning_rate": 7.837572520743098e-07,
+      "loss": 0.3835,
+      "step": 1840
+    },
+    {
+      "epoch": 0.4765141950729986,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8077527501309587,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22768282890319824,
+      "eval_runtime": 14.3944,
+      "eval_samples_per_second": 3.057,
+      "eval_steps_per_second": 0.139,
+      "step": 1840
+    },
+    {
+      "epoch": 0.47677317017901655,
+      "grad_norm": 4.496844293239733,
+      "learning_rate": 7.832105277468232e-07,
+      "loss": 0.3543,
+      "step": 1841
+    },
+    {
+      "epoch": 0.47703214528503446,
+      "grad_norm": 5.435623613598174,
+      "learning_rate": 7.826636740368578e-07,
+      "loss": 0.2871,
+      "step": 1842
+    },
+    {
+      "epoch": 0.4772911203910524,
+      "grad_norm": 3.331768864278108,
+      "learning_rate": 7.821166913916233e-07,
+      "loss": 0.3231,
+      "step": 1843
+    },
+    {
+      "epoch": 0.47755009549707034,
+      "grad_norm": 4.819066933385308,
+      "learning_rate": 7.815695802584354e-07,
+      "loss": 0.3368,
+      "step": 1844
+    },
+    {
+      "epoch": 0.4778090706030883,
+      "grad_norm": 8.174504593540913,
+      "learning_rate": 7.810223410847139e-07,
+      "loss": 0.2641,
+      "step": 1845
+    },
+    {
+      "epoch": 0.4778090706030883,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8090623363017286,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2282373309135437,
+      "eval_runtime": 14.7225,
+      "eval_samples_per_second": 2.989,
+      "eval_steps_per_second": 0.136,
+      "step": 1845
+    },
+    {
+      "epoch": 0.4780680457091062,
+      "grad_norm": 7.713612608077943,
+      "learning_rate": 7.80474974317984e-07,
+      "loss": 0.4385,
+      "step": 1846
+    },
+    {
+      "epoch": 0.4783270208151241,
+      "grad_norm": 5.501139892781156,
+      "learning_rate": 7.79927480405875e-07,
+      "loss": 0.4606,
+      "step": 1847
+    },
+    {
+      "epoch": 0.4785859959211421,
+      "grad_norm": 4.028469917800099,
+      "learning_rate": 7.793798597961199e-07,
+      "loss": 0.3925,
+      "step": 1848
+    },
+    {
+      "epoch": 0.47884497102716,
+      "grad_norm": 3.5977063939754035,
+      "learning_rate": 7.788321129365558e-07,
+      "loss": 0.3001,
+      "step": 1849
+    },
+    {
+      "epoch": 0.47910394613317797,
+      "grad_norm": 4.1749602130213574,
+      "learning_rate": 7.782842402751231e-07,
+      "loss": 0.3117,
+      "step": 1850
+    },
+    {
+      "epoch": 0.47910394613317797,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9056603773584906,
+      "eval_PRM F1 AUC": 0.8467784180199058,
+      "eval_PRM F1 AUC (fixed)": 0.8116815086432687,
+      "eval_PRM F1 Neg": 0.7169811320754716,
+      "eval_PRM NPV": 0.6333333333333333,
+      "eval_PRM Precision": 0.9473684210526315,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.23110289871692657,
+      "eval_runtime": 14.5178,
+      "eval_samples_per_second": 3.031,
+      "eval_steps_per_second": 0.138,
+      "step": 1850
+    },
+    {
+      "epoch": 0.4793629212391959,
+      "grad_norm": 4.392542629381872,
+      "learning_rate": 7.777362422598645e-07,
+      "loss": 0.319,
+      "step": 1851
+    },
+    {
+      "epoch": 0.4796218963452138,
+      "grad_norm": 3.2429010046274267,
+      "learning_rate": 7.771881193389254e-07,
+      "loss": 0.319,
+      "step": 1852
+    },
+    {
+      "epoch": 0.47988087145123176,
+      "grad_norm": 3.3117414902850566,
+      "learning_rate": 7.766398719605538e-07,
+      "loss": 0.2571,
+      "step": 1853
+    },
+    {
+      "epoch": 0.48013984655724967,
+      "grad_norm": 5.246262430891637,
+      "learning_rate": 7.76091500573099e-07,
+      "loss": 0.3272,
+      "step": 1854
+    },
+    {
+      "epoch": 0.48039882166326764,
+      "grad_norm": 3.034849808493933,
+      "learning_rate": 7.75543005625012e-07,
+      "loss": 0.2794,
+      "step": 1855
+    },
+    {
+      "epoch": 0.48039882166326764,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9056603773584906,
+      "eval_PRM F1 AUC": 0.8467784180199058,
+      "eval_PRM F1 AUC (fixed)": 0.8169198533263489,
+      "eval_PRM F1 Neg": 0.7169811320754716,
+      "eval_PRM NPV": 0.6333333333333333,
+      "eval_PRM Precision": 0.9473684210526315,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.2294907569885254,
+      "eval_runtime": 15.0458,
+      "eval_samples_per_second": 2.924,
+      "eval_steps_per_second": 0.133,
+      "step": 1855
+    },
+    {
+      "epoch": 0.48065779676928555,
+      "grad_norm": 8.853086892103162,
+      "learning_rate": 7.749943875648447e-07,
+      "loss": 0.357,
+      "step": 1856
+    },
+    {
+      "epoch": 0.48091677187530346,
+      "grad_norm": 9.246095988877377,
+      "learning_rate": 7.744456468412493e-07,
+      "loss": 0.3757,
+      "step": 1857
+    },
+    {
+      "epoch": 0.48117574698132143,
+      "grad_norm": 5.900565173417949,
+      "learning_rate": 7.738967839029793e-07,
+      "loss": 0.3312,
+      "step": 1858
+    },
+    {
+      "epoch": 0.48143472208733934,
+      "grad_norm": 3.862804686023086,
+      "learning_rate": 7.733477991988872e-07,
+      "loss": 0.3497,
+      "step": 1859
+    },
+    {
+      "epoch": 0.4816936971933573,
+      "grad_norm": 4.952938875065223,
+      "learning_rate": 7.727986931779257e-07,
+      "loss": 0.3126,
+      "step": 1860
+    },
+    {
+      "epoch": 0.4816936971933573,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8234677841801991,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21761594712734222,
+      "eval_runtime": 14.6095,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.137,
+      "step": 1860
+    },
+    {
+      "epoch": 0.4819526722993752,
+      "grad_norm": 4.573100864306212,
+      "learning_rate": 7.722494662891462e-07,
+      "loss": 0.2673,
+      "step": 1861
+    },
+    {
+      "epoch": 0.48221164740539313,
+      "grad_norm": 4.845352720816476,
+      "learning_rate": 7.717001189816992e-07,
+      "loss": 0.3863,
+      "step": 1862
+    },
+    {
+      "epoch": 0.4824706225114111,
+      "grad_norm": 7.9411721265663395,
+      "learning_rate": 7.711506517048338e-07,
+      "loss": 0.4327,
+      "step": 1863
+    },
+    {
+      "epoch": 0.482729597617429,
+      "grad_norm": 6.019250258631447,
+      "learning_rate": 7.70601064907897e-07,
+      "loss": 0.4286,
+      "step": 1864
+    },
+    {
+      "epoch": 0.482988572723447,
+      "grad_norm": 10.046837357024193,
+      "learning_rate": 7.700513590403338e-07,
+      "loss": 0.4118,
+      "step": 1865
+    },
+    {
+      "epoch": 0.482988572723447,
+      "eval_PRM Accuracy": 0.8962264150943396,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.855159769512834,
+      "eval_PRM F1 AUC (fixed)": 0.8284442116291252,
+      "eval_PRM F1 Neg": 0.7659574468085106,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9390243902439024,
+      "eval_PRM Recall": 0.927710843373494,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21364346146583557,
+      "eval_runtime": 14.8981,
+      "eval_samples_per_second": 2.953,
+      "eval_steps_per_second": 0.134,
+      "step": 1865
+    },
+    {
+      "epoch": 0.4832475478294649,
+      "grad_norm": 3.3702477649911944,
+      "learning_rate": 7.695015345516861e-07,
+      "loss": 0.3698,
+      "step": 1866
+    },
+    {
+      "epoch": 0.48350652293548285,
+      "grad_norm": 6.242674576224769,
+      "learning_rate": 7.689515918915931e-07,
+      "loss": 0.338,
+      "step": 1867
+    },
+    {
+      "epoch": 0.48376549804150076,
+      "grad_norm": 6.497090573684327,
+      "learning_rate": 7.684015315097909e-07,
+      "loss": 0.3487,
+      "step": 1868
+    },
+    {
+      "epoch": 0.4840244731475187,
+      "grad_norm": 3.7831142105036686,
+      "learning_rate": 7.678513538561117e-07,
+      "loss": 0.2994,
+      "step": 1869
+    },
+    {
+      "epoch": 0.48428344825353664,
+      "grad_norm": 12.046248358308517,
+      "learning_rate": 7.673010593804829e-07,
+      "loss": 0.3802,
+      "step": 1870
+    },
+    {
+      "epoch": 0.48428344825353664,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.822420115243583,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.21648350358009338,
+      "eval_runtime": 14.7542,
+      "eval_samples_per_second": 2.982,
+      "eval_steps_per_second": 0.136,
+      "step": 1870
+    },
+    {
+      "epoch": 0.48454242335955455,
+      "grad_norm": 4.310071878641915,
+      "learning_rate": 7.667506485329287e-07,
+      "loss": 0.3622,
+      "step": 1871
+    },
+    {
+      "epoch": 0.4848013984655725,
+      "grad_norm": 2.7821621342806693,
+      "learning_rate": 7.662001217635673e-07,
+      "loss": 0.2683,
+      "step": 1872
+    },
+    {
+      "epoch": 0.48506037357159043,
+      "grad_norm": 3.0532767740012687,
+      "learning_rate": 7.656494795226128e-07,
+      "loss": 0.3373,
+      "step": 1873
+    },
+    {
+      "epoch": 0.48531934867760834,
+      "grad_norm": 5.2910761333068805,
+      "learning_rate": 7.650987222603728e-07,
+      "loss": 0.3208,
+      "step": 1874
+    },
+    {
+      "epoch": 0.4855783237836263,
+      "grad_norm": 3.2230981266809238,
+      "learning_rate": 7.645478504272491e-07,
+      "loss": 0.3622,
+      "step": 1875
+    },
+    {
+      "epoch": 0.4855783237836263,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.818753273965427,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22220145165920258,
+      "eval_runtime": 14.3859,
+      "eval_samples_per_second": 3.059,
+      "eval_steps_per_second": 0.139,
+      "step": 1875
+    },
+    {
+      "epoch": 0.4858372988896442,
+      "grad_norm": 3.578950466609083,
+      "learning_rate": 7.639968644737378e-07,
+      "loss": 0.3411,
+      "step": 1876
+    },
+    {
+      "epoch": 0.4860962739956622,
+      "grad_norm": 4.7903902264133995,
+      "learning_rate": 7.634457648504277e-07,
+      "loss": 0.2874,
+      "step": 1877
+    },
+    {
+      "epoch": 0.4863552491016801,
+      "grad_norm": 4.419419406945147,
+      "learning_rate": 7.628945520080008e-07,
+      "loss": 0.249,
+      "step": 1878
+    },
+    {
+      "epoch": 0.486614224207698,
+      "grad_norm": 3.544817731066733,
+      "learning_rate": 7.623432263972319e-07,
+      "loss": 0.3381,
+      "step": 1879
+    },
+    {
+      "epoch": 0.486873199313716,
+      "grad_norm": 5.67829322818424,
+      "learning_rate": 7.617917884689876e-07,
+      "loss": 0.4002,
+      "step": 1880
+    },
+    {
+      "epoch": 0.486873199313716,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8137768465165007,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22564397752285004,
+      "eval_runtime": 14.7604,
+      "eval_samples_per_second": 2.981,
+      "eval_steps_per_second": 0.135,
+      "step": 1880
+    },
+    {
+      "epoch": 0.4871321744197339,
+      "grad_norm": 5.313345534177357,
+      "learning_rate": 7.612402386742265e-07,
+      "loss": 0.2828,
+      "step": 1881
+    },
+    {
+      "epoch": 0.48739114952575185,
+      "grad_norm": 4.080298859481059,
+      "learning_rate": 7.606885774639989e-07,
+      "loss": 0.2898,
+      "step": 1882
+    },
+    {
+      "epoch": 0.48765012463176977,
+      "grad_norm": 3.987064199446086,
+      "learning_rate": 7.601368052894459e-07,
+      "loss": 0.3066,
+      "step": 1883
+    },
+    {
+      "epoch": 0.48790909973778773,
+      "grad_norm": 4.539410577961955,
+      "learning_rate": 7.595849226017996e-07,
+      "loss": 0.2902,
+      "step": 1884
+    },
+    {
+      "epoch": 0.48816807484380564,
+      "grad_norm": 5.844603798205524,
+      "learning_rate": 7.590329298523821e-07,
+      "loss": 0.3285,
+      "step": 1885
+    },
+    {
+      "epoch": 0.48816807484380564,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8135149292823468,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22327542304992676,
+      "eval_runtime": 14.4271,
+      "eval_samples_per_second": 3.05,
+      "eval_steps_per_second": 0.139,
+      "step": 1885
+    },
+    {
+      "epoch": 0.48842704994982356,
+      "grad_norm": 4.355824867251983,
+      "learning_rate": 7.584808274926063e-07,
+      "loss": 0.4263,
+      "step": 1886
+    },
+    {
+      "epoch": 0.4886860250558415,
+      "grad_norm": 5.481873870990339,
+      "learning_rate": 7.579286159739738e-07,
+      "loss": 0.4366,
+      "step": 1887
+    },
+    {
+      "epoch": 0.48894500016185943,
+      "grad_norm": 6.584261121249097,
+      "learning_rate": 7.57376295748076e-07,
+      "loss": 0.3342,
+      "step": 1888
+    },
+    {
+      "epoch": 0.4892039752678774,
+      "grad_norm": 3.509521318462327,
+      "learning_rate": 7.56823867266593e-07,
+      "loss": 0.279,
+      "step": 1889
+    },
+    {
+      "epoch": 0.4894629503738953,
+      "grad_norm": 5.087962103671689,
+      "learning_rate": 7.562713309812939e-07,
+      "loss": 0.3076,
+      "step": 1890
+    },
+    {
+      "epoch": 0.4894629503738953,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.926829268292683,
+      "eval_PRM F1 AUC": 0.8491356731272918,
+      "eval_PRM F1 AUC (fixed)": 0.8098480880041907,
+      "eval_PRM F1 Neg": 0.75,
+      "eval_PRM NPV": 0.72,
+      "eval_PRM Precision": 0.9382716049382716,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2252662181854248,
+      "eval_runtime": 14.9327,
+      "eval_samples_per_second": 2.947,
+      "eval_steps_per_second": 0.134,
+      "step": 1890
+    },
+    {
+      "epoch": 0.4897219254799132,
+      "grad_norm": 11.314867139630405,
+      "learning_rate": 7.557186873440348e-07,
+      "loss": 0.4242,
+      "step": 1891
+    },
+    {
+      "epoch": 0.4899809005859312,
+      "grad_norm": 2.251498860197715,
+      "learning_rate": 7.55165936806761e-07,
+      "loss": 0.2449,
+      "step": 1892
+    },
+    {
+      "epoch": 0.4902398756919491,
+      "grad_norm": 3.8510977355179774,
+      "learning_rate": 7.546130798215044e-07,
+      "loss": 0.3536,
+      "step": 1893
+    },
+    {
+      "epoch": 0.49049885079796707,
+      "grad_norm": 4.759798498619873,
+      "learning_rate": 7.540601168403843e-07,
+      "loss": 0.4067,
+      "step": 1894
+    },
+    {
+      "epoch": 0.490757825903985,
+      "grad_norm": 4.494273430256073,
+      "learning_rate": 7.535070483156062e-07,
+      "loss": 0.3284,
+      "step": 1895
+    },
+    {
+      "epoch": 0.490757825903985,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8025144054478784,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22756299376487732,
+      "eval_runtime": 14.8443,
+      "eval_samples_per_second": 2.964,
+      "eval_steps_per_second": 0.135,
+      "step": 1895
+    },
+    {
+      "epoch": 0.4910168010100029,
+      "grad_norm": 3.2714702635572137,
+      "learning_rate": 7.529538746994623e-07,
+      "loss": 0.3308,
+      "step": 1896
+    },
+    {
+      "epoch": 0.49127577611602086,
+      "grad_norm": 3.4425896757391334,
+      "learning_rate": 7.52400596444331e-07,
+      "loss": 0.2968,
+      "step": 1897
+    },
+    {
+      "epoch": 0.49153475122203877,
+      "grad_norm": 4.714291588919368,
+      "learning_rate": 7.518472140026757e-07,
+      "loss": 0.3404,
+      "step": 1898
+    },
+    {
+      "epoch": 0.49179372632805674,
+      "grad_norm": 2.586142384819253,
+      "learning_rate": 7.51293727827045e-07,
+      "loss": 0.3105,
+      "step": 1899
+    },
+    {
+      "epoch": 0.49205270143407465,
+      "grad_norm": 3.8451605864956835,
+      "learning_rate": 7.50740138370073e-07,
+      "loss": 0.3819,
+      "step": 1900
+    },
+    {
+      "epoch": 0.49205270143407465,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8022524882137244,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2354053109884262,
+      "eval_runtime": 14.3986,
+      "eval_samples_per_second": 3.056,
+      "eval_steps_per_second": 0.139,
+      "step": 1900
+    },
+    {
+      "epoch": 0.49231167654009256,
+      "grad_norm": 9.90430039984692,
+      "learning_rate": 7.501864460844777e-07,
+      "loss": 0.2935,
+      "step": 1901
+    },
+    {
+      "epoch": 0.4925706516461105,
+      "grad_norm": 8.554044629123736,
+      "learning_rate": 7.496326514230611e-07,
+      "loss": 0.2935,
+      "step": 1902
+    },
+    {
+      "epoch": 0.49282962675212844,
+      "grad_norm": 6.4037328948874395,
+      "learning_rate": 7.490787548387096e-07,
+      "loss": 0.2871,
+      "step": 1903
+    },
+    {
+      "epoch": 0.4930886018581464,
+      "grad_norm": 6.576489357295404,
+      "learning_rate": 7.485247567843921e-07,
+      "loss": 0.3085,
+      "step": 1904
+    },
+    {
+      "epoch": 0.4933475769641643,
+      "grad_norm": 4.315632213431601,
+      "learning_rate": 7.479706577131611e-07,
+      "loss": 0.3997,
+      "step": 1905
+    },
+    {
+      "epoch": 0.4933475769641643,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8035620743844945,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2289583534002304,
+      "eval_runtime": 14.74,
+      "eval_samples_per_second": 2.985,
+      "eval_steps_per_second": 0.136,
+      "step": 1905
+    },
+    {
+      "epoch": 0.4936065520701823,
+      "grad_norm": 4.1174298431364695,
+      "learning_rate": 7.474164580781515e-07,
+      "loss": 0.3716,
+      "step": 1906
+    },
+    {
+      "epoch": 0.4938655271762002,
+      "grad_norm": 6.074577649510619,
+      "learning_rate": 7.468621583325803e-07,
+      "loss": 0.4052,
+      "step": 1907
+    },
+    {
+      "epoch": 0.4941245022822181,
+      "grad_norm": 3.1570397691218117,
+      "learning_rate": 7.463077589297467e-07,
+      "loss": 0.3806,
+      "step": 1908
+    },
+    {
+      "epoch": 0.49438347738823607,
+      "grad_norm": 3.238297089972081,
+      "learning_rate": 7.45753260323031e-07,
+      "loss": 0.3387,
+      "step": 1909
+    },
+    {
+      "epoch": 0.494642452494254,
+      "grad_norm": 3.998534514193585,
+      "learning_rate": 7.451986629658952e-07,
+      "loss": 0.3421,
+      "step": 1910
+    },
+    {
+      "epoch": 0.494642452494254,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8019905709795705,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22805818915367126,
+      "eval_runtime": 14.659,
+      "eval_samples_per_second": 3.002,
+      "eval_steps_per_second": 0.136,
+      "step": 1910
+    },
+    {
+      "epoch": 0.49490142760027195,
+      "grad_norm": 5.485606573598385,
+      "learning_rate": 7.44643967311881e-07,
+      "loss": 0.429,
+      "step": 1911
+    },
+    {
+      "epoch": 0.49516040270628986,
+      "grad_norm": 4.164661369960232,
+      "learning_rate": 7.440891738146118e-07,
+      "loss": 0.4009,
+      "step": 1912
+    },
+    {
+      "epoch": 0.49541937781230777,
+      "grad_norm": 7.100390868750479,
+      "learning_rate": 7.435342829277901e-07,
+      "loss": 0.3876,
+      "step": 1913
+    },
+    {
+      "epoch": 0.49567835291832574,
+      "grad_norm": 3.4589151338321975,
+      "learning_rate": 7.429792951051985e-07,
+      "loss": 0.3323,
+      "step": 1914
+    },
+    {
+      "epoch": 0.49593732802434365,
+      "grad_norm": 4.653233157816339,
+      "learning_rate": 7.424242108006988e-07,
+      "loss": 0.2857,
+      "step": 1915
+    },
+    {
+      "epoch": 0.49593732802434365,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.7967522262964903,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23427662253379822,
+      "eval_runtime": 14.4763,
+      "eval_samples_per_second": 3.039,
+      "eval_steps_per_second": 0.138,
+      "step": 1915
+    },
+    {
+      "epoch": 0.4961963031303616,
+      "grad_norm": 3.722054051432413,
+      "learning_rate": 7.418690304682311e-07,
+      "loss": 0.2919,
+      "step": 1916
+    },
+    {
+      "epoch": 0.4964552782363795,
+      "grad_norm": 3.7463561897294384,
+      "learning_rate": 7.41313754561815e-07,
+      "loss": 0.3363,
+      "step": 1917
+    },
+    {
+      "epoch": 0.49671425334239744,
+      "grad_norm": 3.22192067410551,
+      "learning_rate": 7.407583835355477e-07,
+      "loss": 0.3378,
+      "step": 1918
+    },
+    {
+      "epoch": 0.4969732284484154,
+      "grad_norm": 5.239676478746968,
+      "learning_rate": 7.402029178436043e-07,
+      "loss": 0.3523,
+      "step": 1919
+    },
+    {
+      "epoch": 0.4972322035544333,
+      "grad_norm": 3.5421552493081947,
+      "learning_rate": 7.396473579402372e-07,
+      "loss": 0.3289,
+      "step": 1920
+    },
+    {
+      "epoch": 0.4972322035544333,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7943949711891043,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.236124187707901,
+      "eval_runtime": 14.6985,
+      "eval_samples_per_second": 2.994,
+      "eval_steps_per_second": 0.136,
+      "step": 1920
+    },
+    {
+      "epoch": 0.4974911786604513,
+      "grad_norm": 3.4890272203065327,
+      "learning_rate": 7.390917042797759e-07,
+      "loss": 0.3269,
+      "step": 1921
+    },
+    {
+      "epoch": 0.4977501537664692,
+      "grad_norm": 3.409924539361981,
+      "learning_rate": 7.385359573166267e-07,
+      "loss": 0.389,
+      "step": 1922
+    },
+    {
+      "epoch": 0.4980091288724871,
+      "grad_norm": 3.7447981583847123,
+      "learning_rate": 7.379801175052724e-07,
+      "loss": 0.3386,
+      "step": 1923
+    },
+    {
+      "epoch": 0.4982681039785051,
+      "grad_norm": 3.125092164233843,
+      "learning_rate": 7.37424185300271e-07,
+      "loss": 0.3098,
+      "step": 1924
+    },
+    {
+      "epoch": 0.498527079084523,
+      "grad_norm": 6.446671391321472,
+      "learning_rate": 7.368681611562568e-07,
+      "loss": 0.4493,
+      "step": 1925
+    },
+    {
+      "epoch": 0.498527079084523,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7983237297014144,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2375415861606598,
+      "eval_runtime": 14.8226,
+      "eval_samples_per_second": 2.968,
+      "eval_steps_per_second": 0.135,
+      "step": 1925
+    },
+    {
+      "epoch": 0.49878605419054095,
+      "grad_norm": 3.208163207188384,
+      "learning_rate": 7.363120455279386e-07,
+      "loss": 0.3203,
+      "step": 1926
+    },
+    {
+      "epoch": 0.49904502929655886,
+      "grad_norm": 4.218184608627159,
+      "learning_rate": 7.35755838870101e-07,
+      "loss": 0.3656,
+      "step": 1927
+    },
+    {
+      "epoch": 0.49930400440257683,
+      "grad_norm": 6.76261794035762,
+      "learning_rate": 7.351995416376024e-07,
+      "loss": 0.3122,
+      "step": 1928
+    },
+    {
+      "epoch": 0.49956297950859474,
+      "grad_norm": 4.402099460066203,
+      "learning_rate": 7.346431542853747e-07,
+      "loss": 0.3581,
+      "step": 1929
+    },
+    {
+      "epoch": 0.49982195461461265,
+      "grad_norm": 10.558946238457926,
+      "learning_rate": 7.340866772684247e-07,
+      "loss": 0.339,
+      "step": 1930
+    },
+    {
+      "epoch": 0.49982195461461265,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7964903090623363,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23493939638137817,
+      "eval_runtime": 14.5105,
+      "eval_samples_per_second": 3.032,
+      "eval_steps_per_second": 0.138,
+      "step": 1930
+    },
+    {
+      "epoch": 0.5000809297206306,
+      "grad_norm": 5.684889369167639,
+      "learning_rate": 7.335301110418317e-07,
+      "loss": 0.3313,
+      "step": 1931
+    },
+    {
+      "epoch": 0.5003399048266486,
+      "grad_norm": 4.128419726300969,
+      "learning_rate": 7.329734560607481e-07,
+      "loss": 0.3023,
+      "step": 1932
+    },
+    {
+      "epoch": 0.5005988799326665,
+      "grad_norm": 3.191808202717404,
+      "learning_rate": 7.324167127803994e-07,
+      "loss": 0.3291,
+      "step": 1933
+    },
+    {
+      "epoch": 0.5008578550386844,
+      "grad_norm": 3.3457819664225075,
+      "learning_rate": 7.318598816560825e-07,
+      "loss": 0.3111,
+      "step": 1934
+    },
+    {
+      "epoch": 0.5011168301447023,
+      "grad_norm": 9.774334004828226,
+      "learning_rate": 7.313029631431667e-07,
+      "loss": 0.3708,
+      "step": 1935
+    },
+    {
+      "epoch": 0.5011168301447023,
+      "eval_PRM Accuracy": 0.8962264150943396,
+      "eval_PRM F1": 0.9333333333333333,
+      "eval_PRM F1 AUC": 0.855159769512834,
+      "eval_PRM F1 AUC (fixed)": 0.7964903090623363,
+      "eval_PRM F1 Neg": 0.7659574468085106,
+      "eval_PRM NPV": 0.75,
+      "eval_PRM Precision": 0.9390243902439024,
+      "eval_PRM Recall": 0.927710843373494,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23073317110538483,
+      "eval_runtime": 14.6507,
+      "eval_samples_per_second": 3.003,
+      "eval_steps_per_second": 0.137,
+      "step": 1935
+    },
+    {
+      "epoch": 0.5013758052507202,
+      "grad_norm": 5.157407289004608,
+      "learning_rate": 7.307459576970927e-07,
+      "loss": 0.4173,
+      "step": 1936
+    },
+    {
+      "epoch": 0.5016347803567383,
+      "grad_norm": 4.62674994744029,
+      "learning_rate": 7.301888657733719e-07,
+      "loss": 0.3263,
+      "step": 1937
+    },
+    {
+      "epoch": 0.5018937554627562,
+      "grad_norm": 4.292305637281678,
+      "learning_rate": 7.296316878275869e-07,
+      "loss": 0.4149,
+      "step": 1938
+    },
+    {
+      "epoch": 0.5021527305687741,
+      "grad_norm": 3.2197504841448543,
+      "learning_rate": 7.290744243153905e-07,
+      "loss": 0.3475,
+      "step": 1939
+    },
+    {
+      "epoch": 0.502411705674792,
+      "grad_norm": 7.156108918431266,
+      "learning_rate": 7.285170756925054e-07,
+      "loss": 0.4301,
+      "step": 1940
+    },
+    {
+      "epoch": 0.502411705674792,
+      "eval_PRM Accuracy": 0.9150943396226415,
+      "eval_PRM F1": 0.9461077844311377,
+      "eval_PRM F1 AUC": 0.8672079622839183,
+      "eval_PRM F1 AUC (fixed)": 0.7988475641697224,
+      "eval_PRM F1 Neg": 0.8,
+      "eval_PRM NPV": 0.8181818181818182,
+      "eval_PRM Precision": 0.9404761904761905,
+      "eval_PRM Recall": 0.9518072289156626,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23065905272960663,
+      "eval_runtime": 14.6061,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.137,
+      "step": 1940
+    },
+    {
+      "epoch": 0.5026706807808099,
+      "grad_norm": 8.050386581785924,
+      "learning_rate": 7.279596424147239e-07,
+      "loss": 0.3004,
+      "step": 1941
+    },
+    {
+      "epoch": 0.5029296558868279,
+      "grad_norm": 2.79687624285831,
+      "learning_rate": 7.274021249379076e-07,
+      "loss": 0.2873,
+      "step": 1942
+    },
+    {
+      "epoch": 0.5031886309928458,
+      "grad_norm": 2.4461020147386296,
+      "learning_rate": 7.268445237179871e-07,
+      "loss": 0.2805,
+      "step": 1943
+    },
+    {
+      "epoch": 0.5034476060988637,
+      "grad_norm": 3.430225900119802,
+      "learning_rate": 7.262868392109609e-07,
+      "loss": 0.3657,
+      "step": 1944
+    },
+    {
+      "epoch": 0.5037065812048817,
+      "grad_norm": 3.233469087202206,
+      "learning_rate": 7.257290718728962e-07,
+      "loss": 0.2989,
+      "step": 1945
+    },
+    {
+      "epoch": 0.5037065812048817,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.7954426401257202,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22959648072719574,
+      "eval_runtime": 15.3625,
+      "eval_samples_per_second": 2.864,
+      "eval_steps_per_second": 0.13,
+      "step": 1945
+    },
+    {
+      "epoch": 0.5039655563108996,
+      "grad_norm": 7.165637789195796,
+      "learning_rate": 7.251712221599279e-07,
+      "loss": 0.4445,
+      "step": 1946
+    },
+    {
+      "epoch": 0.5042245314169176,
+      "grad_norm": 4.457549586523684,
+      "learning_rate": 7.24613290528258e-07,
+      "loss": 0.2943,
+      "step": 1947
+    },
+    {
+      "epoch": 0.5044835065229355,
+      "grad_norm": 7.04254739388138,
+      "learning_rate": 7.240552774341558e-07,
+      "loss": 0.4268,
+      "step": 1948
+    },
+    {
+      "epoch": 0.5047424816289534,
+      "grad_norm": 4.989350197314329,
+      "learning_rate": 7.234971833339567e-07,
+      "loss": 0.3828,
+      "step": 1949
+    },
+    {
+      "epoch": 0.5050014567349713,
+      "grad_norm": 4.356584758287479,
+      "learning_rate": 7.229390086840627e-07,
+      "loss": 0.3095,
+      "step": 1950
+    },
+    {
+      "epoch": 0.5050014567349713,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7922996333158723,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2342822551727295,
+      "eval_runtime": 14.6327,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 0.137,
+      "step": 1950
+    },
+    {
+      "epoch": 0.5052604318409892,
+      "grad_norm": 3.7530742401868706,
+      "learning_rate": 7.223807539409419e-07,
+      "loss": 0.3902,
+      "step": 1951
+    },
+    {
+      "epoch": 0.5055194069470073,
+      "grad_norm": 3.170196963869656,
+      "learning_rate": 7.218224195611279e-07,
+      "loss": 0.3099,
+      "step": 1952
+    },
+    {
+      "epoch": 0.5057783820530252,
+      "grad_norm": 3.978985677470167,
+      "learning_rate": 7.212640060012184e-07,
+      "loss": 0.3309,
+      "step": 1953
+    },
+    {
+      "epoch": 0.5060373571590431,
+      "grad_norm": 5.49366863563685,
+      "learning_rate": 7.207055137178772e-07,
+      "loss": 0.3089,
+      "step": 1954
+    },
+    {
+      "epoch": 0.506296332265061,
+      "grad_norm": 6.291045863720034,
+      "learning_rate": 7.201469431678318e-07,
+      "loss": 0.3901,
+      "step": 1955
+    },
+    {
+      "epoch": 0.506296332265061,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.7977998952331063,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23335395753383636,
+      "eval_runtime": 14.5705,
+      "eval_samples_per_second": 3.02,
+      "eval_steps_per_second": 0.137,
+      "step": 1955
+    },
+    {
+      "epoch": 0.5065553073710789,
+      "grad_norm": 3.5881492367969616,
+      "learning_rate": 7.195882948078736e-07,
+      "loss": 0.3473,
+      "step": 1956
+    },
+    {
+      "epoch": 0.5068142824770969,
+      "grad_norm": 4.016420150186458,
+      "learning_rate": 7.190295690948582e-07,
+      "loss": 0.3866,
+      "step": 1957
+    },
+    {
+      "epoch": 0.5070732575831148,
+      "grad_norm": 2.9734538156884556,
+      "learning_rate": 7.184707664857038e-07,
+      "loss": 0.2515,
+      "step": 1958
+    },
+    {
+      "epoch": 0.5073322326891327,
+      "grad_norm": 7.233224574554406,
+      "learning_rate": 7.179118874373919e-07,
+      "loss": 0.3226,
+      "step": 1959
+    },
+    {
+      "epoch": 0.5075912077951507,
+      "grad_norm": 3.3409051496422006,
+      "learning_rate": 7.173529324069666e-07,
+      "loss": 0.3386,
+      "step": 1960
+    },
+    {
+      "epoch": 0.5075912077951507,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8025144054478786,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22894348204135895,
+      "eval_runtime": 14.4555,
+      "eval_samples_per_second": 3.044,
+      "eval_steps_per_second": 0.138,
+      "step": 1960
+    },
+    {
+      "epoch": 0.5078501829011687,
+      "grad_norm": 6.255980513266759,
+      "learning_rate": 7.167939018515336e-07,
+      "loss": 0.3296,
+      "step": 1961
+    },
+    {
+      "epoch": 0.5081091580071866,
+      "grad_norm": 3.5421327405084195,
+      "learning_rate": 7.162347962282609e-07,
+      "loss": 0.3211,
+      "step": 1962
+    },
+    {
+      "epoch": 0.5083681331132045,
+      "grad_norm": 3.7575166956029586,
+      "learning_rate": 7.156756159943775e-07,
+      "loss": 0.2999,
+      "step": 1963
+    },
+    {
+      "epoch": 0.5086271082192224,
+      "grad_norm": 3.0050235106680683,
+      "learning_rate": 7.151163616071741e-07,
+      "loss": 0.3344,
+      "step": 1964
+    },
+    {
+      "epoch": 0.5088860833252403,
+      "grad_norm": 4.871459919535215,
+      "learning_rate": 7.145570335240008e-07,
+      "loss": 0.3793,
+      "step": 1965
+    },
+    {
+      "epoch": 0.5088860833252403,
+      "eval_PRM Accuracy": 0.8867924528301887,
+      "eval_PRM F1": 0.926829268292683,
+      "eval_PRM F1 AUC": 0.8491356731272918,
+      "eval_PRM F1 AUC (fixed)": 0.8069669984284966,
+      "eval_PRM F1 Neg": 0.75,
+      "eval_PRM NPV": 0.72,
+      "eval_PRM Precision": 0.9382716049382716,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2240259200334549,
+      "eval_runtime": 14.7356,
+      "eval_samples_per_second": 2.986,
+      "eval_steps_per_second": 0.136,
+      "step": 1965
+    },
+    {
+      "epoch": 0.5091450584312583,
+      "grad_norm": 4.697493483150097,
+      "learning_rate": 7.139976322022693e-07,
+      "loss": 0.3339,
+      "step": 1966
+    },
+    {
+      "epoch": 0.5094040335372763,
+      "grad_norm": 7.148007632365984,
+      "learning_rate": 7.134381580994504e-07,
+      "loss": 0.3445,
+      "step": 1967
+    },
+    {
+      "epoch": 0.5096630086432942,
+      "grad_norm": 5.098546551517129,
+      "learning_rate": 7.128786116730746e-07,
+      "loss": 0.3972,
+      "step": 1968
+    },
+    {
+      "epoch": 0.5099219837493121,
+      "grad_norm": 2.9875694707737037,
+      "learning_rate": 7.123189933807317e-07,
+      "loss": 0.3332,
+      "step": 1969
+    },
+    {
+      "epoch": 0.51018095885533,
+      "grad_norm": 3.328674448445375,
+      "learning_rate": 7.117593036800699e-07,
+      "loss": 0.2962,
+      "step": 1970
+    },
+    {
+      "epoch": 0.51018095885533,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8061812467260345,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2241746485233307,
+      "eval_runtime": 14.3367,
+      "eval_samples_per_second": 3.069,
+      "eval_steps_per_second": 0.14,
+      "step": 1970
+    },
+    {
+      "epoch": 0.510439933961348,
+      "grad_norm": 4.472354027200549,
+      "learning_rate": 7.111995430287963e-07,
+      "loss": 0.3792,
+      "step": 1971
+    },
+    {
+      "epoch": 0.5106989090673659,
+      "grad_norm": 3.6439221844632623,
+      "learning_rate": 7.106397118846757e-07,
+      "loss": 0.2246,
+      "step": 1972
+    },
+    {
+      "epoch": 0.5109578841733838,
+      "grad_norm": 6.424023285451845,
+      "learning_rate": 7.100798107055307e-07,
+      "loss": 0.3299,
+      "step": 1973
+    },
+    {
+      "epoch": 0.5112168592794017,
+      "grad_norm": 3.063433753979935,
+      "learning_rate": 7.095198399492406e-07,
+      "loss": 0.2737,
+      "step": 1974
+    },
+    {
+      "epoch": 0.5114758343854197,
+      "grad_norm": 4.793225172413915,
+      "learning_rate": 7.089598000737426e-07,
+      "loss": 0.3446,
+      "step": 1975
+    },
+    {
+      "epoch": 0.5114758343854197,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8061812467260345,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2251116782426834,
+      "eval_runtime": 14.7645,
+      "eval_samples_per_second": 2.98,
+      "eval_steps_per_second": 0.135,
+      "step": 1975
+    },
+    {
+      "epoch": 0.5117348094914377,
+      "grad_norm": 3.6469626418256222,
+      "learning_rate": 7.083996915370296e-07,
+      "loss": 0.3599,
+      "step": 1976
+    },
+    {
+      "epoch": 0.5119937845974556,
+      "grad_norm": 4.0856015117149775,
+      "learning_rate": 7.078395147971515e-07,
+      "loss": 0.3135,
+      "step": 1977
+    },
+    {
+      "epoch": 0.5122527597034735,
+      "grad_norm": 3.9583533919120897,
+      "learning_rate": 7.072792703122128e-07,
+      "loss": 0.4314,
+      "step": 1978
+    },
+    {
+      "epoch": 0.5125117348094914,
+      "grad_norm": 4.016333899424493,
+      "learning_rate": 7.067189585403742e-07,
+      "loss": 0.3357,
+      "step": 1979
+    },
+    {
+      "epoch": 0.5127707099155093,
+      "grad_norm": 5.310952516454567,
+      "learning_rate": 7.061585799398512e-07,
+      "loss": 0.4045,
+      "step": 1980
+    },
+    {
+      "epoch": 0.5127707099155093,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8061812467260345,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22383803129196167,
+      "eval_runtime": 14.7046,
+      "eval_samples_per_second": 2.992,
+      "eval_steps_per_second": 0.136,
+      "step": 1980
+    },
+    {
+      "epoch": 0.5130296850215273,
+      "grad_norm": 3.885097982351151,
+      "learning_rate": 7.055981349689145e-07,
+      "loss": 0.2756,
+      "step": 1981
+    },
+    {
+      "epoch": 0.5132886601275453,
+      "grad_norm": 10.422904528375707,
+      "learning_rate": 7.05037624085888e-07,
+      "loss": 0.5268,
+      "step": 1982
+    },
+    {
+      "epoch": 0.5135476352335632,
+      "grad_norm": 4.0199503005407875,
+      "learning_rate": 7.044770477491505e-07,
+      "loss": 0.407,
+      "step": 1983
+    },
+    {
+      "epoch": 0.5138066103395811,
+      "grad_norm": 2.6508970248049764,
+      "learning_rate": 7.039164064171336e-07,
+      "loss": 0.2694,
+      "step": 1984
+    },
+    {
+      "epoch": 0.514065585445599,
+      "grad_norm": 3.539180460581722,
+      "learning_rate": 7.033557005483227e-07,
+      "loss": 0.316,
+      "step": 1985
+    },
+    {
+      "epoch": 0.514065585445599,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8069669984284966,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22801996767520905,
+      "eval_runtime": 14.604,
+      "eval_samples_per_second": 3.013,
+      "eval_steps_per_second": 0.137,
+      "step": 1985
+    },
+    {
+      "epoch": 0.514324560551617,
+      "grad_norm": 5.983079771058838,
+      "learning_rate": 7.027949306012553e-07,
+      "loss": 0.3327,
+      "step": 1986
+    },
+    {
+      "epoch": 0.5145835356576349,
+      "grad_norm": 4.197699657138563,
+      "learning_rate": 7.022340970345219e-07,
+      "loss": 0.3466,
+      "step": 1987
+    },
+    {
+      "epoch": 0.5148425107636528,
+      "grad_norm": 3.6556760890180597,
+      "learning_rate": 7.016732003067646e-07,
+      "loss": 0.2702,
+      "step": 1988
+    },
+    {
+      "epoch": 0.5151014858696707,
+      "grad_norm": 4.71178114730699,
+      "learning_rate": 7.011122408766775e-07,
+      "loss": 0.4095,
+      "step": 1989
+    },
+    {
+      "epoch": 0.5153604609756887,
+      "grad_norm": 3.1234160042117463,
+      "learning_rate": 7.005512192030057e-07,
+      "loss": 0.3228,
+      "step": 1990
+    },
+    {
+      "epoch": 0.5153604609756887,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8072289156626506,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22756782174110413,
+      "eval_runtime": 14.8077,
+      "eval_samples_per_second": 2.971,
+      "eval_steps_per_second": 0.135,
+      "step": 1990
+    },
+    {
+      "epoch": 0.5156194360817067,
+      "grad_norm": 3.0558269274237686,
+      "learning_rate": 6.999901357445454e-07,
+      "loss": 0.2792,
+      "step": 1991
+    },
+    {
+      "epoch": 0.5158784111877246,
+      "grad_norm": 11.217742729592652,
+      "learning_rate": 6.994289909601433e-07,
+      "loss": 0.4302,
+      "step": 1992
+    },
+    {
+      "epoch": 0.5161373862937425,
+      "grad_norm": 4.617391772944836,
+      "learning_rate": 6.988677853086959e-07,
+      "loss": 0.3711,
+      "step": 1993
+    },
+    {
+      "epoch": 0.5163963613997604,
+      "grad_norm": 5.061766432588815,
+      "learning_rate": 6.983065192491501e-07,
+      "loss": 0.3866,
+      "step": 1994
+    },
+    {
+      "epoch": 0.5166553365057783,
+      "grad_norm": 5.619460823162033,
+      "learning_rate": 6.977451932405016e-07,
+      "loss": 0.3156,
+      "step": 1995
+    },
+    {
+      "epoch": 0.5166553365057783,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8064431639601886,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2291167825460434,
+      "eval_runtime": 14.3967,
+      "eval_samples_per_second": 3.056,
+      "eval_steps_per_second": 0.139,
+      "step": 1995
+    },
+    {
+      "epoch": 0.5169143116117964,
+      "grad_norm": 4.305794641981917,
+      "learning_rate": 6.971838077417954e-07,
+      "loss": 0.2998,
+      "step": 1996
+    },
+    {
+      "epoch": 0.5171732867178143,
+      "grad_norm": 6.518512068960147,
+      "learning_rate": 6.966223632121254e-07,
+      "loss": 0.4694,
+      "step": 1997
+    },
+    {
+      "epoch": 0.5174322618238322,
+      "grad_norm": 2.962729468014553,
+      "learning_rate": 6.960608601106335e-07,
+      "loss": 0.2479,
+      "step": 1998
+    },
+    {
+      "epoch": 0.5176912369298501,
+      "grad_norm": 3.7166570901916303,
+      "learning_rate": 6.954992988965089e-07,
+      "loss": 0.3461,
+      "step": 1999
+    },
+    {
+      "epoch": 0.5179502120358681,
+      "grad_norm": 3.160457655325982,
+      "learning_rate": 6.949376800289898e-07,
+      "loss": 0.2608,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5179502120358681,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.7988475641697224,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2310631424188614,
+      "eval_runtime": 14.4545,
+      "eval_samples_per_second": 3.044,
+      "eval_steps_per_second": 0.138,
+      "step": 2000
+    },
+    {
+      "epoch": 0.518209187141886,
+      "grad_norm": 3.2061715583921457,
+      "learning_rate": 6.943760039673602e-07,
+      "loss": 0.2724,
+      "step": 2001
+    },
+    {
+      "epoch": 0.5184681622479039,
+      "grad_norm": 3.778193398909609,
+      "learning_rate": 6.938142711709514e-07,
+      "loss": 0.3118,
+      "step": 2002
+    },
+    {
+      "epoch": 0.5187271373539218,
+      "grad_norm": 3.506670540864349,
+      "learning_rate": 6.932524820991411e-07,
+      "loss": 0.2801,
+      "step": 2003
+    },
+    {
+      "epoch": 0.5189861124599398,
+      "grad_norm": 3.5026708274213334,
+      "learning_rate": 6.92690637211353e-07,
+      "loss": 0.3571,
+      "step": 2004
+    },
+    {
+      "epoch": 0.5192450875659578,
+      "grad_norm": 10.584791254284506,
+      "learning_rate": 6.921287369670564e-07,
+      "loss": 0.4435,
+      "step": 2005
+    },
+    {
+      "epoch": 0.5192450875659578,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9212121212121213,
+      "eval_PRM F1 AUC": 0.8273965426925091,
+      "eval_PRM F1 AUC (fixed)": 0.8004190675746464,
+      "eval_PRM F1 Neg": 0.723404255319149,
+      "eval_PRM NPV": 0.7083333333333334,
+      "eval_PRM Precision": 0.926829268292683,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23249410092830658,
+      "eval_runtime": 14.9452,
+      "eval_samples_per_second": 2.944,
+      "eval_steps_per_second": 0.134,
+      "step": 2005
+    },
+    {
+      "epoch": 0.5195040626719757,
+      "grad_norm": 3.0760917762678393,
+      "learning_rate": 6.915667818257661e-07,
+      "loss": 0.2914,
+      "step": 2006
+    },
+    {
+      "epoch": 0.5197630377779936,
+      "grad_norm": 6.133884437864586,
+      "learning_rate": 6.910047722470413e-07,
+      "loss": 0.3558,
+      "step": 2007
+    },
+    {
+      "epoch": 0.5200220128840115,
+      "grad_norm": 8.729669508602132,
+      "learning_rate": 6.904427086904859e-07,
+      "loss": 0.4452,
+      "step": 2008
+    },
+    {
+      "epoch": 0.5202809879900294,
+      "grad_norm": 9.636133173288515,
+      "learning_rate": 6.898805916157484e-07,
+      "loss": 0.3104,
+      "step": 2009
+    },
+    {
+      "epoch": 0.5205399630960474,
+      "grad_norm": 4.797878966268347,
+      "learning_rate": 6.893184214825206e-07,
+      "loss": 0.3391,
+      "step": 2010
+    },
+    {
+      "epoch": 0.5205399630960474,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8004190675746464,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2306734025478363,
+      "eval_runtime": 14.7172,
+      "eval_samples_per_second": 2.99,
+      "eval_steps_per_second": 0.136,
+      "step": 2010
+    },
+    {
+      "epoch": 0.5207989382020654,
+      "grad_norm": 4.32422536050864,
+      "learning_rate": 6.887561987505377e-07,
+      "loss": 0.3406,
+      "step": 2011
+    },
+    {
+      "epoch": 0.5210579133080833,
+      "grad_norm": 3.5272674414179814,
+      "learning_rate": 6.881939238795782e-07,
+      "loss": 0.2721,
+      "step": 2012
+    },
+    {
+      "epoch": 0.5213168884141012,
+      "grad_norm": 5.120390312280001,
+      "learning_rate": 6.876315973294628e-07,
+      "loss": 0.3217,
+      "step": 2013
+    },
+    {
+      "epoch": 0.5215758635201191,
+      "grad_norm": 3.399780207297747,
+      "learning_rate": 6.870692195600549e-07,
+      "loss": 0.2919,
+      "step": 2014
+    },
+    {
+      "epoch": 0.5218348386261371,
+      "grad_norm": 3.578991259717659,
+      "learning_rate": 6.865067910312596e-07,
+      "loss": 0.3383,
+      "step": 2015
+    },
+    {
+      "epoch": 0.5218348386261371,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8004190675746464,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2322913557291031,
+      "eval_runtime": 14.9883,
+      "eval_samples_per_second": 2.936,
+      "eval_steps_per_second": 0.133,
+      "step": 2015
+    },
+    {
+      "epoch": 0.522093813732155,
+      "grad_norm": 3.2428141265055768,
+      "learning_rate": 6.859443122030236e-07,
+      "loss": 0.2898,
+      "step": 2016
+    },
+    {
+      "epoch": 0.5223527888381729,
+      "grad_norm": 3.7615110198537063,
+      "learning_rate": 6.853817835353344e-07,
+      "loss": 0.3854,
+      "step": 2017
+    },
+    {
+      "epoch": 0.5226117639441908,
+      "grad_norm": 7.48330466691377,
+      "learning_rate": 6.848192054882207e-07,
+      "loss": 0.3158,
+      "step": 2018
+    },
+    {
+      "epoch": 0.5228707390502088,
+      "grad_norm": 4.108214890720237,
+      "learning_rate": 6.842565785217513e-07,
+      "loss": 0.4096,
+      "step": 2019
+    },
+    {
+      "epoch": 0.5231297141562268,
+      "grad_norm": 3.0318620718932108,
+      "learning_rate": 6.836939030960351e-07,
+      "loss": 0.2582,
+      "step": 2020
+    },
+    {
+      "epoch": 0.5231297141562268,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8017286537454165,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23562628030776978,
+      "eval_runtime": 14.959,
+      "eval_samples_per_second": 2.941,
+      "eval_steps_per_second": 0.134,
+      "step": 2020
+    },
+    {
+      "epoch": 0.5233886892622447,
+      "grad_norm": 5.604343382295727,
+      "learning_rate": 6.831311796712209e-07,
+      "loss": 0.3478,
+      "step": 2021
+    },
+    {
+      "epoch": 0.5236476643682626,
+      "grad_norm": 4.307305798786338,
+      "learning_rate": 6.82568408707496e-07,
+      "loss": 0.3431,
+      "step": 2022
+    },
+    {
+      "epoch": 0.5239066394742805,
+      "grad_norm": 4.9450957065202115,
+      "learning_rate": 6.820055906650877e-07,
+      "loss": 0.3028,
+      "step": 2023
+    },
+    {
+      "epoch": 0.5241656145802984,
+      "grad_norm": 3.3113193411423176,
+      "learning_rate": 6.814427260042603e-07,
+      "loss": 0.3598,
+      "step": 2024
+    },
+    {
+      "epoch": 0.5244245896863164,
+      "grad_norm": 4.713896577692382,
+      "learning_rate": 6.808798151853177e-07,
+      "loss": 0.3413,
+      "step": 2025
+    },
+    {
+      "epoch": 0.5244245896863164,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8040859088528025,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2365666925907135,
+      "eval_runtime": 15.4542,
+      "eval_samples_per_second": 2.847,
+      "eval_steps_per_second": 0.129,
+      "step": 2025
+    },
+    {
+      "epoch": 0.5246835647923344,
+      "grad_norm": 4.274396697787456,
+      "learning_rate": 6.803168586686007e-07,
+      "loss": 0.2918,
+      "step": 2026
+    },
+    {
+      "epoch": 0.5249425398983523,
+      "grad_norm": 2.788426991033734,
+      "learning_rate": 6.79753856914488e-07,
+      "loss": 0.284,
+      "step": 2027
+    },
+    {
+      "epoch": 0.5252015150043702,
+      "grad_norm": 2.739642908055344,
+      "learning_rate": 6.791908103833946e-07,
+      "loss": 0.2675,
+      "step": 2028
+    },
+    {
+      "epoch": 0.5254604901103881,
+      "grad_norm": 3.8106267406958705,
+      "learning_rate": 6.786277195357727e-07,
+      "loss": 0.2744,
+      "step": 2029
+    },
+    {
+      "epoch": 0.5257194652164061,
+      "grad_norm": 5.625164632340796,
+      "learning_rate": 6.780645848321104e-07,
+      "loss": 0.4715,
+      "step": 2030
+    },
+    {
+      "epoch": 0.5257194652164061,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8053954950235725,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23772607743740082,
+      "eval_runtime": 14.5648,
+      "eval_samples_per_second": 3.021,
+      "eval_steps_per_second": 0.137,
+      "step": 2030
+    },
+    {
+      "epoch": 0.525978440322424,
+      "grad_norm": 3.074981358586057,
+      "learning_rate": 6.775014067329322e-07,
+      "loss": 0.2841,
+      "step": 2031
+    },
+    {
+      "epoch": 0.5262374154284419,
+      "grad_norm": 2.9613004448677094,
+      "learning_rate": 6.769381856987974e-07,
+      "loss": 0.2888,
+      "step": 2032
+    },
+    {
+      "epoch": 0.5264963905344598,
+      "grad_norm": 3.668184885026715,
+      "learning_rate": 6.763749221903007e-07,
+      "loss": 0.2671,
+      "step": 2033
+    },
+    {
+      "epoch": 0.5267553656404778,
+      "grad_norm": 4.699499618822293,
+      "learning_rate": 6.758116166680715e-07,
+      "loss": 0.3835,
+      "step": 2034
+    },
+    {
+      "epoch": 0.5270143407464958,
+      "grad_norm": 4.81171930848692,
+      "learning_rate": 6.75248269592774e-07,
+      "loss": 0.4363,
+      "step": 2035
+    },
+    {
+      "epoch": 0.5270143407464958,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8040859088528025,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23885823786258698,
+      "eval_runtime": 14.8987,
+      "eval_samples_per_second": 2.953,
+      "eval_steps_per_second": 0.134,
+      "step": 2035
+    },
+    {
+      "epoch": 0.5272733158525137,
+      "grad_norm": 3.9014169465534265,
+      "learning_rate": 6.746848814251055e-07,
+      "loss": 0.361,
+      "step": 2036
+    },
+    {
+      "epoch": 0.5275322909585316,
+      "grad_norm": 4.3606932506239175,
+      "learning_rate": 6.741214526257977e-07,
+      "loss": 0.2537,
+      "step": 2037
+    },
+    {
+      "epoch": 0.5277912660645495,
+      "grad_norm": 2.7459469503011085,
+      "learning_rate": 6.735579836556151e-07,
+      "loss": 0.2469,
+      "step": 2038
+    },
+    {
+      "epoch": 0.5280502411705674,
+      "grad_norm": 7.848629951438361,
+      "learning_rate": 6.729944749753553e-07,
+      "loss": 0.425,
+      "step": 2039
+    },
+    {
+      "epoch": 0.5283092162765854,
+      "grad_norm": 7.727017414472788,
+      "learning_rate": 6.724309270458482e-07,
+      "loss": 0.3805,
+      "step": 2040
+    },
+    {
+      "epoch": 0.5283092162765854,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8090623363017286,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.24057665467262268,
+      "eval_runtime": 15.1599,
+      "eval_samples_per_second": 2.902,
+      "eval_steps_per_second": 0.132,
+      "step": 2040
+    },
+    {
+      "epoch": 0.5285681913826034,
+      "grad_norm": 4.0402233736534905,
+      "learning_rate": 6.718673403279558e-07,
+      "loss": 0.3427,
+      "step": 2041
+    },
+    {
+      "epoch": 0.5288271664886213,
+      "grad_norm": 5.314057627737245,
+      "learning_rate": 6.713037152825718e-07,
+      "loss": 0.3512,
+      "step": 2042
+    },
+    {
+      "epoch": 0.5290861415946392,
+      "grad_norm": 3.6578861001910927,
+      "learning_rate": 6.707400523706216e-07,
+      "loss": 0.2235,
+      "step": 2043
+    },
+    {
+      "epoch": 0.5293451167006572,
+      "grad_norm": 4.086990485774963,
+      "learning_rate": 6.701763520530609e-07,
+      "loss": 0.3817,
+      "step": 2044
+    },
+    {
+      "epoch": 0.5296040918066751,
+      "grad_norm": 5.2097591245407004,
+      "learning_rate": 6.696126147908767e-07,
+      "loss": 0.3781,
+      "step": 2045
+    },
+    {
+      "epoch": 0.5296040918066751,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8030382399161864,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23904496431350708,
+      "eval_runtime": 14.7312,
+      "eval_samples_per_second": 2.987,
+      "eval_steps_per_second": 0.136,
+      "step": 2045
+    },
+    {
+      "epoch": 0.529863066912693,
+      "grad_norm": 3.6676471864099187,
+      "learning_rate": 6.690488410450858e-07,
+      "loss": 0.3037,
+      "step": 2046
+    },
+    {
+      "epoch": 0.5301220420187109,
+      "grad_norm": 3.4077188564554763,
+      "learning_rate": 6.684850312767346e-07,
+      "loss": 0.3151,
+      "step": 2047
+    },
+    {
+      "epoch": 0.5303810171247288,
+      "grad_norm": 4.0960690466874405,
+      "learning_rate": 6.679211859468997e-07,
+      "loss": 0.3264,
+      "step": 2048
+    },
+    {
+      "epoch": 0.5306399922307469,
+      "grad_norm": 6.5931766149599165,
+      "learning_rate": 6.673573055166862e-07,
+      "loss": 0.3726,
+      "step": 2049
+    },
+    {
+      "epoch": 0.5308989673367648,
+      "grad_norm": 5.359954016263425,
+      "learning_rate": 6.667933904472281e-07,
+      "loss": 0.3984,
+      "step": 2050
+    },
+    {
+      "epoch": 0.5308989673367648,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8048716605552646,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23912553489208221,
+      "eval_runtime": 14.6669,
+      "eval_samples_per_second": 3.0,
+      "eval_steps_per_second": 0.136,
+      "step": 2050
+    },
+    {
+      "epoch": 0.5311579424427827,
+      "grad_norm": 5.113226620551563,
+      "learning_rate": 6.662294411996875e-07,
+      "loss": 0.3139,
+      "step": 2051
+    },
+    {
+      "epoch": 0.5314169175488006,
+      "grad_norm": 6.878043278298198,
+      "learning_rate": 6.656654582352549e-07,
+      "loss": 0.4242,
+      "step": 2052
+    },
+    {
+      "epoch": 0.5316758926548185,
+      "grad_norm": 4.46387473685755,
+      "learning_rate": 6.651014420151478e-07,
+      "loss": 0.3279,
+      "step": 2053
+    },
+    {
+      "epoch": 0.5319348677608365,
+      "grad_norm": 3.851585184773988,
+      "learning_rate": 6.645373930006117e-07,
+      "loss": 0.2896,
+      "step": 2054
+    },
+    {
+      "epoch": 0.5321938428668544,
+      "grad_norm": 4.2827990079976175,
+      "learning_rate": 6.639733116529181e-07,
+      "loss": 0.3265,
+      "step": 2055
+    },
+    {
+      "epoch": 0.5321938428668544,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8027763226820326,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23745904862880707,
+      "eval_runtime": 14.9739,
+      "eval_samples_per_second": 2.938,
+      "eval_steps_per_second": 0.134,
+      "step": 2055
+    },
+    {
+      "epoch": 0.5324528179728724,
+      "grad_norm": 4.5197844152093785,
+      "learning_rate": 6.634091984333654e-07,
+      "loss": 0.262,
+      "step": 2056
+    },
+    {
+      "epoch": 0.5327117930788903,
+      "grad_norm": 3.5035410775267506,
+      "learning_rate": 6.628450538032776e-07,
+      "loss": 0.2829,
+      "step": 2057
+    },
+    {
+      "epoch": 0.5329707681849082,
+      "grad_norm": 3.380795789228792,
+      "learning_rate": 6.62280878224005e-07,
+      "loss": 0.2794,
+      "step": 2058
+    },
+    {
+      "epoch": 0.5332297432909262,
+      "grad_norm": 5.3953214832767635,
+      "learning_rate": 6.617166721569231e-07,
+      "loss": 0.3279,
+      "step": 2059
+    },
+    {
+      "epoch": 0.5334887183969441,
+      "grad_norm": 5.944588390066497,
+      "learning_rate": 6.611524360634319e-07,
+      "loss": 0.3302,
+      "step": 2060
+    },
+    {
+      "epoch": 0.5334887183969441,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8048716605552645,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2332223504781723,
+      "eval_runtime": 14.7553,
+      "eval_samples_per_second": 2.982,
+      "eval_steps_per_second": 0.136,
+      "step": 2060
+    },
+    {
+      "epoch": 0.533747693502962,
+      "grad_norm": 5.9358873488695645,
+      "learning_rate": 6.605881704049563e-07,
+      "loss": 0.3577,
+      "step": 2061
+    },
+    {
+      "epoch": 0.5340066686089799,
+      "grad_norm": 3.475541086117722,
+      "learning_rate": 6.600238756429453e-07,
+      "loss": 0.2575,
+      "step": 2062
+    },
+    {
+      "epoch": 0.5342656437149979,
+      "grad_norm": 3.77209182431562,
+      "learning_rate": 6.594595522388717e-07,
+      "loss": 0.3014,
+      "step": 2063
+    },
+    {
+      "epoch": 0.5345246188210159,
+      "grad_norm": 5.198027733972152,
+      "learning_rate": 6.588952006542315e-07,
+      "loss": 0.3867,
+      "step": 2064
+    },
+    {
+      "epoch": 0.5347835939270338,
+      "grad_norm": 4.920148154606656,
+      "learning_rate": 6.583308213505443e-07,
+      "loss": 0.3741,
+      "step": 2065
+    },
+    {
+      "epoch": 0.5347835939270338,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8059193294918806,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2303762584924698,
+      "eval_runtime": 14.2865,
+      "eval_samples_per_second": 3.08,
+      "eval_steps_per_second": 0.14,
+      "step": 2065
+    },
+    {
+      "epoch": 0.5350425690330517,
+      "grad_norm": 3.1161871805244012,
+      "learning_rate": 6.57766414789352e-07,
+      "loss": 0.3141,
+      "step": 2066
+    },
+    {
+      "epoch": 0.5353015441390696,
+      "grad_norm": 4.258492916030331,
+      "learning_rate": 6.572019814322186e-07,
+      "loss": 0.2905,
+      "step": 2067
+    },
+    {
+      "epoch": 0.5355605192450875,
+      "grad_norm": 4.206402161450609,
+      "learning_rate": 6.566375217407306e-07,
+      "loss": 0.2897,
+      "step": 2068
+    },
+    {
+      "epoch": 0.5358194943511055,
+      "grad_norm": 3.280595461725414,
+      "learning_rate": 6.560730361764953e-07,
+      "loss": 0.3508,
+      "step": 2069
+    },
+    {
+      "epoch": 0.5360784694571235,
+      "grad_norm": 4.022051625501909,
+      "learning_rate": 6.555085252011415e-07,
+      "loss": 0.4384,
+      "step": 2070
+    },
+    {
+      "epoch": 0.5360784694571235,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8038239916186485,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23042291402816772,
+      "eval_runtime": 14.624,
+      "eval_samples_per_second": 3.009,
+      "eval_steps_per_second": 0.137,
+      "step": 2070
+    },
+    {
+      "epoch": 0.5363374445631414,
+      "grad_norm": 4.291897306295291,
+      "learning_rate": 6.549439892763193e-07,
+      "loss": 0.2319,
+      "step": 2071
+    },
+    {
+      "epoch": 0.5365964196691593,
+      "grad_norm": 3.8251486317216434,
+      "learning_rate": 6.543794288636983e-07,
+      "loss": 0.3476,
+      "step": 2072
+    },
+    {
+      "epoch": 0.5368553947751772,
+      "grad_norm": 4.709348869922407,
+      "learning_rate": 6.538148444249687e-07,
+      "loss": 0.2893,
+      "step": 2073
+    },
+    {
+      "epoch": 0.5371143698811952,
+      "grad_norm": 3.617750986516083,
+      "learning_rate": 6.532502364218402e-07,
+      "loss": 0.3345,
+      "step": 2074
+    },
+    {
+      "epoch": 0.5373733449872131,
+      "grad_norm": 5.489481909014706,
+      "learning_rate": 6.526856053160415e-07,
+      "loss": 0.3046,
+      "step": 2075
+    },
+    {
+      "epoch": 0.5373733449872131,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8025144054478786,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22988790273666382,
+      "eval_runtime": 14.6497,
+      "eval_samples_per_second": 3.003,
+      "eval_steps_per_second": 0.137,
+      "step": 2075
+    },
+    {
+      "epoch": 0.537632320093231,
+      "grad_norm": 4.444267827033878,
+      "learning_rate": 6.52120951569321e-07,
+      "loss": 0.3115,
+      "step": 2076
+    },
+    {
+      "epoch": 0.5378912951992489,
+      "grad_norm": 3.014636283976347,
+      "learning_rate": 6.515562756434447e-07,
+      "loss": 0.335,
+      "step": 2077
+    },
+    {
+      "epoch": 0.5381502703052669,
+      "grad_norm": 3.4280506268974564,
+      "learning_rate": 6.509915780001969e-07,
+      "loss": 0.3318,
+      "step": 2078
+    },
+    {
+      "epoch": 0.5384092454112849,
+      "grad_norm": 8.846339510445935,
+      "learning_rate": 6.504268591013803e-07,
+      "loss": 0.4776,
+      "step": 2079
+    },
+    {
+      "epoch": 0.5386682205173028,
+      "grad_norm": 3.5750039215362404,
+      "learning_rate": 6.498621194088143e-07,
+      "loss": 0.3052,
+      "step": 2080
+    },
+    {
+      "epoch": 0.5386682205173028,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8033001571503405,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22800038754940033,
+      "eval_runtime": 14.4667,
+      "eval_samples_per_second": 3.041,
+      "eval_steps_per_second": 0.138,
+      "step": 2080
+    },
+    {
+      "epoch": 0.5389271956233207,
+      "grad_norm": 3.3847015171094434,
+      "learning_rate": 6.492973593843359e-07,
+      "loss": 0.2751,
+      "step": 2081
+    },
+    {
+      "epoch": 0.5391861707293386,
+      "grad_norm": 2.4474866586435424,
+      "learning_rate": 6.487325794897978e-07,
+      "loss": 0.2773,
+      "step": 2082
+    },
+    {
+      "epoch": 0.5394451458353565,
+      "grad_norm": 3.506818566327238,
+      "learning_rate": 6.481677801870699e-07,
+      "loss": 0.3219,
+      "step": 2083
+    },
+    {
+      "epoch": 0.5397041209413745,
+      "grad_norm": 3.844019830929198,
+      "learning_rate": 6.476029619380376e-07,
+      "loss": 0.2721,
+      "step": 2084
+    },
+    {
+      "epoch": 0.5399630960473925,
+      "grad_norm": 4.735449386114506,
+      "learning_rate": 6.470381252046019e-07,
+      "loss": 0.3378,
+      "step": 2085
+    },
+    {
+      "epoch": 0.5399630960473925,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8046097433211106,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22756992280483246,
+      "eval_runtime": 14.5471,
+      "eval_samples_per_second": 3.025,
+      "eval_steps_per_second": 0.137,
+      "step": 2085
+    },
+    {
+      "epoch": 0.5402220711534104,
+      "grad_norm": 5.599981671270099,
+      "learning_rate": 6.464732704486785e-07,
+      "loss": 0.3872,
+      "step": 2086
+    },
+    {
+      "epoch": 0.5404810462594283,
+      "grad_norm": 3.8197096162208353,
+      "learning_rate": 6.459083981321984e-07,
+      "loss": 0.2716,
+      "step": 2087
+    },
+    {
+      "epoch": 0.5407400213654463,
+      "grad_norm": 5.135451291709805,
+      "learning_rate": 6.453435087171064e-07,
+      "loss": 0.3113,
+      "step": 2088
+    },
+    {
+      "epoch": 0.5409989964714642,
+      "grad_norm": 4.67259568023336,
+      "learning_rate": 6.447786026653623e-07,
+      "loss": 0.2986,
+      "step": 2089
+    },
+    {
+      "epoch": 0.5412579715774821,
+      "grad_norm": 5.29178364553776,
+      "learning_rate": 6.442136804389381e-07,
+      "loss": 0.2983,
+      "step": 2090
+    },
+    {
+      "epoch": 0.5412579715774821,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9012345679012346,
+      "eval_PRM F1 AUC": 0.8093242535358826,
+      "eval_PRM F1 AUC (fixed)": 0.8114195914091147,
+      "eval_PRM F1 Neg": 0.68,
+      "eval_PRM NPV": 0.6296296296296297,
+      "eval_PRM Precision": 0.9240506329113924,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22176438570022583,
+      "eval_runtime": 15.1537,
+      "eval_samples_per_second": 2.904,
+      "eval_steps_per_second": 0.132,
+      "step": 2090
+    },
+    {
+      "epoch": 0.5415169466835,
+      "grad_norm": 7.350947918045169,
+      "learning_rate": 6.436487424998199e-07,
+      "loss": 0.2728,
+      "step": 2091
+    },
+    {
+      "epoch": 0.541775921789518,
+      "grad_norm": 4.782952929924918,
+      "learning_rate": 6.430837893100065e-07,
+      "loss": 0.3695,
+      "step": 2092
+    },
+    {
+      "epoch": 0.542034896895536,
+      "grad_norm": 3.192774878599221,
+      "learning_rate": 6.425188213315095e-07,
+      "loss": 0.274,
+      "step": 2093
+    },
+    {
+      "epoch": 0.5422938720015539,
+      "grad_norm": 5.348528141913388,
+      "learning_rate": 6.419538390263517e-07,
+      "loss": 0.3629,
+      "step": 2094
+    },
+    {
+      "epoch": 0.5425528471075718,
+      "grad_norm": 3.282991174687198,
+      "learning_rate": 6.413888428565684e-07,
+      "loss": 0.2911,
+      "step": 2095
+    },
+    {
+      "epoch": 0.5425528471075718,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.823991618648507,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2215135246515274,
+      "eval_runtime": 14.4124,
+      "eval_samples_per_second": 3.053,
+      "eval_steps_per_second": 0.139,
+      "step": 2095
+    },
+    {
+      "epoch": 0.5428118222135897,
+      "grad_norm": 5.090130955007299,
+      "learning_rate": 6.408238332842063e-07,
+      "loss": 0.2991,
+      "step": 2096
+    },
+    {
+      "epoch": 0.5430707973196076,
+      "grad_norm": 4.312208280057902,
+      "learning_rate": 6.402588107713222e-07,
+      "loss": 0.3835,
+      "step": 2097
+    },
+    {
+      "epoch": 0.5433297724256256,
+      "grad_norm": 4.417074211468511,
+      "learning_rate": 6.396937757799844e-07,
+      "loss": 0.3476,
+      "step": 2098
+    },
+    {
+      "epoch": 0.5435887475316435,
+      "grad_norm": 3.136210037797205,
+      "learning_rate": 6.391287287722708e-07,
+      "loss": 0.2704,
+      "step": 2099
+    },
+    {
+      "epoch": 0.5438477226376615,
+      "grad_norm": 3.985730790683825,
+      "learning_rate": 6.385636702102697e-07,
+      "loss": 0.3407,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5438477226376615,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9212121212121213,
+      "eval_PRM F1 AUC": 0.8273965426925091,
+      "eval_PRM F1 AUC (fixed)": 0.8237297014143531,
+      "eval_PRM F1 Neg": 0.723404255319149,
+      "eval_PRM NPV": 0.7083333333333334,
+      "eval_PRM Precision": 0.926829268292683,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22097660601139069,
+      "eval_runtime": 14.8888,
+      "eval_samples_per_second": 2.955,
+      "eval_steps_per_second": 0.134,
+      "step": 2100
+    },
+    {
+      "epoch": 0.5441066977436794,
+      "grad_norm": 6.365696198016137,
+      "learning_rate": 6.379986005560785e-07,
+      "loss": 0.2917,
+      "step": 2101
+    },
+    {
+      "epoch": 0.5443656728496973,
+      "grad_norm": 6.409344303820183,
+      "learning_rate": 6.374335202718033e-07,
+      "loss": 0.3836,
+      "step": 2102
+    },
+    {
+      "epoch": 0.5446246479557153,
+      "grad_norm": 7.194404909564871,
+      "learning_rate": 6.368684298195598e-07,
+      "loss": 0.2731,
+      "step": 2103
+    },
+    {
+      "epoch": 0.5448836230617332,
+      "grad_norm": 4.03287235899355,
+      "learning_rate": 6.363033296614711e-07,
+      "loss": 0.3302,
+      "step": 2104
+    },
+    {
+      "epoch": 0.5451425981677511,
+      "grad_norm": 5.17210115897139,
+      "learning_rate": 6.357382202596687e-07,
+      "loss": 0.2646,
+      "step": 2105
+    },
+    {
+      "epoch": 0.5451425981677511,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8184913567312729,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2218240201473236,
+      "eval_runtime": 14.6176,
+      "eval_samples_per_second": 3.01,
+      "eval_steps_per_second": 0.137,
+      "step": 2105
+    },
+    {
+      "epoch": 0.545401573273769,
+      "grad_norm": 3.5165925057228735,
+      "learning_rate": 6.351731020762921e-07,
+      "loss": 0.3177,
+      "step": 2106
+    },
+    {
+      "epoch": 0.545660548379787,
+      "grad_norm": 3.604672100685866,
+      "learning_rate": 6.346079755734866e-07,
+      "loss": 0.3678,
+      "step": 2107
+    },
+    {
+      "epoch": 0.545919523485805,
+      "grad_norm": 5.891185649487258,
+      "learning_rate": 6.340428412134057e-07,
+      "loss": 0.4143,
+      "step": 2108
+    },
+    {
+      "epoch": 0.5461784985918229,
+      "grad_norm": 4.185357041957105,
+      "learning_rate": 6.33477699458209e-07,
+      "loss": 0.3495,
+      "step": 2109
+    },
+    {
+      "epoch": 0.5464374736978408,
+      "grad_norm": 3.5320750068708713,
+      "learning_rate": 6.329125507700618e-07,
+      "loss": 0.3324,
+      "step": 2110
+    },
+    {
+      "epoch": 0.5464374736978408,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8166579360921948,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2260075956583023,
+      "eval_runtime": 14.848,
+      "eval_samples_per_second": 2.963,
+      "eval_steps_per_second": 0.135,
+      "step": 2110
+    },
+    {
+      "epoch": 0.5466964488038587,
+      "grad_norm": 6.217311998900788,
+      "learning_rate": 6.32347395611135e-07,
+      "loss": 0.3247,
+      "step": 2111
+    },
+    {
+      "epoch": 0.5469554239098766,
+      "grad_norm": 4.666248326951082,
+      "learning_rate": 6.317822344436049e-07,
+      "loss": 0.2588,
+      "step": 2112
+    },
+    {
+      "epoch": 0.5472143990158946,
+      "grad_norm": 4.120618869933418,
+      "learning_rate": 6.312170677296533e-07,
+      "loss": 0.3302,
+      "step": 2113
+    },
+    {
+      "epoch": 0.5474733741219125,
+      "grad_norm": 3.604890814250355,
+      "learning_rate": 6.306518959314662e-07,
+      "loss": 0.2721,
+      "step": 2114
+    },
+    {
+      "epoch": 0.5477323492279305,
+      "grad_norm": 2.5907657234593917,
+      "learning_rate": 6.300867195112331e-07,
+      "loss": 0.2649,
+      "step": 2115
+    },
+    {
+      "epoch": 0.5477323492279305,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8143006809848088,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2314336895942688,
+      "eval_runtime": 14.6069,
+      "eval_samples_per_second": 3.012,
+      "eval_steps_per_second": 0.137,
+      "step": 2115
+    },
+    {
+      "epoch": 0.5479913243339484,
+      "grad_norm": 3.0134554046606175,
+      "learning_rate": 6.295215389311479e-07,
+      "loss": 0.2883,
+      "step": 2116
+    },
+    {
+      "epoch": 0.5482502994399663,
+      "grad_norm": 3.6809965143965764,
+      "learning_rate": 6.289563546534079e-07,
+      "loss": 0.3115,
+      "step": 2117
+    },
+    {
+      "epoch": 0.5485092745459843,
+      "grad_norm": 4.682479721212389,
+      "learning_rate": 6.283911671402136e-07,
+      "loss": 0.32,
+      "step": 2118
+    },
+    {
+      "epoch": 0.5487682496520022,
+      "grad_norm": 2.902815885637313,
+      "learning_rate": 6.278259768537674e-07,
+      "loss": 0.3453,
+      "step": 2119
+    },
+    {
+      "epoch": 0.5490272247580201,
+      "grad_norm": 4.858166924362263,
+      "learning_rate": 6.272607842562747e-07,
+      "loss": 0.3338,
+      "step": 2120
+    },
+    {
+      "epoch": 0.5490272247580201,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8124672603457307,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23032961785793304,
+      "eval_runtime": 14.4998,
+      "eval_samples_per_second": 3.035,
+      "eval_steps_per_second": 0.138,
+      "step": 2120
+    },
+    {
+      "epoch": 0.549286199864038,
+      "grad_norm": 4.34167263740955,
+      "learning_rate": 6.266955898099426e-07,
+      "loss": 0.4101,
+      "step": 2121
+    },
+    {
+      "epoch": 0.549545174970056,
+      "grad_norm": 2.9378142387940316,
+      "learning_rate": 6.261303939769796e-07,
+      "loss": 0.3473,
+      "step": 2122
+    },
+    {
+      "epoch": 0.549804150076074,
+      "grad_norm": 3.4018943479956385,
+      "learning_rate": 6.255651972195953e-07,
+      "loss": 0.3717,
+      "step": 2123
+    },
+    {
+      "epoch": 0.5500631251820919,
+      "grad_norm": 8.038346486365919,
+      "learning_rate": 6.25e-07,
+      "loss": 0.2704,
+      "step": 2124
+    },
+    {
+      "epoch": 0.5503221002881098,
+      "grad_norm": 4.6478257733961295,
+      "learning_rate": 6.24434802780405e-07,
+      "loss": 0.3547,
+      "step": 2125
+    },
+    {
+      "epoch": 0.5503221002881098,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8080146673651126,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22999288141727448,
+      "eval_runtime": 14.8411,
+      "eval_samples_per_second": 2.965,
+      "eval_steps_per_second": 0.135,
+      "step": 2125
+    },
+    {
+      "epoch": 0.5505810753941277,
+      "grad_norm": 7.041848255803033,
+      "learning_rate": 6.238696060230206e-07,
+      "loss": 0.4228,
+      "step": 2126
+    },
+    {
+      "epoch": 0.5508400505001457,
+      "grad_norm": 3.5728182187043243,
+      "learning_rate": 6.233044101900575e-07,
+      "loss": 0.347,
+      "step": 2127
+    },
+    {
+      "epoch": 0.5510990256061636,
+      "grad_norm": 3.0651487067998704,
+      "learning_rate": 6.227392157437252e-07,
+      "loss": 0.3246,
+      "step": 2128
+    },
+    {
+      "epoch": 0.5513580007121816,
+      "grad_norm": 4.141137313235903,
+      "learning_rate": 6.221740231462329e-07,
+      "loss": 0.3511,
+      "step": 2129
+    },
+    {
+      "epoch": 0.5516169758181995,
+      "grad_norm": 2.7567031148589662,
+      "learning_rate": 6.216088328597868e-07,
+      "loss": 0.2791,
+      "step": 2130
+    },
+    {
+      "epoch": 0.5516169758181995,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8059193294918806,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23175816237926483,
+      "eval_runtime": 14.6317,
+      "eval_samples_per_second": 3.007,
+      "eval_steps_per_second": 0.137,
+      "step": 2130
+    },
+    {
+      "epoch": 0.5518759509242174,
+      "grad_norm": 4.796414638243899,
+      "learning_rate": 6.210436453465922e-07,
+      "loss": 0.2865,
+      "step": 2131
+    },
+    {
+      "epoch": 0.5521349260302354,
+      "grad_norm": 3.060677378015724,
+      "learning_rate": 6.204784610688523e-07,
+      "loss": 0.2911,
+      "step": 2132
+    },
+    {
+      "epoch": 0.5523939011362533,
+      "grad_norm": 5.77189323567779,
+      "learning_rate": 6.199132804887671e-07,
+      "loss": 0.3508,
+      "step": 2133
+    },
+    {
+      "epoch": 0.5526528762422712,
+      "grad_norm": 2.8614243377835504,
+      "learning_rate": 6.193481040685339e-07,
+      "loss": 0.2875,
+      "step": 2134
+    },
+    {
+      "epoch": 0.5529118513482891,
+      "grad_norm": 4.836800111222164,
+      "learning_rate": 6.187829322703466e-07,
+      "loss": 0.3365,
+      "step": 2135
+    },
+    {
+      "epoch": 0.5529118513482891,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8059193294918805,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2330990731716156,
+      "eval_runtime": 14.5074,
+      "eval_samples_per_second": 3.033,
+      "eval_steps_per_second": 0.138,
+      "step": 2135
+    },
+    {
+      "epoch": 0.553170826454307,
+      "grad_norm": 4.838169666356384,
+      "learning_rate": 6.182177655563951e-07,
+      "loss": 0.3986,
+      "step": 2136
+    },
+    {
+      "epoch": 0.5534298015603251,
+      "grad_norm": 2.5687599795623415,
+      "learning_rate": 6.176526043888654e-07,
+      "loss": 0.3109,
+      "step": 2137
+    },
+    {
+      "epoch": 0.553688776666343,
+      "grad_norm": 4.628514481444664,
+      "learning_rate": 6.170874492299385e-07,
+      "loss": 0.3793,
+      "step": 2138
+    },
+    {
+      "epoch": 0.5539477517723609,
+      "grad_norm": 8.73534252137877,
+      "learning_rate": 6.165223005417912e-07,
+      "loss": 0.4094,
+      "step": 2139
+    },
+    {
+      "epoch": 0.5542067268783788,
+      "grad_norm": 8.599399169963599,
+      "learning_rate": 6.159571587865944e-07,
+      "loss": 0.4208,
+      "step": 2140
+    },
+    {
+      "epoch": 0.5542067268783788,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8043478260869565,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23667941987514496,
+      "eval_runtime": 14.8116,
+      "eval_samples_per_second": 2.971,
+      "eval_steps_per_second": 0.135,
+      "step": 2140
+    },
+    {
+      "epoch": 0.5544657019843967,
+      "grad_norm": 6.299276361380223,
+      "learning_rate": 6.153920244265136e-07,
+      "loss": 0.3958,
+      "step": 2141
+    },
+    {
+      "epoch": 0.5547246770904147,
+      "grad_norm": 4.553469617462408,
+      "learning_rate": 6.148268979237082e-07,
+      "loss": 0.3439,
+      "step": 2142
+    },
+    {
+      "epoch": 0.5549836521964326,
+      "grad_norm": 3.658400210268422,
+      "learning_rate": 6.142617797403313e-07,
+      "loss": 0.3455,
+      "step": 2143
+    },
+    {
+      "epoch": 0.5552426273024506,
+      "grad_norm": 4.212585141078089,
+      "learning_rate": 6.13696670338529e-07,
+      "loss": 0.3336,
+      "step": 2144
+    },
+    {
+      "epoch": 0.5555016024084685,
+      "grad_norm": 4.302686781907926,
+      "learning_rate": 6.131315701804405e-07,
+      "loss": 0.2926,
+      "step": 2145
+    },
+    {
+      "epoch": 0.5555016024084685,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.7998952331063384,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.24193677306175232,
+      "eval_runtime": 14.5349,
+      "eval_samples_per_second": 3.027,
+      "eval_steps_per_second": 0.138,
+      "step": 2145
+    },
+    {
+      "epoch": 0.5557605775144864,
+      "grad_norm": 4.6442253908420845,
+      "learning_rate": 6.125664797281968e-07,
+      "loss": 0.355,
+      "step": 2146
+    },
+    {
+      "epoch": 0.5560195526205044,
+      "grad_norm": 7.060072762024737,
+      "learning_rate": 6.120013994439217e-07,
+      "loss": 0.3263,
+      "step": 2147
+    },
+    {
+      "epoch": 0.5562785277265223,
+      "grad_norm": 5.1527709629499245,
+      "learning_rate": 6.114363297897304e-07,
+      "loss": 0.3009,
+      "step": 2148
+    },
+    {
+      "epoch": 0.5565375028325402,
+      "grad_norm": 9.121733615711893,
+      "learning_rate": 6.108712712277293e-07,
+      "loss": 0.2985,
+      "step": 2149
+    },
+    {
+      "epoch": 0.5567964779385581,
+      "grad_norm": 6.977071114570016,
+      "learning_rate": 6.103062242200159e-07,
+      "loss": 0.2989,
+      "step": 2150
+    },
+    {
+      "epoch": 0.5567964779385581,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8059193294918805,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2338414192199707,
+      "eval_runtime": 15.039,
+      "eval_samples_per_second": 2.926,
+      "eval_steps_per_second": 0.133,
+      "step": 2150
+    },
+    {
+      "epoch": 0.557055453044576,
+      "grad_norm": 4.725303332398599,
+      "learning_rate": 6.09741189228678e-07,
+      "loss": 0.3239,
+      "step": 2151
+    },
+    {
+      "epoch": 0.5573144281505941,
+      "grad_norm": 3.9127766459865057,
+      "learning_rate": 6.091761667157938e-07,
+      "loss": 0.2754,
+      "step": 2152
+    },
+    {
+      "epoch": 0.557573403256612,
+      "grad_norm": 6.138081110935778,
+      "learning_rate": 6.086111571434315e-07,
+      "loss": 0.3657,
+      "step": 2153
+    },
+    {
+      "epoch": 0.5578323783626299,
+      "grad_norm": 2.9322038075625256,
+      "learning_rate": 6.080461609736486e-07,
+      "loss": 0.3628,
+      "step": 2154
+    },
+    {
+      "epoch": 0.5580913534686478,
+      "grad_norm": 10.697951815069676,
+      "learning_rate": 6.074811786684909e-07,
+      "loss": 0.3969,
+      "step": 2155
+    },
+    {
+      "epoch": 0.5580913534686478,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8051335777894186,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2333838790655136,
+      "eval_runtime": 14.4025,
+      "eval_samples_per_second": 3.055,
+      "eval_steps_per_second": 0.139,
+      "step": 2155
+    },
+    {
+      "epoch": 0.5583503285746657,
+      "grad_norm": 2.804892360151983,
+      "learning_rate": 6.069162106899936e-07,
+      "loss": 0.2993,
+      "step": 2156
+    },
+    {
+      "epoch": 0.5586093036806837,
+      "grad_norm": 3.220867529028216,
+      "learning_rate": 6.063512575001803e-07,
+      "loss": 0.3108,
+      "step": 2157
+    },
+    {
+      "epoch": 0.5588682787867016,
+      "grad_norm": 3.347548550567105,
+      "learning_rate": 6.057863195610621e-07,
+      "loss": 0.2583,
+      "step": 2158
+    },
+    {
+      "epoch": 0.5591272538927196,
+      "grad_norm": 5.228017173702376,
+      "learning_rate": 6.052213973346379e-07,
+      "loss": 0.3662,
+      "step": 2159
+    },
+    {
+      "epoch": 0.5593862289987375,
+      "grad_norm": 8.48754766607804,
+      "learning_rate": 6.046564912828936e-07,
+      "loss": 0.3484,
+      "step": 2160
+    },
+    {
+      "epoch": 0.5593862289987375,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9212121212121213,
+      "eval_PRM F1 AUC": 0.8273965426925091,
+      "eval_PRM F1 AUC (fixed)": 0.8119434258774227,
+      "eval_PRM F1 Neg": 0.723404255319149,
+      "eval_PRM NPV": 0.7083333333333334,
+      "eval_PRM Precision": 0.926829268292683,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23568886518478394,
+      "eval_runtime": 14.7148,
+      "eval_samples_per_second": 2.99,
+      "eval_steps_per_second": 0.136,
+      "step": 2160
+    },
+    {
+      "epoch": 0.5596452041047554,
+      "grad_norm": 6.663250178270902,
+      "learning_rate": 6.040916018678018e-07,
+      "loss": 0.3508,
+      "step": 2161
+    },
+    {
+      "epoch": 0.5599041792107734,
+      "grad_norm": 3.4601057879003547,
+      "learning_rate": 6.035267295513218e-07,
+      "loss": 0.3745,
+      "step": 2162
+    },
+    {
+      "epoch": 0.5601631543167913,
+      "grad_norm": 4.795726866903443,
+      "learning_rate": 6.029618747953984e-07,
+      "loss": 0.3612,
+      "step": 2163
+    },
+    {
+      "epoch": 0.5604221294228092,
+      "grad_norm": 10.930396850440806,
+      "learning_rate": 6.023970380619626e-07,
+      "loss": 0.4115,
+      "step": 2164
+    },
+    {
+      "epoch": 0.5606811045288271,
+      "grad_norm": 2.3526199190829606,
+      "learning_rate": 6.018322198129303e-07,
+      "loss": 0.2706,
+      "step": 2165
+    },
+    {
+      "epoch": 0.5606811045288271,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8046097433211106,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2373889982700348,
+      "eval_runtime": 14.4392,
+      "eval_samples_per_second": 3.047,
+      "eval_steps_per_second": 0.139,
+      "step": 2165
+    },
+    {
+      "epoch": 0.560940079634845,
+      "grad_norm": 3.645285199273107,
+      "learning_rate": 6.012674205102023e-07,
+      "loss": 0.2444,
+      "step": 2166
+    },
+    {
+      "epoch": 0.5611990547408631,
+      "grad_norm": 5.465470722155276,
+      "learning_rate": 6.007026406156644e-07,
+      "loss": 0.3594,
+      "step": 2167
+    },
+    {
+      "epoch": 0.561458029846881,
+      "grad_norm": 4.802178660028119,
+      "learning_rate": 6.001378805911857e-07,
+      "loss": 0.3626,
+      "step": 2168
+    },
+    {
+      "epoch": 0.5617170049528989,
+      "grad_norm": 3.652843241216237,
+      "learning_rate": 5.995731408986197e-07,
+      "loss": 0.2761,
+      "step": 2169
+    },
+    {
+      "epoch": 0.5619759800589168,
+      "grad_norm": 3.1050035393196067,
+      "learning_rate": 5.990084219998032e-07,
+      "loss": 0.3172,
+      "step": 2170
+    },
+    {
+      "epoch": 0.5619759800589168,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8048716605552646,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23964986205101013,
+      "eval_runtime": 14.4548,
+      "eval_samples_per_second": 3.044,
+      "eval_steps_per_second": 0.138,
+      "step": 2170
+    },
+    {
+      "epoch": 0.5622349551649348,
+      "grad_norm": 2.7438622069234384,
+      "learning_rate": 5.984437243565556e-07,
+      "loss": 0.3192,
+      "step": 2171
+    },
+    {
+      "epoch": 0.5624939302709527,
+      "grad_norm": 2.9370390839910634,
+      "learning_rate": 5.978790484306792e-07,
+      "loss": 0.3192,
+      "step": 2172
+    },
+    {
+      "epoch": 0.5627529053769706,
+      "grad_norm": 3.998508745732631,
+      "learning_rate": 5.973143946839586e-07,
+      "loss": 0.3296,
+      "step": 2173
+    },
+    {
+      "epoch": 0.5630118804829886,
+      "grad_norm": 3.395381152576033,
+      "learning_rate": 5.967497635781601e-07,
+      "loss": 0.3265,
+      "step": 2174
+    },
+    {
+      "epoch": 0.5632708555890065,
+      "grad_norm": 3.2179260636542764,
+      "learning_rate": 5.961851555750314e-07,
+      "loss": 0.3445,
+      "step": 2175
+    },
+    {
+      "epoch": 0.5632708555890065,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8035620743844945,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23954223096370697,
+      "eval_runtime": 14.7506,
+      "eval_samples_per_second": 2.983,
+      "eval_steps_per_second": 0.136,
+      "step": 2175
+    },
+    {
+      "epoch": 0.5635298306950245,
+      "grad_norm": 4.333991750676386,
+      "learning_rate": 5.956205711363018e-07,
+      "loss": 0.3791,
+      "step": 2176
+    },
+    {
+      "epoch": 0.5637888058010424,
+      "grad_norm": 4.73193791967382,
+      "learning_rate": 5.950560107236807e-07,
+      "loss": 0.2663,
+      "step": 2177
+    },
+    {
+      "epoch": 0.5640477809070603,
+      "grad_norm": 5.10143049504143,
+      "learning_rate": 5.944914747988583e-07,
+      "loss": 0.31,
+      "step": 2178
+    },
+    {
+      "epoch": 0.5643067560130782,
+      "grad_norm": 3.5094027717049046,
+      "learning_rate": 5.939269638235051e-07,
+      "loss": 0.3053,
+      "step": 2179
+    },
+    {
+      "epoch": 0.5645657311190961,
+      "grad_norm": 3.150577034227375,
+      "learning_rate": 5.933624782592696e-07,
+      "loss": 0.2992,
+      "step": 2180
+    },
+    {
+      "epoch": 0.5645657311190961,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8046097433211106,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23694948852062225,
+      "eval_runtime": 15.2488,
+      "eval_samples_per_second": 2.885,
+      "eval_steps_per_second": 0.131,
+      "step": 2180
+    },
+    {
+      "epoch": 0.5648247062251142,
+      "grad_norm": 3.691441681200393,
+      "learning_rate": 5.927980185677815e-07,
+      "loss": 0.2441,
+      "step": 2181
+    },
+    {
+      "epoch": 0.5650836813311321,
+      "grad_norm": 6.006657620529061,
+      "learning_rate": 5.922335852106482e-07,
+      "loss": 0.4381,
+      "step": 2182
+    },
+    {
+      "epoch": 0.56534265643715,
+      "grad_norm": 2.960627634851511,
+      "learning_rate": 5.916691786494558e-07,
+      "loss": 0.3136,
+      "step": 2183
+    },
+    {
+      "epoch": 0.5656016315431679,
+      "grad_norm": 4.100802391911433,
+      "learning_rate": 5.911047993457687e-07,
+      "loss": 0.3032,
+      "step": 2184
+    },
+    {
+      "epoch": 0.5658606066491858,
+      "grad_norm": 4.305060391907341,
+      "learning_rate": 5.905404477611286e-07,
+      "loss": 0.3641,
+      "step": 2185
+    },
+    {
+      "epoch": 0.5658606066491858,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8085385018334207,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2373279184103012,
+      "eval_runtime": 15.1415,
+      "eval_samples_per_second": 2.906,
+      "eval_steps_per_second": 0.132,
+      "step": 2185
+    },
+    {
+      "epoch": 0.5661195817552038,
+      "grad_norm": 4.31925135823975,
+      "learning_rate": 5.89976124357055e-07,
+      "loss": 0.3467,
+      "step": 2186
+    },
+    {
+      "epoch": 0.5663785568612217,
+      "grad_norm": 5.205890898411738,
+      "learning_rate": 5.89411829595044e-07,
+      "loss": 0.4189,
+      "step": 2187
+    },
+    {
+      "epoch": 0.5666375319672396,
+      "grad_norm": 8.40049803719755,
+      "learning_rate": 5.888475639365684e-07,
+      "loss": 0.3568,
+      "step": 2188
+    },
+    {
+      "epoch": 0.5668965070732576,
+      "grad_norm": 4.19722515922034,
+      "learning_rate": 5.882833278430771e-07,
+      "loss": 0.3649,
+      "step": 2189
+    },
+    {
+      "epoch": 0.5671554821792755,
+      "grad_norm": 9.817230770195735,
+      "learning_rate": 5.877191217759952e-07,
+      "loss": 0.4202,
+      "step": 2190
+    },
+    {
+      "epoch": 0.5671554821792755,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8074908328968047,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23871129751205444,
+      "eval_runtime": 14.7492,
+      "eval_samples_per_second": 2.983,
+      "eval_steps_per_second": 0.136,
+      "step": 2190
+    },
+    {
+      "epoch": 0.5674144572852935,
+      "grad_norm": 4.665414141254776,
+      "learning_rate": 5.871549461967225e-07,
+      "loss": 0.2917,
+      "step": 2191
+    },
+    {
+      "epoch": 0.5676734323913114,
+      "grad_norm": 3.4552742913869374,
+      "learning_rate": 5.865908015666348e-07,
+      "loss": 0.3337,
+      "step": 2192
+    },
+    {
+      "epoch": 0.5679324074973293,
+      "grad_norm": 4.176413118542138,
+      "learning_rate": 5.860266883470819e-07,
+      "loss": 0.3603,
+      "step": 2193
+    },
+    {
+      "epoch": 0.5681913826033472,
+      "grad_norm": 2.830483612853203,
+      "learning_rate": 5.854626069993883e-07,
+      "loss": 0.267,
+      "step": 2194
+    },
+    {
+      "epoch": 0.5684503577093651,
+      "grad_norm": 3.4431523805157105,
+      "learning_rate": 5.848985579848523e-07,
+      "loss": 0.3493,
+      "step": 2195
+    },
+    {
+      "epoch": 0.5684503577093651,
+      "eval_PRM Accuracy": 0.8490566037735849,
+      "eval_PRM F1": 0.9,
+      "eval_PRM F1 AUC": 0.8250392875851232,
+      "eval_PRM F1 AUC (fixed)": 0.8027763226820326,
+      "eval_PRM F1 Neg": 0.6923076923076923,
+      "eval_PRM NPV": 0.6206896551724138,
+      "eval_PRM Precision": 0.935064935064935,
+      "eval_PRM Recall": 0.8674698795180723,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.24241438508033752,
+      "eval_runtime": 14.4215,
+      "eval_samples_per_second": 3.051,
+      "eval_steps_per_second": 0.139,
+      "step": 2195
+    },
+    {
+      "epoch": 0.5687093328153832,
+      "grad_norm": 7.272621536523948,
+      "learning_rate": 5.843345417647453e-07,
+      "loss": 0.2999,
+      "step": 2196
+    },
+    {
+      "epoch": 0.5689683079214011,
+      "grad_norm": 3.0882262034259975,
+      "learning_rate": 5.837705588003127e-07,
+      "loss": 0.2434,
+      "step": 2197
+    },
+    {
+      "epoch": 0.569227283027419,
+      "grad_norm": 3.4638343344836016,
+      "learning_rate": 5.832066095527722e-07,
+      "loss": 0.3158,
+      "step": 2198
+    },
+    {
+      "epoch": 0.5694862581334369,
+      "grad_norm": 3.370119849080314,
+      "learning_rate": 5.826426944833139e-07,
+      "loss": 0.3444,
+      "step": 2199
+    },
+    {
+      "epoch": 0.5697452332394548,
+      "grad_norm": 4.715007655321245,
+      "learning_rate": 5.820788140531005e-07,
+      "loss": 0.3481,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5697452332394548,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8059193294918805,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23918257653713226,
+      "eval_runtime": 14.9911,
+      "eval_samples_per_second": 2.935,
+      "eval_steps_per_second": 0.133,
+      "step": 2200
+    },
+    {
+      "epoch": 0.5700042083454728,
+      "grad_norm": 5.905858282740968,
+      "learning_rate": 5.815149687232655e-07,
+      "loss": 0.3373,
+      "step": 2201
+    },
+    {
+      "epoch": 0.5702631834514907,
+      "grad_norm": 3.769987278447685,
+      "learning_rate": 5.809511589549143e-07,
+      "loss": 0.3141,
+      "step": 2202
+    },
+    {
+      "epoch": 0.5705221585575087,
+      "grad_norm": 3.8585678173729168,
+      "learning_rate": 5.803873852091236e-07,
+      "loss": 0.3686,
+      "step": 2203
+    },
+    {
+      "epoch": 0.5707811336635266,
+      "grad_norm": 2.886014729680767,
+      "learning_rate": 5.798236479469394e-07,
+      "loss": 0.2771,
+      "step": 2204
+    },
+    {
+      "epoch": 0.5710401087695445,
+      "grad_norm": 4.0094727737267855,
+      "learning_rate": 5.792599476293786e-07,
+      "loss": 0.2987,
+      "step": 2205
+    },
+    {
+      "epoch": 0.5710401087695445,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8080146673651127,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2368496060371399,
+      "eval_runtime": 14.87,
+      "eval_samples_per_second": 2.959,
+      "eval_steps_per_second": 0.134,
+      "step": 2205
+    },
+    {
+      "epoch": 0.5712990838755625,
+      "grad_norm": 5.289767576604941,
+      "learning_rate": 5.786962847174283e-07,
+      "loss": 0.33,
+      "step": 2206
+    },
+    {
+      "epoch": 0.5715580589815804,
+      "grad_norm": 4.5394204009609656,
+      "learning_rate": 5.781326596720444e-07,
+      "loss": 0.3767,
+      "step": 2207
+    },
+    {
+      "epoch": 0.5718170340875983,
+      "grad_norm": 3.689013592610438,
+      "learning_rate": 5.77569072954152e-07,
+      "loss": 0.3102,
+      "step": 2208
+    },
+    {
+      "epoch": 0.5720760091936162,
+      "grad_norm": 3.776834612394486,
+      "learning_rate": 5.770055250246448e-07,
+      "loss": 0.3533,
+      "step": 2209
+    },
+    {
+      "epoch": 0.5723349842996343,
+      "grad_norm": 5.924542346459384,
+      "learning_rate": 5.76442016344385e-07,
+      "loss": 0.3442,
+      "step": 2210
+    },
+    {
+      "epoch": 0.5723349842996343,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9156626506024096,
+      "eval_PRM F1 AUC": 0.8056574122577265,
+      "eval_PRM F1 AUC (fixed)": 0.8103719224724987,
+      "eval_PRM F1 Neg": 0.6956521739130435,
+      "eval_PRM NPV": 0.6956521739130435,
+      "eval_PRM Precision": 0.9156626506024096,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.6956521739130435,
+      "eval_loss": 0.23526550829410553,
+      "eval_runtime": 14.5842,
+      "eval_samples_per_second": 3.017,
+      "eval_steps_per_second": 0.137,
+      "step": 2210
+    },
+    {
+      "epoch": 0.5725939594056522,
+      "grad_norm": 4.823321847126282,
+      "learning_rate": 5.758785473742024e-07,
+      "loss": 0.3354,
+      "step": 2211
+    },
+    {
+      "epoch": 0.5728529345116701,
+      "grad_norm": 6.529416793230183,
+      "learning_rate": 5.753151185748948e-07,
+      "loss": 0.3697,
+      "step": 2212
+    },
+    {
+      "epoch": 0.573111909617688,
+      "grad_norm": 4.546228215649944,
+      "learning_rate": 5.747517304072265e-07,
+      "loss": 0.4414,
+      "step": 2213
+    },
+    {
+      "epoch": 0.5733708847237059,
+      "grad_norm": 3.2145918920345506,
+      "learning_rate": 5.741883833319288e-07,
+      "loss": 0.2551,
+      "step": 2214
+    },
+    {
+      "epoch": 0.5736298598297239,
+      "grad_norm": 6.215675257992527,
+      "learning_rate": 5.736250778096996e-07,
+      "loss": 0.3805,
+      "step": 2215
+    },
+    {
+      "epoch": 0.5736298598297239,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8074908328968047,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2351292222738266,
+      "eval_runtime": 15.3116,
+      "eval_samples_per_second": 2.874,
+      "eval_steps_per_second": 0.131,
+      "step": 2215
+    },
+    {
+      "epoch": 0.5738888349357418,
+      "grad_norm": 5.074078758742773,
+      "learning_rate": 5.730618143012028e-07,
+      "loss": 0.3589,
+      "step": 2216
+    },
+    {
+      "epoch": 0.5741478100417597,
+      "grad_norm": 4.597364264453503,
+      "learning_rate": 5.724985932670679e-07,
+      "loss": 0.3523,
+      "step": 2217
+    },
+    {
+      "epoch": 0.5744067851477777,
+      "grad_norm": 3.366275484181149,
+      "learning_rate": 5.719354151678896e-07,
+      "loss": 0.265,
+      "step": 2218
+    },
+    {
+      "epoch": 0.5746657602537956,
+      "grad_norm": 4.463756027833097,
+      "learning_rate": 5.713722804642274e-07,
+      "loss": 0.3731,
+      "step": 2219
+    },
+    {
+      "epoch": 0.5749247353598136,
+      "grad_norm": 3.5438524256526165,
+      "learning_rate": 5.708091896166057e-07,
+      "loss": 0.3557,
+      "step": 2220
+    },
+    {
+      "epoch": 0.5749247353598136,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8048716605552646,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23860736191272736,
+      "eval_runtime": 14.9573,
+      "eval_samples_per_second": 2.942,
+      "eval_steps_per_second": 0.134,
+      "step": 2220
+    },
+    {
+      "epoch": 0.5751837104658315,
+      "grad_norm": 4.706802889861752,
+      "learning_rate": 5.702461430855123e-07,
+      "loss": 0.3033,
+      "step": 2221
+    },
+    {
+      "epoch": 0.5754426855718494,
+      "grad_norm": 3.5408110592109594,
+      "learning_rate": 5.696831413313994e-07,
+      "loss": 0.3863,
+      "step": 2222
+    },
+    {
+      "epoch": 0.5757016606778673,
+      "grad_norm": 3.2076864899003152,
+      "learning_rate": 5.691201848146826e-07,
+      "loss": 0.3129,
+      "step": 2223
+    },
+    {
+      "epoch": 0.5759606357838852,
+      "grad_norm": 4.959563057577472,
+      "learning_rate": 5.685572739957399e-07,
+      "loss": 0.3461,
+      "step": 2224
+    },
+    {
+      "epoch": 0.5762196108899033,
+      "grad_norm": 3.2221689968098395,
+      "learning_rate": 5.679944093349125e-07,
+      "loss": 0.2911,
+      "step": 2225
+    },
+    {
+      "epoch": 0.5762196108899033,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9125,
+      "eval_PRM F1 AUC": 0.8528025144054479,
+      "eval_PRM F1 AUC (fixed)": 0.8009429020429545,
+      "eval_PRM F1 Neg": 0.7307692307692307,
+      "eval_PRM NPV": 0.6551724137931034,
+      "eval_PRM Precision": 0.948051948051948,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.8260869565217391,
+      "eval_loss": 0.23951144516468048,
+      "eval_runtime": 14.5648,
+      "eval_samples_per_second": 3.021,
+      "eval_steps_per_second": 0.137,
+      "step": 2225
+    },
+    {
+      "epoch": 0.5764785859959212,
+      "grad_norm": 3.779593604081406,
+      "learning_rate": 5.67431591292504e-07,
+      "loss": 0.29,
+      "step": 2226
+    },
+    {
+      "epoch": 0.5767375611019391,
+      "grad_norm": 3.631030738159037,
+      "learning_rate": 5.668688203287791e-07,
+      "loss": 0.3503,
+      "step": 2227
+    },
+    {
+      "epoch": 0.576996536207957,
+      "grad_norm": 3.339647513318244,
+      "learning_rate": 5.663060969039651e-07,
+      "loss": 0.3443,
+      "step": 2228
+    },
+    {
+      "epoch": 0.5772555113139749,
+      "grad_norm": 2.7829476555373382,
+      "learning_rate": 5.657434214782488e-07,
+      "loss": 0.3167,
+      "step": 2229
+    },
+    {
+      "epoch": 0.5775144864199929,
+      "grad_norm": 3.6085314219871587,
+      "learning_rate": 5.651807945117794e-07,
+      "loss": 0.2965,
+      "step": 2230
+    },
+    {
+      "epoch": 0.5775144864199929,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8061812467260345,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2356843501329422,
+      "eval_runtime": 14.4739,
+      "eval_samples_per_second": 3.04,
+      "eval_steps_per_second": 0.138,
+      "step": 2230
+    },
+    {
+      "epoch": 0.5777734615260108,
+      "grad_norm": 3.22894545550293,
+      "learning_rate": 5.646182164646657e-07,
+      "loss": 0.2348,
+      "step": 2231
+    },
+    {
+      "epoch": 0.5780324366320287,
+      "grad_norm": 6.228289074191956,
+      "learning_rate": 5.640556877969766e-07,
+      "loss": 0.2419,
+      "step": 2232
+    },
+    {
+      "epoch": 0.5782914117380467,
+      "grad_norm": 3.595117887907518,
+      "learning_rate": 5.634932089687405e-07,
+      "loss": 0.3374,
+      "step": 2233
+    },
+    {
+      "epoch": 0.5785503868440646,
+      "grad_norm": 3.0669702778582257,
+      "learning_rate": 5.629307804399452e-07,
+      "loss": 0.3144,
+      "step": 2234
+    },
+    {
+      "epoch": 0.5788093619500826,
+      "grad_norm": 4.0678924070890226,
+      "learning_rate": 5.623684026705374e-07,
+      "loss": 0.3021,
+      "step": 2235
+    },
+    {
+      "epoch": 0.5788093619500826,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8090623363017286,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22923964262008667,
+      "eval_runtime": 14.9935,
+      "eval_samples_per_second": 2.935,
+      "eval_steps_per_second": 0.133,
+      "step": 2235
+    },
+    {
+      "epoch": 0.5790683370561005,
+      "grad_norm": 5.035070357652491,
+      "learning_rate": 5.618060761204218e-07,
+      "loss": 0.338,
+      "step": 2236
+    },
+    {
+      "epoch": 0.5793273121621184,
+      "grad_norm": 5.536224529666224,
+      "learning_rate": 5.612438012494625e-07,
+      "loss": 0.3413,
+      "step": 2237
+    },
+    {
+      "epoch": 0.5795862872681363,
+      "grad_norm": 5.8582070592066815,
+      "learning_rate": 5.606815785174797e-07,
+      "loss": 0.3362,
+      "step": 2238
+    },
+    {
+      "epoch": 0.5798452623741542,
+      "grad_norm": 3.5720002712287156,
+      "learning_rate": 5.601194083842517e-07,
+      "loss": 0.2763,
+      "step": 2239
+    },
+    {
+      "epoch": 0.5801042374801723,
+      "grad_norm": 3.31702752622457,
+      "learning_rate": 5.595572913095142e-07,
+      "loss": 0.3153,
+      "step": 2240
+    },
+    {
+      "epoch": 0.5801042374801723,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8127291775798847,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22618189454078674,
+      "eval_runtime": 14.7184,
+      "eval_samples_per_second": 2.989,
+      "eval_steps_per_second": 0.136,
+      "step": 2240
+    },
+    {
+      "epoch": 0.5803632125861902,
+      "grad_norm": 4.135079055735316,
+      "learning_rate": 5.589952277529589e-07,
+      "loss": 0.2894,
+      "step": 2241
+    },
+    {
+      "epoch": 0.5806221876922081,
+      "grad_norm": 3.331029874360077,
+      "learning_rate": 5.584332181742341e-07,
+      "loss": 0.3153,
+      "step": 2242
+    },
+    {
+      "epoch": 0.580881162798226,
+      "grad_norm": 9.128158787277526,
+      "learning_rate": 5.578712630329437e-07,
+      "loss": 0.3798,
+      "step": 2243
+    },
+    {
+      "epoch": 0.5811401379042439,
+      "grad_norm": 3.4476419488435277,
+      "learning_rate": 5.573093627886471e-07,
+      "loss": 0.2865,
+      "step": 2244
+    },
+    {
+      "epoch": 0.5813991130102619,
+      "grad_norm": 3.34090527187964,
+      "learning_rate": 5.567475179008591e-07,
+      "loss": 0.2655,
+      "step": 2245
+    },
+    {
+      "epoch": 0.5813991130102619,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8135149292823467,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22423087060451508,
+      "eval_runtime": 14.6161,
+      "eval_samples_per_second": 3.01,
+      "eval_steps_per_second": 0.137,
+      "step": 2245
+    },
+    {
+      "epoch": 0.5816580881162798,
+      "grad_norm": 4.659373249265686,
+      "learning_rate": 5.561857288290488e-07,
+      "loss": 0.2826,
+      "step": 2246
+    },
+    {
+      "epoch": 0.5819170632222977,
+      "grad_norm": 4.663837659525852,
+      "learning_rate": 5.556239960326401e-07,
+      "loss": 0.2924,
+      "step": 2247
+    },
+    {
+      "epoch": 0.5821760383283157,
+      "grad_norm": 7.3393110411426985,
+      "learning_rate": 5.550623199710105e-07,
+      "loss": 0.4165,
+      "step": 2248
+    },
+    {
+      "epoch": 0.5824350134343336,
+      "grad_norm": 4.060046683396946,
+      "learning_rate": 5.545007011034913e-07,
+      "loss": 0.3423,
+      "step": 2249
+    },
+    {
+      "epoch": 0.5826939885403516,
+      "grad_norm": 3.1666829250293183,
+      "learning_rate": 5.539391398893668e-07,
+      "loss": 0.2963,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5826939885403516,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8135149292823468,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22282634675502777,
+      "eval_runtime": 14.4828,
+      "eval_samples_per_second": 3.038,
+      "eval_steps_per_second": 0.138,
+      "step": 2250
+    },
+    {
+      "epoch": 0.5829529636463695,
+      "grad_norm": 5.490205553533866,
+      "learning_rate": 5.533776367878746e-07,
+      "loss": 0.3081,
+      "step": 2251
+    },
+    {
+      "epoch": 0.5832119387523874,
+      "grad_norm": 3.934700289875118,
+      "learning_rate": 5.528161922582047e-07,
+      "loss": 0.284,
+      "step": 2252
+    },
+    {
+      "epoch": 0.5834709138584053,
+      "grad_norm": 3.5382586515194525,
+      "learning_rate": 5.522548067594988e-07,
+      "loss": 0.2645,
+      "step": 2253
+    },
+    {
+      "epoch": 0.5837298889644233,
+      "grad_norm": 7.589217938028257,
+      "learning_rate": 5.516934807508501e-07,
+      "loss": 0.3666,
+      "step": 2254
+    },
+    {
+      "epoch": 0.5839888640704413,
+      "grad_norm": 2.90897523325107,
+      "learning_rate": 5.511322146913042e-07,
+      "loss": 0.2214,
+      "step": 2255
+    },
+    {
+      "epoch": 0.5839888640704413,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8150864326872709,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22103890776634216,
+      "eval_runtime": 14.4344,
+      "eval_samples_per_second": 3.048,
+      "eval_steps_per_second": 0.139,
+      "step": 2255
+    },
+    {
+      "epoch": 0.5842478391764592,
+      "grad_norm": 3.7327610489730816,
+      "learning_rate": 5.505710090398569e-07,
+      "loss": 0.3349,
+      "step": 2256
+    },
+    {
+      "epoch": 0.5845068142824771,
+      "grad_norm": 6.329829598767786,
+      "learning_rate": 5.500098642554547e-07,
+      "loss": 0.3548,
+      "step": 2257
+    },
+    {
+      "epoch": 0.584765789388495,
+      "grad_norm": 3.6163394205203336,
+      "learning_rate": 5.494487807969944e-07,
+      "loss": 0.3523,
+      "step": 2258
+    },
+    {
+      "epoch": 0.585024764494513,
+      "grad_norm": 3.9800518258515902,
+      "learning_rate": 5.488877591233226e-07,
+      "loss": 0.3641,
+      "step": 2259
+    },
+    {
+      "epoch": 0.5852837396005309,
+      "grad_norm": 4.630266533736088,
+      "learning_rate": 5.483267996932354e-07,
+      "loss": 0.2183,
+      "step": 2260
+    },
+    {
+      "epoch": 0.5852837396005309,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8101100052383448,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22330118715763092,
+      "eval_runtime": 14.6209,
+      "eval_samples_per_second": 3.009,
+      "eval_steps_per_second": 0.137,
+      "step": 2260
+    },
+    {
+      "epoch": 0.5855427147065488,
+      "grad_norm": 3.291643139359937,
+      "learning_rate": 5.477659029654782e-07,
+      "loss": 0.2556,
+      "step": 2261
+    },
+    {
+      "epoch": 0.5858016898125668,
+      "grad_norm": 6.8524311658322095,
+      "learning_rate": 5.472050693987451e-07,
+      "loss": 0.3613,
+      "step": 2262
+    },
+    {
+      "epoch": 0.5860606649185847,
+      "grad_norm": 2.9061293621530804,
+      "learning_rate": 5.466442994516777e-07,
+      "loss": 0.2897,
+      "step": 2263
+    },
+    {
+      "epoch": 0.5863196400246027,
+      "grad_norm": 4.798933814378702,
+      "learning_rate": 5.460835935828665e-07,
+      "loss": 0.2796,
+      "step": 2264
+    },
+    {
+      "epoch": 0.5865786151306206,
+      "grad_norm": 3.2675723404747035,
+      "learning_rate": 5.455229522508497e-07,
+      "loss": 0.3383,
+      "step": 2265
+    },
+    {
+      "epoch": 0.5865786151306206,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8114195914091147,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22472737729549408,
+      "eval_runtime": 14.4365,
+      "eval_samples_per_second": 3.048,
+      "eval_steps_per_second": 0.139,
+      "step": 2265
+    },
+    {
+      "epoch": 0.5868375902366385,
+      "grad_norm": 4.278500753453795,
+      "learning_rate": 5.449623759141121e-07,
+      "loss": 0.3814,
+      "step": 2266
+    },
+    {
+      "epoch": 0.5870965653426564,
+      "grad_norm": 5.43312604495216,
+      "learning_rate": 5.444018650310857e-07,
+      "loss": 0.4116,
+      "step": 2267
+    },
+    {
+      "epoch": 0.5873555404486743,
+      "grad_norm": 6.850766088023858,
+      "learning_rate": 5.438414200601489e-07,
+      "loss": 0.4047,
+      "step": 2268
+    },
+    {
+      "epoch": 0.5876145155546924,
+      "grad_norm": 3.8479515180117962,
+      "learning_rate": 5.432810414596259e-07,
+      "loss": 0.354,
+      "step": 2269
+    },
+    {
+      "epoch": 0.5878734906607103,
+      "grad_norm": 2.9892305815172695,
+      "learning_rate": 5.427207296877876e-07,
+      "loss": 0.2646,
+      "step": 2270
+    },
+    {
+      "epoch": 0.5878734906607103,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8129910948140389,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22465883195400238,
+      "eval_runtime": 14.8336,
+      "eval_samples_per_second": 2.966,
+      "eval_steps_per_second": 0.135,
+      "step": 2270
+    },
+    {
+      "epoch": 0.5881324657667282,
+      "grad_norm": 6.27608121054562,
+      "learning_rate": 5.421604852028488e-07,
+      "loss": 0.4384,
+      "step": 2271
+    },
+    {
+      "epoch": 0.5883914408727461,
+      "grad_norm": 5.9810879361448634,
+      "learning_rate": 5.416003084629705e-07,
+      "loss": 0.3532,
+      "step": 2272
+    },
+    {
+      "epoch": 0.588650415978764,
+      "grad_norm": 3.1487868209796996,
+      "learning_rate": 5.410401999262576e-07,
+      "loss": 0.2876,
+      "step": 2273
+    },
+    {
+      "epoch": 0.588909391084782,
+      "grad_norm": 4.930500480790229,
+      "learning_rate": 5.404801600507595e-07,
+      "loss": 0.3096,
+      "step": 2274
+    },
+    {
+      "epoch": 0.5891683661907999,
+      "grad_norm": 3.197855315880685,
+      "learning_rate": 5.399201892944696e-07,
+      "loss": 0.3234,
+      "step": 2275
+    },
+    {
+      "epoch": 0.5891683661907999,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8064431639601886,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22794176638126373,
+      "eval_runtime": 14.6484,
+      "eval_samples_per_second": 3.004,
+      "eval_steps_per_second": 0.137,
+      "step": 2275
+    },
+    {
+      "epoch": 0.5894273412968178,
+      "grad_norm": 4.422992831758531,
+      "learning_rate": 5.393602881153244e-07,
+      "loss": 0.4035,
+      "step": 2276
+    },
+    {
+      "epoch": 0.5896863164028358,
+      "grad_norm": 3.6534325829111607,
+      "learning_rate": 5.388004569712036e-07,
+      "loss": 0.3473,
+      "step": 2277
+    },
+    {
+      "epoch": 0.5899452915088537,
+      "grad_norm": 3.526368257106306,
+      "learning_rate": 5.382406963199302e-07,
+      "loss": 0.244,
+      "step": 2278
+    },
+    {
+      "epoch": 0.5902042666148717,
+      "grad_norm": 5.577024576266806,
+      "learning_rate": 5.376810066192685e-07,
+      "loss": 0.36,
+      "step": 2279
+    },
+    {
+      "epoch": 0.5904632417208896,
+      "grad_norm": 7.83817787329655,
+      "learning_rate": 5.371213883269255e-07,
+      "loss": 0.3629,
+      "step": 2280
+    },
+    {
+      "epoch": 0.5904632417208896,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8098480880041907,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22685761749744415,
+      "eval_runtime": 14.4598,
+      "eval_samples_per_second": 3.043,
+      "eval_steps_per_second": 0.138,
+      "step": 2280
+    },
+    {
+      "epoch": 0.5907222168269075,
+      "grad_norm": 7.143694054161684,
+      "learning_rate": 5.365618419005497e-07,
+      "loss": 0.3257,
+      "step": 2281
+    },
+    {
+      "epoch": 0.5909811919329254,
+      "grad_norm": 4.882218377371467,
+      "learning_rate": 5.360023677977308e-07,
+      "loss": 0.3546,
+      "step": 2282
+    },
+    {
+      "epoch": 0.5912401670389433,
+      "grad_norm": 4.12450274748871,
+      "learning_rate": 5.354429664759993e-07,
+      "loss": 0.3561,
+      "step": 2283
+    },
+    {
+      "epoch": 0.5914991421449614,
+      "grad_norm": 5.237754254451131,
+      "learning_rate": 5.348836383928261e-07,
+      "loss": 0.4105,
+      "step": 2284
+    },
+    {
+      "epoch": 0.5917581172509793,
+      "grad_norm": 4.812706619755934,
+      "learning_rate": 5.343243840056223e-07,
+      "loss": 0.302,
+      "step": 2285
+    },
+    {
+      "epoch": 0.5917581172509793,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8080146673651126,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23035289347171783,
+      "eval_runtime": 14.5377,
+      "eval_samples_per_second": 3.027,
+      "eval_steps_per_second": 0.138,
+      "step": 2285
+    },
+    {
+      "epoch": 0.5920170923569972,
+      "grad_norm": 9.162043443385194,
+      "learning_rate": 5.337652037717391e-07,
+      "loss": 0.3305,
+      "step": 2286
+    },
+    {
+      "epoch": 0.5922760674630151,
+      "grad_norm": 4.222127778394273,
+      "learning_rate": 5.332060981484667e-07,
+      "loss": 0.3094,
+      "step": 2287
+    },
+    {
+      "epoch": 0.592535042569033,
+      "grad_norm": 3.489968734779064,
+      "learning_rate": 5.326470675930335e-07,
+      "loss": 0.324,
+      "step": 2288
+    },
+    {
+      "epoch": 0.592794017675051,
+      "grad_norm": 2.9263327818547586,
+      "learning_rate": 5.320881125626082e-07,
+      "loss": 0.2825,
+      "step": 2289
+    },
+    {
+      "epoch": 0.5930529927810689,
+      "grad_norm": 3.8872773634138635,
+      "learning_rate": 5.315292335142963e-07,
+      "loss": 0.3766,
+      "step": 2290
+    },
+    {
+      "epoch": 0.5930529927810689,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8077527501309586,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2290603518486023,
+      "eval_runtime": 14.4607,
+      "eval_samples_per_second": 3.043,
+      "eval_steps_per_second": 0.138,
+      "step": 2290
+    },
+    {
+      "epoch": 0.5933119678870868,
+      "grad_norm": 4.444858797481897,
+      "learning_rate": 5.30970430905142e-07,
+      "loss": 0.2666,
+      "step": 2291
+    },
+    {
+      "epoch": 0.5935709429931048,
+      "grad_norm": 4.984446671939108,
+      "learning_rate": 5.304117051921266e-07,
+      "loss": 0.3139,
+      "step": 2292
+    },
+    {
+      "epoch": 0.5938299180991227,
+      "grad_norm": 6.110633677057603,
+      "learning_rate": 5.298530568321684e-07,
+      "loss": 0.338,
+      "step": 2293
+    },
+    {
+      "epoch": 0.5940888932051407,
+      "grad_norm": 4.011705385961452,
+      "learning_rate": 5.292944862821229e-07,
+      "loss": 0.2922,
+      "step": 2294
+    },
+    {
+      "epoch": 0.5943478683111586,
+      "grad_norm": 2.5971981727513698,
+      "learning_rate": 5.287359939987819e-07,
+      "loss": 0.2626,
+      "step": 2295
+    },
+    {
+      "epoch": 0.5943478683111586,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8140387637506548,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22724123299121857,
+      "eval_runtime": 14.9819,
+      "eval_samples_per_second": 2.937,
+      "eval_steps_per_second": 0.133,
+      "step": 2295
+    },
+    {
+      "epoch": 0.5946068434171765,
+      "grad_norm": 4.506026919855117,
+      "learning_rate": 5.281775804388725e-07,
+      "loss": 0.3156,
+      "step": 2296
+    },
+    {
+      "epoch": 0.5948658185231944,
+      "grad_norm": 3.5863945003201807,
+      "learning_rate": 5.276192460590583e-07,
+      "loss": 0.2951,
+      "step": 2297
+    },
+    {
+      "epoch": 0.5951247936292124,
+      "grad_norm": 3.55230802619799,
+      "learning_rate": 5.270609913159374e-07,
+      "loss": 0.2985,
+      "step": 2298
+    },
+    {
+      "epoch": 0.5953837687352304,
+      "grad_norm": 3.9496933069592184,
+      "learning_rate": 5.265028166660435e-07,
+      "loss": 0.3627,
+      "step": 2299
+    },
+    {
+      "epoch": 0.5956427438412483,
+      "grad_norm": 3.884140136414765,
+      "learning_rate": 5.259447225658444e-07,
+      "loss": 0.3562,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5956427438412483,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.819800942902043,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.22628051042556763,
+      "eval_runtime": 14.6184,
+      "eval_samples_per_second": 3.01,
+      "eval_steps_per_second": 0.137,
+      "step": 2300
+    },
+    {
+      "epoch": 0.5959017189472662,
+      "grad_norm": 2.803080960035547,
+      "learning_rate": 5.25386709471742e-07,
+      "loss": 0.2385,
+      "step": 2301
+    },
+    {
+      "epoch": 0.5961606940532841,
+      "grad_norm": 3.590886795732654,
+      "learning_rate": 5.248287778400721e-07,
+      "loss": 0.3056,
+      "step": 2302
+    },
+    {
+      "epoch": 0.5964196691593021,
+      "grad_norm": 6.223688301425503,
+      "learning_rate": 5.242709281271039e-07,
+      "loss": 0.3638,
+      "step": 2303
+    },
+    {
+      "epoch": 0.59667864426532,
+      "grad_norm": 3.1440767779776904,
+      "learning_rate": 5.237131607890393e-07,
+      "loss": 0.2493,
+      "step": 2304
+    },
+    {
+      "epoch": 0.5969376193713379,
+      "grad_norm": 6.546539151522905,
+      "learning_rate": 5.231554762820131e-07,
+      "loss": 0.4399,
+      "step": 2305
+    },
+    {
+      "epoch": 0.5969376193713379,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8234677841801991,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2260231077671051,
+      "eval_runtime": 14.4648,
+      "eval_samples_per_second": 3.042,
+      "eval_steps_per_second": 0.138,
+      "step": 2305
+    },
+    {
+      "epoch": 0.5971965944773558,
+      "grad_norm": 5.826692783459863,
+      "learning_rate": 5.225978750620925e-07,
+      "loss": 0.448,
+      "step": 2306
+    },
+    {
+      "epoch": 0.5974555695833738,
+      "grad_norm": 4.585479626981312,
+      "learning_rate": 5.220403575852762e-07,
+      "loss": 0.2979,
+      "step": 2307
+    },
+    {
+      "epoch": 0.5977145446893918,
+      "grad_norm": 5.369977285613527,
+      "learning_rate": 5.214829243074947e-07,
+      "loss": 0.3567,
+      "step": 2308
+    },
+    {
+      "epoch": 0.5979735197954097,
+      "grad_norm": 7.260631025503597,
+      "learning_rate": 5.209255756846095e-07,
+      "loss": 0.3173,
+      "step": 2309
+    },
+    {
+      "epoch": 0.5982324949014276,
+      "grad_norm": 4.824436102176374,
+      "learning_rate": 5.203683121724131e-07,
+      "loss": 0.3262,
+      "step": 2310
+    },
+    {
+      "epoch": 0.5982324949014276,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8205866946045051,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22923235595226288,
+      "eval_runtime": 14.6964,
+      "eval_samples_per_second": 2.994,
+      "eval_steps_per_second": 0.136,
+      "step": 2310
+    },
+    {
+      "epoch": 0.5984914700074455,
+      "grad_norm": 4.351065677152797,
+      "learning_rate": 5.198111342266285e-07,
+      "loss": 0.2893,
+      "step": 2311
+    },
+    {
+      "epoch": 0.5987504451134634,
+      "grad_norm": 9.003428247954938,
+      "learning_rate": 5.192540423029078e-07,
+      "loss": 0.3982,
+      "step": 2312
+    },
+    {
+      "epoch": 0.5990094202194814,
+      "grad_norm": 3.927436107744623,
+      "learning_rate": 5.186970368568335e-07,
+      "loss": 0.3224,
+      "step": 2313
+    },
+    {
+      "epoch": 0.5992683953254994,
+      "grad_norm": 3.573622542029136,
+      "learning_rate": 5.181401183439177e-07,
+      "loss": 0.2907,
+      "step": 2314
+    },
+    {
+      "epoch": 0.5995273704315173,
+      "grad_norm": 4.489549657485354,
+      "learning_rate": 5.175832872196009e-07,
+      "loss": 0.3904,
+      "step": 2315
+    },
+    {
+      "epoch": 0.5995273704315173,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8190151911995809,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23295408487319946,
+      "eval_runtime": 14.5816,
+      "eval_samples_per_second": 3.017,
+      "eval_steps_per_second": 0.137,
+      "step": 2315
+    },
+    {
+      "epoch": 0.5997863455375352,
+      "grad_norm": 7.429627477344885,
+      "learning_rate": 5.17026543939252e-07,
+      "loss": 0.4014,
+      "step": 2316
+    },
+    {
+      "epoch": 0.6000453206435531,
+      "grad_norm": 3.6016570031324155,
+      "learning_rate": 5.164698889581686e-07,
+      "loss": 0.3197,
+      "step": 2317
+    },
+    {
+      "epoch": 0.6003042957495711,
+      "grad_norm": 5.730398851098755,
+      "learning_rate": 5.159133227315756e-07,
+      "loss": 0.3499,
+      "step": 2318
+    },
+    {
+      "epoch": 0.600563270855589,
+      "grad_norm": 3.777252827295177,
+      "learning_rate": 5.153568457146253e-07,
+      "loss": 0.3371,
+      "step": 2319
+    },
+    {
+      "epoch": 0.6008222459616069,
+      "grad_norm": 3.500151956044879,
+      "learning_rate": 5.148004583623981e-07,
+      "loss": 0.4022,
+      "step": 2320
+    },
+    {
+      "epoch": 0.6008222459616069,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8127291775798847,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23461176455020905,
+      "eval_runtime": 14.5346,
+      "eval_samples_per_second": 3.027,
+      "eval_steps_per_second": 0.138,
+      "step": 2320
+    },
+    {
+      "epoch": 0.6010812210676248,
+      "grad_norm": 5.52560126144034,
+      "learning_rate": 5.142441611298992e-07,
+      "loss": 0.2864,
+      "step": 2321
+    },
+    {
+      "epoch": 0.6013401961736428,
+      "grad_norm": 5.127932387654273,
+      "learning_rate": 5.136879544720615e-07,
+      "loss": 0.4347,
+      "step": 2322
+    },
+    {
+      "epoch": 0.6015991712796608,
+      "grad_norm": 4.736951514092038,
+      "learning_rate": 5.131318388437434e-07,
+      "loss": 0.3297,
+      "step": 2323
+    },
+    {
+      "epoch": 0.6018581463856787,
+      "grad_norm": 5.099841867378184,
+      "learning_rate": 5.125758146997291e-07,
+      "loss": 0.2558,
+      "step": 2324
+    },
+    {
+      "epoch": 0.6021171214916966,
+      "grad_norm": 7.287427114768257,
+      "learning_rate": 5.120198824947277e-07,
+      "loss": 0.2713,
+      "step": 2325
+    },
+    {
+      "epoch": 0.6021171214916966,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8124672603457308,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23834198713302612,
+      "eval_runtime": 14.5425,
+      "eval_samples_per_second": 3.026,
+      "eval_steps_per_second": 0.138,
+      "step": 2325
+    },
+    {
+      "epoch": 0.6023760965977145,
+      "grad_norm": 6.162202130719232,
+      "learning_rate": 5.114640426833733e-07,
+      "loss": 0.2877,
+      "step": 2326
+    },
+    {
+      "epoch": 0.6026350717037324,
+      "grad_norm": 5.7173371015592815,
+      "learning_rate": 5.109082957202242e-07,
+      "loss": 0.3901,
+      "step": 2327
+    },
+    {
+      "epoch": 0.6028940468097505,
+      "grad_norm": 6.090873045974941,
+      "learning_rate": 5.103526420597631e-07,
+      "loss": 0.274,
+      "step": 2328
+    },
+    {
+      "epoch": 0.6031530219157684,
+      "grad_norm": 2.748688128279512,
+      "learning_rate": 5.09797082156396e-07,
+      "loss": 0.3142,
+      "step": 2329
+    },
+    {
+      "epoch": 0.6034119970217863,
+      "grad_norm": 3.7416385204574256,
+      "learning_rate": 5.092416164644525e-07,
+      "loss": 0.2645,
+      "step": 2330
+    },
+    {
+      "epoch": 0.6034119970217863,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8129910948140388,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23703013360500336,
+      "eval_runtime": 14.3169,
+      "eval_samples_per_second": 3.073,
+      "eval_steps_per_second": 0.14,
+      "step": 2330
+    },
+    {
+      "epoch": 0.6036709721278042,
+      "grad_norm": 3.049982448067719,
+      "learning_rate": 5.086862454381853e-07,
+      "loss": 0.235,
+      "step": 2331
+    },
+    {
+      "epoch": 0.6039299472338221,
+      "grad_norm": 4.406067101790021,
+      "learning_rate": 5.081309695317691e-07,
+      "loss": 0.3462,
+      "step": 2332
+    },
+    {
+      "epoch": 0.6041889223398401,
+      "grad_norm": 2.837764492129325,
+      "learning_rate": 5.075757891993014e-07,
+      "loss": 0.291,
+      "step": 2333
+    },
+    {
+      "epoch": 0.604447897445858,
+      "grad_norm": 2.9969030812055695,
+      "learning_rate": 5.070207048948015e-07,
+      "loss": 0.3514,
+      "step": 2334
+    },
+    {
+      "epoch": 0.6047068725518759,
+      "grad_norm": 4.4106084889161465,
+      "learning_rate": 5.064657170722099e-07,
+      "loss": 0.3263,
+      "step": 2335
+    },
+    {
+      "epoch": 0.6047068725518759,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8182294394971189,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.2369740605354309,
+      "eval_runtime": 14.8331,
+      "eval_samples_per_second": 2.966,
+      "eval_steps_per_second": 0.135,
+      "step": 2335
+    },
+    {
+      "epoch": 0.6049658476578939,
+      "grad_norm": 3.473315940260668,
+      "learning_rate": 5.059108261853885e-07,
+      "loss": 0.323,
+      "step": 2336
+    },
+    {
+      "epoch": 0.6052248227639119,
+      "grad_norm": 3.7234142446410616,
+      "learning_rate": 5.053560326881192e-07,
+      "loss": 0.301,
+      "step": 2337
+    },
+    {
+      "epoch": 0.6054837978699298,
+      "grad_norm": 4.2045041030842585,
+      "learning_rate": 5.048013370341051e-07,
+      "loss": 0.3269,
+      "step": 2338
+    },
+    {
+      "epoch": 0.6057427729759477,
+      "grad_norm": 2.933931553198188,
+      "learning_rate": 5.042467396769692e-07,
+      "loss": 0.3188,
+      "step": 2339
+    },
+    {
+      "epoch": 0.6060017480819656,
+      "grad_norm": 6.01761944179701,
+      "learning_rate": 5.036922410702535e-07,
+      "loss": 0.3976,
+      "step": 2340
+    },
+    {
+      "epoch": 0.6060017480819656,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.819015191199581,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23695515096187592,
+      "eval_runtime": 14.2419,
+      "eval_samples_per_second": 3.089,
+      "eval_steps_per_second": 0.14,
+      "step": 2340
+    },
+    {
+      "epoch": 0.6062607231879835,
+      "grad_norm": 3.136076734575955,
+      "learning_rate": 5.031378416674198e-07,
+      "loss": 0.351,
+      "step": 2341
+    },
+    {
+      "epoch": 0.6065196982940015,
+      "grad_norm": 4.2714072870569115,
+      "learning_rate": 5.025835419218487e-07,
+      "loss": 0.3199,
+      "step": 2342
+    },
+    {
+      "epoch": 0.6067786734000195,
+      "grad_norm": 3.4600802296061266,
+      "learning_rate": 5.02029342286839e-07,
+      "loss": 0.3245,
+      "step": 2343
+    },
+    {
+      "epoch": 0.6070376485060374,
+      "grad_norm": 5.526098754094361,
+      "learning_rate": 5.014752432156079e-07,
+      "loss": 0.3737,
+      "step": 2344
+    },
+    {
+      "epoch": 0.6072966236120553,
+      "grad_norm": 4.330743639683585,
+      "learning_rate": 5.009212451612908e-07,
+      "loss": 0.3357,
+      "step": 2345
+    },
+    {
+      "epoch": 0.6072966236120553,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.817967522262965,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2365497201681137,
+      "eval_runtime": 14.6843,
+      "eval_samples_per_second": 2.996,
+      "eval_steps_per_second": 0.136,
+      "step": 2345
+    },
+    {
+      "epoch": 0.6075555987180732,
+      "grad_norm": 5.737102131056715,
+      "learning_rate": 5.003673485769392e-07,
+      "loss": 0.3686,
+      "step": 2346
+    },
+    {
+      "epoch": 0.6078145738240912,
+      "grad_norm": 4.19893911591526,
+      "learning_rate": 4.998135539155225e-07,
+      "loss": 0.2999,
+      "step": 2347
+    },
+    {
+      "epoch": 0.6080735489301091,
+      "grad_norm": 4.088030771593054,
+      "learning_rate": 4.992598616299271e-07,
+      "loss": 0.3421,
+      "step": 2348
+    },
+    {
+      "epoch": 0.608332524036127,
+      "grad_norm": 6.204583231626178,
+      "learning_rate": 4.987062721729551e-07,
+      "loss": 0.4174,
+      "step": 2349
+    },
+    {
+      "epoch": 0.6085914991421449,
+      "grad_norm": 4.002537414198088,
+      "learning_rate": 4.981527859973245e-07,
+      "loss": 0.4131,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6085914991421449,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.817705605028811,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23777227103710175,
+      "eval_runtime": 14.6117,
+      "eval_samples_per_second": 3.011,
+      "eval_steps_per_second": 0.137,
+      "step": 2350
+    },
+    {
+      "epoch": 0.6088504742481629,
+      "grad_norm": 4.2720702303454035,
+      "learning_rate": 4.975994035556691e-07,
+      "loss": 0.2849,
+      "step": 2351
+    },
+    {
+      "epoch": 0.6091094493541809,
+      "grad_norm": 3.95336453653184,
+      "learning_rate": 4.970461253005377e-07,
+      "loss": 0.3715,
+      "step": 2352
+    },
+    {
+      "epoch": 0.6093684244601988,
+      "grad_norm": 3.192350411167091,
+      "learning_rate": 4.96492951684394e-07,
+      "loss": 0.3248,
+      "step": 2353
+    },
+    {
+      "epoch": 0.6096273995662167,
+      "grad_norm": 5.155666539142483,
+      "learning_rate": 4.95939883159616e-07,
+      "loss": 0.44,
+      "step": 2354
+    },
+    {
+      "epoch": 0.6098863746722346,
+      "grad_norm": 3.924089888645864,
+      "learning_rate": 4.953869201784957e-07,
+      "loss": 0.3178,
+      "step": 2355
+    },
+    {
+      "epoch": 0.6098863746722346,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.906832298136646,
+      "eval_PRM F1 AUC": 0.8310633839706653,
+      "eval_PRM F1 AUC (fixed)": 0.8182294394971189,
+      "eval_PRM F1 Neg": 0.7058823529411765,
+      "eval_PRM NPV": 0.6428571428571429,
+      "eval_PRM Precision": 0.9358974358974359,
+      "eval_PRM Recall": 0.8795180722891566,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2385021150112152,
+      "eval_runtime": 14.4461,
+      "eval_samples_per_second": 3.046,
+      "eval_steps_per_second": 0.138,
+      "step": 2355
+    },
+    {
+      "epoch": 0.6101453497782525,
+      "grad_norm": 6.222350049276512,
+      "learning_rate": 4.948340631932391e-07,
+      "loss": 0.3054,
+      "step": 2356
+    },
+    {
+      "epoch": 0.6104043248842705,
+      "grad_norm": 5.328580064917684,
+      "learning_rate": 4.942813126559653e-07,
+      "loss": 0.4344,
+      "step": 2357
+    },
+    {
+      "epoch": 0.6106632999902885,
+      "grad_norm": 3.620327135954641,
+      "learning_rate": 4.937286690187064e-07,
+      "loss": 0.3425,
+      "step": 2358
+    },
+    {
+      "epoch": 0.6109222750963064,
+      "grad_norm": 3.714367006600273,
+      "learning_rate": 4.93176132733407e-07,
+      "loss": 0.212,
+      "step": 2359
+    },
+    {
+      "epoch": 0.6111812502023243,
+      "grad_norm": 5.907442102095968,
+      "learning_rate": 4.926237042519241e-07,
+      "loss": 0.2924,
+      "step": 2360
+    },
+    {
+      "epoch": 0.6111812502023243,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8161341016238868,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23777775466442108,
+      "eval_runtime": 14.5792,
+      "eval_samples_per_second": 3.018,
+      "eval_steps_per_second": 0.137,
+      "step": 2360
+    },
+    {
+      "epoch": 0.6114402253083422,
+      "grad_norm": 3.644225417297505,
+      "learning_rate": 4.920713840260264e-07,
+      "loss": 0.312,
+      "step": 2361
+    },
+    {
+      "epoch": 0.6116992004143602,
+      "grad_norm": 3.3101561514933775,
+      "learning_rate": 4.915191725073939e-07,
+      "loss": 0.2833,
+      "step": 2362
+    },
+    {
+      "epoch": 0.6119581755203781,
+      "grad_norm": 3.3293812090467014,
+      "learning_rate": 4.90967070147618e-07,
+      "loss": 0.2997,
+      "step": 2363
+    },
+    {
+      "epoch": 0.612217150626396,
+      "grad_norm": 6.104526017326705,
+      "learning_rate": 4.904150773982007e-07,
+      "loss": 0.3987,
+      "step": 2364
+    },
+    {
+      "epoch": 0.612476125732414,
+      "grad_norm": 4.676784701578161,
+      "learning_rate": 4.898631947105543e-07,
+      "loss": 0.3368,
+      "step": 2365
+    },
+    {
+      "epoch": 0.612476125732414,
+      "eval_PRM Accuracy": 0.8584905660377359,
+      "eval_PRM F1": 0.9079754601226994,
+      "eval_PRM F1 AUC": 0.8153483499214248,
+      "eval_PRM F1 AUC (fixed)": 0.8203247773703509,
+      "eval_PRM F1 Neg": 0.6938775510204082,
+      "eval_PRM NPV": 0.6538461538461539,
+      "eval_PRM Precision": 0.925,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23475049436092377,
+      "eval_runtime": 14.8539,
+      "eval_samples_per_second": 2.962,
+      "eval_steps_per_second": 0.135,
+      "step": 2365
+    },
+    {
+      "epoch": 0.6127351008384319,
+      "grad_norm": 3.2625583926007073,
+      "learning_rate": 4.893114225360013e-07,
+      "loss": 0.2969,
+      "step": 2366
+    },
+    {
+      "epoch": 0.6129940759444499,
+      "grad_norm": 3.884855687053449,
+      "learning_rate": 4.887597613257738e-07,
+      "loss": 0.2576,
+      "step": 2367
+    },
+    {
+      "epoch": 0.6132530510504678,
+      "grad_norm": 5.006277623096616,
+      "learning_rate": 4.882082115310125e-07,
+      "loss": 0.428,
+      "step": 2368
+    },
+    {
+      "epoch": 0.6135120261564857,
+      "grad_norm": 3.764357692744137,
+      "learning_rate": 4.876567736027682e-07,
+      "loss": 0.333,
+      "step": 2369
+    },
+    {
+      "epoch": 0.6137710012625036,
+      "grad_norm": 3.242239744435423,
+      "learning_rate": 4.871054479919994e-07,
+      "loss": 0.3275,
+      "step": 2370
+    },
+    {
+      "epoch": 0.6137710012625036,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8232058669460451,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23275423049926758,
+      "eval_runtime": 14.5487,
+      "eval_samples_per_second": 3.024,
+      "eval_steps_per_second": 0.137,
+      "step": 2370
+    },
+    {
+      "epoch": 0.6140299763685215,
+      "grad_norm": 3.5700555019641116,
+      "learning_rate": 4.865542351495726e-07,
+      "loss": 0.3052,
+      "step": 2371
+    },
+    {
+      "epoch": 0.6142889514745395,
+      "grad_norm": 8.724531980269637,
+      "learning_rate": 4.860031355262624e-07,
+      "loss": 0.2398,
+      "step": 2372
+    },
+    {
+      "epoch": 0.6145479265805575,
+      "grad_norm": 5.446197309078166,
+      "learning_rate": 4.854521495727511e-07,
+      "loss": 0.4156,
+      "step": 2373
+    },
+    {
+      "epoch": 0.6148069016865754,
+      "grad_norm": 2.6675458187702557,
+      "learning_rate": 4.849012777396275e-07,
+      "loss": 0.2812,
+      "step": 2374
+    },
+    {
+      "epoch": 0.6150658767925933,
+      "grad_norm": 4.1932196260069725,
+      "learning_rate": 4.843505204773874e-07,
+      "loss": 0.3317,
+      "step": 2375
+    },
+    {
+      "epoch": 0.6150658767925933,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8255631220534312,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23194923996925354,
+      "eval_runtime": 14.7791,
+      "eval_samples_per_second": 2.977,
+      "eval_steps_per_second": 0.135,
+      "step": 2375
+    },
+    {
+      "epoch": 0.6153248518986112,
+      "grad_norm": 6.684504764013728,
+      "learning_rate": 4.837998782364326e-07,
+      "loss": 0.3322,
+      "step": 2376
+    },
+    {
+      "epoch": 0.6155838270046292,
+      "grad_norm": 4.9721202222180105,
+      "learning_rate": 4.832493514670715e-07,
+      "loss": 0.2714,
+      "step": 2377
+    },
+    {
+      "epoch": 0.6158428021106471,
+      "grad_norm": 3.4444549153452204,
+      "learning_rate": 4.826989406195174e-07,
+      "loss": 0.3296,
+      "step": 2378
+    },
+    {
+      "epoch": 0.616101777216665,
+      "grad_norm": 7.1400272483588,
+      "learning_rate": 4.821486461438887e-07,
+      "loss": 0.2508,
+      "step": 2379
+    },
+    {
+      "epoch": 0.616360752322683,
+      "grad_norm": 4.592701792555213,
+      "learning_rate": 4.815984684902093e-07,
+      "loss": 0.3134,
+      "step": 2380
+    },
+    {
+      "epoch": 0.616360752322683,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8250392875851231,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2293485701084137,
+      "eval_runtime": 14.7839,
+      "eval_samples_per_second": 2.976,
+      "eval_steps_per_second": 0.135,
+      "step": 2380
+    },
+    {
+      "epoch": 0.616619727428701,
+      "grad_norm": 4.1378033567103,
+      "learning_rate": 4.810484081084071e-07,
+      "loss": 0.3202,
+      "step": 2381
+    },
+    {
+      "epoch": 0.6168787025347189,
+      "grad_norm": 6.358922918852487,
+      "learning_rate": 4.80498465448314e-07,
+      "loss": 0.3207,
+      "step": 2382
+    },
+    {
+      "epoch": 0.6171376776407368,
+      "grad_norm": 4.084546524317195,
+      "learning_rate": 4.799486409596664e-07,
+      "loss": 0.3072,
+      "step": 2383
+    },
+    {
+      "epoch": 0.6173966527467547,
+      "grad_norm": 3.6986109532827554,
+      "learning_rate": 4.79398935092103e-07,
+      "loss": 0.2674,
+      "step": 2384
+    },
+    {
+      "epoch": 0.6176556278527726,
+      "grad_norm": 6.587007465434324,
+      "learning_rate": 4.788493482951663e-07,
+      "loss": 0.4138,
+      "step": 2385
+    },
+    {
+      "epoch": 0.6176556278527726,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8308014667365113,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22619368135929108,
+      "eval_runtime": 14.672,
+      "eval_samples_per_second": 2.999,
+      "eval_steps_per_second": 0.136,
+      "step": 2385
+    },
+    {
+      "epoch": 0.6179146029587906,
+      "grad_norm": 5.698757399162513,
+      "learning_rate": 4.782998810183009e-07,
+      "loss": 0.3895,
+      "step": 2386
+    },
+    {
+      "epoch": 0.6181735780648085,
+      "grad_norm": 5.597625908069988,
+      "learning_rate": 4.77750533710854e-07,
+      "loss": 0.3666,
+      "step": 2387
+    },
+    {
+      "epoch": 0.6184325531708265,
+      "grad_norm": 5.837415297274771,
+      "learning_rate": 4.772013068220745e-07,
+      "loss": 0.3374,
+      "step": 2388
+    },
+    {
+      "epoch": 0.6186915282768444,
+      "grad_norm": 7.604970810164243,
+      "learning_rate": 4.766522008011129e-07,
+      "loss": 0.3257,
+      "step": 2389
+    },
+    {
+      "epoch": 0.6189505033828623,
+      "grad_norm": 3.619550445908711,
+      "learning_rate": 4.761032160970209e-07,
+      "loss": 0.3317,
+      "step": 2390
+    },
+    {
+      "epoch": 0.6189505033828623,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8331587218438974,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22543154656887054,
+      "eval_runtime": 14.6702,
+      "eval_samples_per_second": 2.999,
+      "eval_steps_per_second": 0.136,
+      "step": 2390
+    },
+    {
+      "epoch": 0.6192094784888803,
+      "grad_norm": 4.380198615467105,
+      "learning_rate": 4.7555435315875087e-07,
+      "loss": 0.2112,
+      "step": 2391
+    },
+    {
+      "epoch": 0.6194684535948982,
+      "grad_norm": 5.284679446627228,
+      "learning_rate": 4.7500561243515553e-07,
+      "loss": 0.267,
+      "step": 2392
+    },
+    {
+      "epoch": 0.6197274287009161,
+      "grad_norm": 7.795372438423196,
+      "learning_rate": 4.7445699437498813e-07,
+      "loss": 0.3489,
+      "step": 2393
+    },
+    {
+      "epoch": 0.619986403806934,
+      "grad_norm": 4.195507579896319,
+      "learning_rate": 4.73908499426901e-07,
+      "loss": 0.3786,
+      "step": 2394
+    },
+    {
+      "epoch": 0.620245378912952,
+      "grad_norm": 3.545972131929893,
+      "learning_rate": 4.733601280394465e-07,
+      "loss": 0.316,
+      "step": 2395
+    },
+    {
+      "epoch": 0.620245378912952,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8347302252488213,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22437819838523865,
+      "eval_runtime": 14.5573,
+      "eval_samples_per_second": 3.023,
+      "eval_steps_per_second": 0.137,
+      "step": 2395
+    },
+    {
+      "epoch": 0.62050435401897,
+      "grad_norm": 5.3927538256538,
+      "learning_rate": 4.728118806610748e-07,
+      "loss": 0.4223,
+      "step": 2396
+    },
+    {
+      "epoch": 0.6207633291249879,
+      "grad_norm": 3.951021859249228,
+      "learning_rate": 4.722637577401358e-07,
+      "loss": 0.3573,
+      "step": 2397
+    },
+    {
+      "epoch": 0.6210223042310058,
+      "grad_norm": 3.9469472547128457,
+      "learning_rate": 4.7171575972487715e-07,
+      "loss": 0.3193,
+      "step": 2398
+    },
+    {
+      "epoch": 0.6212812793370237,
+      "grad_norm": 6.4923830122598885,
+      "learning_rate": 4.7116788706344426e-07,
+      "loss": 0.3595,
+      "step": 2399
+    },
+    {
+      "epoch": 0.6215402544430416,
+      "grad_norm": 4.4851385015931315,
+      "learning_rate": 4.706201402038803e-07,
+      "loss": 0.3986,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6215402544430416,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8373493975903614,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.22535786032676697,
+      "eval_runtime": 14.6734,
+      "eval_samples_per_second": 2.999,
+      "eval_steps_per_second": 0.136,
+      "step": 2400
+    },
+    {
+      "epoch": 0.6217992295490596,
+      "grad_norm": 3.9365481487623986,
+      "learning_rate": 4.7007251959412527e-07,
+      "loss": 0.3561,
+      "step": 2401
+    },
+    {
+      "epoch": 0.6220582046550776,
+      "grad_norm": 4.902452759226286,
+      "learning_rate": 4.6952502568201606e-07,
+      "loss": 0.37,
+      "step": 2402
+    },
+    {
+      "epoch": 0.6223171797610955,
+      "grad_norm": 4.409358496752497,
+      "learning_rate": 4.689776589152863e-07,
+      "loss": 0.3756,
+      "step": 2403
+    },
+    {
+      "epoch": 0.6225761548671134,
+      "grad_norm": 3.4620920301211275,
+      "learning_rate": 4.6843041974156486e-07,
+      "loss": 0.3295,
+      "step": 2404
+    },
+    {
+      "epoch": 0.6228351299731313,
+      "grad_norm": 3.9973450116573055,
+      "learning_rate": 4.678833086083769e-07,
+      "loss": 0.3845,
+      "step": 2405
+    },
+    {
+      "epoch": 0.6228351299731313,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8310633839706654,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23237180709838867,
+      "eval_runtime": 14.5746,
+      "eval_samples_per_second": 3.019,
+      "eval_steps_per_second": 0.137,
+      "step": 2405
+    },
+    {
+      "epoch": 0.6230941050791493,
+      "grad_norm": 5.496089361153111,
+      "learning_rate": 4.673363259631425e-07,
+      "loss": 0.2672,
+      "step": 2406
+    },
+    {
+      "epoch": 0.6233530801851672,
+      "grad_norm": 2.9297055614988183,
+      "learning_rate": 4.6678947225317704e-07,
+      "loss": 0.2731,
+      "step": 2407
+    },
+    {
+      "epoch": 0.6236120552911851,
+      "grad_norm": 4.590123245959021,
+      "learning_rate": 4.662427479256902e-07,
+      "loss": 0.2708,
+      "step": 2408
+    },
+    {
+      "epoch": 0.623871030397203,
+      "grad_norm": 3.748029917180353,
+      "learning_rate": 4.6569615342778596e-07,
+      "loss": 0.2897,
+      "step": 2409
+    },
+    {
+      "epoch": 0.624130005503221,
+      "grad_norm": 3.9622205372767154,
+      "learning_rate": 4.6514968920646205e-07,
+      "loss": 0.3431,
+      "step": 2410
+    },
+    {
+      "epoch": 0.624130005503221,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8271346254583551,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2327074110507965,
+      "eval_runtime": 14.5209,
+      "eval_samples_per_second": 3.03,
+      "eval_steps_per_second": 0.138,
+      "step": 2410
+    },
+    {
+      "epoch": 0.624388980609239,
+      "grad_norm": 5.563336448930735,
+      "learning_rate": 4.646033557086098e-07,
+      "loss": 0.3785,
+      "step": 2411
+    },
+    {
+      "epoch": 0.6246479557152569,
+      "grad_norm": 2.6699065810035303,
+      "learning_rate": 4.640571533810132e-07,
+      "loss": 0.3148,
+      "step": 2412
+    },
+    {
+      "epoch": 0.6249069308212748,
+      "grad_norm": 5.287050143539514,
+      "learning_rate": 4.6351108267034956e-07,
+      "loss": 0.3017,
+      "step": 2413
+    },
+    {
+      "epoch": 0.6251659059272927,
+      "grad_norm": 2.6881857931726105,
+      "learning_rate": 4.629651440231881e-07,
+      "loss": 0.2911,
+      "step": 2414
+    },
+    {
+      "epoch": 0.6254248810333106,
+      "grad_norm": 4.060825155854912,
+      "learning_rate": 4.624193378859904e-07,
+      "loss": 0.3856,
+      "step": 2415
+    },
+    {
+      "epoch": 0.6254248810333106,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8294918805657412,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23443764448165894,
+      "eval_runtime": 14.1548,
+      "eval_samples_per_second": 3.108,
+      "eval_steps_per_second": 0.141,
+      "step": 2415
+    },
+    {
+      "epoch": 0.6256838561393286,
+      "grad_norm": 2.634660859334268,
+      "learning_rate": 4.6187366470510945e-07,
+      "loss": 0.3395,
+      "step": 2416
+    },
+    {
+      "epoch": 0.6259428312453466,
+      "grad_norm": 6.788400099682876,
+      "learning_rate": 4.613281249267894e-07,
+      "loss": 0.391,
+      "step": 2417
+    },
+    {
+      "epoch": 0.6262018063513645,
+      "grad_norm": 8.467508934740962,
+      "learning_rate": 4.6078271899716587e-07,
+      "loss": 0.3447,
+      "step": 2418
+    },
+    {
+      "epoch": 0.6264607814573824,
+      "grad_norm": 7.637652802279274,
+      "learning_rate": 4.6023744736226424e-07,
+      "loss": 0.3155,
+      "step": 2419
+    },
+    {
+      "epoch": 0.6267197565634004,
+      "grad_norm": 3.6951904686780797,
+      "learning_rate": 4.596923104680009e-07,
+      "loss": 0.2853,
+      "step": 2420
+    },
+    {
+      "epoch": 0.6267197565634004,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8300157150340493,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23425859212875366,
+      "eval_runtime": 14.4571,
+      "eval_samples_per_second": 3.043,
+      "eval_steps_per_second": 0.138,
+      "step": 2420
+    },
+    {
+      "epoch": 0.6269787316694183,
+      "grad_norm": 2.775299357914315,
+      "learning_rate": 4.5914730876018095e-07,
+      "loss": 0.3204,
+      "step": 2421
+    },
+    {
+      "epoch": 0.6272377067754362,
+      "grad_norm": 4.843004094718668,
+      "learning_rate": 4.5860244268450004e-07,
+      "loss": 0.3935,
+      "step": 2422
+    },
+    {
+      "epoch": 0.6274966818814541,
+      "grad_norm": 5.2338119096537365,
+      "learning_rate": 4.580577126865423e-07,
+      "loss": 0.3528,
+      "step": 2423
+    },
+    {
+      "epoch": 0.627755656987472,
+      "grad_norm": 4.878112257331263,
+      "learning_rate": 4.575131192117807e-07,
+      "loss": 0.2757,
+      "step": 2424
+    },
+    {
+      "epoch": 0.6280146320934901,
+      "grad_norm": 4.478184245729592,
+      "learning_rate": 4.569686627055768e-07,
+      "loss": 0.4101,
+      "step": 2425
+    },
+    {
+      "epoch": 0.6280146320934901,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8305395495023573,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23475131392478943,
+      "eval_runtime": 14.5571,
+      "eval_samples_per_second": 3.023,
+      "eval_steps_per_second": 0.137,
+      "step": 2425
+    },
+    {
+      "epoch": 0.628273607199508,
+      "grad_norm": 4.583318204331169,
+      "learning_rate": 4.5642434361317963e-07,
+      "loss": 0.3089,
+      "step": 2426
+    },
+    {
+      "epoch": 0.6285325823055259,
+      "grad_norm": 3.4528835210487028,
+      "learning_rate": 4.558801623797262e-07,
+      "loss": 0.3092,
+      "step": 2427
+    },
+    {
+      "epoch": 0.6287915574115438,
+      "grad_norm": 7.015543960608334,
+      "learning_rate": 4.553361194502412e-07,
+      "loss": 0.2807,
+      "step": 2428
+    },
+    {
+      "epoch": 0.6290505325175617,
+      "grad_norm": 4.288363987578536,
+      "learning_rate": 4.547922152696351e-07,
+      "loss": 0.3854,
+      "step": 2429
+    },
+    {
+      "epoch": 0.6293095076235797,
+      "grad_norm": 3.2831872361182692,
+      "learning_rate": 4.542484502827059e-07,
+      "loss": 0.3047,
+      "step": 2430
+    },
+    {
+      "epoch": 0.6293095076235797,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8268727082242011,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2335863560438156,
+      "eval_runtime": 14.8457,
+      "eval_samples_per_second": 2.964,
+      "eval_steps_per_second": 0.135,
+      "step": 2430
+    },
+    {
+      "epoch": 0.6295684827295976,
+      "grad_norm": 3.880366163018059,
+      "learning_rate": 4.537048249341371e-07,
+      "loss": 0.3522,
+      "step": 2431
+    },
+    {
+      "epoch": 0.6298274578356156,
+      "grad_norm": 4.6346859806782215,
+      "learning_rate": 4.531613396684988e-07,
+      "loss": 0.3012,
+      "step": 2432
+    },
+    {
+      "epoch": 0.6300864329416335,
+      "grad_norm": 3.1843215894549233,
+      "learning_rate": 4.5261799493024574e-07,
+      "loss": 0.2927,
+      "step": 2433
+    },
+    {
+      "epoch": 0.6303454080476514,
+      "grad_norm": 3.5166843273639454,
+      "learning_rate": 4.520747911637182e-07,
+      "loss": 0.2737,
+      "step": 2434
+    },
+    {
+      "epoch": 0.6306043831536694,
+      "grad_norm": 3.8549037852757313,
+      "learning_rate": 4.51531728813141e-07,
+      "loss": 0.3728,
+      "step": 2435
+    },
+    {
+      "epoch": 0.6306043831536694,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8281822943949712,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23153255879878998,
+      "eval_runtime": 14.3152,
+      "eval_samples_per_second": 3.074,
+      "eval_steps_per_second": 0.14,
+      "step": 2435
+    },
+    {
+      "epoch": 0.6308633582596873,
+      "grad_norm": 5.128048706368578,
+      "learning_rate": 4.509888083226235e-07,
+      "loss": 0.3285,
+      "step": 2436
+    },
+    {
+      "epoch": 0.6311223333657052,
+      "grad_norm": 4.015458572127405,
+      "learning_rate": 4.504460301361586e-07,
+      "loss": 0.2406,
+      "step": 2437
+    },
+    {
+      "epoch": 0.6313813084717231,
+      "grad_norm": 5.8038585756376255,
+      "learning_rate": 4.4990339469762327e-07,
+      "loss": 0.2525,
+      "step": 2438
+    },
+    {
+      "epoch": 0.631640283577741,
+      "grad_norm": 5.073306570527701,
+      "learning_rate": 4.4936090245077763e-07,
+      "loss": 0.3723,
+      "step": 2439
+    },
+    {
+      "epoch": 0.6318992586837591,
+      "grad_norm": 6.242601977880184,
+      "learning_rate": 4.488185538392646e-07,
+      "loss": 0.3549,
+      "step": 2440
+    },
+    {
+      "epoch": 0.6318992586837591,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8323729701414353,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2316233068704605,
+      "eval_runtime": 14.6473,
+      "eval_samples_per_second": 3.004,
+      "eval_steps_per_second": 0.137,
+      "step": 2440
+    },
+    {
+      "epoch": 0.632158233789777,
+      "grad_norm": 3.232490018215951,
+      "learning_rate": 4.4827634930660976e-07,
+      "loss": 0.2646,
+      "step": 2441
+    },
+    {
+      "epoch": 0.6324172088957949,
+      "grad_norm": 4.400947841804586,
+      "learning_rate": 4.477342892962208e-07,
+      "loss": 0.3567,
+      "step": 2442
+    },
+    {
+      "epoch": 0.6326761840018128,
+      "grad_norm": 6.4022477658070045,
+      "learning_rate": 4.4719237425138726e-07,
+      "loss": 0.3297,
+      "step": 2443
+    },
+    {
+      "epoch": 0.6329351591078307,
+      "grad_norm": 8.223653345996658,
+      "learning_rate": 4.4665060461528046e-07,
+      "loss": 0.4033,
+      "step": 2444
+    },
+    {
+      "epoch": 0.6331941342138487,
+      "grad_norm": 3.357824631248715,
+      "learning_rate": 4.4610898083095157e-07,
+      "loss": 0.3338,
+      "step": 2445
+    },
+    {
+      "epoch": 0.6331941342138487,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8279203771608172,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2321992814540863,
+      "eval_runtime": 14.6204,
+      "eval_samples_per_second": 3.009,
+      "eval_steps_per_second": 0.137,
+      "step": 2445
+    },
+    {
+      "epoch": 0.6334531093198666,
+      "grad_norm": 5.105391962201131,
+      "learning_rate": 4.4556750334133404e-07,
+      "loss": 0.3088,
+      "step": 2446
+    },
+    {
+      "epoch": 0.6337120844258846,
+      "grad_norm": 4.576131988134334,
+      "learning_rate": 4.450261725892408e-07,
+      "loss": 0.2991,
+      "step": 2447
+    },
+    {
+      "epoch": 0.6339710595319025,
+      "grad_norm": 3.4755489981775236,
+      "learning_rate": 4.44484989017365e-07,
+      "loss": 0.2737,
+      "step": 2448
+    },
+    {
+      "epoch": 0.6342300346379204,
+      "grad_norm": 5.3637417486779455,
+      "learning_rate": 4.4394395306827947e-07,
+      "loss": 0.3067,
+      "step": 2449
+    },
+    {
+      "epoch": 0.6344890097439384,
+      "grad_norm": 3.62687460694226,
+      "learning_rate": 4.434030651844362e-07,
+      "loss": 0.2826,
+      "step": 2450
+    },
+    {
+      "epoch": 0.6344890097439384,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8292299633315873,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23289035260677338,
+      "eval_runtime": 14.7872,
+      "eval_samples_per_second": 2.976,
+      "eval_steps_per_second": 0.135,
+      "step": 2450
+    },
+    {
+      "epoch": 0.6347479848499563,
+      "grad_norm": 3.604999126059274,
+      "learning_rate": 4.4286232580816615e-07,
+      "loss": 0.267,
+      "step": 2451
+    },
+    {
+      "epoch": 0.6350069599559742,
+      "grad_norm": 3.9043915416950723,
+      "learning_rate": 4.4232173538167876e-07,
+      "loss": 0.3772,
+      "step": 2452
+    },
+    {
+      "epoch": 0.6352659350619921,
+      "grad_norm": 4.673879586139769,
+      "learning_rate": 4.417812943470622e-07,
+      "loss": 0.3712,
+      "step": 2453
+    },
+    {
+      "epoch": 0.63552491016801,
+      "grad_norm": 5.499986485950306,
+      "learning_rate": 4.412410031462813e-07,
+      "loss": 0.3261,
+      "step": 2454
+    },
+    {
+      "epoch": 0.6357838852740281,
+      "grad_norm": 6.520420436189523,
+      "learning_rate": 4.4070086222117933e-07,
+      "loss": 0.3451,
+      "step": 2455
+    },
+    {
+      "epoch": 0.6357838852740281,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8279203771608172,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23285795748233795,
+      "eval_runtime": 14.2523,
+      "eval_samples_per_second": 3.087,
+      "eval_steps_per_second": 0.14,
+      "step": 2455
+    },
+    {
+      "epoch": 0.636042860380046,
+      "grad_norm": 3.1906064479453558,
+      "learning_rate": 4.401608720134766e-07,
+      "loss": 0.3565,
+      "step": 2456
+    },
+    {
+      "epoch": 0.6363018354860639,
+      "grad_norm": 3.581629816876452,
+      "learning_rate": 4.396210329647699e-07,
+      "loss": 0.3832,
+      "step": 2457
+    },
+    {
+      "epoch": 0.6365608105920818,
+      "grad_norm": 4.85407007370176,
+      "learning_rate": 4.390813455165323e-07,
+      "loss": 0.376,
+      "step": 2458
+    },
+    {
+      "epoch": 0.6368197856980997,
+      "grad_norm": 3.6958757637898922,
+      "learning_rate": 4.3854181011011313e-07,
+      "loss": 0.3638,
+      "step": 2459
+    },
+    {
+      "epoch": 0.6370787608041177,
+      "grad_norm": 4.159796671928392,
+      "learning_rate": 4.380024271867374e-07,
+      "loss": 0.3222,
+      "step": 2460
+    },
+    {
+      "epoch": 0.6370787608041177,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.8281822943949712,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23250402510166168,
+      "eval_runtime": 15.1199,
+      "eval_samples_per_second": 2.91,
+      "eval_steps_per_second": 0.132,
+      "step": 2460
+    },
+    {
+      "epoch": 0.6373377359101356,
+      "grad_norm": 3.5362529188026586,
+      "learning_rate": 4.374631971875054e-07,
+      "loss": 0.3568,
+      "step": 2461
+    },
+    {
+      "epoch": 0.6375967110161536,
+      "grad_norm": 4.466976275658977,
+      "learning_rate": 4.369241205533921e-07,
+      "loss": 0.2975,
+      "step": 2462
+    },
+    {
+      "epoch": 0.6378556861221715,
+      "grad_norm": 3.3307374289086056,
+      "learning_rate": 4.363851977252473e-07,
+      "loss": 0.3285,
+      "step": 2463
+    },
+    {
+      "epoch": 0.6381146612281895,
+      "grad_norm": 4.431362438064065,
+      "learning_rate": 4.35846429143795e-07,
+      "loss": 0.3114,
+      "step": 2464
+    },
+    {
+      "epoch": 0.6383736363342074,
+      "grad_norm": 3.317543733298947,
+      "learning_rate": 4.35307815249633e-07,
+      "loss": 0.2941,
+      "step": 2465
+    },
+    {
+      "epoch": 0.6383736363342074,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9146341463414634,
+      "eval_PRM F1 AUC": 0.8213724463069669,
+      "eval_PRM F1 AUC (fixed)": 0.8255631220534312,
+      "eval_PRM F1 Neg": 0.7083333333333334,
+      "eval_PRM NPV": 0.68,
+      "eval_PRM Precision": 0.9259259259259259,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23352384567260742,
+      "eval_runtime": 14.4541,
+      "eval_samples_per_second": 3.044,
+      "eval_steps_per_second": 0.138,
+      "step": 2465
+    },
+    {
+      "epoch": 0.6386326114402253,
+      "grad_norm": 6.117095894402694,
+      "learning_rate": 4.347693564832325e-07,
+      "loss": 0.3762,
+      "step": 2466
+    },
+    {
+      "epoch": 0.6388915865462432,
+      "grad_norm": 6.454780954927651,
+      "learning_rate": 4.342310532849384e-07,
+      "loss": 0.2867,
+      "step": 2467
+    },
+    {
+      "epoch": 0.6391505616522611,
+      "grad_norm": 3.975306437439717,
+      "learning_rate": 4.336929060949674e-07,
+      "loss": 0.2817,
+      "step": 2468
+    },
+    {
+      "epoch": 0.6394095367582792,
+      "grad_norm": 7.367407886903491,
+      "learning_rate": 4.3315491535340965e-07,
+      "loss": 0.3969,
+      "step": 2469
+    },
+    {
+      "epoch": 0.6396685118642971,
+      "grad_norm": 5.391577101908448,
+      "learning_rate": 4.3261708150022644e-07,
+      "loss": 0.3246,
+      "step": 2470
+    },
+    {
+      "epoch": 0.6396685118642971,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9212121212121213,
+      "eval_PRM F1 AUC": 0.8273965426925091,
+      "eval_PRM F1 AUC (fixed)": 0.8229439497118911,
+      "eval_PRM F1 Neg": 0.723404255319149,
+      "eval_PRM NPV": 0.7083333333333334,
+      "eval_PRM Precision": 0.926829268292683,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23500221967697144,
+      "eval_runtime": 15.0653,
+      "eval_samples_per_second": 2.921,
+      "eval_steps_per_second": 0.133,
+      "step": 2470
+    },
+    {
+      "epoch": 0.639927486970315,
+      "grad_norm": 3.459548396785892,
+      "learning_rate": 4.320794049752515e-07,
+      "loss": 0.3527,
+      "step": 2471
+    },
+    {
+      "epoch": 0.6401864620763329,
+      "grad_norm": 3.8846105549364305,
+      "learning_rate": 4.3154188621818936e-07,
+      "loss": 0.2756,
+      "step": 2472
+    },
+    {
+      "epoch": 0.6404454371823508,
+      "grad_norm": 3.640194635054852,
+      "learning_rate": 4.3100452566861587e-07,
+      "loss": 0.3461,
+      "step": 2473
+    },
+    {
+      "epoch": 0.6407044122883688,
+      "grad_norm": 4.010649725908795,
+      "learning_rate": 4.304673237659774e-07,
+      "loss": 0.4071,
+      "step": 2474
+    },
+    {
+      "epoch": 0.6409633873943867,
+      "grad_norm": 3.7521968423056857,
+      "learning_rate": 4.299302809495905e-07,
+      "loss": 0.2754,
+      "step": 2475
+    },
+    {
+      "epoch": 0.6409633873943867,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9212121212121213,
+      "eval_PRM F1 AUC": 0.8273965426925091,
+      "eval_PRM F1 AUC (fixed)": 0.824253535882661,
+      "eval_PRM F1 Neg": 0.723404255319149,
+      "eval_PRM NPV": 0.7083333333333334,
+      "eval_PRM Precision": 0.926829268292683,
+      "eval_PRM Recall": 0.9156626506024096,
+      "eval_PRM Specificty": 0.7391304347826086,
+      "eval_loss": 0.23455935716629028,
+      "eval_runtime": 14.7024,
+      "eval_samples_per_second": 2.993,
+      "eval_steps_per_second": 0.136,
+      "step": 2475
+    },
+    {
+      "epoch": 0.6412223625004047,
+      "grad_norm": 7.527218016314557,
+      "learning_rate": 4.293933976586416e-07,
+      "loss": 0.3539,
+      "step": 2476
+    },
+    {
+      "epoch": 0.6414813376064226,
+      "grad_norm": 7.3845277102770766,
+      "learning_rate": 4.2885667433218705e-07,
+      "loss": 0.3596,
+      "step": 2477
+    },
+    {
+      "epoch": 0.6417403127124405,
+      "grad_norm": 5.471927637321291,
+      "learning_rate": 4.283201114091521e-07,
+      "loss": 0.2539,
+      "step": 2478
+    },
+    {
+      "epoch": 0.6419992878184585,
+      "grad_norm": 2.965899751644036,
+      "learning_rate": 4.2778370932833045e-07,
+      "loss": 0.2784,
+      "step": 2479
+    },
+    {
+      "epoch": 0.6422582629244764,
+      "grad_norm": 3.4546803855128165,
+      "learning_rate": 4.2724746852838465e-07,
+      "loss": 0.2586,
+      "step": 2480
+    },
+    {
+      "epoch": 0.6422582629244764,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.822158198009429,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23433376848697662,
+      "eval_runtime": 14.9117,
+      "eval_samples_per_second": 2.951,
+      "eval_steps_per_second": 0.134,
+      "step": 2480
+    },
+    {
+      "epoch": 0.6425172380304943,
+      "grad_norm": 4.247605746485939,
+      "learning_rate": 4.267113894478457e-07,
+      "loss": 0.2942,
+      "step": 2481
+    },
+    {
+      "epoch": 0.6427762131365122,
+      "grad_norm": 3.8933199356862573,
+      "learning_rate": 4.2617547252511173e-07,
+      "loss": 0.3599,
+      "step": 2482
+    },
+    {
+      "epoch": 0.6430351882425301,
+      "grad_norm": 4.955818398593934,
+      "learning_rate": 4.256397181984486e-07,
+      "loss": 0.3218,
+      "step": 2483
+    },
+    {
+      "epoch": 0.6432941633485482,
+      "grad_norm": 4.689006967824344,
+      "learning_rate": 4.2510412690598914e-07,
+      "loss": 0.3498,
+      "step": 2484
+    },
+    {
+      "epoch": 0.6435531384545661,
+      "grad_norm": 2.9804404468590375,
+      "learning_rate": 4.2456869908573275e-07,
+      "loss": 0.3283,
+      "step": 2485
+    },
+    {
+      "epoch": 0.6435531384545661,
+      "eval_PRM Accuracy": 0.8773584905660378,
+      "eval_PRM F1": 0.9202453987730062,
+      "eval_PRM F1 AUC": 0.8431115767417497,
+      "eval_PRM F1 AUC (fixed)": 0.8208486118386591,
+      "eval_PRM F1 Neg": 0.7346938775510204,
+      "eval_PRM NPV": 0.6923076923076923,
+      "eval_PRM Precision": 0.9375,
+      "eval_PRM Recall": 0.9036144578313253,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23384861648082733,
+      "eval_runtime": 14.4432,
+      "eval_samples_per_second": 3.046,
+      "eval_steps_per_second": 0.138,
+      "step": 2485
+    },
+    {
+      "epoch": 0.643812113560584,
+      "grad_norm": 3.7684121059834825,
+      "learning_rate": 4.240334351755455e-07,
+      "loss": 0.349,
+      "step": 2486
+    },
+    {
+      "epoch": 0.6440710886666019,
+      "grad_norm": 3.839886053453229,
+      "learning_rate": 4.234983356131587e-07,
+      "loss": 0.3126,
+      "step": 2487
+    },
+    {
+      "epoch": 0.6443300637726198,
+      "grad_norm": 3.537603305079429,
+      "learning_rate": 4.2296340083616993e-07,
+      "loss": 0.3246,
+      "step": 2488
+    },
+    {
+      "epoch": 0.6445890388786378,
+      "grad_norm": 5.7928118960272785,
+      "learning_rate": 4.224286312820417e-07,
+      "loss": 0.3777,
+      "step": 2489
+    },
+    {
+      "epoch": 0.6448480139846557,
+      "grad_norm": 3.466715424360159,
+      "learning_rate": 4.2189402738810147e-07,
+      "loss": 0.2673,
+      "step": 2490
+    },
+    {
+      "epoch": 0.6448480139846557,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.820848611838659,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.2335864156484604,
+      "eval_runtime": 14.6996,
+      "eval_samples_per_second": 2.993,
+      "eval_steps_per_second": 0.136,
+      "step": 2490
+    },
+    {
+      "epoch": 0.6451069890906737,
+      "grad_norm": 4.918040091188315,
+      "learning_rate": 4.213595895915415e-07,
+      "loss": 0.3056,
+      "step": 2491
+    },
+    {
+      "epoch": 0.6453659641966916,
+      "grad_norm": 3.431189772943314,
+      "learning_rate": 4.208253183294177e-07,
+      "loss": 0.3127,
+      "step": 2492
+    },
+    {
+      "epoch": 0.6456249393027095,
+      "grad_norm": 4.246523455247824,
+      "learning_rate": 4.202912140386501e-07,
+      "loss": 0.2833,
+      "step": 2493
+    },
+    {
+      "epoch": 0.6458839144087275,
+      "grad_norm": 6.161699275142311,
+      "learning_rate": 4.197572771560224e-07,
+      "loss": 0.3366,
+      "step": 2494
+    },
+    {
+      "epoch": 0.6461428895147454,
+      "grad_norm": 3.487125675764393,
+      "learning_rate": 4.1922350811818056e-07,
+      "loss": 0.3163,
+      "step": 2495
+    },
+    {
+      "epoch": 0.6461428895147454,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.820062860136197,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23248301446437836,
+      "eval_runtime": 14.2682,
+      "eval_samples_per_second": 3.084,
+      "eval_steps_per_second": 0.14,
+      "step": 2495
+    },
+    {
+      "epoch": 0.6464018646207633,
+      "grad_norm": 2.5657849656151317,
+      "learning_rate": 4.186899073616343e-07,
+      "loss": 0.2549,
+      "step": 2496
+    },
+    {
+      "epoch": 0.6466608397267812,
+      "grad_norm": 4.611991733340532,
+      "learning_rate": 4.1815647532275503e-07,
+      "loss": 0.4676,
+      "step": 2497
+    },
+    {
+      "epoch": 0.6469198148327991,
+      "grad_norm": 4.89689593241627,
+      "learning_rate": 4.176232124377766e-07,
+      "loss": 0.3301,
+      "step": 2498
+    },
+    {
+      "epoch": 0.6471787899388172,
+      "grad_norm": 4.477149834466212,
+      "learning_rate": 4.1709011914279424e-07,
+      "loss": 0.3941,
+      "step": 2499
+    },
+    {
+      "epoch": 0.6474377650448351,
+      "grad_norm": 3.8271223544137425,
+      "learning_rate": 4.165571958737645e-07,
+      "loss": 0.302,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6474377650448351,
+      "eval_PRM Accuracy": 0.8679245283018868,
+      "eval_PRM F1": 0.9135802469135802,
+      "eval_PRM F1 AUC": 0.8370874803562075,
+      "eval_PRM F1 AUC (fixed)": 0.821634363541121,
+      "eval_PRM F1 Neg": 0.72,
+      "eval_PRM NPV": 0.6666666666666666,
+      "eval_PRM Precision": 0.9367088607594937,
+      "eval_PRM Recall": 0.891566265060241,
+      "eval_PRM Specificty": 0.782608695652174,
+      "eval_loss": 0.23355937004089355,
+      "eval_runtime": 14.1529,
+      "eval_samples_per_second": 3.109,
+      "eval_steps_per_second": 0.141,
+      "step": 2500
     }
   ],
   "logging_steps": 1,
@@ -15643,7 +26043,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 126724469153792.0,
+  "total_flos": 211248767299584.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null