{
  "best_metric": 1.0647395849227905,
  "best_model_checkpoint": "autotrain-qs45q-p9syi/checkpoint-453",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 453,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013245033112582781,
      "grad_norm": 3.4723896980285645,
      "learning_rate": 1.3157894736842106e-06,
      "loss": 3.0146,
      "step": 2
    },
    {
      "epoch": 0.026490066225165563,
      "grad_norm": 3.5154001712799072,
      "learning_rate": 2.631578947368421e-06,
      "loss": 3.0404,
      "step": 4
    },
    {
      "epoch": 0.039735099337748346,
      "grad_norm": 3.4036054611206055,
      "learning_rate": 3.9473684210526315e-06,
      "loss": 3.0648,
      "step": 6
    },
    {
      "epoch": 0.052980132450331126,
      "grad_norm": 3.3698582649230957,
      "learning_rate": 5.263157894736842e-06,
      "loss": 3.0555,
      "step": 8
    },
    {
      "epoch": 0.06622516556291391,
      "grad_norm": 3.074321985244751,
      "learning_rate": 6.578947368421053e-06,
      "loss": 3.0161,
      "step": 10
    },
    {
      "epoch": 0.07947019867549669,
      "grad_norm": 3.69840407371521,
      "learning_rate": 7.894736842105263e-06,
      "loss": 3.0226,
      "step": 12
    },
    {
      "epoch": 0.09271523178807947,
      "grad_norm": 3.0229387283325195,
      "learning_rate": 9.210526315789474e-06,
      "loss": 3.0117,
      "step": 14
    },
    {
      "epoch": 0.10596026490066225,
      "grad_norm": 3.633251190185547,
      "learning_rate": 1.0526315789473684e-05,
      "loss": 2.9922,
      "step": 16
    },
    {
      "epoch": 0.11920529801324503,
      "grad_norm": 3.404634952545166,
      "learning_rate": 1.1842105263157895e-05,
      "loss": 2.9323,
      "step": 18
    },
    {
      "epoch": 0.13245033112582782,
      "grad_norm": 4.926875114440918,
      "learning_rate": 1.3157894736842106e-05,
      "loss": 2.9597,
      "step": 20
    },
    {
      "epoch": 0.1456953642384106,
      "grad_norm": 3.341071367263794,
      "learning_rate": 1.4473684210526317e-05,
      "loss": 2.927,
      "step": 22
    },
    {
      "epoch": 0.15894039735099338,
      "grad_norm": 3.596402645111084,
      "learning_rate": 1.5789473684210526e-05,
      "loss": 2.8622,
      "step": 24
    },
    {
      "epoch": 0.17218543046357615,
      "grad_norm": 3.554511547088623,
      "learning_rate": 1.7105263157894737e-05,
      "loss": 2.8552,
      "step": 26
    },
    {
      "epoch": 0.18543046357615894,
      "grad_norm": 3.871518135070801,
      "learning_rate": 1.8421052631578947e-05,
      "loss": 2.8545,
      "step": 28
    },
    {
      "epoch": 0.1986754966887417,
      "grad_norm": 4.008641719818115,
      "learning_rate": 1.9736842105263158e-05,
      "loss": 2.8275,
      "step": 30
    },
    {
      "epoch": 0.2119205298013245,
      "grad_norm": 4.181613445281982,
      "learning_rate": 2.105263157894737e-05,
      "loss": 2.7814,
      "step": 32
    },
    {
      "epoch": 0.2251655629139073,
      "grad_norm": 4.396944999694824,
      "learning_rate": 2.236842105263158e-05,
      "loss": 2.6354,
      "step": 34
    },
    {
      "epoch": 0.23841059602649006,
      "grad_norm": 4.029453754425049,
      "learning_rate": 2.368421052631579e-05,
      "loss": 2.5842,
      "step": 36
    },
    {
      "epoch": 0.25165562913907286,
      "grad_norm": 3.9177920818328857,
      "learning_rate": 2.5e-05,
      "loss": 2.6199,
      "step": 38
    },
    {
      "epoch": 0.26490066225165565,
      "grad_norm": 5.803523063659668,
      "learning_rate": 2.6315789473684212e-05,
      "loss": 2.5609,
      "step": 40
    },
    {
      "epoch": 0.2781456953642384,
      "grad_norm": 6.542681694030762,
      "learning_rate": 2.7631578947368426e-05,
      "loss": 2.2103,
      "step": 42
    },
    {
      "epoch": 0.2913907284768212,
      "grad_norm": 4.970069408416748,
      "learning_rate": 2.8947368421052634e-05,
      "loss": 2.5223,
      "step": 44
    },
    {
      "epoch": 0.304635761589404,
      "grad_norm": 7.797888278961182,
      "learning_rate": 3.0263157894736844e-05,
      "loss": 2.2236,
      "step": 46
    },
    {
      "epoch": 0.31788079470198677,
      "grad_norm": 5.971277713775635,
      "learning_rate": 3.157894736842105e-05,
      "loss": 2.6381,
      "step": 48
    },
    {
      "epoch": 0.33112582781456956,
      "grad_norm": 6.939202785491943,
      "learning_rate": 3.289473684210527e-05,
      "loss": 2.3483,
      "step": 50
    },
    {
      "epoch": 0.3443708609271523,
      "grad_norm": 5.877003192901611,
      "learning_rate": 3.421052631578947e-05,
      "loss": 1.9744,
      "step": 52
    },
    {
      "epoch": 0.3576158940397351,
      "grad_norm": 5.517603397369385,
      "learning_rate": 3.5526315789473684e-05,
      "loss": 1.9791,
      "step": 54
    },
    {
      "epoch": 0.3708609271523179,
      "grad_norm": 7.6599440574646,
      "learning_rate": 3.6842105263157895e-05,
      "loss": 2.0475,
      "step": 56
    },
    {
      "epoch": 0.3841059602649007,
      "grad_norm": 6.77654504776001,
      "learning_rate": 3.815789473684211e-05,
      "loss": 1.923,
      "step": 58
    },
    {
      "epoch": 0.3973509933774834,
      "grad_norm": 6.017172336578369,
      "learning_rate": 3.9473684210526316e-05,
      "loss": 1.9688,
      "step": 60
    },
    {
      "epoch": 0.4105960264900662,
      "grad_norm": 5.819124221801758,
      "learning_rate": 4.078947368421053e-05,
      "loss": 2.2777,
      "step": 62
    },
    {
      "epoch": 0.423841059602649,
      "grad_norm": 5.240574359893799,
      "learning_rate": 4.210526315789474e-05,
      "loss": 1.7219,
      "step": 64
    },
    {
      "epoch": 0.4370860927152318,
      "grad_norm": 7.376441478729248,
      "learning_rate": 4.342105263157895e-05,
      "loss": 1.5784,
      "step": 66
    },
    {
      "epoch": 0.4503311258278146,
      "grad_norm": 5.029400825500488,
      "learning_rate": 4.473684210526316e-05,
      "loss": 1.6895,
      "step": 68
    },
    {
      "epoch": 0.46357615894039733,
      "grad_norm": 10.123241424560547,
      "learning_rate": 4.605263157894737e-05,
      "loss": 1.6955,
      "step": 70
    },
    {
      "epoch": 0.4768211920529801,
      "grad_norm": 6.67560338973999,
      "learning_rate": 4.736842105263158e-05,
      "loss": 1.9591,
      "step": 72
    },
    {
      "epoch": 0.4900662251655629,
      "grad_norm": 8.467432975769043,
      "learning_rate": 4.868421052631579e-05,
      "loss": 2.0633,
      "step": 74
    },
    {
      "epoch": 0.5033112582781457,
      "grad_norm": 5.2431535720825195,
      "learning_rate": 5e-05,
      "loss": 1.3436,
      "step": 76
    },
    {
      "epoch": 0.5165562913907285,
      "grad_norm": 7.770199298858643,
      "learning_rate": 4.985272459499264e-05,
      "loss": 1.9379,
      "step": 78
    },
    {
      "epoch": 0.5298013245033113,
      "grad_norm": 5.734556198120117,
      "learning_rate": 4.9705449189985276e-05,
      "loss": 1.7279,
      "step": 80
    },
    {
      "epoch": 0.543046357615894,
      "grad_norm": 6.759193420410156,
      "learning_rate": 4.955817378497791e-05,
      "loss": 1.4606,
      "step": 82
    },
    {
      "epoch": 0.5562913907284768,
      "grad_norm": 10.67810344696045,
      "learning_rate": 4.941089837997055e-05,
      "loss": 1.3069,
      "step": 84
    },
    {
      "epoch": 0.5695364238410596,
      "grad_norm": 7.0206098556518555,
      "learning_rate": 4.926362297496319e-05,
      "loss": 1.8698,
      "step": 86
    },
    {
      "epoch": 0.5827814569536424,
      "grad_norm": 4.365483283996582,
      "learning_rate": 4.911634756995582e-05,
      "loss": 1.5244,
      "step": 88
    },
    {
      "epoch": 0.5960264900662252,
      "grad_norm": 8.567715644836426,
      "learning_rate": 4.8969072164948454e-05,
      "loss": 1.7503,
      "step": 90
    },
    {
      "epoch": 0.609271523178808,
      "grad_norm": 7.213935852050781,
      "learning_rate": 4.882179675994109e-05,
      "loss": 1.6514,
      "step": 92
    },
    {
      "epoch": 0.6225165562913907,
      "grad_norm": 5.607529163360596,
      "learning_rate": 4.867452135493373e-05,
      "loss": 1.0184,
      "step": 94
    },
    {
      "epoch": 0.6357615894039735,
      "grad_norm": 9.907747268676758,
      "learning_rate": 4.8527245949926364e-05,
      "loss": 1.7225,
      "step": 96
    },
    {
      "epoch": 0.6490066225165563,
      "grad_norm": 13.226700782775879,
      "learning_rate": 4.8379970544919e-05,
      "loss": 1.9432,
      "step": 98
    },
    {
      "epoch": 0.6622516556291391,
      "grad_norm": 11.118176460266113,
      "learning_rate": 4.823269513991164e-05,
      "loss": 1.416,
      "step": 100
    },
    {
      "epoch": 0.6754966887417219,
      "grad_norm": 10.29113483428955,
      "learning_rate": 4.8085419734904275e-05,
      "loss": 1.6586,
      "step": 102
    },
    {
      "epoch": 0.6887417218543046,
      "grad_norm": 9.081689834594727,
      "learning_rate": 4.793814432989691e-05,
      "loss": 1.305,
      "step": 104
    },
    {
      "epoch": 0.7019867549668874,
      "grad_norm": 6.368233680725098,
      "learning_rate": 4.779086892488955e-05,
      "loss": 1.1645,
      "step": 106
    },
    {
      "epoch": 0.7152317880794702,
      "grad_norm": 12.125802040100098,
      "learning_rate": 4.764359351988218e-05,
      "loss": 0.8825,
      "step": 108
    },
    {
      "epoch": 0.7284768211920529,
      "grad_norm": 14.471185684204102,
      "learning_rate": 4.7496318114874815e-05,
      "loss": 1.3133,
      "step": 110
    },
    {
      "epoch": 0.7417218543046358,
      "grad_norm": 10.047285079956055,
      "learning_rate": 4.734904270986745e-05,
      "loss": 1.0271,
      "step": 112
    },
    {
      "epoch": 0.7549668874172185,
      "grad_norm": 10.376700401306152,
      "learning_rate": 4.720176730486009e-05,
      "loss": 1.5487,
      "step": 114
    },
    {
      "epoch": 0.7682119205298014,
      "grad_norm": 9.097859382629395,
      "learning_rate": 4.7054491899852726e-05,
      "loss": 1.7211,
      "step": 116
    },
    {
      "epoch": 0.7814569536423841,
      "grad_norm": 11.168022155761719,
      "learning_rate": 4.690721649484536e-05,
      "loss": 1.3699,
      "step": 118
    },
    {
      "epoch": 0.7947019867549668,
      "grad_norm": 7.571075439453125,
      "learning_rate": 4.6759941089838e-05,
      "loss": 0.7628,
      "step": 120
    },
    {
      "epoch": 0.8079470198675497,
      "grad_norm": 7.332944393157959,
      "learning_rate": 4.661266568483064e-05,
      "loss": 1.2271,
      "step": 122
    },
    {
      "epoch": 0.8211920529801324,
      "grad_norm": 9.472811698913574,
      "learning_rate": 4.6465390279823274e-05,
      "loss": 0.9225,
      "step": 124
    },
    {
      "epoch": 0.8344370860927153,
      "grad_norm": 7.298526287078857,
      "learning_rate": 4.631811487481591e-05,
      "loss": 1.4189,
      "step": 126
    },
    {
      "epoch": 0.847682119205298,
      "grad_norm": 6.718891620635986,
      "learning_rate": 4.617083946980855e-05,
      "loss": 0.9269,
      "step": 128
    },
    {
      "epoch": 0.8609271523178808,
      "grad_norm": 5.722424507141113,
      "learning_rate": 4.602356406480118e-05,
      "loss": 1.5321,
      "step": 130
    },
    {
      "epoch": 0.8741721854304636,
      "grad_norm": 8.258366584777832,
      "learning_rate": 4.5876288659793814e-05,
      "loss": 0.9162,
      "step": 132
    },
    {
      "epoch": 0.8874172185430463,
      "grad_norm": 6.919400691986084,
      "learning_rate": 4.572901325478645e-05,
      "loss": 1.0685,
      "step": 134
    },
    {
      "epoch": 0.9006622516556292,
      "grad_norm": 6.770501613616943,
      "learning_rate": 4.558173784977909e-05,
      "loss": 0.7407,
      "step": 136
    },
    {
      "epoch": 0.9139072847682119,
      "grad_norm": 6.387173652648926,
      "learning_rate": 4.5434462444771725e-05,
      "loss": 0.6707,
      "step": 138
    },
    {
      "epoch": 0.9271523178807947,
      "grad_norm": 11.18732738494873,
      "learning_rate": 4.528718703976436e-05,
      "loss": 1.3069,
      "step": 140
    },
    {
      "epoch": 0.9403973509933775,
      "grad_norm": 4.17434549331665,
      "learning_rate": 4.5139911634757e-05,
      "loss": 0.7223,
      "step": 142
    },
    {
      "epoch": 0.9536423841059603,
      "grad_norm": 7.86276388168335,
      "learning_rate": 4.4992636229749635e-05,
      "loss": 0.7461,
      "step": 144
    },
    {
      "epoch": 0.9668874172185431,
      "grad_norm": 11.436422348022461,
      "learning_rate": 4.484536082474227e-05,
      "loss": 1.4973,
      "step": 146
    },
    {
      "epoch": 0.9801324503311258,
      "grad_norm": 11.492631912231445,
      "learning_rate": 4.469808541973491e-05,
      "loss": 1.1266,
      "step": 148
    },
    {
      "epoch": 0.9933774834437086,
      "grad_norm": 6.025942802429199,
      "learning_rate": 4.4550810014727546e-05,
      "loss": 0.5809,
      "step": 150
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.62,
      "eval_f1_macro": 0.2182729551150604,
      "eval_f1_micro": 0.62,
      "eval_f1_weighted": 0.5708288904078378,
      "eval_loss": 1.3821334838867188,
      "eval_precision_macro": 0.20881118881118882,
      "eval_precision_micro": 0.62,
      "eval_precision_weighted": 0.5551748251748252,
      "eval_recall_macro": 0.25717532467532467,
      "eval_recall_micro": 0.62,
      "eval_recall_weighted": 0.62,
      "eval_runtime": 0.1587,
      "eval_samples_per_second": 630.071,
      "eval_steps_per_second": 44.105,
      "step": 151
    },
    {
      "epoch": 1.0066225165562914,
      "grad_norm": 6.717867374420166,
      "learning_rate": 4.447717231222386e-05,
      "loss": 0.8661,
      "step": 152
    },
    {
      "epoch": 1.0198675496688743,
      "grad_norm": 5.969238758087158,
      "learning_rate": 4.4329896907216494e-05,
      "loss": 0.6295,
      "step": 154
    },
    {
      "epoch": 1.033112582781457,
      "grad_norm": 5.343296527862549,
      "learning_rate": 4.418262150220913e-05,
      "loss": 1.1331,
      "step": 156
    },
    {
      "epoch": 1.0463576158940397,
      "grad_norm": 5.666139602661133,
      "learning_rate": 4.403534609720177e-05,
      "loss": 0.8978,
      "step": 158
    },
    {
      "epoch": 1.0596026490066226,
      "grad_norm": 5.301098823547363,
      "learning_rate": 4.3888070692194405e-05,
      "loss": 0.6172,
      "step": 160
    },
    {
      "epoch": 1.0728476821192052,
      "grad_norm": 6.197515964508057,
      "learning_rate": 4.374079528718704e-05,
      "loss": 0.6356,
      "step": 162
    },
    {
      "epoch": 1.086092715231788,
      "grad_norm": 9.58243179321289,
      "learning_rate": 4.359351988217968e-05,
      "loss": 1.5982,
      "step": 164
    },
    {
      "epoch": 1.099337748344371,
      "grad_norm": 5.4112629890441895,
      "learning_rate": 4.3446244477172316e-05,
      "loss": 0.5373,
      "step": 166
    },
    {
      "epoch": 1.1125827814569536,
      "grad_norm": 6.890096664428711,
      "learning_rate": 4.329896907216495e-05,
      "loss": 1.594,
      "step": 168
    },
    {
      "epoch": 1.1258278145695364,
      "grad_norm": 13.663280487060547,
      "learning_rate": 4.315169366715759e-05,
      "loss": 0.6526,
      "step": 170
    },
    {
      "epoch": 1.1390728476821192,
      "grad_norm": 5.038116455078125,
      "learning_rate": 4.3004418262150226e-05,
      "loss": 0.8239,
      "step": 172
    },
    {
      "epoch": 1.152317880794702,
      "grad_norm": 10.813724517822266,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 0.9156,
      "step": 174
    },
    {
      "epoch": 1.1655629139072847,
      "grad_norm": 3.2282865047454834,
      "learning_rate": 4.270986745213549e-05,
      "loss": 0.6795,
      "step": 176
    },
    {
      "epoch": 1.1788079470198676,
      "grad_norm": 5.9910197257995605,
      "learning_rate": 4.256259204712813e-05,
      "loss": 1.0571,
      "step": 178
    },
    {
      "epoch": 1.1920529801324504,
      "grad_norm": 4.989276885986328,
      "learning_rate": 4.241531664212077e-05,
      "loss": 1.1591,
      "step": 180
    },
    {
      "epoch": 1.205298013245033,
      "grad_norm": 12.654097557067871,
      "learning_rate": 4.2268041237113404e-05,
      "loss": 1.3218,
      "step": 182
    },
    {
      "epoch": 1.218543046357616,
      "grad_norm": 4.979647636413574,
      "learning_rate": 4.212076583210604e-05,
      "loss": 0.6925,
      "step": 184
    },
    {
      "epoch": 1.2317880794701987,
      "grad_norm": 9.59062385559082,
      "learning_rate": 4.197349042709868e-05,
      "loss": 1.2088,
      "step": 186
    },
    {
      "epoch": 1.2450331125827814,
      "grad_norm": 8.358089447021484,
      "learning_rate": 4.1826215022091314e-05,
      "loss": 0.7255,
      "step": 188
    },
    {
      "epoch": 1.2582781456953642,
      "grad_norm": 1.6286242008209229,
      "learning_rate": 4.167893961708395e-05,
      "loss": 0.6235,
      "step": 190
    },
    {
      "epoch": 1.271523178807947,
      "grad_norm": 7.9347662925720215,
      "learning_rate": 4.153166421207659e-05,
      "loss": 0.964,
      "step": 192
    },
    {
      "epoch": 1.2847682119205297,
      "grad_norm": 6.71475887298584,
      "learning_rate": 4.138438880706922e-05,
      "loss": 0.9162,
      "step": 194
    },
    {
      "epoch": 1.2980132450331126,
      "grad_norm": 2.8124191761016846,
      "learning_rate": 4.1237113402061855e-05,
      "loss": 0.3924,
      "step": 196
    },
    {
      "epoch": 1.3112582781456954,
      "grad_norm": 8.39048957824707,
      "learning_rate": 4.108983799705449e-05,
      "loss": 0.68,
      "step": 198
    },
    {
      "epoch": 1.3245033112582782,
      "grad_norm": 10.033766746520996,
      "learning_rate": 4.094256259204713e-05,
      "loss": 0.6962,
      "step": 200
    },
    {
      "epoch": 1.3377483443708609,
      "grad_norm": 6.6539106369018555,
      "learning_rate": 4.0795287187039766e-05,
      "loss": 1.0892,
      "step": 202
    },
    {
      "epoch": 1.3509933774834437,
      "grad_norm": 5.977195739746094,
      "learning_rate": 4.06480117820324e-05,
      "loss": 0.5886,
      "step": 204
    },
    {
      "epoch": 1.3642384105960264,
      "grad_norm": 5.548197269439697,
      "learning_rate": 4.050073637702504e-05,
      "loss": 0.9609,
      "step": 206
    },
    {
      "epoch": 1.3774834437086092,
      "grad_norm": 6.958375453948975,
      "learning_rate": 4.0353460972017676e-05,
      "loss": 1.0345,
      "step": 208
    },
    {
      "epoch": 1.390728476821192,
      "grad_norm": 14.204687118530273,
      "learning_rate": 4.020618556701031e-05,
      "loss": 0.7327,
      "step": 210
    },
    {
      "epoch": 1.403973509933775,
      "grad_norm": 8.209890365600586,
      "learning_rate": 4.005891016200295e-05,
      "loss": 0.5259,
      "step": 212
    },
    {
      "epoch": 1.4172185430463577,
      "grad_norm": 6.424736976623535,
      "learning_rate": 3.991163475699559e-05,
      "loss": 0.9341,
      "step": 214
    },
    {
      "epoch": 1.4304635761589404,
      "grad_norm": 7.625380039215088,
      "learning_rate": 3.976435935198822e-05,
      "loss": 1.1303,
      "step": 216
    },
    {
      "epoch": 1.4437086092715232,
      "grad_norm": 7.861330509185791,
      "learning_rate": 3.9617083946980854e-05,
      "loss": 0.5599,
      "step": 218
    },
    {
      "epoch": 1.4569536423841059,
      "grad_norm": 11.318681716918945,
      "learning_rate": 3.946980854197349e-05,
      "loss": 0.665,
      "step": 220
    },
    {
      "epoch": 1.4701986754966887,
      "grad_norm": 8.797566413879395,
      "learning_rate": 3.932253313696613e-05,
      "loss": 0.9297,
      "step": 222
    },
    {
      "epoch": 1.4834437086092715,
      "grad_norm": 9.536187171936035,
      "learning_rate": 3.9175257731958764e-05,
      "loss": 0.5168,
      "step": 224
    },
    {
      "epoch": 1.4966887417218544,
      "grad_norm": 5.4594807624816895,
      "learning_rate": 3.90279823269514e-05,
      "loss": 0.6562,
      "step": 226
    },
    {
      "epoch": 1.5099337748344372,
      "grad_norm": 6.416939735412598,
      "learning_rate": 3.888070692194404e-05,
      "loss": 0.4248,
      "step": 228
    },
    {
      "epoch": 1.5231788079470199,
      "grad_norm": 8.049701690673828,
      "learning_rate": 3.8733431516936675e-05,
      "loss": 0.6311,
      "step": 230
    },
    {
      "epoch": 1.5364238410596025,
      "grad_norm": 6.978274345397949,
      "learning_rate": 3.858615611192931e-05,
      "loss": 0.5238,
      "step": 232
    },
    {
      "epoch": 1.5496688741721854,
      "grad_norm": 4.730326175689697,
      "learning_rate": 3.843888070692195e-05,
      "loss": 0.9127,
      "step": 234
    },
    {
      "epoch": 1.5629139072847682,
      "grad_norm": 6.017629623413086,
      "learning_rate": 3.836524300441827e-05,
      "loss": 0.6197,
      "step": 236
    },
    {
      "epoch": 1.576158940397351,
      "grad_norm": 1.4615082740783691,
      "learning_rate": 3.82179675994109e-05,
      "loss": 0.1855,
      "step": 238
    },
    {
      "epoch": 1.589403973509934,
      "grad_norm": 17.785310745239258,
      "learning_rate": 3.8070692194403534e-05,
      "loss": 1.4609,
      "step": 240
    },
    {
      "epoch": 1.6026490066225165,
      "grad_norm": 11.241979598999023,
      "learning_rate": 3.792341678939617e-05,
      "loss": 0.8828,
      "step": 242
    },
    {
      "epoch": 1.6158940397350994,
      "grad_norm": 13.630949974060059,
      "learning_rate": 3.777614138438881e-05,
      "loss": 1.374,
      "step": 244
    },
    {
      "epoch": 1.629139072847682,
      "grad_norm": 13.52291488647461,
      "learning_rate": 3.7628865979381445e-05,
      "loss": 0.7898,
      "step": 246
    },
    {
      "epoch": 1.6423841059602649,
      "grad_norm": 6.53799295425415,
      "learning_rate": 3.748159057437408e-05,
      "loss": 0.7232,
      "step": 248
    },
    {
      "epoch": 1.6556291390728477,
      "grad_norm": 7.03351354598999,
      "learning_rate": 3.733431516936672e-05,
      "loss": 1.5363,
      "step": 250
    },
    {
      "epoch": 1.6688741721854305,
      "grad_norm": 10.971170425415039,
      "learning_rate": 3.7187039764359355e-05,
      "loss": 0.3952,
      "step": 252
    },
    {
      "epoch": 1.6821192052980134,
      "grad_norm": 10.918181419372559,
      "learning_rate": 3.703976435935199e-05,
      "loss": 1.0573,
      "step": 254
    },
    {
      "epoch": 1.695364238410596,
      "grad_norm": 5.845329284667969,
      "learning_rate": 3.689248895434463e-05,
      "loss": 0.9152,
      "step": 256
    },
    {
      "epoch": 1.7086092715231787,
      "grad_norm": 10.043814659118652,
      "learning_rate": 3.6745213549337266e-05,
      "loss": 0.7483,
      "step": 258
    },
    {
      "epoch": 1.7218543046357615,
      "grad_norm": 9.504009246826172,
      "learning_rate": 3.6597938144329896e-05,
      "loss": 1.3825,
      "step": 260
    },
    {
      "epoch": 1.7350993377483444,
      "grad_norm": 7.6096415519714355,
      "learning_rate": 3.645066273932253e-05,
      "loss": 0.3722,
      "step": 262
    },
    {
      "epoch": 1.7483443708609272,
      "grad_norm": 15.977928161621094,
      "learning_rate": 3.630338733431517e-05,
      "loss": 0.7817,
      "step": 264
    },
    {
      "epoch": 1.76158940397351,
      "grad_norm": 12.720684051513672,
      "learning_rate": 3.6156111929307806e-05,
      "loss": 0.5112,
      "step": 266
    },
    {
      "epoch": 1.7748344370860927,
      "grad_norm": 8.58932113647461,
      "learning_rate": 3.600883652430044e-05,
      "loss": 0.7,
      "step": 268
    },
    {
      "epoch": 1.7880794701986755,
      "grad_norm": 13.423791885375977,
      "learning_rate": 3.586156111929308e-05,
      "loss": 1.6471,
      "step": 270
    },
    {
      "epoch": 1.8013245033112582,
      "grad_norm": 6.468234062194824,
      "learning_rate": 3.571428571428572e-05,
      "loss": 0.66,
      "step": 272
    },
    {
      "epoch": 1.814569536423841,
      "grad_norm": 9.493569374084473,
      "learning_rate": 3.5567010309278354e-05,
      "loss": 1.1906,
      "step": 274
    },
    {
      "epoch": 1.8278145695364238,
      "grad_norm": 4.703698635101318,
      "learning_rate": 3.541973490427099e-05,
      "loss": 0.4843,
      "step": 276
    },
    {
      "epoch": 1.8410596026490067,
      "grad_norm": 7.946201324462891,
      "learning_rate": 3.527245949926363e-05,
      "loss": 0.5529,
      "step": 278
    },
    {
      "epoch": 1.8543046357615895,
      "grad_norm": 6.270992279052734,
      "learning_rate": 3.512518409425626e-05,
      "loss": 0.9139,
      "step": 280
    },
    {
      "epoch": 1.8675496688741722,
      "grad_norm": 12.685065269470215,
      "learning_rate": 3.4977908689248894e-05,
      "loss": 0.4489,
      "step": 282
    },
    {
      "epoch": 1.8807947019867548,
      "grad_norm": 9.88779354095459,
      "learning_rate": 3.483063328424153e-05,
      "loss": 1.0594,
      "step": 284
    },
    {
      "epoch": 1.8940397350993377,
      "grad_norm": 15.420830726623535,
      "learning_rate": 3.468335787923417e-05,
      "loss": 1.5748,
      "step": 286
    },
    {
      "epoch": 1.9072847682119205,
      "grad_norm": 12.748838424682617,
      "learning_rate": 3.4536082474226805e-05,
      "loss": 0.3906,
      "step": 288
    },
    {
      "epoch": 1.9205298013245033,
      "grad_norm": 8.6655912399292,
      "learning_rate": 3.438880706921944e-05,
      "loss": 0.7372,
      "step": 290
    },
    {
      "epoch": 1.9337748344370862,
      "grad_norm": 2.1088364124298096,
      "learning_rate": 3.424153166421208e-05,
      "loss": 0.6368,
      "step": 292
    },
    {
      "epoch": 1.9470198675496688,
      "grad_norm": 5.693451404571533,
      "learning_rate": 3.4094256259204716e-05,
      "loss": 1.1065,
      "step": 294
    },
    {
      "epoch": 1.9602649006622517,
      "grad_norm": 5.4681315422058105,
      "learning_rate": 3.394698085419735e-05,
      "loss": 0.2881,
      "step": 296
    },
    {
      "epoch": 1.9735099337748343,
      "grad_norm": 3.1230578422546387,
      "learning_rate": 3.379970544918999e-05,
      "loss": 0.7056,
      "step": 298
    },
    {
      "epoch": 1.9867549668874172,
      "grad_norm": 8.198813438415527,
      "learning_rate": 3.3652430044182626e-05,
      "loss": 0.3768,
      "step": 300
    },
    {
      "epoch": 2.0,
      "grad_norm": 5.530179023742676,
      "learning_rate": 3.3505154639175256e-05,
      "loss": 0.3156,
      "step": 302
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.74,
      "eval_f1_macro": 0.45774191750278714,
      "eval_f1_micro": 0.74,
      "eval_f1_weighted": 0.7020952062430323,
      "eval_loss": 1.118362307548523,
      "eval_precision_macro": 0.5131296992481202,
      "eval_precision_micro": 0.74,
      "eval_precision_weighted": 0.7261616541353384,
      "eval_recall_macro": 0.48530303030303035,
      "eval_recall_micro": 0.74,
      "eval_recall_weighted": 0.74,
      "eval_runtime": 0.1632,
      "eval_samples_per_second": 612.634,
      "eval_steps_per_second": 42.884,
      "step": 302
    },
    {
      "epoch": 2.013245033112583,
      "grad_norm": 1.5750505924224854,
      "learning_rate": 3.335787923416789e-05,
      "loss": 0.1854,
      "step": 304
    },
    {
      "epoch": 2.0264900662251657,
      "grad_norm": 3.4210903644561768,
      "learning_rate": 3.321060382916053e-05,
      "loss": 0.3148,
      "step": 306
    },
    {
      "epoch": 2.0397350993377485,
      "grad_norm": 7.4305033683776855,
      "learning_rate": 3.306332842415317e-05,
      "loss": 0.7654,
      "step": 308
    },
    {
      "epoch": 2.052980132450331,
      "grad_norm": 2.1427576541900635,
      "learning_rate": 3.2916053019145804e-05,
      "loss": 0.2679,
      "step": 310
    },
    {
      "epoch": 2.066225165562914,
      "grad_norm": 4.614518165588379,
      "learning_rate": 3.276877761413844e-05,
      "loss": 0.722,
      "step": 312
    },
    {
      "epoch": 2.0794701986754967,
      "grad_norm": 5.343958377838135,
      "learning_rate": 3.262150220913108e-05,
      "loss": 0.658,
      "step": 314
    },
    {
      "epoch": 2.0927152317880795,
      "grad_norm": 7.354612827301025,
      "learning_rate": 3.2474226804123714e-05,
      "loss": 0.5283,
      "step": 316
    },
    {
      "epoch": 2.1059602649006623,
      "grad_norm": 3.1576592922210693,
      "learning_rate": 3.232695139911635e-05,
      "loss": 0.096,
      "step": 318
    },
    {
      "epoch": 2.119205298013245,
      "grad_norm": 3.2874159812927246,
      "learning_rate": 3.217967599410899e-05,
      "loss": 0.2096,
      "step": 320
    },
    {
      "epoch": 2.1324503311258276,
      "grad_norm": 0.5562194585800171,
      "learning_rate": 3.2032400589101625e-05,
      "loss": 0.1196,
      "step": 322
    },
    {
      "epoch": 2.1456953642384105,
      "grad_norm": 13.274640083312988,
      "learning_rate": 3.1885125184094255e-05,
      "loss": 1.067,
      "step": 324
    },
    {
      "epoch": 2.1589403973509933,
      "grad_norm": 8.369612693786621,
      "learning_rate": 3.173784977908689e-05,
      "loss": 0.6852,
      "step": 326
    },
    {
      "epoch": 2.172185430463576,
      "grad_norm": 10.826526641845703,
      "learning_rate": 3.159057437407953e-05,
      "loss": 0.5073,
      "step": 328
    },
    {
      "epoch": 2.185430463576159,
      "grad_norm": 6.016572952270508,
      "learning_rate": 3.1443298969072166e-05,
      "loss": 0.5949,
      "step": 330
    },
    {
      "epoch": 2.198675496688742,
      "grad_norm": 10.392781257629395,
      "learning_rate": 3.12960235640648e-05,
      "loss": 0.7787,
      "step": 332
    },
    {
      "epoch": 2.2119205298013247,
      "grad_norm": 4.342617511749268,
      "learning_rate": 3.114874815905744e-05,
      "loss": 0.4602,
      "step": 334
    },
    {
      "epoch": 2.225165562913907,
      "grad_norm": 7.711668014526367,
      "learning_rate": 3.1001472754050076e-05,
      "loss": 0.3792,
      "step": 336
    },
    {
      "epoch": 2.23841059602649,
      "grad_norm": 5.162533283233643,
      "learning_rate": 3.085419734904271e-05,
      "loss": 0.2087,
      "step": 338
    },
    {
      "epoch": 2.251655629139073,
      "grad_norm": 7.244391441345215,
      "learning_rate": 3.070692194403535e-05,
      "loss": 0.298,
      "step": 340
    },
    {
      "epoch": 2.2649006622516556,
      "grad_norm": 10.348755836486816,
      "learning_rate": 3.055964653902799e-05,
      "loss": 0.3321,
      "step": 342
    },
    {
      "epoch": 2.2781456953642385,
      "grad_norm": 1.1933870315551758,
      "learning_rate": 3.0412371134020617e-05,
      "loss": 0.0756,
      "step": 344
    },
    {
      "epoch": 2.2913907284768213,
      "grad_norm": 9.06655216217041,
      "learning_rate": 3.0265095729013254e-05,
      "loss": 0.7712,
      "step": 346
    },
    {
      "epoch": 2.304635761589404,
      "grad_norm": 8.230104446411133,
      "learning_rate": 3.011782032400589e-05,
      "loss": 0.9383,
      "step": 348
    },
    {
      "epoch": 2.3178807947019866,
      "grad_norm": 10.278660774230957,
      "learning_rate": 2.9970544918998527e-05,
      "loss": 0.6566,
      "step": 350
    },
    {
      "epoch": 2.3311258278145695,
      "grad_norm": 1.700579047203064,
      "learning_rate": 2.9823269513991164e-05,
      "loss": 0.1095,
      "step": 352
    },
    {
      "epoch": 2.3443708609271523,
      "grad_norm": 4.130746841430664,
      "learning_rate": 2.96759941089838e-05,
      "loss": 0.7986,
      "step": 354
    },
    {
      "epoch": 2.357615894039735,
      "grad_norm": 9.603137016296387,
      "learning_rate": 2.9528718703976438e-05,
      "loss": 0.6449,
      "step": 356
    },
    {
      "epoch": 2.370860927152318,
      "grad_norm": 13.046420097351074,
      "learning_rate": 2.9381443298969075e-05,
      "loss": 0.7776,
      "step": 358
    },
    {
      "epoch": 2.384105960264901,
      "grad_norm": 4.095331192016602,
      "learning_rate": 2.9234167893961712e-05,
      "loss": 0.2639,
      "step": 360
    },
    {
      "epoch": 2.3973509933774833,
      "grad_norm": 0.3949756324291229,
      "learning_rate": 2.908689248895435e-05,
      "loss": 0.1134,
      "step": 362
    },
    {
      "epoch": 2.410596026490066,
      "grad_norm": 3.804518699645996,
      "learning_rate": 2.8939617083946985e-05,
      "loss": 0.3421,
      "step": 364
    },
    {
      "epoch": 2.423841059602649,
      "grad_norm": 12.5763521194458,
      "learning_rate": 2.8792341678939616e-05,
      "loss": 0.7242,
      "step": 366
    },
    {
      "epoch": 2.437086092715232,
      "grad_norm": 5.6927032470703125,
      "learning_rate": 2.8645066273932252e-05,
      "loss": 0.9591,
      "step": 368
    },
    {
      "epoch": 2.4503311258278146,
      "grad_norm": 13.04416275024414,
      "learning_rate": 2.849779086892489e-05,
      "loss": 0.4636,
      "step": 370
    },
    {
      "epoch": 2.4635761589403975,
      "grad_norm": 4.799520015716553,
      "learning_rate": 2.8350515463917526e-05,
      "loss": 0.4037,
      "step": 372
    },
    {
      "epoch": 2.47682119205298,
      "grad_norm": 8.108109474182129,
      "learning_rate": 2.8203240058910163e-05,
      "loss": 1.2403,
      "step": 374
    },
    {
      "epoch": 2.4900662251655628,
      "grad_norm": 3.977107286453247,
      "learning_rate": 2.80559646539028e-05,
      "loss": 0.1793,
      "step": 376
    },
    {
      "epoch": 2.5033112582781456,
      "grad_norm": 8.900064468383789,
      "learning_rate": 2.7908689248895437e-05,
      "loss": 0.6712,
      "step": 378
    },
    {
      "epoch": 2.5165562913907285,
      "grad_norm": 5.152413368225098,
      "learning_rate": 2.7761413843888074e-05,
      "loss": 0.0786,
      "step": 380
    },
    {
      "epoch": 2.5298013245033113,
      "grad_norm": 1.7878741025924683,
      "learning_rate": 2.761413843888071e-05,
      "loss": 0.3663,
      "step": 382
    },
    {
      "epoch": 2.543046357615894,
      "grad_norm": 4.110722064971924,
      "learning_rate": 2.7466863033873347e-05,
      "loss": 0.3523,
      "step": 384
    },
    {
      "epoch": 2.556291390728477,
      "grad_norm": 15.2096586227417,
      "learning_rate": 2.7319587628865977e-05,
      "loss": 0.233,
      "step": 386
    },
    {
      "epoch": 2.5695364238410594,
      "grad_norm": 4.752151012420654,
      "learning_rate": 2.7172312223858614e-05,
      "loss": 0.5043,
      "step": 388
    },
    {
      "epoch": 2.5827814569536423,
      "grad_norm": 9.852655410766602,
      "learning_rate": 2.702503681885125e-05,
      "loss": 0.1858,
      "step": 390
    },
    {
      "epoch": 2.596026490066225,
      "grad_norm": 13.454380989074707,
      "learning_rate": 2.6877761413843888e-05,
      "loss": 0.597,
      "step": 392
    },
    {
      "epoch": 2.609271523178808,
      "grad_norm": 7.8776326179504395,
      "learning_rate": 2.6730486008836525e-05,
      "loss": 0.7841,
      "step": 394
    },
    {
      "epoch": 2.622516556291391,
      "grad_norm": 9.048988342285156,
      "learning_rate": 2.6583210603829162e-05,
      "loss": 0.8305,
      "step": 396
    },
    {
      "epoch": 2.6357615894039736,
      "grad_norm": 13.187280654907227,
      "learning_rate": 2.64359351988218e-05,
      "loss": 1.0179,
      "step": 398
    },
    {
      "epoch": 2.6490066225165565,
      "grad_norm": 13.392657279968262,
      "learning_rate": 2.6288659793814435e-05,
      "loss": 0.1317,
      "step": 400
    },
    {
      "epoch": 2.662251655629139,
      "grad_norm": 11.062936782836914,
      "learning_rate": 2.6141384388807072e-05,
      "loss": 0.6804,
      "step": 402
    },
    {
      "epoch": 2.6754966887417218,
      "grad_norm": 11.463652610778809,
      "learning_rate": 2.599410898379971e-05,
      "loss": 0.5558,
      "step": 404
    },
    {
      "epoch": 2.6887417218543046,
      "grad_norm": 5.696853160858154,
      "learning_rate": 2.5846833578792346e-05,
      "loss": 0.7812,
      "step": 406
    },
    {
      "epoch": 2.7019867549668874,
      "grad_norm": 15.077645301818848,
      "learning_rate": 2.5699558173784976e-05,
      "loss": 0.6744,
      "step": 408
    },
    {
      "epoch": 2.7152317880794703,
      "grad_norm": 4.043674468994141,
      "learning_rate": 2.5552282768777613e-05,
      "loss": 0.3354,
      "step": 410
    },
    {
      "epoch": 2.7284768211920527,
      "grad_norm": 1.150486946105957,
      "learning_rate": 2.540500736377025e-05,
      "loss": 0.3314,
      "step": 412
    },
    {
      "epoch": 2.741721854304636,
      "grad_norm": 12.133696556091309,
      "learning_rate": 2.5257731958762887e-05,
      "loss": 0.526,
      "step": 414
    },
    {
      "epoch": 2.7549668874172184,
      "grad_norm": 11.533574104309082,
      "learning_rate": 2.5110456553755524e-05,
      "loss": 0.8745,
      "step": 416
    },
    {
      "epoch": 2.7682119205298013,
      "grad_norm": 1.3846099376678467,
      "learning_rate": 2.496318114874816e-05,
      "loss": 0.204,
      "step": 418
    },
    {
      "epoch": 2.781456953642384,
      "grad_norm": 4.653772830963135,
      "learning_rate": 2.4815905743740797e-05,
      "loss": 0.3621,
      "step": 420
    },
    {
      "epoch": 2.794701986754967,
      "grad_norm": 8.693764686584473,
      "learning_rate": 2.4668630338733434e-05,
      "loss": 0.4153,
      "step": 422
    },
    {
      "epoch": 2.80794701986755,
      "grad_norm": 11.415797233581543,
      "learning_rate": 2.4521354933726068e-05,
      "loss": 0.6997,
      "step": 424
    },
    {
      "epoch": 2.821192052980132,
      "grad_norm": 3.682908773422241,
      "learning_rate": 2.4374079528718704e-05,
      "loss": 0.3039,
      "step": 426
    },
    {
      "epoch": 2.8344370860927155,
      "grad_norm": 9.39224624633789,
      "learning_rate": 2.422680412371134e-05,
      "loss": 0.6302,
      "step": 428
    },
    {
      "epoch": 2.847682119205298,
      "grad_norm": 3.271193742752075,
      "learning_rate": 2.4079528718703978e-05,
      "loss": 0.2706,
      "step": 430
    },
    {
      "epoch": 2.8609271523178808,
      "grad_norm": 7.453132629394531,
      "learning_rate": 2.3932253313696615e-05,
      "loss": 0.4594,
      "step": 432
    },
    {
      "epoch": 2.8741721854304636,
      "grad_norm": 16.519481658935547,
      "learning_rate": 2.378497790868925e-05,
      "loss": 0.2437,
      "step": 434
    },
    {
      "epoch": 2.8874172185430464,
      "grad_norm": 17.087709426879883,
      "learning_rate": 2.3637702503681885e-05,
      "loss": 0.9733,
      "step": 436
    },
    {
      "epoch": 2.9006622516556293,
      "grad_norm": 1.0074738264083862,
      "learning_rate": 2.3490427098674522e-05,
      "loss": 0.649,
      "step": 438
    },
    {
      "epoch": 2.9139072847682117,
      "grad_norm": 4.366696834564209,
      "learning_rate": 2.334315169366716e-05,
      "loss": 0.5205,
      "step": 440
    },
    {
      "epoch": 2.9271523178807946,
      "grad_norm": 20.609182357788086,
      "learning_rate": 2.3195876288659796e-05,
      "loss": 0.2493,
      "step": 442
    },
    {
      "epoch": 2.9403973509933774,
      "grad_norm": 9.770134925842285,
      "learning_rate": 2.3048600883652433e-05,
      "loss": 0.1564,
      "step": 444
    },
    {
      "epoch": 2.9536423841059603,
      "grad_norm": 8.714824676513672,
      "learning_rate": 2.2901325478645066e-05,
      "loss": 0.6449,
      "step": 446
    },
    {
      "epoch": 2.966887417218543,
      "grad_norm": 7.8644514083862305,
      "learning_rate": 2.2754050073637703e-05,
      "loss": 1.3438,
      "step": 448
    },
    {
      "epoch": 2.980132450331126,
      "grad_norm": 5.881997108459473,
      "learning_rate": 2.260677466863034e-05,
      "loss": 0.3383,
      "step": 450
    },
    {
      "epoch": 2.993377483443709,
      "grad_norm": 12.096423149108887,
      "learning_rate": 2.2459499263622977e-05,
      "loss": 0.7644,
      "step": 452
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.74,
      "eval_f1_macro": 0.4558641367469575,
      "eval_f1_micro": 0.74,
      "eval_f1_weighted": 0.7165269403625714,
      "eval_loss": 1.0647395849227905,
      "eval_precision_macro": 0.47941017316017315,
      "eval_precision_micro": 0.74,
      "eval_precision_weighted": 0.7261709956709957,
      "eval_recall_macro": 0.4931601731601732,
      "eval_recall_micro": 0.74,
      "eval_recall_weighted": 0.74,
      "eval_runtime": 0.1879,
      "eval_samples_per_second": 532.193,
      "eval_steps_per_second": 37.254,
      "step": 453
    }
  ],
  "logging_steps": 2,
  "max_steps": 755,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 119358311592960.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}