{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.265343793262575,
  "eval_steps": 500,
  "global_step": 4600,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.7683433317951084e-05,
      "grad_norm": 0.3952319025993347,
      "learning_rate": 1.1534025374855825e-07,
      "loss": 1.182,
      "step": 1
    },
    {
      "epoch": 0.0002884171665897554,
      "grad_norm": 0.3334461748600006,
      "learning_rate": 5.767012687427913e-07,
      "loss": 1.0887,
      "step": 5
    },
    {
      "epoch": 0.0005768343331795108,
      "grad_norm": 0.41704559326171875,
      "learning_rate": 1.1534025374855826e-06,
      "loss": 1.2132,
      "step": 10
    },
    {
      "epoch": 0.0008652514997692663,
      "grad_norm": 0.4982852637767792,
      "learning_rate": 1.7301038062283738e-06,
      "loss": 1.1888,
      "step": 15
    },
    {
      "epoch": 0.0011536686663590216,
      "grad_norm": 0.3702298104763031,
      "learning_rate": 2.3068050749711653e-06,
      "loss": 1.2105,
      "step": 20
    },
    {
      "epoch": 0.001442085832948777,
      "grad_norm": 0.3640645444393158,
      "learning_rate": 2.8835063437139563e-06,
      "loss": 1.1714,
      "step": 25
    },
    {
      "epoch": 0.0017305029995385325,
      "grad_norm": 0.31508558988571167,
      "learning_rate": 3.4602076124567477e-06,
      "loss": 1.0438,
      "step": 30
    },
    {
      "epoch": 0.0020189201661282878,
      "grad_norm": 0.3910152018070221,
      "learning_rate": 4.036908881199539e-06,
      "loss": 1.212,
      "step": 35
    },
    {
      "epoch": 0.0023073373327180432,
      "grad_norm": 0.32711583375930786,
      "learning_rate": 4.6136101499423305e-06,
      "loss": 1.1552,
      "step": 40
    },
    {
      "epoch": 0.0025957544993077987,
      "grad_norm": 0.37455540895462036,
      "learning_rate": 5.190311418685121e-06,
      "loss": 1.1355,
      "step": 45
    },
    {
      "epoch": 0.002884171665897554,
      "grad_norm": 0.32155269384384155,
      "learning_rate": 5.7670126874279126e-06,
      "loss": 1.1375,
      "step": 50
    },
    {
      "epoch": 0.0031725888324873096,
      "grad_norm": 0.29815641045570374,
      "learning_rate": 6.3437139561707036e-06,
      "loss": 1.1193,
      "step": 55
    },
    {
      "epoch": 0.003461005999077065,
      "grad_norm": 0.39492201805114746,
      "learning_rate": 6.920415224913495e-06,
      "loss": 1.1053,
      "step": 60
    },
    {
      "epoch": 0.0037494231656668205,
      "grad_norm": 0.3298701345920563,
      "learning_rate": 7.497116493656286e-06,
      "loss": 1.107,
      "step": 65
    },
    {
      "epoch": 0.0040378403322565756,
      "grad_norm": 0.3114672005176544,
      "learning_rate": 8.073817762399077e-06,
      "loss": 1.0677,
      "step": 70
    },
    {
      "epoch": 0.0043262574988463314,
      "grad_norm": 0.3159383535385132,
      "learning_rate": 8.650519031141868e-06,
      "loss": 1.0959,
      "step": 75
    },
    {
      "epoch": 0.0046146746654360865,
      "grad_norm": 0.2858622074127197,
      "learning_rate": 9.227220299884661e-06,
      "loss": 1.0435,
      "step": 80
    },
    {
      "epoch": 0.004903091832025842,
      "grad_norm": 0.3337515890598297,
      "learning_rate": 9.803921568627451e-06,
      "loss": 0.9889,
      "step": 85
    },
    {
      "epoch": 0.005191508998615597,
      "grad_norm": 0.3027825951576233,
      "learning_rate": 1.0380622837370241e-05,
      "loss": 1.1145,
      "step": 90
    },
    {
      "epoch": 0.005479926165205353,
      "grad_norm": 0.34131115674972534,
      "learning_rate": 1.0957324106113035e-05,
      "loss": 1.0596,
      "step": 95
    },
    {
      "epoch": 0.005768343331795108,
      "grad_norm": 0.3263566792011261,
      "learning_rate": 1.1534025374855825e-05,
      "loss": 0.9887,
      "step": 100
    },
    {
      "epoch": 0.006056760498384864,
      "grad_norm": 0.325528085231781,
      "learning_rate": 1.2110726643598615e-05,
      "loss": 1.0143,
      "step": 105
    },
    {
      "epoch": 0.006345177664974619,
      "grad_norm": 0.3773256242275238,
      "learning_rate": 1.2687427912341407e-05,
      "loss": 1.0,
      "step": 110
    },
    {
      "epoch": 0.006633594831564375,
      "grad_norm": 0.2968287765979767,
      "learning_rate": 1.3264129181084197e-05,
      "loss": 0.9572,
      "step": 115
    },
    {
      "epoch": 0.00692201199815413,
      "grad_norm": 0.29874077439308167,
      "learning_rate": 1.384083044982699e-05,
      "loss": 1.0344,
      "step": 120
    },
    {
      "epoch": 0.007210429164743885,
      "grad_norm": 0.3251142203807831,
      "learning_rate": 1.4417531718569783e-05,
      "loss": 1.0183,
      "step": 125
    },
    {
      "epoch": 0.007498846331333641,
      "grad_norm": 0.29589974880218506,
      "learning_rate": 1.4994232987312573e-05,
      "loss": 1.047,
      "step": 130
    },
    {
      "epoch": 0.007787263497923396,
      "grad_norm": 0.3242173194885254,
      "learning_rate": 1.5570934256055363e-05,
      "loss": 1.0461,
      "step": 135
    },
    {
      "epoch": 0.008075680664513151,
      "grad_norm": 0.31147414445877075,
      "learning_rate": 1.6147635524798155e-05,
      "loss": 1.047,
      "step": 140
    },
    {
      "epoch": 0.008364097831102908,
      "grad_norm": 0.31779709458351135,
      "learning_rate": 1.6724336793540947e-05,
      "loss": 1.0784,
      "step": 145
    },
    {
      "epoch": 0.008652514997692663,
      "grad_norm": 0.3391679525375366,
      "learning_rate": 1.7301038062283735e-05,
      "loss": 1.0576,
      "step": 150
    },
    {
      "epoch": 0.008940932164282418,
      "grad_norm": 0.3228215277194977,
      "learning_rate": 1.787773933102653e-05,
      "loss": 1.0145,
      "step": 155
    },
    {
      "epoch": 0.009229349330872173,
      "grad_norm": 0.30271971225738525,
      "learning_rate": 1.8454440599769322e-05,
      "loss": 0.9874,
      "step": 160
    },
    {
      "epoch": 0.00951776649746193,
      "grad_norm": 0.30643004179000854,
      "learning_rate": 1.903114186851211e-05,
      "loss": 0.9733,
      "step": 165
    },
    {
      "epoch": 0.009806183664051685,
      "grad_norm": 0.36777183413505554,
      "learning_rate": 1.9607843137254903e-05,
      "loss": 1.0242,
      "step": 170
    },
    {
      "epoch": 0.01009460083064144,
      "grad_norm": 0.3419516086578369,
      "learning_rate": 2.0184544405997694e-05,
      "loss": 1.1211,
      "step": 175
    },
    {
      "epoch": 0.010383017997231195,
      "grad_norm": 0.3591030538082123,
      "learning_rate": 2.0761245674740483e-05,
      "loss": 1.0323,
      "step": 180
    },
    {
      "epoch": 0.01067143516382095,
      "grad_norm": 0.38365352153778076,
      "learning_rate": 2.1337946943483278e-05,
      "loss": 0.9613,
      "step": 185
    },
    {
      "epoch": 0.010959852330410707,
      "grad_norm": 0.3436645269393921,
      "learning_rate": 2.191464821222607e-05,
      "loss": 1.0753,
      "step": 190
    },
    {
      "epoch": 0.011248269497000462,
      "grad_norm": 0.341776967048645,
      "learning_rate": 2.249134948096886e-05,
      "loss": 1.064,
      "step": 195
    },
    {
      "epoch": 0.011536686663590217,
      "grad_norm": 0.38297685980796814,
      "learning_rate": 2.306805074971165e-05,
      "loss": 1.0105,
      "step": 200
    },
    {
      "epoch": 0.011825103830179972,
      "grad_norm": 0.3430030643939972,
      "learning_rate": 2.3644752018454442e-05,
      "loss": 1.0103,
      "step": 205
    },
    {
      "epoch": 0.012113520996769728,
      "grad_norm": 0.3319534361362457,
      "learning_rate": 2.422145328719723e-05,
      "loss": 1.0671,
      "step": 210
    },
    {
      "epoch": 0.012401938163359483,
      "grad_norm": 0.3615305423736572,
      "learning_rate": 2.4798154555940022e-05,
      "loss": 0.9236,
      "step": 215
    },
    {
      "epoch": 0.012690355329949238,
      "grad_norm": 0.4457886517047882,
      "learning_rate": 2.5374855824682814e-05,
      "loss": 1.0461,
      "step": 220
    },
    {
      "epoch": 0.012978772496538993,
      "grad_norm": 0.7715578675270081,
      "learning_rate": 2.5951557093425606e-05,
      "loss": 1.0131,
      "step": 225
    },
    {
      "epoch": 0.01326718966312875,
      "grad_norm": 0.4368738830089569,
      "learning_rate": 2.6528258362168395e-05,
      "loss": 1.0255,
      "step": 230
    },
    {
      "epoch": 0.013555606829718505,
      "grad_norm": 0.38978299498558044,
      "learning_rate": 2.7104959630911193e-05,
      "loss": 0.9773,
      "step": 235
    },
    {
      "epoch": 0.01384402399630826,
      "grad_norm": 0.35930851101875305,
      "learning_rate": 2.768166089965398e-05,
      "loss": 1.0043,
      "step": 240
    },
    {
      "epoch": 0.014132441162898015,
      "grad_norm": 0.37871646881103516,
      "learning_rate": 2.8258362168396773e-05,
      "loss": 1.0082,
      "step": 245
    },
    {
      "epoch": 0.01442085832948777,
      "grad_norm": 0.3493201732635498,
      "learning_rate": 2.8835063437139565e-05,
      "loss": 0.9856,
      "step": 250
    },
    {
      "epoch": 0.014709275496077527,
      "grad_norm": 0.364734947681427,
      "learning_rate": 2.9411764705882354e-05,
      "loss": 1.0379,
      "step": 255
    },
    {
      "epoch": 0.014997692662667282,
      "grad_norm": 0.3644263446331024,
      "learning_rate": 2.9988465974625146e-05,
      "loss": 1.006,
      "step": 260
    },
    {
      "epoch": 0.015286109829257037,
      "grad_norm": 0.3671714961528778,
      "learning_rate": 3.0565167243367934e-05,
      "loss": 0.9499,
      "step": 265
    },
    {
      "epoch": 0.015574526995846792,
      "grad_norm": 0.384804904460907,
      "learning_rate": 3.1141868512110726e-05,
      "loss": 1.0438,
      "step": 270
    },
    {
      "epoch": 0.015862944162436547,
      "grad_norm": 0.36940938234329224,
      "learning_rate": 3.171856978085352e-05,
      "loss": 0.9476,
      "step": 275
    },
    {
      "epoch": 0.016151361329026302,
      "grad_norm": 0.38267725706100464,
      "learning_rate": 3.229527104959631e-05,
      "loss": 0.9689,
      "step": 280
    },
    {
      "epoch": 0.01643977849561606,
      "grad_norm": 0.3497903347015381,
      "learning_rate": 3.28719723183391e-05,
      "loss": 0.9143,
      "step": 285
    },
    {
      "epoch": 0.016728195662205816,
      "grad_norm": 0.3465529978275299,
      "learning_rate": 3.344867358708189e-05,
      "loss": 0.9616,
      "step": 290
    },
    {
      "epoch": 0.01701661282879557,
      "grad_norm": 0.3548210859298706,
      "learning_rate": 3.4025374855824685e-05,
      "loss": 0.9695,
      "step": 295
    },
    {
      "epoch": 0.017305029995385326,
      "grad_norm": 0.3769378662109375,
      "learning_rate": 3.460207612456747e-05,
      "loss": 0.963,
      "step": 300
    },
    {
      "epoch": 0.01759344716197508,
      "grad_norm": 0.3663967549800873,
      "learning_rate": 3.517877739331027e-05,
      "loss": 1.0924,
      "step": 305
    },
    {
      "epoch": 0.017881864328564836,
      "grad_norm": 0.38498544692993164,
      "learning_rate": 3.575547866205306e-05,
      "loss": 1.0481,
      "step": 310
    },
    {
      "epoch": 0.01817028149515459,
      "grad_norm": 0.3465900123119354,
      "learning_rate": 3.633217993079585e-05,
      "loss": 1.0396,
      "step": 315
    },
    {
      "epoch": 0.018458698661744346,
      "grad_norm": 0.3498382270336151,
      "learning_rate": 3.6908881199538644e-05,
      "loss": 1.0005,
      "step": 320
    },
    {
      "epoch": 0.0187471158283341,
      "grad_norm": 0.3397336006164551,
      "learning_rate": 3.748558246828143e-05,
      "loss": 0.9682,
      "step": 325
    },
    {
      "epoch": 0.01903553299492386,
      "grad_norm": 0.33760690689086914,
      "learning_rate": 3.806228373702422e-05,
      "loss": 0.9975,
      "step": 330
    },
    {
      "epoch": 0.019323950161513614,
      "grad_norm": 0.32710301876068115,
      "learning_rate": 3.863898500576701e-05,
      "loss": 0.985,
      "step": 335
    },
    {
      "epoch": 0.01961236732810337,
      "grad_norm": 0.40678462386131287,
      "learning_rate": 3.9215686274509805e-05,
      "loss": 0.9664,
      "step": 340
    },
    {
      "epoch": 0.019900784494693124,
      "grad_norm": 0.38339948654174805,
      "learning_rate": 3.97923875432526e-05,
      "loss": 0.9962,
      "step": 345
    },
    {
      "epoch": 0.02018920166128288,
      "grad_norm": 0.3516389727592468,
      "learning_rate": 4.036908881199539e-05,
      "loss": 0.9385,
      "step": 350
    },
    {
      "epoch": 0.020477618827872635,
      "grad_norm": 0.3469911515712738,
      "learning_rate": 4.094579008073818e-05,
      "loss": 0.9795,
      "step": 355
    },
    {
      "epoch": 0.02076603599446239,
      "grad_norm": 0.351566344499588,
      "learning_rate": 4.1522491349480966e-05,
      "loss": 1.0131,
      "step": 360
    },
    {
      "epoch": 0.021054453161052145,
      "grad_norm": 0.3254294991493225,
      "learning_rate": 4.209919261822376e-05,
      "loss": 0.9784,
      "step": 365
    },
    {
      "epoch": 0.0213428703276419,
      "grad_norm": 0.352115660905838,
      "learning_rate": 4.2675893886966556e-05,
      "loss": 1.0013,
      "step": 370
    },
    {
      "epoch": 0.021631287494231658,
      "grad_norm": 0.35616523027420044,
      "learning_rate": 4.325259515570935e-05,
      "loss": 1.0209,
      "step": 375
    },
    {
      "epoch": 0.021919704660821413,
      "grad_norm": 0.3402170240879059,
      "learning_rate": 4.382929642445214e-05,
      "loss": 0.976,
      "step": 380
    },
    {
      "epoch": 0.022208121827411168,
      "grad_norm": 0.30762144923210144,
      "learning_rate": 4.440599769319493e-05,
      "loss": 0.8757,
      "step": 385
    },
    {
      "epoch": 0.022496538994000923,
      "grad_norm": 0.33472269773483276,
      "learning_rate": 4.498269896193772e-05,
      "loss": 1.0687,
      "step": 390
    },
    {
      "epoch": 0.022784956160590678,
      "grad_norm": 0.3568858802318573,
      "learning_rate": 4.555940023068051e-05,
      "loss": 1.0279,
      "step": 395
    },
    {
      "epoch": 0.023073373327180433,
      "grad_norm": 0.3303862512111664,
      "learning_rate": 4.61361014994233e-05,
      "loss": 1.0061,
      "step": 400
    },
    {
      "epoch": 0.023361790493770188,
      "grad_norm": 0.3586498498916626,
      "learning_rate": 4.671280276816609e-05,
      "loss": 1.0007,
      "step": 405
    },
    {
      "epoch": 0.023650207660359943,
      "grad_norm": 0.34804537892341614,
      "learning_rate": 4.7289504036908884e-05,
      "loss": 0.9913,
      "step": 410
    },
    {
      "epoch": 0.0239386248269497,
      "grad_norm": 0.33361154794692993,
      "learning_rate": 4.7866205305651676e-05,
      "loss": 0.9615,
      "step": 415
    },
    {
      "epoch": 0.024227041993539457,
      "grad_norm": 0.30743229389190674,
      "learning_rate": 4.844290657439446e-05,
      "loss": 1.0062,
      "step": 420
    },
    {
      "epoch": 0.024515459160129212,
      "grad_norm": 0.3414464294910431,
      "learning_rate": 4.901960784313725e-05,
      "loss": 1.0266,
      "step": 425
    },
    {
      "epoch": 0.024803876326718967,
      "grad_norm": 0.311254620552063,
      "learning_rate": 4.9596309111880045e-05,
      "loss": 0.9525,
      "step": 430
    },
    {
      "epoch": 0.025092293493308722,
      "grad_norm": 0.3211973011493683,
      "learning_rate": 5.017301038062284e-05,
      "loss": 1.0204,
      "step": 435
    },
    {
      "epoch": 0.025380710659898477,
      "grad_norm": 0.32264503836631775,
      "learning_rate": 5.074971164936563e-05,
      "loss": 0.9187,
      "step": 440
    },
    {
      "epoch": 0.025669127826488232,
      "grad_norm": 0.3149093985557556,
      "learning_rate": 5.132641291810843e-05,
      "loss": 1.0324,
      "step": 445
    },
    {
      "epoch": 0.025957544993077987,
      "grad_norm": 0.31910112500190735,
      "learning_rate": 5.190311418685121e-05,
      "loss": 0.9924,
      "step": 450
    },
    {
      "epoch": 0.026245962159667742,
      "grad_norm": 0.329057514667511,
      "learning_rate": 5.2479815455594004e-05,
      "loss": 1.0235,
      "step": 455
    },
    {
      "epoch": 0.0265343793262575,
      "grad_norm": 0.32927969098091125,
      "learning_rate": 5.305651672433679e-05,
      "loss": 0.9986,
      "step": 460
    },
    {
      "epoch": 0.026822796492847256,
      "grad_norm": 0.30113425850868225,
      "learning_rate": 5.363321799307959e-05,
      "loss": 0.9996,
      "step": 465
    },
    {
      "epoch": 0.02711121365943701,
      "grad_norm": 0.31802427768707275,
      "learning_rate": 5.4209919261822386e-05,
      "loss": 0.903,
      "step": 470
    },
    {
      "epoch": 0.027399630826026766,
      "grad_norm": 0.31492453813552856,
      "learning_rate": 5.478662053056517e-05,
      "loss": 0.9627,
      "step": 475
    },
    {
      "epoch": 0.02768804799261652,
      "grad_norm": 0.32527875900268555,
      "learning_rate": 5.536332179930796e-05,
      "loss": 0.9842,
      "step": 480
    },
    {
      "epoch": 0.027976465159206276,
      "grad_norm": 0.3000083267688751,
      "learning_rate": 5.594002306805075e-05,
      "loss": 0.9275,
      "step": 485
    },
    {
      "epoch": 0.02826488232579603,
      "grad_norm": 0.30580878257751465,
      "learning_rate": 5.651672433679355e-05,
      "loss": 1.0111,
      "step": 490
    },
    {
      "epoch": 0.028553299492385786,
      "grad_norm": 0.3029692769050598,
      "learning_rate": 5.709342560553633e-05,
      "loss": 0.9997,
      "step": 495
    },
    {
      "epoch": 0.02884171665897554,
      "grad_norm": 0.29320913553237915,
      "learning_rate": 5.767012687427913e-05,
      "loss": 0.9728,
      "step": 500
    },
    {
      "epoch": 0.0291301338255653,
      "grad_norm": 0.27277612686157227,
      "learning_rate": 5.8246828143021916e-05,
      "loss": 0.9481,
      "step": 505
    },
    {
      "epoch": 0.029418550992155054,
      "grad_norm": 0.3065517544746399,
      "learning_rate": 5.882352941176471e-05,
      "loss": 1.0068,
      "step": 510
    },
    {
      "epoch": 0.02970696815874481,
      "grad_norm": 0.30595871806144714,
      "learning_rate": 5.940023068050749e-05,
      "loss": 1.0394,
      "step": 515
    },
    {
      "epoch": 0.029995385325334564,
      "grad_norm": 0.2905437648296356,
      "learning_rate": 5.997693194925029e-05,
      "loss": 0.8914,
      "step": 520
    },
    {
      "epoch": 0.03028380249192432,
      "grad_norm": 0.30169710516929626,
      "learning_rate": 6.0553633217993076e-05,
      "loss": 1.0714,
      "step": 525
    },
    {
      "epoch": 0.030572219658514074,
      "grad_norm": 0.30245259404182434,
      "learning_rate": 6.113033448673587e-05,
      "loss": 0.9748,
      "step": 530
    },
    {
      "epoch": 0.03086063682510383,
      "grad_norm": 0.31071239709854126,
      "learning_rate": 6.170703575547867e-05,
      "loss": 1.0307,
      "step": 535
    },
    {
      "epoch": 0.031149053991693584,
      "grad_norm": 0.301554799079895,
      "learning_rate": 6.228373702422145e-05,
      "loss": 0.9904,
      "step": 540
    },
    {
      "epoch": 0.03143747115828334,
      "grad_norm": 0.29832157492637634,
      "learning_rate": 6.286043829296425e-05,
      "loss": 0.965,
      "step": 545
    },
    {
      "epoch": 0.031725888324873094,
      "grad_norm": 0.2960033118724823,
      "learning_rate": 6.343713956170704e-05,
      "loss": 0.9661,
      "step": 550
    },
    {
      "epoch": 0.03201430549146285,
      "grad_norm": 0.2793910503387451,
      "learning_rate": 6.401384083044983e-05,
      "loss": 0.9691,
      "step": 555
    },
    {
      "epoch": 0.032302722658052604,
      "grad_norm": 0.2931232750415802,
      "learning_rate": 6.459054209919262e-05,
      "loss": 1.0152,
      "step": 560
    },
    {
      "epoch": 0.03259113982464236,
      "grad_norm": 0.29276397824287415,
      "learning_rate": 6.516724336793542e-05,
      "loss": 0.9644,
      "step": 565
    },
    {
      "epoch": 0.03287955699123212,
      "grad_norm": 0.2859160304069519,
      "learning_rate": 6.57439446366782e-05,
      "loss": 0.8926,
      "step": 570
    },
    {
      "epoch": 0.033167974157821876,
      "grad_norm": 0.2981337308883667,
      "learning_rate": 6.6320645905421e-05,
      "loss": 0.9805,
      "step": 575
    },
    {
      "epoch": 0.03345639132441163,
      "grad_norm": 0.28318145871162415,
      "learning_rate": 6.689734717416379e-05,
      "loss": 0.9828,
      "step": 580
    },
    {
      "epoch": 0.033744808491001387,
      "grad_norm": 0.2922738194465637,
      "learning_rate": 6.747404844290659e-05,
      "loss": 0.9495,
      "step": 585
    },
    {
      "epoch": 0.03403322565759114,
      "grad_norm": 0.3307567536830902,
      "learning_rate": 6.805074971164937e-05,
      "loss": 0.975,
      "step": 590
    },
    {
      "epoch": 0.0343216428241809,
      "grad_norm": 0.2792339622974396,
      "learning_rate": 6.862745098039216e-05,
      "loss": 1.0021,
      "step": 595
    },
    {
      "epoch": 0.03461005999077065,
      "grad_norm": 0.26365357637405396,
      "learning_rate": 6.920415224913494e-05,
      "loss": 1.0316,
      "step": 600
    },
    {
      "epoch": 0.03489847715736041,
      "grad_norm": 0.285918265581131,
      "learning_rate": 6.978085351787774e-05,
      "loss": 1.0025,
      "step": 605
    },
    {
      "epoch": 0.03518689432395016,
      "grad_norm": 0.290382444858551,
      "learning_rate": 7.035755478662054e-05,
      "loss": 1.0198,
      "step": 610
    },
    {
      "epoch": 0.03547531149053992,
      "grad_norm": 0.2909998595714569,
      "learning_rate": 7.093425605536332e-05,
      "loss": 1.0522,
      "step": 615
    },
    {
      "epoch": 0.03576372865712967,
      "grad_norm": 0.2691628038883209,
      "learning_rate": 7.151095732410612e-05,
      "loss": 1.0285,
      "step": 620
    },
    {
      "epoch": 0.03605214582371943,
      "grad_norm": 0.2793739140033722,
      "learning_rate": 7.20876585928489e-05,
      "loss": 0.9431,
      "step": 625
    },
    {
      "epoch": 0.03634056299030918,
      "grad_norm": 0.28252139687538147,
      "learning_rate": 7.26643598615917e-05,
      "loss": 0.954,
      "step": 630
    },
    {
      "epoch": 0.03662898015689894,
      "grad_norm": 0.2551520764827728,
      "learning_rate": 7.324106113033449e-05,
      "loss": 0.9477,
      "step": 635
    },
    {
      "epoch": 0.03691739732348869,
      "grad_norm": 0.2769528925418854,
      "learning_rate": 7.381776239907729e-05,
      "loss": 1.0228,
      "step": 640
    },
    {
      "epoch": 0.03720581449007845,
      "grad_norm": 0.26769739389419556,
      "learning_rate": 7.439446366782007e-05,
      "loss": 0.9844,
      "step": 645
    },
    {
      "epoch": 0.0374942316566682,
      "grad_norm": 0.2822119891643524,
      "learning_rate": 7.497116493656286e-05,
      "loss": 1.0532,
      "step": 650
    },
    {
      "epoch": 0.03778264882325796,
      "grad_norm": 0.2787601053714752,
      "learning_rate": 7.554786620530564e-05,
      "loss": 1.0154,
      "step": 655
    },
    {
      "epoch": 0.03807106598984772,
      "grad_norm": 0.27694109082221985,
      "learning_rate": 7.612456747404844e-05,
      "loss": 0.9775,
      "step": 660
    },
    {
      "epoch": 0.038359483156437474,
      "grad_norm": 0.4112897217273712,
      "learning_rate": 7.670126874279123e-05,
      "loss": 1.0071,
      "step": 665
    },
    {
      "epoch": 0.03864790032302723,
      "grad_norm": 0.26005199551582336,
      "learning_rate": 7.727797001153403e-05,
      "loss": 0.9632,
      "step": 670
    },
    {
      "epoch": 0.038936317489616984,
      "grad_norm": 0.25056615471839905,
      "learning_rate": 7.785467128027682e-05,
      "loss": 0.9773,
      "step": 675
    },
    {
      "epoch": 0.03922473465620674,
      "grad_norm": 0.27164942026138306,
      "learning_rate": 7.843137254901961e-05,
      "loss": 0.9927,
      "step": 680
    },
    {
      "epoch": 0.039513151822796494,
      "grad_norm": 0.26238757371902466,
      "learning_rate": 7.900807381776241e-05,
      "loss": 0.9612,
      "step": 685
    },
    {
      "epoch": 0.03980156898938625,
      "grad_norm": 0.28629186749458313,
      "learning_rate": 7.95847750865052e-05,
      "loss": 0.9579,
      "step": 690
    },
    {
      "epoch": 0.040089986155976004,
      "grad_norm": 0.2650497555732727,
      "learning_rate": 8.016147635524799e-05,
      "loss": 0.9667,
      "step": 695
    },
    {
      "epoch": 0.04037840332256576,
      "grad_norm": 0.26934972405433655,
      "learning_rate": 8.073817762399078e-05,
      "loss": 0.9257,
      "step": 700
    },
    {
      "epoch": 0.040666820489155514,
      "grad_norm": 0.27391955256462097,
      "learning_rate": 8.131487889273358e-05,
      "loss": 1.0725,
      "step": 705
    },
    {
      "epoch": 0.04095523765574527,
      "grad_norm": 0.2905539274215698,
      "learning_rate": 8.189158016147636e-05,
      "loss": 0.9979,
      "step": 710
    },
    {
      "epoch": 0.041243654822335024,
      "grad_norm": 0.26050031185150146,
      "learning_rate": 8.246828143021915e-05,
      "loss": 0.9901,
      "step": 715
    },
    {
      "epoch": 0.04153207198892478,
      "grad_norm": 0.4822568893432617,
      "learning_rate": 8.304498269896193e-05,
      "loss": 0.9753,
      "step": 720
    },
    {
      "epoch": 0.041820489155514534,
      "grad_norm": 0.27065780758857727,
      "learning_rate": 8.362168396770473e-05,
      "loss": 0.961,
      "step": 725
    },
    {
      "epoch": 0.04210890632210429,
      "grad_norm": 0.27039390802383423,
      "learning_rate": 8.419838523644751e-05,
      "loss": 1.0218,
      "step": 730
    },
    {
      "epoch": 0.042397323488694044,
      "grad_norm": 0.267991304397583,
      "learning_rate": 8.477508650519031e-05,
      "loss": 0.8937,
      "step": 735
    },
    {
      "epoch": 0.0426857406552838,
      "grad_norm": 0.2698671519756317,
      "learning_rate": 8.535178777393311e-05,
      "loss": 1.0203,
      "step": 740
    },
    {
      "epoch": 0.04297415782187356,
      "grad_norm": 0.25605538487434387,
      "learning_rate": 8.59284890426759e-05,
      "loss": 1.0398,
      "step": 745
    },
    {
      "epoch": 0.043262574988463316,
      "grad_norm": 0.26644793152809143,
      "learning_rate": 8.65051903114187e-05,
      "loss": 1.0212,
      "step": 750
    },
    {
      "epoch": 0.04355099215505307,
      "grad_norm": 0.2879778742790222,
      "learning_rate": 8.708189158016148e-05,
      "loss": 0.9854,
      "step": 755
    },
    {
      "epoch": 0.043839409321642826,
      "grad_norm": 0.26750192046165466,
      "learning_rate": 8.765859284890428e-05,
      "loss": 1.0168,
      "step": 760
    },
    {
      "epoch": 0.04412782648823258,
      "grad_norm": 0.2743099331855774,
      "learning_rate": 8.823529411764706e-05,
      "loss": 0.9447,
      "step": 765
    },
    {
      "epoch": 0.044416243654822336,
      "grad_norm": 0.27284887433052063,
      "learning_rate": 8.881199538638986e-05,
      "loss": 1.016,
      "step": 770
    },
    {
      "epoch": 0.04470466082141209,
      "grad_norm": 0.26251500844955444,
      "learning_rate": 8.938869665513265e-05,
      "loss": 0.9275,
      "step": 775
    },
    {
      "epoch": 0.044993077988001846,
      "grad_norm": 0.26898619532585144,
      "learning_rate": 8.996539792387543e-05,
      "loss": 0.9258,
      "step": 780
    },
    {
      "epoch": 0.0452814951545916,
      "grad_norm": 0.2636859118938446,
      "learning_rate": 9.054209919261822e-05,
      "loss": 1.1368,
      "step": 785
    },
    {
      "epoch": 0.045569912321181356,
      "grad_norm": 0.25750333070755005,
      "learning_rate": 9.111880046136102e-05,
      "loss": 0.9829,
      "step": 790
    },
    {
      "epoch": 0.04585832948777111,
      "grad_norm": 0.26251962780952454,
      "learning_rate": 9.16955017301038e-05,
      "loss": 1.0722,
      "step": 795
    },
    {
      "epoch": 0.046146746654360866,
      "grad_norm": 0.24186044931411743,
      "learning_rate": 9.22722029988466e-05,
      "loss": 0.9681,
      "step": 800
    },
    {
      "epoch": 0.04643516382095062,
      "grad_norm": 0.2631891965866089,
      "learning_rate": 9.28489042675894e-05,
      "loss": 1.0082,
      "step": 805
    },
    {
      "epoch": 0.046723580987540377,
      "grad_norm": 0.25769105553627014,
      "learning_rate": 9.342560553633218e-05,
      "loss": 0.9419,
      "step": 810
    },
    {
      "epoch": 0.04701199815413013,
      "grad_norm": 0.26983222365379333,
      "learning_rate": 9.400230680507498e-05,
      "loss": 0.9698,
      "step": 815
    },
    {
      "epoch": 0.04730041532071989,
      "grad_norm": 0.268951952457428,
      "learning_rate": 9.457900807381777e-05,
      "loss": 1.0199,
      "step": 820
    },
    {
      "epoch": 0.04758883248730964,
      "grad_norm": 0.2618368864059448,
      "learning_rate": 9.515570934256057e-05,
      "loss": 1.0474,
      "step": 825
    },
    {
      "epoch": 0.0478772496538994,
      "grad_norm": 0.2535788118839264,
      "learning_rate": 9.573241061130335e-05,
      "loss": 1.051,
      "step": 830
    },
    {
      "epoch": 0.04816566682048916,
      "grad_norm": 0.24797338247299194,
      "learning_rate": 9.630911188004614e-05,
      "loss": 0.9787,
      "step": 835
    },
    {
      "epoch": 0.048454083987078914,
      "grad_norm": 0.2542094886302948,
      "learning_rate": 9.688581314878892e-05,
      "loss": 1.0301,
      "step": 840
    },
    {
      "epoch": 0.04874250115366867,
      "grad_norm": 0.34137168526649475,
      "learning_rate": 9.746251441753172e-05,
      "loss": 0.8916,
      "step": 845
    },
    {
      "epoch": 0.049030918320258424,
      "grad_norm": 0.25905948877334595,
      "learning_rate": 9.80392156862745e-05,
      "loss": 1.0086,
      "step": 850
    },
    {
      "epoch": 0.04931933548684818,
      "grad_norm": 0.24208292365074158,
      "learning_rate": 9.86159169550173e-05,
      "loss": 0.962,
      "step": 855
    },
    {
      "epoch": 0.049607752653437934,
      "grad_norm": 0.2500937879085541,
      "learning_rate": 9.919261822376009e-05,
      "loss": 0.983,
      "step": 860
    },
    {
      "epoch": 0.04989616982002769,
      "grad_norm": 0.2481968104839325,
      "learning_rate": 9.976931949250289e-05,
      "loss": 0.9798,
      "step": 865
    },
    {
      "epoch": 0.050184586986617444,
      "grad_norm": 0.25975415110588074,
      "learning_rate": 0.00010034602076124569,
      "loss": 0.9621,
      "step": 870
    },
    {
      "epoch": 0.0504730041532072,
      "grad_norm": 0.25389575958251953,
      "learning_rate": 0.00010092272202998847,
      "loss": 0.9959,
      "step": 875
    },
    {
      "epoch": 0.050761421319796954,
      "grad_norm": 0.26200932264328003,
      "learning_rate": 0.00010149942329873126,
      "loss": 0.9432,
      "step": 880
    },
    {
      "epoch": 0.05104983848638671,
      "grad_norm": 0.25433865189552307,
      "learning_rate": 0.00010207612456747407,
      "loss": 1.0272,
      "step": 885
    },
    {
      "epoch": 0.051338255652976464,
      "grad_norm": 0.29402443766593933,
      "learning_rate": 0.00010265282583621685,
      "loss": 1.018,
      "step": 890
    },
    {
      "epoch": 0.05162667281956622,
      "grad_norm": 0.2625313699245453,
      "learning_rate": 0.00010322952710495964,
      "loss": 1.0326,
      "step": 895
    },
    {
      "epoch": 0.051915089986155974,
      "grad_norm": 0.2682657241821289,
      "learning_rate": 0.00010380622837370242,
      "loss": 1.0215,
      "step": 900
    },
    {
      "epoch": 0.05220350715274573,
      "grad_norm": 0.27114447951316833,
      "learning_rate": 0.00010438292964244522,
      "loss": 0.9736,
      "step": 905
    },
    {
      "epoch": 0.052491924319335484,
      "grad_norm": 0.2469518631696701,
      "learning_rate": 0.00010495963091118801,
      "loss": 0.93,
      "step": 910
    },
    {
      "epoch": 0.05278034148592524,
      "grad_norm": 0.262253999710083,
      "learning_rate": 0.00010553633217993079,
      "loss": 0.9477,
      "step": 915
    },
    {
      "epoch": 0.053068758652515,
      "grad_norm": 0.25354915857315063,
      "learning_rate": 0.00010611303344867358,
      "loss": 0.9926,
      "step": 920
    },
    {
      "epoch": 0.053357175819104756,
      "grad_norm": 0.24856913089752197,
      "learning_rate": 0.00010668973471741639,
      "loss": 0.9726,
      "step": 925
    },
    {
      "epoch": 0.05364559298569451,
      "grad_norm": 0.24939557909965515,
      "learning_rate": 0.00010726643598615918,
      "loss": 0.9575,
      "step": 930
    },
    {
      "epoch": 0.053934010152284266,
      "grad_norm": 0.2722608745098114,
      "learning_rate": 0.00010784313725490196,
      "loss": 1.0017,
      "step": 935
    },
    {
      "epoch": 0.05422242731887402,
      "grad_norm": 0.25203198194503784,
      "learning_rate": 0.00010841983852364477,
      "loss": 0.9141,
      "step": 940
    },
    {
      "epoch": 0.054510844485463776,
      "grad_norm": 0.2586802840232849,
      "learning_rate": 0.00010899653979238756,
      "loss": 1.0066,
      "step": 945
    },
    {
      "epoch": 0.05479926165205353,
      "grad_norm": 0.24033570289611816,
      "learning_rate": 0.00010957324106113034,
      "loss": 1.0113,
      "step": 950
    },
    {
      "epoch": 0.055087678818643286,
      "grad_norm": 0.2373732328414917,
      "learning_rate": 0.00011014994232987313,
      "loss": 1.0172,
      "step": 955
    },
    {
      "epoch": 0.05537609598523304,
      "grad_norm": 0.25045233964920044,
      "learning_rate": 0.00011072664359861593,
      "loss": 0.9548,
      "step": 960
    },
    {
      "epoch": 0.055664513151822796,
      "grad_norm": 0.25307127833366394,
      "learning_rate": 0.00011130334486735871,
      "loss": 0.8803,
      "step": 965
    },
    {
      "epoch": 0.05595293031841255,
      "grad_norm": 0.2580971121788025,
      "learning_rate": 0.0001118800461361015,
      "loss": 1.0257,
      "step": 970
    },
    {
      "epoch": 0.056241347485002306,
      "grad_norm": 0.3492274284362793,
      "learning_rate": 0.00011245674740484428,
      "loss": 0.9915,
      "step": 975
    },
    {
      "epoch": 0.05652976465159206,
      "grad_norm": 0.3969261944293976,
      "learning_rate": 0.0001130334486735871,
      "loss": 0.9871,
      "step": 980
    },
    {
      "epoch": 0.056818181818181816,
      "grad_norm": 0.2512189447879791,
      "learning_rate": 0.00011361014994232988,
      "loss": 0.9999,
      "step": 985
    },
    {
      "epoch": 0.05710659898477157,
      "grad_norm": 0.24583379924297333,
      "learning_rate": 0.00011418685121107266,
      "loss": 1.019,
      "step": 990
    },
    {
      "epoch": 0.057395016151361326,
      "grad_norm": 0.23418952524662018,
      "learning_rate": 0.00011476355247981545,
      "loss": 0.9976,
      "step": 995
    },
    {
      "epoch": 0.05768343331795108,
      "grad_norm": 0.24816179275512695,
      "learning_rate": 0.00011534025374855826,
      "loss": 0.9787,
      "step": 1000
    },
    {
      "epoch": 0.05797185048454084,
      "grad_norm": 0.238878071308136,
      "learning_rate": 0.00011591695501730105,
      "loss": 0.9831,
      "step": 1005
    },
    {
      "epoch": 0.0582602676511306,
      "grad_norm": 0.240176260471344,
      "learning_rate": 0.00011649365628604383,
      "loss": 0.9604,
      "step": 1010
    },
    {
      "epoch": 0.05854868481772035,
      "grad_norm": 0.24366143345832825,
      "learning_rate": 0.00011707035755478663,
      "loss": 1.0633,
      "step": 1015
    },
    {
      "epoch": 0.05883710198431011,
      "grad_norm": 0.24254244565963745,
      "learning_rate": 0.00011764705882352942,
      "loss": 1.0299,
      "step": 1020
    },
    {
      "epoch": 0.05912551915089986,
      "grad_norm": 0.2483944445848465,
      "learning_rate": 0.0001182237600922722,
      "loss": 1.0325,
      "step": 1025
    },
    {
      "epoch": 0.05941393631748962,
      "grad_norm": 0.23639345169067383,
      "learning_rate": 0.00011880046136101499,
      "loss": 0.9192,
      "step": 1030
    },
    {
      "epoch": 0.059702353484079373,
      "grad_norm": 0.26320794224739075,
      "learning_rate": 0.0001193771626297578,
      "loss": 0.973,
      "step": 1035
    },
    {
      "epoch": 0.05999077065066913,
      "grad_norm": 0.26271867752075195,
      "learning_rate": 0.00011995386389850058,
      "loss": 1.0339,
      "step": 1040
    },
    {
      "epoch": 0.060279187817258884,
      "grad_norm": 0.2515929043292999,
      "learning_rate": 0.00012053056516724337,
      "loss": 0.9777,
      "step": 1045
    },
    {
      "epoch": 0.06056760498384864,
      "grad_norm": 0.24450047314167023,
      "learning_rate": 0.00012110726643598615,
      "loss": 0.9781,
      "step": 1050
    },
    {
      "epoch": 0.060856022150438394,
      "grad_norm": 0.247002974152565,
      "learning_rate": 0.00012168396770472896,
      "loss": 0.9742,
      "step": 1055
    },
    {
      "epoch": 0.06114443931702815,
      "grad_norm": 0.22039633989334106,
      "learning_rate": 0.00012226066897347174,
      "loss": 0.9602,
      "step": 1060
    },
    {
      "epoch": 0.061432856483617904,
      "grad_norm": 0.25299662351608276,
      "learning_rate": 0.00012283737024221453,
      "loss": 0.9429,
      "step": 1065
    },
    {
      "epoch": 0.06172127365020766,
      "grad_norm": 0.24021919071674347,
      "learning_rate": 0.00012341407151095733,
      "loss": 1.0543,
      "step": 1070
    },
    {
      "epoch": 0.062009690816797414,
      "grad_norm": 0.2851802408695221,
      "learning_rate": 0.00012399077277970013,
      "loss": 1.0169,
      "step": 1075
    },
    {
      "epoch": 0.06229810798338717,
      "grad_norm": 0.2532206177711487,
      "learning_rate": 0.0001245674740484429,
      "loss": 0.9388,
      "step": 1080
    },
    {
      "epoch": 0.06258652514997692,
      "grad_norm": 0.2355235517024994,
      "learning_rate": 0.0001251441753171857,
      "loss": 0.9283,
      "step": 1085
    },
    {
      "epoch": 0.06287494231656668,
      "grad_norm": 0.2673757076263428,
      "learning_rate": 0.0001257208765859285,
      "loss": 1.0022,
      "step": 1090
    },
    {
      "epoch": 0.06316335948315643,
      "grad_norm": 0.22847038507461548,
      "learning_rate": 0.0001262975778546713,
      "loss": 0.9481,
      "step": 1095
    },
    {
      "epoch": 0.06345177664974619,
      "grad_norm": 0.25772714614868164,
      "learning_rate": 0.00012687427912341407,
      "loss": 0.9909,
      "step": 1100
    },
    {
      "epoch": 0.06374019381633594,
      "grad_norm": 0.238713800907135,
      "learning_rate": 0.00012745098039215687,
      "loss": 0.9379,
      "step": 1105
    },
    {
      "epoch": 0.0640286109829257,
      "grad_norm": 0.24460141360759735,
      "learning_rate": 0.00012802768166089967,
      "loss": 0.9398,
      "step": 1110
    },
    {
      "epoch": 0.06431702814951545,
      "grad_norm": 0.23570501804351807,
      "learning_rate": 0.00012860438292964244,
      "loss": 0.9292,
      "step": 1115
    },
    {
      "epoch": 0.06460544531610521,
      "grad_norm": 0.26408931612968445,
      "learning_rate": 0.00012918108419838524,
      "loss": 1.026,
      "step": 1120
    },
    {
      "epoch": 0.06489386248269496,
      "grad_norm": 0.2372530698776245,
      "learning_rate": 0.00012975778546712804,
      "loss": 0.9906,
      "step": 1125
    },
    {
      "epoch": 0.06518227964928472,
      "grad_norm": 0.2314678579568863,
      "learning_rate": 0.00013033448673587084,
      "loss": 0.9447,
      "step": 1130
    },
    {
      "epoch": 0.06547069681587447,
      "grad_norm": 0.25254136323928833,
      "learning_rate": 0.0001309111880046136,
      "loss": 1.0364,
      "step": 1135
    },
    {
      "epoch": 0.06575911398246424,
      "grad_norm": 0.23922473192214966,
      "learning_rate": 0.0001314878892733564,
      "loss": 1.0091,
      "step": 1140
    },
    {
      "epoch": 0.066047531149054,
      "grad_norm": 0.24500273168087006,
      "learning_rate": 0.0001320645905420992,
      "loss": 0.9951,
      "step": 1145
    },
    {
      "epoch": 0.06633594831564375,
      "grad_norm": 0.23815661668777466,
      "learning_rate": 0.000132641291810842,
      "loss": 1.0065,
      "step": 1150
    },
    {
      "epoch": 0.06662436548223351,
      "grad_norm": 0.26173415780067444,
      "learning_rate": 0.00013321799307958477,
      "loss": 1.0159,
      "step": 1155
    },
    {
      "epoch": 0.06691278264882326,
      "grad_norm": 0.22709496319293976,
      "learning_rate": 0.00013379469434832757,
      "loss": 0.9121,
      "step": 1160
    },
    {
      "epoch": 0.06720119981541302,
      "grad_norm": 0.2595439553260803,
      "learning_rate": 0.00013437139561707037,
      "loss": 1.0136,
      "step": 1165
    },
    {
      "epoch": 0.06748961698200277,
      "grad_norm": 0.23945558071136475,
      "learning_rate": 0.00013494809688581317,
      "loss": 0.9508,
      "step": 1170
    },
    {
      "epoch": 0.06777803414859253,
      "grad_norm": 0.2526959478855133,
      "learning_rate": 0.00013552479815455594,
      "loss": 0.9304,
      "step": 1175
    },
    {
      "epoch": 0.06806645131518228,
      "grad_norm": 0.2385508418083191,
      "learning_rate": 0.00013610149942329874,
      "loss": 1.012,
      "step": 1180
    },
    {
      "epoch": 0.06835486848177204,
      "grad_norm": 0.25558724999427795,
      "learning_rate": 0.00013667820069204154,
      "loss": 1.0289,
      "step": 1185
    },
    {
      "epoch": 0.0686432856483618,
      "grad_norm": 0.26076334714889526,
      "learning_rate": 0.0001372549019607843,
      "loss": 0.9564,
      "step": 1190
    },
    {
      "epoch": 0.06893170281495155,
      "grad_norm": 0.24157829582691193,
      "learning_rate": 0.0001378316032295271,
      "loss": 1.0265,
      "step": 1195
    },
    {
      "epoch": 0.0692201199815413,
      "grad_norm": 0.2505204379558563,
      "learning_rate": 0.00013840830449826988,
      "loss": 0.965,
      "step": 1200
    },
    {
      "epoch": 0.06950853714813106,
      "grad_norm": 0.2583898603916168,
      "learning_rate": 0.0001389850057670127,
      "loss": 1.0161,
      "step": 1205
    },
    {
      "epoch": 0.06979695431472081,
      "grad_norm": 0.24660265445709229,
      "learning_rate": 0.00013956170703575548,
      "loss": 1.0086,
      "step": 1210
    },
    {
      "epoch": 0.07008537148131057,
      "grad_norm": 0.2303483486175537,
      "learning_rate": 0.00014013840830449828,
      "loss": 1.0004,
      "step": 1215
    },
    {
      "epoch": 0.07037378864790032,
      "grad_norm": 0.25441575050354004,
      "learning_rate": 0.00014071510957324108,
      "loss": 1.0218,
      "step": 1220
    },
    {
      "epoch": 0.07066220581449008,
      "grad_norm": 0.2441866099834442,
      "learning_rate": 0.00014129181084198387,
      "loss": 0.9947,
      "step": 1225
    },
    {
      "epoch": 0.07095062298107983,
      "grad_norm": 0.2431473582983017,
      "learning_rate": 0.00014186851211072665,
      "loss": 0.977,
      "step": 1230
    },
    {
      "epoch": 0.07123904014766959,
      "grad_norm": 0.22348998486995697,
      "learning_rate": 0.00014244521337946944,
      "loss": 0.9626,
      "step": 1235
    },
    {
      "epoch": 0.07152745731425934,
      "grad_norm": 0.25038719177246094,
      "learning_rate": 0.00014302191464821224,
      "loss": 1.0234,
      "step": 1240
    },
    {
      "epoch": 0.0718158744808491,
      "grad_norm": 0.24543331563472748,
      "learning_rate": 0.00014359861591695501,
      "loss": 0.9782,
      "step": 1245
    },
    {
      "epoch": 0.07210429164743885,
      "grad_norm": 0.2646369934082031,
      "learning_rate": 0.0001441753171856978,
      "loss": 1.0049,
      "step": 1250
    },
    {
      "epoch": 0.07239270881402861,
      "grad_norm": 0.24707183241844177,
      "learning_rate": 0.00014475201845444058,
      "loss": 1.0426,
      "step": 1255
    },
    {
      "epoch": 0.07268112598061836,
      "grad_norm": 0.24609191715717316,
      "learning_rate": 0.0001453287197231834,
      "loss": 0.9978,
      "step": 1260
    },
    {
      "epoch": 0.07296954314720812,
      "grad_norm": 0.2498229593038559,
      "learning_rate": 0.00014590542099192618,
      "loss": 1.0299,
      "step": 1265
    },
    {
      "epoch": 0.07325796031379787,
      "grad_norm": 0.24294817447662354,
      "learning_rate": 0.00014648212226066898,
      "loss": 0.9387,
      "step": 1270
    },
    {
      "epoch": 0.07354637748038763,
      "grad_norm": 0.22789110243320465,
      "learning_rate": 0.00014705882352941178,
      "loss": 0.9859,
      "step": 1275
    },
    {
      "epoch": 0.07383479464697738,
      "grad_norm": 0.2392035871744156,
      "learning_rate": 0.00014763552479815458,
      "loss": 0.9821,
      "step": 1280
    },
    {
      "epoch": 0.07412321181356714,
      "grad_norm": 0.24138358235359192,
      "learning_rate": 0.00014821222606689735,
      "loss": 0.9644,
      "step": 1285
    },
    {
      "epoch": 0.0744116289801569,
      "grad_norm": 0.2574746012687683,
      "learning_rate": 0.00014878892733564015,
      "loss": 0.9894,
      "step": 1290
    },
    {
      "epoch": 0.07470004614674665,
      "grad_norm": 0.2577558755874634,
      "learning_rate": 0.00014936562860438295,
      "loss": 1.0049,
      "step": 1295
    },
    {
      "epoch": 0.0749884633133364,
      "grad_norm": 0.2638446092605591,
      "learning_rate": 0.00014994232987312572,
      "loss": 0.9866,
      "step": 1300
    },
    {
      "epoch": 0.07527688047992616,
      "grad_norm": 0.2279583364725113,
      "learning_rate": 0.00015051903114186852,
      "loss": 0.9697,
      "step": 1305
    },
    {
      "epoch": 0.07556529764651591,
      "grad_norm": 0.25132206082344055,
      "learning_rate": 0.0001510957324106113,
      "loss": 0.9654,
      "step": 1310
    },
    {
      "epoch": 0.07585371481310568,
      "grad_norm": 0.24250829219818115,
      "learning_rate": 0.00015167243367935411,
      "loss": 0.9594,
      "step": 1315
    },
    {
      "epoch": 0.07614213197969544,
      "grad_norm": 0.24679099023342133,
      "learning_rate": 0.00015224913494809689,
      "loss": 0.9514,
      "step": 1320
    },
    {
      "epoch": 0.07643054914628519,
      "grad_norm": 0.26517555117607117,
      "learning_rate": 0.00015282583621683968,
      "loss": 0.9575,
      "step": 1325
    },
    {
      "epoch": 0.07671896631287495,
      "grad_norm": 0.23794426023960114,
      "learning_rate": 0.00015340253748558246,
      "loss": 0.9982,
      "step": 1330
    },
    {
      "epoch": 0.0770073834794647,
      "grad_norm": 0.2488831728696823,
      "learning_rate": 0.00015397923875432528,
      "loss": 0.9454,
      "step": 1335
    },
    {
      "epoch": 0.07729580064605446,
      "grad_norm": 0.26782914996147156,
      "learning_rate": 0.00015455594002306805,
      "loss": 1.0235,
      "step": 1340
    },
    {
      "epoch": 0.07758421781264421,
      "grad_norm": 0.25021234154701233,
      "learning_rate": 0.00015513264129181085,
      "loss": 0.9243,
      "step": 1345
    },
    {
      "epoch": 0.07787263497923397,
      "grad_norm": 0.2522822618484497,
      "learning_rate": 0.00015570934256055365,
      "loss": 1.0428,
      "step": 1350
    },
    {
      "epoch": 0.07816105214582372,
      "grad_norm": 0.27001574635505676,
      "learning_rate": 0.00015628604382929645,
      "loss": 0.9755,
      "step": 1355
    },
    {
      "epoch": 0.07844946931241348,
      "grad_norm": 0.24071645736694336,
      "learning_rate": 0.00015686274509803922,
      "loss": 1.013,
      "step": 1360
    },
    {
      "epoch": 0.07873788647900323,
      "grad_norm": 0.24303098022937775,
      "learning_rate": 0.00015743944636678202,
      "loss": 0.9862,
      "step": 1365
    },
    {
      "epoch": 0.07902630364559299,
      "grad_norm": 0.2542005479335785,
      "learning_rate": 0.00015801614763552482,
      "loss": 0.9709,
      "step": 1370
    },
    {
      "epoch": 0.07931472081218274,
      "grad_norm": 0.2585870325565338,
      "learning_rate": 0.0001585928489042676,
      "loss": 1.0085,
      "step": 1375
    },
    {
      "epoch": 0.0796031379787725,
      "grad_norm": 0.2629243731498718,
      "learning_rate": 0.0001591695501730104,
      "loss": 0.985,
      "step": 1380
    },
    {
      "epoch": 0.07989155514536225,
      "grad_norm": 0.24008338153362274,
      "learning_rate": 0.00015974625144175316,
      "loss": 0.9839,
      "step": 1385
    },
    {
      "epoch": 0.08017997231195201,
      "grad_norm": 0.2442033439874649,
      "learning_rate": 0.00016032295271049598,
      "loss": 0.8798,
      "step": 1390
    },
    {
      "epoch": 0.08046838947854176,
      "grad_norm": 0.250362366437912,
      "learning_rate": 0.00016089965397923876,
      "loss": 0.9301,
      "step": 1395
    },
    {
      "epoch": 0.08075680664513152,
      "grad_norm": 0.2477293759584427,
      "learning_rate": 0.00016147635524798155,
      "loss": 0.9561,
      "step": 1400
    },
    {
      "epoch": 0.08104522381172127,
      "grad_norm": 0.23329582810401917,
      "learning_rate": 0.00016205305651672435,
      "loss": 0.9505,
      "step": 1405
    },
    {
      "epoch": 0.08133364097831103,
      "grad_norm": 0.24549901485443115,
      "learning_rate": 0.00016262975778546715,
      "loss": 1.0284,
      "step": 1410
    },
    {
      "epoch": 0.08162205814490078,
      "grad_norm": 0.24419653415679932,
      "learning_rate": 0.00016320645905420992,
      "loss": 0.9114,
      "step": 1415
    },
    {
      "epoch": 0.08191047531149054,
      "grad_norm": 0.24551044404506683,
      "learning_rate": 0.00016378316032295272,
      "loss": 0.9574,
      "step": 1420
    },
    {
      "epoch": 0.0821988924780803,
      "grad_norm": 0.29641515016555786,
      "learning_rate": 0.00016435986159169552,
      "loss": 0.9821,
      "step": 1425
    },
    {
      "epoch": 0.08248730964467005,
      "grad_norm": 0.24953129887580872,
      "learning_rate": 0.0001649365628604383,
      "loss": 0.9966,
      "step": 1430
    },
    {
      "epoch": 0.0827757268112598,
      "grad_norm": 0.25181591510772705,
      "learning_rate": 0.0001655132641291811,
      "loss": 1.023,
      "step": 1435
    },
    {
      "epoch": 0.08306414397784956,
      "grad_norm": 0.2478877305984497,
      "learning_rate": 0.00016608996539792386,
      "loss": 0.9762,
      "step": 1440
    },
    {
      "epoch": 0.08335256114443931,
      "grad_norm": 0.24414442479610443,
      "learning_rate": 0.0001666666666666667,
      "loss": 0.9339,
      "step": 1445
    },
    {
      "epoch": 0.08364097831102907,
      "grad_norm": 0.24295495450496674,
      "learning_rate": 0.00016724336793540946,
      "loss": 1.0144,
      "step": 1450
    },
    {
      "epoch": 0.08392939547761882,
      "grad_norm": 0.25291165709495544,
      "learning_rate": 0.00016782006920415226,
      "loss": 0.916,
      "step": 1455
    },
    {
      "epoch": 0.08421781264420858,
      "grad_norm": 0.23744194209575653,
      "learning_rate": 0.00016839677047289503,
      "loss": 0.952,
      "step": 1460
    },
    {
      "epoch": 0.08450622981079833,
      "grad_norm": 0.24316394329071045,
      "learning_rate": 0.00016897347174163786,
      "loss": 0.9725,
      "step": 1465
    },
    {
      "epoch": 0.08479464697738809,
      "grad_norm": 0.23748493194580078,
      "learning_rate": 0.00016955017301038063,
      "loss": 0.9831,
      "step": 1470
    },
    {
      "epoch": 0.08508306414397784,
      "grad_norm": 0.25356602668762207,
      "learning_rate": 0.00017012687427912343,
      "loss": 0.9632,
      "step": 1475
    },
    {
      "epoch": 0.0853714813105676,
      "grad_norm": 0.24660415947437286,
      "learning_rate": 0.00017070357554786622,
      "loss": 0.9319,
      "step": 1480
    },
    {
      "epoch": 0.08565989847715735,
      "grad_norm": 0.25426214933395386,
      "learning_rate": 0.000171280276816609,
      "loss": 1.0245,
      "step": 1485
    },
    {
      "epoch": 0.08594831564374712,
      "grad_norm": 0.23765899240970612,
      "learning_rate": 0.0001718569780853518,
      "loss": 0.9202,
      "step": 1490
    },
    {
      "epoch": 0.08623673281033688,
      "grad_norm": 0.24204228818416595,
      "learning_rate": 0.00017243367935409457,
      "loss": 0.9974,
      "step": 1495
    },
    {
      "epoch": 0.08652514997692663,
      "grad_norm": 0.23034018278121948,
      "learning_rate": 0.0001730103806228374,
      "loss": 0.9251,
      "step": 1500
    },
    {
      "epoch": 0.08681356714351639,
      "grad_norm": 0.24768561124801636,
      "learning_rate": 0.00017358708189158016,
      "loss": 0.957,
      "step": 1505
    },
    {
      "epoch": 0.08710198431010614,
      "grad_norm": 0.24252378940582275,
      "learning_rate": 0.00017416378316032296,
      "loss": 0.9347,
      "step": 1510
    },
    {
      "epoch": 0.0873904014766959,
      "grad_norm": 0.24422116577625275,
      "learning_rate": 0.00017474048442906573,
      "loss": 0.956,
      "step": 1515
    },
    {
      "epoch": 0.08767881864328565,
      "grad_norm": 0.25470009446144104,
      "learning_rate": 0.00017531718569780856,
      "loss": 0.9355,
      "step": 1520
    },
    {
      "epoch": 0.08796723580987541,
      "grad_norm": 0.240427628159523,
      "learning_rate": 0.00017589388696655133,
      "loss": 1.0345,
      "step": 1525
    },
    {
      "epoch": 0.08825565297646516,
      "grad_norm": 0.2679055631160736,
      "learning_rate": 0.00017647058823529413,
      "loss": 1.0215,
      "step": 1530
    },
    {
      "epoch": 0.08854407014305492,
      "grad_norm": 0.2706778943538666,
      "learning_rate": 0.00017704728950403693,
      "loss": 0.9951,
      "step": 1535
    },
    {
      "epoch": 0.08883248730964467,
      "grad_norm": 0.24882011115550995,
      "learning_rate": 0.00017762399077277973,
      "loss": 1.0267,
      "step": 1540
    },
    {
      "epoch": 0.08912090447623443,
      "grad_norm": 0.24369126558303833,
      "learning_rate": 0.0001782006920415225,
      "loss": 1.046,
      "step": 1545
    },
    {
      "epoch": 0.08940932164282418,
      "grad_norm": 0.27035751938819885,
      "learning_rate": 0.0001787773933102653,
      "loss": 1.0522,
      "step": 1550
    },
    {
      "epoch": 0.08969773880941394,
      "grad_norm": 0.25707873702049255,
      "learning_rate": 0.0001793540945790081,
      "loss": 0.9507,
      "step": 1555
    },
    {
      "epoch": 0.08998615597600369,
      "grad_norm": 0.26456013321876526,
      "learning_rate": 0.00017993079584775087,
      "loss": 0.9941,
      "step": 1560
    },
    {
      "epoch": 0.09027457314259345,
      "grad_norm": 0.26937803626060486,
      "learning_rate": 0.00018050749711649367,
      "loss": 1.0267,
      "step": 1565
    },
    {
      "epoch": 0.0905629903091832,
      "grad_norm": 0.2615615725517273,
      "learning_rate": 0.00018108419838523644,
      "loss": 0.984,
      "step": 1570
    },
    {
      "epoch": 0.09085140747577296,
      "grad_norm": 0.23720060288906097,
      "learning_rate": 0.00018166089965397926,
      "loss": 0.9401,
      "step": 1575
    },
    {
      "epoch": 0.09113982464236271,
      "grad_norm": 0.24640457332134247,
      "learning_rate": 0.00018223760092272203,
      "loss": 1.086,
      "step": 1580
    },
    {
      "epoch": 0.09142824180895247,
      "grad_norm": 0.2521013915538788,
      "learning_rate": 0.00018281430219146483,
      "loss": 0.9619,
      "step": 1585
    },
    {
      "epoch": 0.09171665897554222,
      "grad_norm": 0.23948408663272858,
      "learning_rate": 0.0001833910034602076,
      "loss": 0.9835,
      "step": 1590
    },
    {
      "epoch": 0.09200507614213198,
      "grad_norm": 0.25325456261634827,
      "learning_rate": 0.00018396770472895043,
      "loss": 1.0552,
      "step": 1595
    },
    {
      "epoch": 0.09229349330872173,
      "grad_norm": 0.24731087684631348,
      "learning_rate": 0.0001845444059976932,
      "loss": 0.9253,
      "step": 1600
    },
    {
      "epoch": 0.09258191047531149,
      "grad_norm": 0.26164206862449646,
      "learning_rate": 0.000185121107266436,
      "loss": 0.9396,
      "step": 1605
    },
    {
      "epoch": 0.09287032764190124,
      "grad_norm": 0.25318196415901184,
      "learning_rate": 0.0001856978085351788,
      "loss": 0.9431,
      "step": 1610
    },
    {
      "epoch": 0.093158744808491,
      "grad_norm": 0.2592536211013794,
      "learning_rate": 0.00018627450980392157,
      "loss": 0.9955,
      "step": 1615
    },
    {
      "epoch": 0.09344716197508075,
      "grad_norm": 0.2497592270374298,
      "learning_rate": 0.00018685121107266437,
      "loss": 0.9844,
      "step": 1620
    },
    {
      "epoch": 0.09373557914167051,
      "grad_norm": 0.2648375630378723,
      "learning_rate": 0.00018742791234140714,
      "loss": 0.9655,
      "step": 1625
    },
    {
      "epoch": 0.09402399630826026,
      "grad_norm": 0.25172188878059387,
      "learning_rate": 0.00018800461361014997,
      "loss": 1.0322,
      "step": 1630
    },
    {
      "epoch": 0.09431241347485002,
      "grad_norm": 0.24844340980052948,
      "learning_rate": 0.00018858131487889274,
      "loss": 0.9636,
      "step": 1635
    },
    {
      "epoch": 0.09460083064143977,
      "grad_norm": 0.25023674964904785,
      "learning_rate": 0.00018915801614763554,
      "loss": 0.9601,
      "step": 1640
    },
    {
      "epoch": 0.09488924780802953,
      "grad_norm": 0.2417484074831009,
      "learning_rate": 0.0001897347174163783,
      "loss": 0.9748,
      "step": 1645
    },
    {
      "epoch": 0.09517766497461928,
      "grad_norm": 0.2597021162509918,
      "learning_rate": 0.00019031141868512113,
      "loss": 0.9672,
      "step": 1650
    },
    {
      "epoch": 0.09546608214120904,
      "grad_norm": 0.25209182500839233,
      "learning_rate": 0.0001908881199538639,
      "loss": 0.9766,
      "step": 1655
    },
    {
      "epoch": 0.0957544993077988,
      "grad_norm": 0.2704354226589203,
      "learning_rate": 0.0001914648212226067,
      "loss": 0.9658,
      "step": 1660
    },
    {
      "epoch": 0.09604291647438856,
      "grad_norm": 0.2553963363170624,
      "learning_rate": 0.00019204152249134948,
      "loss": 0.972,
      "step": 1665
    },
    {
      "epoch": 0.09633133364097832,
      "grad_norm": 0.25183454155921936,
      "learning_rate": 0.00019261822376009227,
      "loss": 0.9312,
      "step": 1670
    },
    {
      "epoch": 0.09661975080756807,
      "grad_norm": 0.27272742986679077,
      "learning_rate": 0.00019319492502883507,
      "loss": 1.0585,
      "step": 1675
    },
    {
      "epoch": 0.09690816797415783,
      "grad_norm": 0.25347381830215454,
      "learning_rate": 0.00019377162629757784,
      "loss": 1.0013,
      "step": 1680
    },
    {
      "epoch": 0.09719658514074758,
      "grad_norm": 0.26412150263786316,
      "learning_rate": 0.00019434832756632067,
      "loss": 0.9175,
      "step": 1685
    },
    {
      "epoch": 0.09748500230733734,
      "grad_norm": 0.2841266393661499,
      "learning_rate": 0.00019492502883506344,
      "loss": 0.8907,
      "step": 1690
    },
    {
      "epoch": 0.09777341947392709,
      "grad_norm": 0.2843879163265228,
      "learning_rate": 0.00019550173010380624,
      "loss": 0.9952,
      "step": 1695
    },
    {
      "epoch": 0.09806183664051685,
      "grad_norm": 0.24573901295661926,
      "learning_rate": 0.000196078431372549,
      "loss": 1.0093,
      "step": 1700
    },
    {
      "epoch": 0.0983502538071066,
      "grad_norm": 0.25996410846710205,
      "learning_rate": 0.00019665513264129184,
      "loss": 1.0403,
      "step": 1705
    },
    {
      "epoch": 0.09863867097369636,
      "grad_norm": 0.26386144757270813,
      "learning_rate": 0.0001972318339100346,
      "loss": 1.0211,
      "step": 1710
    },
    {
      "epoch": 0.09892708814028611,
      "grad_norm": 0.26584669947624207,
      "learning_rate": 0.0001978085351787774,
      "loss": 0.9985,
      "step": 1715
    },
    {
      "epoch": 0.09921550530687587,
      "grad_norm": 0.25835517048835754,
      "learning_rate": 0.00019838523644752018,
      "loss": 0.9615,
      "step": 1720
    },
    {
      "epoch": 0.09950392247346562,
      "grad_norm": 0.2537446618080139,
      "learning_rate": 0.000198961937716263,
      "loss": 0.9851,
      "step": 1725
    },
    {
      "epoch": 0.09979233964005538,
      "grad_norm": 0.2637675702571869,
      "learning_rate": 0.00019953863898500578,
      "loss": 0.9991,
      "step": 1730
    },
    {
      "epoch": 0.10008075680664513,
      "grad_norm": 0.2486466020345688,
      "learning_rate": 0.00019999999797274117,
      "loss": 0.928,
      "step": 1735
    },
    {
      "epoch": 0.10036917397323489,
      "grad_norm": 0.31705260276794434,
      "learning_rate": 0.0001999999270186907,
      "loss": 0.9909,
      "step": 1740
    },
    {
      "epoch": 0.10065759113982464,
      "grad_norm": 0.2822314500808716,
      "learning_rate": 0.0001999997547017808,
      "loss": 0.9688,
      "step": 1745
    },
    {
      "epoch": 0.1009460083064144,
      "grad_norm": 0.2564781606197357,
      "learning_rate": 0.0001999994810221862,
      "loss": 0.9515,
      "step": 1750
    },
    {
      "epoch": 0.10123442547300415,
      "grad_norm": 0.2958817183971405,
      "learning_rate": 0.00019999910598018426,
      "loss": 0.9859,
      "step": 1755
    },
    {
      "epoch": 0.10152284263959391,
      "grad_norm": 0.25060567259788513,
      "learning_rate": 0.00019999862957615513,
      "loss": 1.0043,
      "step": 1760
    },
    {
      "epoch": 0.10181125980618366,
      "grad_norm": 0.2674092650413513,
      "learning_rate": 0.00019999805181058176,
      "loss": 0.9626,
      "step": 1765
    },
    {
      "epoch": 0.10209967697277342,
      "grad_norm": 0.2575248181819916,
      "learning_rate": 0.00019999737268404973,
      "loss": 1.0265,
      "step": 1770
    },
    {
      "epoch": 0.10238809413936317,
      "grad_norm": 0.2554805278778076,
      "learning_rate": 0.00019999659219724749,
      "loss": 0.9661,
      "step": 1775
    },
    {
      "epoch": 0.10267651130595293,
      "grad_norm": 0.26680126786231995,
      "learning_rate": 0.00019999571035096608,
      "loss": 1.0231,
      "step": 1780
    },
    {
      "epoch": 0.10296492847254268,
      "grad_norm": 0.25776219367980957,
      "learning_rate": 0.00019999472714609943,
      "loss": 0.9058,
      "step": 1785
    },
    {
      "epoch": 0.10325334563913244,
      "grad_norm": 0.2542843818664551,
      "learning_rate": 0.00019999364258364413,
      "loss": 0.9773,
      "step": 1790
    },
    {
      "epoch": 0.10354176280572219,
      "grad_norm": 0.2621992826461792,
      "learning_rate": 0.0001999924566646995,
      "loss": 0.9559,
      "step": 1795
    },
    {
      "epoch": 0.10383017997231195,
      "grad_norm": 0.2683923840522766,
      "learning_rate": 0.00019999116939046764,
      "loss": 1.0355,
      "step": 1800
    },
    {
      "epoch": 0.1041185971389017,
      "grad_norm": 0.24701032042503357,
      "learning_rate": 0.0001999897807622534,
      "loss": 1.0906,
      "step": 1805
    },
    {
      "epoch": 0.10440701430549146,
      "grad_norm": 0.25396963953971863,
      "learning_rate": 0.0001999882907814643,
      "loss": 1.0226,
      "step": 1810
    },
    {
      "epoch": 0.10469543147208121,
      "grad_norm": 0.28205832839012146,
      "learning_rate": 0.00019998669944961062,
      "loss": 0.9224,
      "step": 1815
    },
    {
      "epoch": 0.10498384863867097,
      "grad_norm": 0.26078683137893677,
      "learning_rate": 0.0001999850067683054,
      "loss": 0.9427,
      "step": 1820
    },
    {
      "epoch": 0.10527226580526072,
      "grad_norm": 0.25481727719306946,
      "learning_rate": 0.00019998321273926437,
      "loss": 1.0042,
      "step": 1825
    },
    {
      "epoch": 0.10556068297185048,
      "grad_norm": 0.25570574402809143,
      "learning_rate": 0.00019998131736430604,
      "loss": 0.9722,
      "step": 1830
    },
    {
      "epoch": 0.10584910013844025,
      "grad_norm": 0.2734397351741791,
      "learning_rate": 0.00019997932064535158,
      "loss": 1.001,
      "step": 1835
    },
    {
      "epoch": 0.10613751730503,
      "grad_norm": 0.27242162823677063,
      "learning_rate": 0.00019997722258442499,
      "loss": 0.9647,
      "step": 1840
    },
    {
      "epoch": 0.10642593447161976,
      "grad_norm": 0.2732183635234833,
      "learning_rate": 0.00019997502318365286,
      "loss": 0.9697,
      "step": 1845
    },
    {
      "epoch": 0.10671435163820951,
      "grad_norm": 0.26898330450057983,
      "learning_rate": 0.00019997272244526456,
      "loss": 0.9284,
      "step": 1850
    },
    {
      "epoch": 0.10700276880479927,
      "grad_norm": 0.2656812071800232,
      "learning_rate": 0.00019997032037159224,
      "loss": 1.0368,
      "step": 1855
    },
    {
      "epoch": 0.10729118597138902,
      "grad_norm": 0.2728678584098816,
      "learning_rate": 0.00019996781696507069,
      "loss": 1.0147,
      "step": 1860
    },
    {
      "epoch": 0.10757960313797878,
      "grad_norm": 0.2543455958366394,
      "learning_rate": 0.00019996521222823743,
      "loss": 0.954,
      "step": 1865
    },
    {
      "epoch": 0.10786802030456853,
      "grad_norm": 0.27658751606941223,
      "learning_rate": 0.00019996250616373268,
      "loss": 0.9796,
      "step": 1870
    },
    {
      "epoch": 0.10815643747115829,
      "grad_norm": 0.27136722207069397,
      "learning_rate": 0.00019995969877429945,
      "loss": 0.9125,
      "step": 1875
    },
    {
      "epoch": 0.10844485463774804,
      "grad_norm": 0.2712014317512512,
      "learning_rate": 0.0001999567900627833,
      "loss": 1.0053,
      "step": 1880
    },
    {
      "epoch": 0.1087332718043378,
      "grad_norm": 0.2740635573863983,
      "learning_rate": 0.0001999537800321327,
      "loss": 0.9951,
      "step": 1885
    },
    {
      "epoch": 0.10902168897092755,
      "grad_norm": 0.26667481660842896,
      "learning_rate": 0.0001999506686853986,
      "loss": 1.0062,
      "step": 1890
    },
    {
      "epoch": 0.10931010613751731,
      "grad_norm": 0.2604423463344574,
      "learning_rate": 0.0001999474560257348,
      "loss": 0.9852,
      "step": 1895
    },
    {
      "epoch": 0.10959852330410706,
      "grad_norm": 0.27640554308891296,
      "learning_rate": 0.00019994414205639775,
      "loss": 0.959,
      "step": 1900
    },
    {
      "epoch": 0.10988694047069682,
      "grad_norm": 0.25489839911460876,
      "learning_rate": 0.00019994072678074655,
      "loss": 0.9957,
      "step": 1905
    },
    {
      "epoch": 0.11017535763728657,
      "grad_norm": 0.2796529233455658,
      "learning_rate": 0.00019993721020224308,
      "loss": 0.9418,
      "step": 1910
    },
    {
      "epoch": 0.11046377480387633,
      "grad_norm": 0.2622373402118683,
      "learning_rate": 0.00019993359232445176,
      "loss": 0.9573,
      "step": 1915
    },
    {
      "epoch": 0.11075219197046608,
      "grad_norm": 0.2514156997203827,
      "learning_rate": 0.0001999298731510399,
      "loss": 0.9373,
      "step": 1920
    },
    {
      "epoch": 0.11104060913705584,
      "grad_norm": 0.2672327160835266,
      "learning_rate": 0.00019992605268577727,
      "loss": 0.9097,
      "step": 1925
    },
    {
      "epoch": 0.11132902630364559,
      "grad_norm": 0.26772674918174744,
      "learning_rate": 0.00019992213093253643,
      "loss": 1.0108,
      "step": 1930
    },
    {
      "epoch": 0.11161744347023535,
      "grad_norm": 0.2462950050830841,
      "learning_rate": 0.00019991810789529257,
      "loss": 1.0006,
      "step": 1935
    },
    {
      "epoch": 0.1119058606368251,
      "grad_norm": 0.26759883761405945,
      "learning_rate": 0.0001999139835781236,
      "loss": 0.9758,
      "step": 1940
    },
    {
      "epoch": 0.11219427780341486,
      "grad_norm": 0.2841535806655884,
      "learning_rate": 0.00019990975798521,
      "loss": 1.0408,
      "step": 1945
    },
    {
      "epoch": 0.11248269497000461,
      "grad_norm": 0.2822214365005493,
      "learning_rate": 0.00019990543112083503,
      "loss": 0.9317,
      "step": 1950
    },
    {
      "epoch": 0.11277111213659437,
      "grad_norm": 0.2670351564884186,
      "learning_rate": 0.00019990100298938442,
      "loss": 0.9536,
      "step": 1955
    },
    {
      "epoch": 0.11305952930318412,
      "grad_norm": 0.27470991015434265,
      "learning_rate": 0.00019989647359534672,
      "loss": 1.0404,
      "step": 1960
    },
    {
      "epoch": 0.11334794646977388,
      "grad_norm": 0.2892574071884155,
      "learning_rate": 0.00019989184294331308,
      "loss": 0.9912,
      "step": 1965
    },
    {
      "epoch": 0.11363636363636363,
      "grad_norm": 0.28786224126815796,
      "learning_rate": 0.0001998871110379772,
      "loss": 1.048,
      "step": 1970
    },
    {
      "epoch": 0.11392478080295339,
      "grad_norm": 0.2730783522129059,
      "learning_rate": 0.0001998822778841355,
      "loss": 1.0148,
      "step": 1975
    },
    {
      "epoch": 0.11421319796954314,
      "grad_norm": 0.25908493995666504,
      "learning_rate": 0.00019987734348668706,
      "loss": 0.9237,
      "step": 1980
    },
    {
      "epoch": 0.1145016151361329,
      "grad_norm": 0.2924931049346924,
      "learning_rate": 0.00019987230785063344,
      "loss": 1.0084,
      "step": 1985
    },
    {
      "epoch": 0.11479003230272265,
      "grad_norm": 0.2685001790523529,
      "learning_rate": 0.00019986717098107896,
      "loss": 0.977,
      "step": 1990
    },
    {
      "epoch": 0.11507844946931241,
      "grad_norm": 0.26407670974731445,
      "learning_rate": 0.0001998619328832305,
      "loss": 1.0132,
      "step": 1995
    },
    {
      "epoch": 0.11536686663590216,
      "grad_norm": 0.2581160366535187,
      "learning_rate": 0.00019985659356239758,
      "loss": 1.0553,
      "step": 2000
    },
    {
      "epoch": 0.11565528380249192,
      "grad_norm": 0.2579261064529419,
      "learning_rate": 0.0001998511530239922,
      "loss": 0.992,
      "step": 2005
    },
    {
      "epoch": 0.11594370096908169,
      "grad_norm": 0.27874529361724854,
      "learning_rate": 0.00019984561127352914,
      "loss": 1.0208,
      "step": 2010
    },
    {
      "epoch": 0.11623211813567144,
      "grad_norm": 0.2448752522468567,
      "learning_rate": 0.00019983996831662566,
      "loss": 1.0272,
      "step": 2015
    },
    {
      "epoch": 0.1165205353022612,
      "grad_norm": 0.2515913248062134,
      "learning_rate": 0.00019983422415900158,
      "loss": 1.0251,
      "step": 2020
    },
    {
      "epoch": 0.11680895246885095,
      "grad_norm": 0.2612157464027405,
      "learning_rate": 0.0001998283788064794,
      "loss": 0.9298,
      "step": 2025
    },
    {
      "epoch": 0.1170973696354407,
      "grad_norm": 0.2781950533390045,
      "learning_rate": 0.00019982243226498411,
      "loss": 1.0191,
      "step": 2030
    },
    {
      "epoch": 0.11738578680203046,
      "grad_norm": 0.27393776178359985,
      "learning_rate": 0.00019981638454054333,
      "loss": 0.8712,
      "step": 2035
    },
    {
      "epoch": 0.11767420396862022,
      "grad_norm": 0.271932452917099,
      "learning_rate": 0.00019981023563928716,
      "loss": 0.9644,
      "step": 2040
    },
    {
      "epoch": 0.11796262113520997,
      "grad_norm": 0.2659457325935364,
      "learning_rate": 0.00019980398556744837,
      "loss": 0.9295,
      "step": 2045
    },
    {
      "epoch": 0.11825103830179973,
      "grad_norm": 0.2813827395439148,
      "learning_rate": 0.00019979763433136216,
      "loss": 0.975,
      "step": 2050
    },
    {
      "epoch": 0.11853945546838948,
      "grad_norm": 0.24046528339385986,
      "learning_rate": 0.00019979118193746637,
      "loss": 0.9836,
      "step": 2055
    },
    {
      "epoch": 0.11882787263497924,
      "grad_norm": 0.27069780230522156,
      "learning_rate": 0.00019978462839230133,
      "loss": 1.0503,
      "step": 2060
    },
    {
      "epoch": 0.11911628980156899,
      "grad_norm": 0.2609676718711853,
      "learning_rate": 0.00019977797370250986,
      "loss": 0.959,
      "step": 2065
    },
    {
      "epoch": 0.11940470696815875,
      "grad_norm": 0.2760465145111084,
      "learning_rate": 0.0001997712178748374,
      "loss": 1.0014,
      "step": 2070
    },
    {
      "epoch": 0.1196931241347485,
      "grad_norm": 0.2539708614349365,
      "learning_rate": 0.00019976436091613184,
      "loss": 1.0215,
      "step": 2075
    },
    {
      "epoch": 0.11998154130133826,
      "grad_norm": 0.27062153816223145,
      "learning_rate": 0.0001997574028333436,
      "loss": 0.964,
      "step": 2080
    },
    {
      "epoch": 0.12026995846792801,
      "grad_norm": 0.26900675892829895,
      "learning_rate": 0.00019975034363352556,
      "loss": 0.935,
      "step": 2085
    },
    {
      "epoch": 0.12055837563451777,
      "grad_norm": 0.27462172508239746,
      "learning_rate": 0.0001997431833238332,
      "loss": 0.974,
      "step": 2090
    },
    {
      "epoch": 0.12084679280110752,
      "grad_norm": 0.3665010333061218,
      "learning_rate": 0.00019973592191152437,
      "loss": 1.0159,
      "step": 2095
    },
    {
      "epoch": 0.12113520996769728,
      "grad_norm": 0.28900420665740967,
      "learning_rate": 0.00019972855940395947,
      "loss": 1.0202,
      "step": 2100
    },
    {
      "epoch": 0.12142362713428703,
      "grad_norm": 0.2706412374973297,
      "learning_rate": 0.00019972109580860132,
      "loss": 0.9766,
      "step": 2105
    },
    {
      "epoch": 0.12171204430087679,
      "grad_norm": 0.28748854994773865,
      "learning_rate": 0.00019971353113301527,
      "loss": 1.095,
      "step": 2110
    },
    {
      "epoch": 0.12200046146746654,
      "grad_norm": 0.2745112180709839,
      "learning_rate": 0.0001997058653848691,
      "loss": 0.9995,
      "step": 2115
    },
    {
      "epoch": 0.1222888786340563,
      "grad_norm": 0.27372869849205017,
      "learning_rate": 0.00019969809857193306,
      "loss": 0.9582,
      "step": 2120
    },
    {
      "epoch": 0.12257729580064605,
      "grad_norm": 0.2714395821094513,
      "learning_rate": 0.00019969023070207973,
      "loss": 0.9423,
      "step": 2125
    },
    {
      "epoch": 0.12286571296723581,
      "grad_norm": 0.26695722341537476,
      "learning_rate": 0.0001996822617832843,
      "loss": 0.9192,
      "step": 2130
    },
    {
      "epoch": 0.12315413013382556,
      "grad_norm": 0.2779480814933777,
      "learning_rate": 0.00019967419182362429,
      "loss": 0.9577,
      "step": 2135
    },
    {
      "epoch": 0.12344254730041532,
      "grad_norm": 0.279851496219635,
      "learning_rate": 0.0001996660208312796,
      "loss": 0.9946,
      "step": 2140
    },
    {
      "epoch": 0.12373096446700507,
      "grad_norm": 0.2676329016685486,
      "learning_rate": 0.00019965774881453263,
      "loss": 1.0293,
      "step": 2145
    },
    {
      "epoch": 0.12401938163359483,
      "grad_norm": 0.2577393054962158,
      "learning_rate": 0.00019964937578176816,
      "loss": 0.9845,
      "step": 2150
    },
    {
      "epoch": 0.12430779880018458,
      "grad_norm": 0.2870205342769623,
      "learning_rate": 0.00019964090174147327,
      "loss": 0.9747,
      "step": 2155
    },
    {
      "epoch": 0.12459621596677434,
      "grad_norm": 0.2597945034503937,
      "learning_rate": 0.00019963232670223752,
      "loss": 0.9896,
      "step": 2160
    },
    {
      "epoch": 0.12488463313336409,
      "grad_norm": 0.3189765512943268,
      "learning_rate": 0.00019962365067275286,
      "loss": 0.9538,
      "step": 2165
    },
    {
      "epoch": 0.12517305029995385,
      "grad_norm": 0.27205929160118103,
      "learning_rate": 0.00019961487366181355,
      "loss": 0.9626,
      "step": 2170
    },
    {
      "epoch": 0.1254614674665436,
      "grad_norm": 0.26647019386291504,
      "learning_rate": 0.0001996059956783162,
      "loss": 1.0142,
      "step": 2175
    },
    {
      "epoch": 0.12574988463313336,
      "grad_norm": 0.2724989652633667,
      "learning_rate": 0.00019959701673125983,
      "loss": 1.0228,
      "step": 2180
    },
    {
      "epoch": 0.1260383017997231,
      "grad_norm": 0.27627307176589966,
      "learning_rate": 0.00019958793682974574,
      "loss": 0.9744,
      "step": 2185
    },
    {
      "epoch": 0.12632671896631287,
      "grad_norm": 0.2836136221885681,
      "learning_rate": 0.00019957875598297759,
      "loss": 1.0011,
      "step": 2190
    },
    {
      "epoch": 0.12661513613290262,
      "grad_norm": 0.26454490423202515,
      "learning_rate": 0.00019956947420026136,
      "loss": 1.0463,
      "step": 2195
    },
    {
      "epoch": 0.12690355329949238,
      "grad_norm": 0.29074445366859436,
      "learning_rate": 0.00019956009149100533,
      "loss": 0.9643,
      "step": 2200
    },
    {
      "epoch": 0.12719197046608213,
      "grad_norm": 0.2764613926410675,
      "learning_rate": 0.00019955060786472012,
      "loss": 0.9245,
      "step": 2205
    },
    {
      "epoch": 0.1274803876326719,
      "grad_norm": 0.2702649235725403,
      "learning_rate": 0.00019954102333101856,
      "loss": 0.9734,
      "step": 2210
    },
    {
      "epoch": 0.12776880479926164,
      "grad_norm": 0.28136304020881653,
      "learning_rate": 0.00019953133789961584,
      "loss": 0.9782,
      "step": 2215
    },
    {
      "epoch": 0.1280572219658514,
      "grad_norm": 0.29559558629989624,
      "learning_rate": 0.0001995215515803294,
      "loss": 0.9708,
      "step": 2220
    },
    {
      "epoch": 0.12834563913244115,
      "grad_norm": 0.2811656892299652,
      "learning_rate": 0.00019951166438307894,
      "loss": 0.9839,
      "step": 2225
    },
    {
      "epoch": 0.1286340562990309,
      "grad_norm": 0.27432867884635925,
      "learning_rate": 0.00019950167631788642,
      "loss": 0.9697,
      "step": 2230
    },
    {
      "epoch": 0.12892247346562066,
      "grad_norm": 0.28106796741485596,
      "learning_rate": 0.000199491587394876,
      "loss": 0.9526,
      "step": 2235
    },
    {
      "epoch": 0.12921089063221042,
      "grad_norm": 0.2755594253540039,
      "learning_rate": 0.00019948139762427416,
      "loss": 0.9943,
      "step": 2240
    },
    {
      "epoch": 0.12949930779880017,
      "grad_norm": 0.27341076731681824,
      "learning_rate": 0.00019947110701640952,
      "loss": 0.9661,
      "step": 2245
    },
    {
      "epoch": 0.12978772496538993,
      "grad_norm": 0.2582038938999176,
      "learning_rate": 0.000199460715581713,
      "loss": 0.9083,
      "step": 2250
    },
    {
      "epoch": 0.13007614213197968,
      "grad_norm": 0.2739073932170868,
      "learning_rate": 0.00019945022333071752,
      "loss": 1.0518,
      "step": 2255
    },
    {
      "epoch": 0.13036455929856944,
      "grad_norm": 0.2646303176879883,
      "learning_rate": 0.0001994396302740585,
      "loss": 0.9709,
      "step": 2260
    },
    {
      "epoch": 0.1306529764651592,
      "grad_norm": 0.2723826766014099,
      "learning_rate": 0.00019942893642247326,
      "loss": 0.9845,
      "step": 2265
    },
    {
      "epoch": 0.13094139363174895,
      "grad_norm": 0.27351605892181396,
      "learning_rate": 0.00019941814178680144,
      "loss": 1.0138,
      "step": 2270
    },
    {
      "epoch": 0.13122981079833873,
      "grad_norm": 0.2802083492279053,
      "learning_rate": 0.00019940724637798477,
      "loss": 0.9364,
      "step": 2275
    },
    {
      "epoch": 0.13151822796492849,
      "grad_norm": 0.27607461810112,
      "learning_rate": 0.00019939625020706724,
      "loss": 0.9931,
      "step": 2280
    },
    {
      "epoch": 0.13180664513151824,
      "grad_norm": 0.270385205745697,
      "learning_rate": 0.0001993851532851948,
      "loss": 0.9763,
      "step": 2285
    },
    {
      "epoch": 0.132095062298108,
      "grad_norm": 0.2873282730579376,
      "learning_rate": 0.00019937395562361564,
      "loss": 1.0417,
      "step": 2290
    },
    {
      "epoch": 0.13238347946469775,
      "grad_norm": 0.2726912796497345,
      "learning_rate": 0.0001993626572336801,
      "loss": 0.9555,
      "step": 2295
    },
    {
      "epoch": 0.1326718966312875,
      "grad_norm": 0.2793363332748413,
      "learning_rate": 0.00019935125812684047,
      "loss": 0.9883,
      "step": 2300
    },
    {
      "epoch": 0.13296031379787726,
      "grad_norm": 0.2792257070541382,
      "learning_rate": 0.0001993397583146513,
      "loss": 1.0003,
      "step": 2305
    },
    {
      "epoch": 0.13324873096446702,
      "grad_norm": 0.27051353454589844,
      "learning_rate": 0.00019932815780876904,
      "loss": 0.9726,
      "step": 2310
    },
    {
      "epoch": 0.13353714813105677,
      "grad_norm": 0.28619712591171265,
      "learning_rate": 0.00019931645662095237,
      "loss": 0.9621,
      "step": 2315
    },
    {
      "epoch": 0.13382556529764653,
      "grad_norm": 0.27812543511390686,
      "learning_rate": 0.00019930465476306197,
      "loss": 0.9909,
      "step": 2320
    },
    {
      "epoch": 0.13411398246423628,
      "grad_norm": 0.27520883083343506,
      "learning_rate": 0.0001992927522470605,
      "loss": 1.0185,
      "step": 2325
    },
    {
      "epoch": 0.13440239963082604,
      "grad_norm": 0.27513301372528076,
      "learning_rate": 0.00019928074908501272,
      "loss": 0.9595,
      "step": 2330
    },
    {
      "epoch": 0.1346908167974158,
      "grad_norm": 0.29639777541160583,
      "learning_rate": 0.0001992686452890854,
      "loss": 0.9819,
      "step": 2335
    },
    {
      "epoch": 0.13497923396400555,
      "grad_norm": 0.2893521189689636,
      "learning_rate": 0.00019925644087154734,
      "loss": 0.9894,
      "step": 2340
    },
    {
      "epoch": 0.1352676511305953,
      "grad_norm": 0.267421156167984,
      "learning_rate": 0.0001992441358447692,
      "loss": 0.9882,
      "step": 2345
    },
    {
      "epoch": 0.13555606829718506,
      "grad_norm": 0.2774795591831207,
      "learning_rate": 0.00019923173022122378,
      "loss": 0.9404,
      "step": 2350
    },
    {
      "epoch": 0.1358444854637748,
      "grad_norm": 0.30167555809020996,
      "learning_rate": 0.00019921922401348576,
      "loss": 0.9631,
      "step": 2355
    },
    {
      "epoch": 0.13613290263036457,
      "grad_norm": 0.2823658287525177,
      "learning_rate": 0.00019920661723423183,
      "loss": 0.9271,
      "step": 2360
    },
    {
      "epoch": 0.13642131979695432,
      "grad_norm": 0.2752264142036438,
      "learning_rate": 0.00019919390989624054,
      "loss": 0.981,
      "step": 2365
    },
    {
      "epoch": 0.13670973696354408,
      "grad_norm": 0.284186989068985,
      "learning_rate": 0.00019918110201239247,
      "loss": 1.0279,
      "step": 2370
    },
    {
      "epoch": 0.13699815413013383,
      "grad_norm": 0.2601034343242645,
      "learning_rate": 0.00019916819359567001,
      "loss": 1.0219,
      "step": 2375
    },
    {
      "epoch": 0.1372865712967236,
      "grad_norm": 0.3391975164413452,
      "learning_rate": 0.00019915518465915758,
      "loss": 0.9432,
      "step": 2380
    },
    {
      "epoch": 0.13757498846331334,
      "grad_norm": 0.3057229816913605,
      "learning_rate": 0.0001991420752160414,
      "loss": 1.0415,
      "step": 2385
    },
    {
      "epoch": 0.1378634056299031,
      "grad_norm": 0.2857256829738617,
      "learning_rate": 0.00019912886527960954,
      "loss": 0.9896,
      "step": 2390
    },
    {
      "epoch": 0.13815182279649285,
      "grad_norm": 0.4211989641189575,
      "learning_rate": 0.00019911555486325203,
      "loss": 1.0471,
      "step": 2395
    },
    {
      "epoch": 0.1384402399630826,
      "grad_norm": 0.26847025752067566,
      "learning_rate": 0.0001991021439804607,
      "loss": 1.0071,
      "step": 2400
    },
    {
      "epoch": 0.13872865712967236,
      "grad_norm": 0.27097341418266296,
      "learning_rate": 0.00019908863264482917,
      "loss": 0.9493,
      "step": 2405
    },
    {
      "epoch": 0.13901707429626212,
      "grad_norm": 0.2873136103153229,
      "learning_rate": 0.00019907502087005297,
      "loss": 1.0064,
      "step": 2410
    },
    {
      "epoch": 0.13930549146285187,
      "grad_norm": 0.2804831564426422,
      "learning_rate": 0.00019906130866992935,
      "loss": 0.9483,
      "step": 2415
    },
    {
      "epoch": 0.13959390862944163,
      "grad_norm": 0.27144983410835266,
      "learning_rate": 0.00019904749605835742,
      "loss": 0.9541,
      "step": 2420
    },
    {
      "epoch": 0.13988232579603138,
      "grad_norm": 0.2791461944580078,
      "learning_rate": 0.00019903358304933805,
      "loss": 1.0228,
      "step": 2425
    },
    {
      "epoch": 0.14017074296262114,
      "grad_norm": 0.2839184105396271,
      "learning_rate": 0.00019901956965697387,
      "loss": 0.9853,
      "step": 2430
    },
    {
      "epoch": 0.1404591601292109,
      "grad_norm": 0.2938236594200134,
      "learning_rate": 0.0001990054558954693,
      "loss": 1.0175,
      "step": 2435
    },
    {
      "epoch": 0.14074757729580065,
      "grad_norm": 0.26195093989372253,
      "learning_rate": 0.00019899124177913041,
      "loss": 0.9927,
      "step": 2440
    },
    {
      "epoch": 0.1410359944623904,
      "grad_norm": 0.282997727394104,
      "learning_rate": 0.0001989769273223651,
      "loss": 0.9148,
      "step": 2445
    },
    {
      "epoch": 0.14132441162898016,
      "grad_norm": 0.2869815230369568,
      "learning_rate": 0.00019896251253968288,
      "loss": 0.9978,
      "step": 2450
    },
    {
      "epoch": 0.1416128287955699,
      "grad_norm": 0.30306002497673035,
      "learning_rate": 0.000198947997445695,
      "loss": 0.9793,
      "step": 2455
    },
    {
      "epoch": 0.14190124596215967,
      "grad_norm": 0.2726587951183319,
      "learning_rate": 0.0001989333820551144,
      "loss": 0.8918,
      "step": 2460
    },
    {
      "epoch": 0.14218966312874942,
      "grad_norm": 0.3028129041194916,
      "learning_rate": 0.00019891866638275564,
      "loss": 1.0184,
      "step": 2465
    },
    {
      "epoch": 0.14247808029533918,
      "grad_norm": 0.27245384454727173,
      "learning_rate": 0.00019890385044353501,
      "loss": 0.9187,
      "step": 2470
    },
    {
      "epoch": 0.14276649746192893,
      "grad_norm": 0.26684272289276123,
      "learning_rate": 0.00019888893425247032,
      "loss": 0.94,
      "step": 2475
    },
    {
      "epoch": 0.1430549146285187,
      "grad_norm": 0.26761725544929504,
      "learning_rate": 0.00019887391782468113,
      "loss": 0.9606,
      "step": 2480
    },
    {
      "epoch": 0.14334333179510844,
      "grad_norm": 0.2789659798145294,
      "learning_rate": 0.00019885880117538846,
      "loss": 0.9361,
      "step": 2485
    },
    {
      "epoch": 0.1436317489616982,
      "grad_norm": 0.2568376362323761,
      "learning_rate": 0.000198843584319915,
      "loss": 1.0155,
      "step": 2490
    },
    {
      "epoch": 0.14392016612828795,
      "grad_norm": 0.29699787497520447,
      "learning_rate": 0.00019882826727368508,
      "loss": 1.0136,
      "step": 2495
    },
    {
      "epoch": 0.1442085832948777,
      "grad_norm": 0.3011142313480377,
      "learning_rate": 0.0001988128500522244,
      "loss": 0.9967,
      "step": 2500
    },
    {
      "epoch": 0.14449700046146746,
      "grad_norm": 0.27386248111724854,
      "learning_rate": 0.00019879733267116035,
      "loss": 1.0263,
      "step": 2505
    },
    {
      "epoch": 0.14478541762805722,
      "grad_norm": 0.31453463435173035,
      "learning_rate": 0.00019878171514622187,
      "loss": 0.9307,
      "step": 2510
    },
    {
      "epoch": 0.14507383479464697,
      "grad_norm": 0.2672314941883087,
      "learning_rate": 0.0001987659974932392,
      "loss": 0.9441,
      "step": 2515
    },
    {
      "epoch": 0.14536225196123673,
      "grad_norm": 0.2847091257572174,
      "learning_rate": 0.00019875017972814435,
      "loss": 0.9868,
      "step": 2520
    },
    {
      "epoch": 0.14565066912782648,
      "grad_norm": 0.28868651390075684,
      "learning_rate": 0.0001987342618669706,
      "loss": 0.9296,
      "step": 2525
    },
    {
      "epoch": 0.14593908629441624,
      "grad_norm": 0.29168251156806946,
      "learning_rate": 0.00019871824392585276,
      "loss": 0.9317,
      "step": 2530
    },
    {
      "epoch": 0.146227503461006,
      "grad_norm": 0.2743743062019348,
      "learning_rate": 0.00019870212592102711,
      "loss": 1.0277,
      "step": 2535
    },
    {
      "epoch": 0.14651592062759575,
      "grad_norm": 0.2812393605709076,
      "learning_rate": 0.00019868590786883134,
      "loss": 1.0553,
      "step": 2540
    },
    {
      "epoch": 0.1468043377941855,
      "grad_norm": 0.2678181231021881,
      "learning_rate": 0.00019866958978570452,
      "loss": 0.8821,
      "step": 2545
    },
    {
      "epoch": 0.14709275496077526,
      "grad_norm": 0.3037974238395691,
      "learning_rate": 0.00019865317168818713,
      "loss": 0.9625,
      "step": 2550
    },
    {
      "epoch": 0.147381172127365,
      "grad_norm": 0.2820071578025818,
      "learning_rate": 0.00019863665359292108,
      "loss": 1.0259,
      "step": 2555
    },
    {
      "epoch": 0.14766958929395477,
      "grad_norm": 0.2591807544231415,
      "learning_rate": 0.0001986200355166495,
      "loss": 0.9521,
      "step": 2560
    },
    {
      "epoch": 0.14795800646054452,
      "grad_norm": 0.26036834716796875,
      "learning_rate": 0.0001986033174762171,
      "loss": 0.94,
      "step": 2565
    },
    {
      "epoch": 0.14824642362713428,
      "grad_norm": 0.27297431230545044,
      "learning_rate": 0.0001985864994885697,
      "loss": 0.9859,
      "step": 2570
    },
    {
      "epoch": 0.14853484079372403,
      "grad_norm": 0.27806761860847473,
      "learning_rate": 0.00019856958157075445,
      "loss": 1.0,
      "step": 2575
    },
    {
      "epoch": 0.1488232579603138,
      "grad_norm": 0.2749041020870209,
      "learning_rate": 0.00019855256373991993,
      "loss": 0.9111,
      "step": 2580
    },
    {
      "epoch": 0.14911167512690354,
      "grad_norm": 0.28046393394470215,
      "learning_rate": 0.0001985354460133159,
      "loss": 0.9089,
      "step": 2585
    },
    {
      "epoch": 0.1494000922934933,
      "grad_norm": 0.2683013379573822,
      "learning_rate": 0.00019851822840829338,
      "loss": 0.9122,
      "step": 2590
    },
    {
      "epoch": 0.14968850946008305,
      "grad_norm": 0.28444692492485046,
      "learning_rate": 0.0001985009109423046,
      "loss": 0.9987,
      "step": 2595
    },
    {
      "epoch": 0.1499769266266728,
      "grad_norm": 0.28526070713996887,
      "learning_rate": 0.0001984834936329031,
      "loss": 1.0177,
      "step": 2600
    },
    {
      "epoch": 0.15026534379326256,
      "grad_norm": 0.2751544415950775,
      "learning_rate": 0.00019846597649774358,
      "loss": 1.0602,
      "step": 2605
    },
    {
      "epoch": 0.15055376095985232,
      "grad_norm": 0.29558390378952026,
      "learning_rate": 0.00019844835955458193,
      "loss": 1.0015,
      "step": 2610
    },
    {
      "epoch": 0.15084217812644207,
      "grad_norm": 0.27498286962509155,
      "learning_rate": 0.00019843064282127511,
      "loss": 0.9561,
      "step": 2615
    },
    {
      "epoch": 0.15113059529303183,
      "grad_norm": 0.292961061000824,
      "learning_rate": 0.00019841282631578145,
      "loss": 0.9914,
      "step": 2620
    },
    {
      "epoch": 0.1514190124596216,
      "grad_norm": 0.3029356896877289,
      "learning_rate": 0.0001983949100561602,
      "loss": 0.9801,
      "step": 2625
    },
    {
      "epoch": 0.15170742962621137,
      "grad_norm": 0.2864689230918884,
      "learning_rate": 0.00019837689406057183,
      "loss": 0.9578,
      "step": 2630
    },
    {
      "epoch": 0.15199584679280112,
      "grad_norm": 0.2750813961029053,
      "learning_rate": 0.00019835877834727787,
      "loss": 0.9483,
      "step": 2635
    },
    {
      "epoch": 0.15228426395939088,
      "grad_norm": 0.27926185727119446,
      "learning_rate": 0.00019834056293464093,
      "loss": 1.0165,
      "step": 2640
    },
    {
      "epoch": 0.15257268112598063,
      "grad_norm": 0.27533864974975586,
      "learning_rate": 0.00019832224784112473,
      "loss": 1.0241,
      "step": 2645
    },
    {
      "epoch": 0.15286109829257039,
      "grad_norm": 0.276993989944458,
      "learning_rate": 0.00019830383308529393,
      "loss": 1.0444,
      "step": 2650
    },
    {
      "epoch": 0.15314951545916014,
      "grad_norm": 0.2960858643054962,
      "learning_rate": 0.0001982853186858143,
      "loss": 0.9928,
      "step": 2655
    },
    {
      "epoch": 0.1534379326257499,
      "grad_norm": 0.29162392020225525,
      "learning_rate": 0.00019826670466145262,
      "loss": 0.8887,
      "step": 2660
    },
    {
      "epoch": 0.15372634979233965,
      "grad_norm": 0.2606879472732544,
      "learning_rate": 0.0001982479910310765,
      "loss": 0.9832,
      "step": 2665
    },
    {
      "epoch": 0.1540147669589294,
      "grad_norm": 0.29048001766204834,
      "learning_rate": 0.00019822917781365474,
      "loss": 1.01,
      "step": 2670
    },
    {
      "epoch": 0.15430318412551916,
      "grad_norm": 0.2942920923233032,
      "learning_rate": 0.00019821026502825687,
      "loss": 1.0289,
      "step": 2675
    },
    {
      "epoch": 0.15459160129210892,
      "grad_norm": 0.2862975597381592,
      "learning_rate": 0.00019819125269405352,
      "loss": 0.9961,
      "step": 2680
    },
    {
      "epoch": 0.15488001845869867,
      "grad_norm": 0.2896837890148163,
      "learning_rate": 0.00019817214083031614,
      "loss": 1.0002,
      "step": 2685
    },
    {
      "epoch": 0.15516843562528843,
      "grad_norm": 0.26825401186943054,
      "learning_rate": 0.00019815292945641705,
      "loss": 0.9874,
      "step": 2690
    },
    {
      "epoch": 0.15545685279187818,
      "grad_norm": 0.2813914120197296,
      "learning_rate": 0.00019813361859182945,
      "loss": 0.9919,
      "step": 2695
    },
    {
      "epoch": 0.15574526995846794,
      "grad_norm": 0.284069687128067,
      "learning_rate": 0.0001981142082561274,
      "loss": 0.8997,
      "step": 2700
    },
    {
      "epoch": 0.1560336871250577,
      "grad_norm": 0.2858209013938904,
      "learning_rate": 0.00019809469846898586,
      "loss": 0.9546,
      "step": 2705
    },
    {
      "epoch": 0.15632210429164745,
      "grad_norm": 0.2836093604564667,
      "learning_rate": 0.0001980750892501804,
      "loss": 0.9254,
      "step": 2710
    },
    {
      "epoch": 0.1566105214582372,
      "grad_norm": 0.32628414034843445,
      "learning_rate": 0.00019805538061958765,
      "loss": 0.94,
      "step": 2715
    },
    {
      "epoch": 0.15689893862482696,
      "grad_norm": 0.2873879373073578,
      "learning_rate": 0.0001980355725971847,
      "loss": 0.9598,
      "step": 2720
    },
    {
      "epoch": 0.1571873557914167,
      "grad_norm": 0.27270689606666565,
      "learning_rate": 0.00019801566520304963,
      "loss": 0.9622,
      "step": 2725
    },
    {
      "epoch": 0.15747577295800647,
      "grad_norm": 0.25972458720207214,
      "learning_rate": 0.0001979956584573612,
      "loss": 0.9895,
      "step": 2730
    },
    {
      "epoch": 0.15776419012459622,
      "grad_norm": 0.2917114198207855,
      "learning_rate": 0.00019797555238039872,
      "loss": 0.9528,
      "step": 2735
    },
    {
      "epoch": 0.15805260729118598,
      "grad_norm": 0.26294592022895813,
      "learning_rate": 0.00019795534699254238,
      "loss": 0.9309,
      "step": 2740
    },
    {
      "epoch": 0.15834102445777573,
      "grad_norm": 0.28122779726982117,
      "learning_rate": 0.0001979350423142729,
      "loss": 0.9853,
      "step": 2745
    },
    {
      "epoch": 0.15862944162436549,
      "grad_norm": 0.29183605313301086,
      "learning_rate": 0.00019791463836617176,
      "loss": 0.9382,
      "step": 2750
    },
    {
      "epoch": 0.15891785879095524,
      "grad_norm": 0.28074556589126587,
      "learning_rate": 0.00019789413516892098,
      "loss": 1.01,
      "step": 2755
    },
    {
      "epoch": 0.159206275957545,
      "grad_norm": 0.2814944088459015,
      "learning_rate": 0.00019787353274330313,
      "loss": 1.0161,
      "step": 2760
    },
    {
      "epoch": 0.15949469312413475,
      "grad_norm": 0.2898254990577698,
      "learning_rate": 0.00019785283111020156,
      "loss": 1.0388,
      "step": 2765
    },
    {
      "epoch": 0.1597831102907245,
      "grad_norm": 0.2777402400970459,
      "learning_rate": 0.00019783203029059997,
      "loss": 0.9589,
      "step": 2770
    },
    {
      "epoch": 0.16007152745731426,
      "grad_norm": 0.2646116316318512,
      "learning_rate": 0.00019781113030558267,
      "loss": 0.9569,
      "step": 2775
    },
    {
      "epoch": 0.16035994462390402,
      "grad_norm": 0.3243483304977417,
      "learning_rate": 0.00019779013117633454,
      "loss": 0.9622,
      "step": 2780
    },
    {
      "epoch": 0.16064836179049377,
      "grad_norm": 0.2765612304210663,
      "learning_rate": 0.0001977690329241409,
      "loss": 1.0068,
      "step": 2785
    },
    {
      "epoch": 0.16093677895708353,
      "grad_norm": 0.30408522486686707,
      "learning_rate": 0.00019774783557038755,
      "loss": 0.969,
      "step": 2790
    },
    {
      "epoch": 0.16122519612367328,
      "grad_norm": 0.26990190148353577,
      "learning_rate": 0.00019772653913656076,
      "loss": 1.025,
      "step": 2795
    },
    {
      "epoch": 0.16151361329026304,
      "grad_norm": 0.31291985511779785,
      "learning_rate": 0.00019770514364424725,
      "loss": 1.0174,
      "step": 2800
    },
    {
      "epoch": 0.1618020304568528,
      "grad_norm": 0.31198903918266296,
      "learning_rate": 0.00019768364911513405,
      "loss": 0.9603,
      "step": 2805
    },
    {
      "epoch": 0.16209044762344255,
      "grad_norm": 0.28119274973869324,
      "learning_rate": 0.00019766205557100868,
      "loss": 0.9689,
      "step": 2810
    },
    {
      "epoch": 0.1623788647900323,
      "grad_norm": 0.27684643864631653,
      "learning_rate": 0.000197640363033759,
      "loss": 0.9272,
      "step": 2815
    },
    {
      "epoch": 0.16266728195662206,
      "grad_norm": 0.2740548253059387,
      "learning_rate": 0.0001976185715253732,
      "loss": 1.0165,
      "step": 2820
    },
    {
      "epoch": 0.1629556991232118,
      "grad_norm": 0.3126582205295563,
      "learning_rate": 0.00019759668106793975,
      "loss": 0.9915,
      "step": 2825
    },
    {
      "epoch": 0.16324411628980157,
      "grad_norm": 0.27744656801223755,
      "learning_rate": 0.0001975746916836475,
      "loss": 0.9971,
      "step": 2830
    },
    {
      "epoch": 0.16353253345639132,
      "grad_norm": 0.280280202627182,
      "learning_rate": 0.00019755260339478556,
      "loss": 0.9637,
      "step": 2835
    },
    {
      "epoch": 0.16382095062298108,
      "grad_norm": 0.2840816378593445,
      "learning_rate": 0.0001975304162237432,
      "loss": 0.9603,
      "step": 2840
    },
    {
      "epoch": 0.16410936778957083,
      "grad_norm": 0.2826577126979828,
      "learning_rate": 0.00019750813019301004,
      "loss": 1.0331,
      "step": 2845
    },
    {
      "epoch": 0.1643977849561606,
      "grad_norm": 0.2963692545890808,
      "learning_rate": 0.00019748574532517586,
      "loss": 0.999,
      "step": 2850
    },
    {
      "epoch": 0.16468620212275034,
      "grad_norm": 0.2895634174346924,
      "learning_rate": 0.00019746326164293056,
      "loss": 0.9637,
      "step": 2855
    },
    {
      "epoch": 0.1649746192893401,
      "grad_norm": 0.287422776222229,
      "learning_rate": 0.0001974406791690643,
      "loss": 0.9696,
      "step": 2860
    },
    {
      "epoch": 0.16526303645592985,
      "grad_norm": 0.31378328800201416,
      "learning_rate": 0.00019741799792646734,
      "loss": 1.0066,
      "step": 2865
    },
    {
      "epoch": 0.1655514536225196,
      "grad_norm": 0.28587618470191956,
      "learning_rate": 0.00019739521793813006,
      "loss": 0.9224,
      "step": 2870
    },
    {
      "epoch": 0.16583987078910936,
      "grad_norm": 0.28385454416275024,
      "learning_rate": 0.0001973723392271429,
      "loss": 0.9961,
      "step": 2875
    },
    {
      "epoch": 0.16612828795569912,
      "grad_norm": 0.27586954832077026,
      "learning_rate": 0.00019734936181669638,
      "loss": 1.065,
      "step": 2880
    },
    {
      "epoch": 0.16641670512228887,
      "grad_norm": 0.30055347084999084,
      "learning_rate": 0.00019732628573008114,
      "loss": 1.0089,
      "step": 2885
    },
    {
      "epoch": 0.16670512228887863,
      "grad_norm": 0.30119630694389343,
      "learning_rate": 0.00019730311099068771,
      "loss": 1.017,
      "step": 2890
    },
    {
      "epoch": 0.16699353945546838,
      "grad_norm": 0.29206573963165283,
      "learning_rate": 0.00019727983762200677,
      "loss": 0.9635,
      "step": 2895
    },
    {
      "epoch": 0.16728195662205814,
      "grad_norm": 0.2570163905620575,
      "learning_rate": 0.00019725646564762878,
      "loss": 0.9791,
      "step": 2900
    },
    {
      "epoch": 0.1675703737886479,
      "grad_norm": 0.3360570967197418,
      "learning_rate": 0.00019723299509124433,
      "loss": 0.9498,
      "step": 2905
    },
    {
      "epoch": 0.16785879095523765,
      "grad_norm": 0.29323843121528625,
      "learning_rate": 0.00019720942597664385,
      "loss": 0.986,
      "step": 2910
    },
    {
      "epoch": 0.1681472081218274,
      "grad_norm": 0.30418166518211365,
      "learning_rate": 0.00019718575832771768,
      "loss": 0.9756,
      "step": 2915
    },
    {
      "epoch": 0.16843562528841716,
      "grad_norm": 0.31183257699012756,
      "learning_rate": 0.00019716199216845604,
      "loss": 0.9997,
      "step": 2920
    },
    {
      "epoch": 0.1687240424550069,
      "grad_norm": 0.26834046840667725,
      "learning_rate": 0.000197138127522949,
      "loss": 0.9315,
      "step": 2925
    },
    {
      "epoch": 0.16901245962159667,
      "grad_norm": 0.27434879541397095,
      "learning_rate": 0.00019711416441538652,
      "loss": 1.0105,
      "step": 2930
    },
    {
      "epoch": 0.16930087678818642,
      "grad_norm": 0.28828758001327515,
      "learning_rate": 0.00019709010287005825,
      "loss": 1.0128,
      "step": 2935
    },
    {
      "epoch": 0.16958929395477618,
      "grad_norm": 0.2850480079650879,
      "learning_rate": 0.00019706594291135366,
      "loss": 0.9618,
      "step": 2940
    },
    {
      "epoch": 0.16987771112136593,
      "grad_norm": 0.2937301993370056,
      "learning_rate": 0.00019704168456376205,
      "loss": 1.0175,
      "step": 2945
    },
    {
      "epoch": 0.1701661282879557,
      "grad_norm": 0.28153088688850403,
      "learning_rate": 0.0001970173278518724,
      "loss": 0.9541,
      "step": 2950
    },
    {
      "epoch": 0.17045454545454544,
      "grad_norm": 0.2839425802230835,
      "learning_rate": 0.00019699287280037332,
      "loss": 1.0139,
      "step": 2955
    },
    {
      "epoch": 0.1707429626211352,
      "grad_norm": 0.28864094614982605,
      "learning_rate": 0.00019696831943405324,
      "loss": 1.0833,
      "step": 2960
    },
    {
      "epoch": 0.17103137978772495,
      "grad_norm": 0.2697494626045227,
      "learning_rate": 0.0001969436677778001,
      "loss": 0.9827,
      "step": 2965
    },
    {
      "epoch": 0.1713197969543147,
      "grad_norm": 0.2844550907611847,
      "learning_rate": 0.0001969189178566016,
      "loss": 1.005,
      "step": 2970
    },
    {
      "epoch": 0.1716082141209045,
      "grad_norm": 0.30949264764785767,
      "learning_rate": 0.000196894069695545,
      "loss": 0.9696,
      "step": 2975
    },
    {
      "epoch": 0.17189663128749424,
      "grad_norm": 0.2768407464027405,
      "learning_rate": 0.00019686912331981702,
      "loss": 0.9931,
      "step": 2980
    },
    {
      "epoch": 0.172185048454084,
      "grad_norm": 0.28683245182037354,
      "learning_rate": 0.00019684407875470415,
      "loss": 1.0018,
      "step": 2985
    },
    {
      "epoch": 0.17247346562067375,
      "grad_norm": 0.3155616223812103,
      "learning_rate": 0.00019681893602559224,
      "loss": 0.9813,
      "step": 2990
    },
    {
      "epoch": 0.1727618827872635,
      "grad_norm": 0.3154447376728058,
      "learning_rate": 0.0001967936951579667,
      "loss": 0.9915,
      "step": 2995
    },
    {
      "epoch": 0.17305029995385326,
      "grad_norm": 0.277576744556427,
      "learning_rate": 0.00019676835617741249,
      "loss": 0.9668,
      "step": 3000
    },
    {
      "epoch": 0.17333871712044302,
      "grad_norm": 0.28618210554122925,
      "learning_rate": 0.0001967429191096138,
      "loss": 0.9745,
      "step": 3005
    },
    {
      "epoch": 0.17362713428703277,
      "grad_norm": 0.27911707758903503,
      "learning_rate": 0.0001967173839803545,
      "loss": 0.9732,
      "step": 3010
    },
    {
      "epoch": 0.17391555145362253,
      "grad_norm": 0.28373172879219055,
      "learning_rate": 0.00019669175081551773,
      "loss": 0.9797,
      "step": 3015
    },
    {
      "epoch": 0.17420396862021229,
      "grad_norm": 0.29749229550361633,
      "learning_rate": 0.00019666601964108598,
      "loss": 0.94,
      "step": 3020
    },
    {
      "epoch": 0.17449238578680204,
      "grad_norm": 0.31651487946510315,
      "learning_rate": 0.00019664019048314116,
      "loss": 0.9829,
      "step": 3025
    },
    {
      "epoch": 0.1747808029533918,
      "grad_norm": 0.2834007740020752,
      "learning_rate": 0.00019661426336786445,
      "loss": 0.9336,
      "step": 3030
    },
    {
      "epoch": 0.17506922011998155,
      "grad_norm": 0.2876712381839752,
      "learning_rate": 0.00019658823832153632,
      "loss": 0.9174,
      "step": 3035
    },
    {
      "epoch": 0.1753576372865713,
      "grad_norm": 0.3259499669075012,
      "learning_rate": 0.00019656211537053654,
      "loss": 1.0362,
      "step": 3040
    },
    {
      "epoch": 0.17564605445316106,
      "grad_norm": 0.26136502623558044,
      "learning_rate": 0.00019653589454134406,
      "loss": 0.9399,
      "step": 3045
    },
    {
      "epoch": 0.17593447161975082,
      "grad_norm": 0.28630778193473816,
      "learning_rate": 0.00019650957586053716,
      "loss": 0.9861,
      "step": 3050
    },
    {
      "epoch": 0.17622288878634057,
      "grad_norm": 0.2615172266960144,
      "learning_rate": 0.00019648315935479315,
      "loss": 1.0378,
      "step": 3055
    },
    {
      "epoch": 0.17651130595293033,
      "grad_norm": 0.28133901953697205,
      "learning_rate": 0.00019645664505088864,
      "loss": 0.9746,
      "step": 3060
    },
    {
      "epoch": 0.17679972311952008,
      "grad_norm": 0.3203901946544647,
      "learning_rate": 0.00019643003297569923,
      "loss": 0.9894,
      "step": 3065
    },
    {
      "epoch": 0.17708814028610984,
      "grad_norm": 0.2845044434070587,
      "learning_rate": 0.00019640332315619977,
      "loss": 1.0024,
      "step": 3070
    },
    {
      "epoch": 0.1773765574526996,
      "grad_norm": 0.28776776790618896,
      "learning_rate": 0.0001963765156194641,
      "loss": 1.0035,
      "step": 3075
    },
    {
      "epoch": 0.17766497461928935,
      "grad_norm": 0.2923831343650818,
      "learning_rate": 0.00019634961039266506,
      "loss": 1.0253,
      "step": 3080
    },
    {
      "epoch": 0.1779533917858791,
      "grad_norm": 0.29954782128334045,
      "learning_rate": 0.00019632260750307467,
      "loss": 0.9984,
      "step": 3085
    },
    {
      "epoch": 0.17824180895246886,
      "grad_norm": 0.30335840582847595,
      "learning_rate": 0.0001962955069780638,
      "loss": 0.9339,
      "step": 3090
    },
    {
      "epoch": 0.1785302261190586,
      "grad_norm": 0.28872916102409363,
      "learning_rate": 0.00019626830884510236,
      "loss": 1.0417,
      "step": 3095
    },
    {
      "epoch": 0.17881864328564837,
      "grad_norm": 0.3210926949977875,
      "learning_rate": 0.00019624101313175918,
      "loss": 1.0293,
      "step": 3100
    },
    {
      "epoch": 0.17910706045223812,
      "grad_norm": 0.29229721426963806,
      "learning_rate": 0.00019621361986570194,
      "loss": 0.9386,
      "step": 3105
    },
    {
      "epoch": 0.17939547761882788,
      "grad_norm": 0.3137836754322052,
      "learning_rate": 0.00019618612907469732,
      "loss": 0.9874,
      "step": 3110
    },
    {
      "epoch": 0.17968389478541763,
      "grad_norm": 0.27663466334342957,
      "learning_rate": 0.00019615854078661077,
      "loss": 0.9902,
      "step": 3115
    },
    {
      "epoch": 0.17997231195200739,
      "grad_norm": 0.30164676904678345,
      "learning_rate": 0.00019613085502940658,
      "loss": 1.1187,
      "step": 3120
    },
    {
      "epoch": 0.18026072911859714,
      "grad_norm": 0.2817506790161133,
      "learning_rate": 0.00019610307183114787,
      "loss": 0.9643,
      "step": 3125
    },
    {
      "epoch": 0.1805491462851869,
      "grad_norm": 0.28451189398765564,
      "learning_rate": 0.00019607519121999647,
      "loss": 0.9553,
      "step": 3130
    },
    {
      "epoch": 0.18083756345177665,
      "grad_norm": 0.3148361146450043,
      "learning_rate": 0.00019604721322421303,
      "loss": 0.9596,
      "step": 3135
    },
    {
      "epoch": 0.1811259806183664,
      "grad_norm": 0.3131537437438965,
      "learning_rate": 0.00019601913787215683,
      "loss": 0.9841,
      "step": 3140
    },
    {
      "epoch": 0.18141439778495616,
      "grad_norm": 0.301500141620636,
      "learning_rate": 0.00019599096519228585,
      "loss": 0.9387,
      "step": 3145
    },
    {
      "epoch": 0.18170281495154592,
      "grad_norm": 0.2999275028705597,
      "learning_rate": 0.0001959626952131568,
      "loss": 0.8649,
      "step": 3150
    },
    {
      "epoch": 0.18199123211813567,
      "grad_norm": 0.3055667281150818,
      "learning_rate": 0.00019593432796342496,
      "loss": 1.0364,
      "step": 3155
    },
    {
      "epoch": 0.18227964928472543,
      "grad_norm": 0.30451443791389465,
      "learning_rate": 0.00019590586347184417,
      "loss": 1.0552,
      "step": 3160
    },
    {
      "epoch": 0.18256806645131518,
      "grad_norm": 0.3046397566795349,
      "learning_rate": 0.00019587730176726686,
      "loss": 0.9897,
      "step": 3165
    },
    {
      "epoch": 0.18285648361790494,
      "grad_norm": 0.3132875859737396,
      "learning_rate": 0.00019584864287864408,
      "loss": 0.953,
      "step": 3170
    },
    {
      "epoch": 0.1831449007844947,
      "grad_norm": 0.2684531807899475,
      "learning_rate": 0.00019581988683502525,
      "loss": 1.0479,
      "step": 3175
    },
    {
      "epoch": 0.18343331795108445,
      "grad_norm": 0.3220478594303131,
      "learning_rate": 0.0001957910336655584,
      "loss": 0.9818,
      "step": 3180
    },
    {
      "epoch": 0.1837217351176742,
      "grad_norm": 0.29744499921798706,
      "learning_rate": 0.00019576208339948988,
      "loss": 0.985,
      "step": 3185
    },
    {
      "epoch": 0.18401015228426396,
      "grad_norm": 0.26757848262786865,
      "learning_rate": 0.00019573303606616459,
      "loss": 0.9966,
      "step": 3190
    },
    {
      "epoch": 0.1842985694508537,
      "grad_norm": 0.2966987192630768,
      "learning_rate": 0.00019570389169502569,
      "loss": 0.9853,
      "step": 3195
    },
    {
      "epoch": 0.18458698661744347,
      "grad_norm": 0.2907325327396393,
      "learning_rate": 0.00019567465031561487,
      "loss": 1.0468,
      "step": 3200
    },
    {
      "epoch": 0.18487540378403322,
      "grad_norm": 0.2841055989265442,
      "learning_rate": 0.00019564531195757193,
      "loss": 0.9837,
      "step": 3205
    },
    {
      "epoch": 0.18516382095062298,
      "grad_norm": 0.2998584806919098,
      "learning_rate": 0.0001956158766506352,
      "loss": 1.0282,
      "step": 3210
    },
    {
      "epoch": 0.18545223811721273,
      "grad_norm": 0.3043042719364166,
      "learning_rate": 0.00019558634442464113,
      "loss": 0.911,
      "step": 3215
    },
    {
      "epoch": 0.18574065528380249,
      "grad_norm": 0.30067190527915955,
      "learning_rate": 0.00019555671530952445,
      "loss": 0.9701,
      "step": 3220
    },
    {
      "epoch": 0.18602907245039224,
      "grad_norm": 0.297343373298645,
      "learning_rate": 0.00019552698933531808,
      "loss": 0.9935,
      "step": 3225
    },
    {
      "epoch": 0.186317489616982,
      "grad_norm": 0.2842741310596466,
      "learning_rate": 0.00019549716653215318,
      "loss": 0.999,
      "step": 3230
    },
    {
      "epoch": 0.18660590678357175,
      "grad_norm": 0.27844905853271484,
      "learning_rate": 0.00019546724693025896,
      "loss": 0.9668,
      "step": 3235
    },
    {
      "epoch": 0.1868943239501615,
      "grad_norm": 0.29974377155303955,
      "learning_rate": 0.00019543723055996282,
      "loss": 0.9864,
      "step": 3240
    },
    {
      "epoch": 0.18718274111675126,
      "grad_norm": 0.2982295751571655,
      "learning_rate": 0.0001954071174516903,
      "loss": 0.9902,
      "step": 3245
    },
    {
      "epoch": 0.18747115828334102,
      "grad_norm": 0.3086935579776764,
      "learning_rate": 0.00019537690763596487,
      "loss": 0.9954,
      "step": 3250
    },
    {
      "epoch": 0.18775957544993077,
      "grad_norm": 0.28824785351753235,
      "learning_rate": 0.0001953466011434081,
      "loss": 0.9979,
      "step": 3255
    },
    {
      "epoch": 0.18804799261652053,
      "grad_norm": 0.2743071913719177,
      "learning_rate": 0.00019531619800473952,
      "loss": 0.9299,
      "step": 3260
    },
    {
      "epoch": 0.18833640978311028,
      "grad_norm": 0.2896062433719635,
      "learning_rate": 0.00019528569825077668,
      "loss": 0.9861,
      "step": 3265
    },
    {
      "epoch": 0.18862482694970004,
      "grad_norm": 0.29393669962882996,
      "learning_rate": 0.00019525510191243498,
      "loss": 1.0792,
      "step": 3270
    },
    {
      "epoch": 0.1889132441162898,
      "grad_norm": 0.3489181399345398,
      "learning_rate": 0.00019522440902072782,
      "loss": 1.0056,
      "step": 3275
    },
    {
      "epoch": 0.18920166128287955,
      "grad_norm": 0.31945231556892395,
      "learning_rate": 0.0001951936196067664,
      "loss": 1.0386,
      "step": 3280
    },
    {
      "epoch": 0.1894900784494693,
      "grad_norm": 0.30114686489105225,
      "learning_rate": 0.00019516273370175972,
      "loss": 0.9667,
      "step": 3285
    },
    {
      "epoch": 0.18977849561605906,
      "grad_norm": 0.3653857409954071,
      "learning_rate": 0.00019513175133701474,
      "loss": 0.9465,
      "step": 3290
    },
    {
      "epoch": 0.1900669127826488,
      "grad_norm": 0.2919418513774872,
      "learning_rate": 0.000195100672543936,
      "loss": 0.9252,
      "step": 3295
    },
    {
      "epoch": 0.19035532994923857,
      "grad_norm": 0.29241377115249634,
      "learning_rate": 0.00019506949735402588,
      "loss": 0.929,
      "step": 3300
    },
    {
      "epoch": 0.19064374711582832,
      "grad_norm": 0.30068260431289673,
      "learning_rate": 0.00019503822579888453,
      "loss": 1.0254,
      "step": 3305
    },
    {
      "epoch": 0.19093216428241808,
      "grad_norm": 0.2954903542995453,
      "learning_rate": 0.00019500685791020968,
      "loss": 0.9485,
      "step": 3310
    },
    {
      "epoch": 0.19122058144900783,
      "grad_norm": 0.2899206876754761,
      "learning_rate": 0.00019497539371979674,
      "loss": 1.036,
      "step": 3315
    },
    {
      "epoch": 0.1915089986155976,
      "grad_norm": 0.3165214955806732,
      "learning_rate": 0.00019494383325953875,
      "loss": 0.9616,
      "step": 3320
    },
    {
      "epoch": 0.19179741578218737,
      "grad_norm": 0.3250178396701813,
      "learning_rate": 0.0001949121765614263,
      "loss": 0.9648,
      "step": 3325
    },
    {
      "epoch": 0.19208583294877712,
      "grad_norm": 0.2635006904602051,
      "learning_rate": 0.00019488042365754758,
      "loss": 0.9789,
      "step": 3330
    },
    {
      "epoch": 0.19237425011536688,
      "grad_norm": 0.2964721620082855,
      "learning_rate": 0.0001948485745800882,
      "loss": 0.9432,
      "step": 3335
    },
    {
      "epoch": 0.19266266728195663,
      "grad_norm": 0.2993474006652832,
      "learning_rate": 0.0001948166293613314,
      "loss": 0.9556,
      "step": 3340
    },
    {
      "epoch": 0.1929510844485464,
      "grad_norm": 0.28304216265678406,
      "learning_rate": 0.00019478458803365772,
      "loss": 0.9445,
      "step": 3345
    },
    {
      "epoch": 0.19323950161513614,
      "grad_norm": 0.2697024941444397,
      "learning_rate": 0.00019475245062954523,
      "loss": 1.0552,
      "step": 3350
    },
    {
      "epoch": 0.1935279187817259,
      "grad_norm": 0.2875863015651703,
      "learning_rate": 0.00019472021718156937,
      "loss": 0.9319,
      "step": 3355
    },
    {
      "epoch": 0.19381633594831565,
      "grad_norm": 0.3006811738014221,
      "learning_rate": 0.00019468788772240286,
      "loss": 1.0049,
      "step": 3360
    },
    {
      "epoch": 0.1941047531149054,
      "grad_norm": 0.30004388093948364,
      "learning_rate": 0.0001946554622848158,
      "loss": 1.0181,
      "step": 3365
    },
    {
      "epoch": 0.19439317028149516,
      "grad_norm": 0.3029836118221283,
      "learning_rate": 0.00019462294090167554,
      "loss": 1.045,
      "step": 3370
    },
    {
      "epoch": 0.19468158744808492,
      "grad_norm": 0.2854270339012146,
      "learning_rate": 0.00019459032360594677,
      "loss": 0.9876,
      "step": 3375
    },
    {
      "epoch": 0.19497000461467467,
      "grad_norm": 0.3001527786254883,
      "learning_rate": 0.0001945576104306913,
      "loss": 0.9083,
      "step": 3380
    },
    {
      "epoch": 0.19525842178126443,
      "grad_norm": 0.2907600700855255,
      "learning_rate": 0.00019452480140906819,
      "loss": 0.9734,
      "step": 3385
    },
    {
      "epoch": 0.19554683894785418,
      "grad_norm": 0.2804548442363739,
      "learning_rate": 0.00019449189657433358,
      "loss": 1.0032,
      "step": 3390
    },
    {
      "epoch": 0.19583525611444394,
      "grad_norm": 0.29847756028175354,
      "learning_rate": 0.0001944588959598408,
      "loss": 0.9485,
      "step": 3395
    },
    {
      "epoch": 0.1961236732810337,
      "grad_norm": 0.28965532779693604,
      "learning_rate": 0.00019442579959904024,
      "loss": 0.9713,
      "step": 3400
    },
    {
      "epoch": 0.19641209044762345,
      "grad_norm": 0.295213520526886,
      "learning_rate": 0.00019439260752547935,
      "loss": 0.9486,
      "step": 3405
    },
    {
      "epoch": 0.1967005076142132,
      "grad_norm": 0.2934512794017792,
      "learning_rate": 0.0001943593197728026,
      "loss": 1.0448,
      "step": 3410
    },
    {
      "epoch": 0.19698892478080296,
      "grad_norm": 0.29289090633392334,
      "learning_rate": 0.00019432593637475138,
      "loss": 0.9959,
      "step": 3415
    },
    {
      "epoch": 0.19727734194739271,
      "grad_norm": 0.2757977545261383,
      "learning_rate": 0.00019429245736516415,
      "loss": 0.9612,
      "step": 3420
    },
    {
      "epoch": 0.19756575911398247,
      "grad_norm": 0.28514814376831055,
      "learning_rate": 0.00019425888277797615,
      "loss": 1.0246,
      "step": 3425
    },
    {
      "epoch": 0.19785417628057222,
      "grad_norm": 0.32380256056785583,
      "learning_rate": 0.00019422521264721962,
      "loss": 0.9404,
      "step": 3430
    },
    {
      "epoch": 0.19814259344716198,
      "grad_norm": 0.28507691621780396,
      "learning_rate": 0.0001941914470070236,
      "loss": 0.8902,
      "step": 3435
    },
    {
      "epoch": 0.19843101061375173,
      "grad_norm": 0.3757873773574829,
      "learning_rate": 0.00019415758589161385,
      "loss": 1.0038,
      "step": 3440
    },
    {
      "epoch": 0.1987194277803415,
      "grad_norm": 0.3061589300632477,
      "learning_rate": 0.00019412362933531307,
      "loss": 0.8961,
      "step": 3445
    },
    {
      "epoch": 0.19900784494693124,
      "grad_norm": 0.29617950320243835,
      "learning_rate": 0.0001940895773725406,
      "loss": 0.9573,
      "step": 3450
    },
    {
      "epoch": 0.199296262113521,
      "grad_norm": 0.27990731596946716,
      "learning_rate": 0.00019405543003781251,
      "loss": 1.044,
      "step": 3455
    },
    {
      "epoch": 0.19958467928011075,
      "grad_norm": 0.29822319746017456,
      "learning_rate": 0.00019402118736574155,
      "loss": 0.9799,
      "step": 3460
    },
    {
      "epoch": 0.1998730964467005,
      "grad_norm": 0.3118431866168976,
      "learning_rate": 0.00019398684939103707,
      "loss": 1.0417,
      "step": 3465
    },
    {
      "epoch": 0.20016151361329027,
      "grad_norm": 0.3202954828739166,
      "learning_rate": 0.00019395241614850504,
      "loss": 0.9731,
      "step": 3470
    },
    {
      "epoch": 0.20044993077988002,
      "grad_norm": 0.3098292052745819,
      "learning_rate": 0.00019391788767304804,
      "loss": 0.985,
      "step": 3475
    },
    {
      "epoch": 0.20073834794646978,
      "grad_norm": 0.2931598722934723,
      "learning_rate": 0.00019388326399966515,
      "loss": 1.0129,
      "step": 3480
    },
    {
      "epoch": 0.20102676511305953,
      "grad_norm": 0.2935352027416229,
      "learning_rate": 0.0001938485451634519,
      "loss": 0.9402,
      "step": 3485
    },
    {
      "epoch": 0.20131518227964929,
      "grad_norm": 0.3236974775791168,
      "learning_rate": 0.00019381373119960033,
      "loss": 1.0507,
      "step": 3490
    },
    {
      "epoch": 0.20160359944623904,
      "grad_norm": 0.3834960162639618,
      "learning_rate": 0.00019377882214339893,
      "loss": 0.9554,
      "step": 3495
    },
    {
      "epoch": 0.2018920166128288,
      "grad_norm": 0.2892552316188812,
      "learning_rate": 0.00019374381803023252,
      "loss": 1.0119,
      "step": 3500
    },
    {
      "epoch": 0.20218043377941855,
      "grad_norm": 0.29538676142692566,
      "learning_rate": 0.0001937087188955823,
      "loss": 0.9977,
      "step": 3505
    },
    {
      "epoch": 0.2024688509460083,
      "grad_norm": 0.2964411973953247,
      "learning_rate": 0.00019367352477502576,
      "loss": 0.9636,
      "step": 3510
    },
    {
      "epoch": 0.20275726811259806,
      "grad_norm": 0.3167349696159363,
      "learning_rate": 0.00019363823570423675,
      "loss": 0.9345,
      "step": 3515
    },
    {
      "epoch": 0.20304568527918782,
      "grad_norm": 0.3199044466018677,
      "learning_rate": 0.0001936028517189852,
      "loss": 0.913,
      "step": 3520
    },
    {
      "epoch": 0.20333410244577757,
      "grad_norm": 0.27600806951522827,
      "learning_rate": 0.00019356737285513748,
      "loss": 0.959,
      "step": 3525
    },
    {
      "epoch": 0.20362251961236733,
      "grad_norm": 0.31621217727661133,
      "learning_rate": 0.00019353179914865596,
      "loss": 1.0437,
      "step": 3530
    },
    {
      "epoch": 0.20391093677895708,
      "grad_norm": 0.30049943923950195,
      "learning_rate": 0.00019349613063559916,
      "loss": 0.9675,
      "step": 3535
    },
    {
      "epoch": 0.20419935394554684,
      "grad_norm": 0.3039463460445404,
      "learning_rate": 0.00019346036735212177,
      "loss": 1.0542,
      "step": 3540
    },
    {
      "epoch": 0.2044877711121366,
      "grad_norm": 0.3049977123737335,
      "learning_rate": 0.00019342450933447448,
      "loss": 0.8974,
      "step": 3545
    },
    {
      "epoch": 0.20477618827872635,
      "grad_norm": 0.2853706181049347,
      "learning_rate": 0.00019338855661900405,
      "loss": 0.9711,
      "step": 3550
    },
    {
      "epoch": 0.2050646054453161,
      "grad_norm": 0.2970394492149353,
      "learning_rate": 0.00019335250924215318,
      "loss": 0.9516,
      "step": 3555
    },
    {
      "epoch": 0.20535302261190586,
      "grad_norm": 0.3310398459434509,
      "learning_rate": 0.00019331636724046058,
      "loss": 0.9293,
      "step": 3560
    },
    {
      "epoch": 0.2056414397784956,
      "grad_norm": 0.2932792901992798,
      "learning_rate": 0.0001932801306505608,
      "loss": 1.0088,
      "step": 3565
    },
    {
      "epoch": 0.20592985694508537,
      "grad_norm": 0.3343851566314697,
      "learning_rate": 0.00019324379950918437,
      "loss": 1.0363,
      "step": 3570
    },
    {
      "epoch": 0.20621827411167512,
      "grad_norm": 0.30094677209854126,
      "learning_rate": 0.00019320737385315756,
      "loss": 1.0072,
      "step": 3575
    },
    {
      "epoch": 0.20650669127826488,
      "grad_norm": 0.28837206959724426,
      "learning_rate": 0.00019317085371940246,
      "loss": 0.9139,
      "step": 3580
    },
    {
      "epoch": 0.20679510844485463,
      "grad_norm": 0.29000407457351685,
      "learning_rate": 0.00019313423914493703,
      "loss": 0.9431,
      "step": 3585
    },
    {
      "epoch": 0.20708352561144439,
      "grad_norm": 0.28823748230934143,
      "learning_rate": 0.00019309753016687477,
      "loss": 0.9281,
      "step": 3590
    },
    {
      "epoch": 0.20737194277803414,
      "grad_norm": 0.30797070264816284,
      "learning_rate": 0.00019306072682242505,
      "loss": 0.9611,
      "step": 3595
    },
    {
      "epoch": 0.2076603599446239,
      "grad_norm": 0.2971121370792389,
      "learning_rate": 0.00019302382914889284,
      "loss": 1.0199,
      "step": 3600
    },
    {
      "epoch": 0.20794877711121365,
      "grad_norm": 0.2938947081565857,
      "learning_rate": 0.00019298683718367864,
      "loss": 0.9275,
      "step": 3605
    },
    {
      "epoch": 0.2082371942778034,
      "grad_norm": 0.3001919686794281,
      "learning_rate": 0.00019294975096427862,
      "loss": 0.9963,
      "step": 3610
    },
    {
      "epoch": 0.20852561144439316,
      "grad_norm": 0.3122607469558716,
      "learning_rate": 0.00019291257052828447,
      "loss": 1.0458,
      "step": 3615
    },
    {
      "epoch": 0.20881402861098292,
      "grad_norm": 0.2895052433013916,
      "learning_rate": 0.00019287529591338333,
      "loss": 0.9592,
      "step": 3620
    },
    {
      "epoch": 0.20910244577757267,
      "grad_norm": 0.2828371822834015,
      "learning_rate": 0.0001928379271573579,
      "loss": 0.9518,
      "step": 3625
    },
    {
      "epoch": 0.20939086294416243,
      "grad_norm": 0.30132856965065,
      "learning_rate": 0.0001928004642980862,
      "loss": 0.9374,
      "step": 3630
    },
    {
      "epoch": 0.20967928011075218,
      "grad_norm": 0.4656534194946289,
      "learning_rate": 0.0001927629073735417,
      "loss": 0.9824,
      "step": 3635
    },
    {
      "epoch": 0.20996769727734194,
      "grad_norm": 0.2774214744567871,
      "learning_rate": 0.00019272525642179323,
      "loss": 0.9528,
      "step": 3640
    },
    {
      "epoch": 0.2102561144439317,
      "grad_norm": 0.2919476330280304,
      "learning_rate": 0.00019268751148100486,
      "loss": 0.9404,
      "step": 3645
    },
    {
      "epoch": 0.21054453161052145,
      "grad_norm": 0.3007878065109253,
      "learning_rate": 0.00019264967258943595,
      "loss": 0.96,
      "step": 3650
    },
    {
      "epoch": 0.2108329487771112,
      "grad_norm": 0.30731719732284546,
      "learning_rate": 0.0001926117397854412,
      "loss": 0.9321,
      "step": 3655
    },
    {
      "epoch": 0.21112136594370096,
      "grad_norm": 0.32939255237579346,
      "learning_rate": 0.0001925737131074703,
      "loss": 1.0182,
      "step": 3660
    },
    {
      "epoch": 0.2114097831102907,
      "grad_norm": 0.29776227474212646,
      "learning_rate": 0.0001925355925940683,
      "loss": 1.0224,
      "step": 3665
    },
    {
      "epoch": 0.2116982002768805,
      "grad_norm": 0.3057902753353119,
      "learning_rate": 0.00019249737828387522,
      "loss": 0.9812,
      "step": 3670
    },
    {
      "epoch": 0.21198661744347025,
      "grad_norm": 0.3011026382446289,
      "learning_rate": 0.0001924590702156262,
      "loss": 0.9753,
      "step": 3675
    },
    {
      "epoch": 0.21227503461006,
      "grad_norm": 0.2978782653808594,
      "learning_rate": 0.00019242066842815146,
      "loss": 1.0129,
      "step": 3680
    },
    {
      "epoch": 0.21256345177664976,
      "grad_norm": 0.2966994047164917,
      "learning_rate": 0.00019238217296037614,
      "loss": 1.0068,
      "step": 3685
    },
    {
      "epoch": 0.21285186894323951,
      "grad_norm": 0.2818816602230072,
      "learning_rate": 0.00019234358385132038,
      "loss": 1.0062,
      "step": 3690
    },
    {
      "epoch": 0.21314028610982927,
      "grad_norm": 0.280269980430603,
      "learning_rate": 0.00019230490114009928,
      "loss": 0.9392,
      "step": 3695
    },
    {
      "epoch": 0.21342870327641902,
      "grad_norm": 0.29371026158332825,
      "learning_rate": 0.00019226612486592271,
      "loss": 0.8971,
      "step": 3700
    },
    {
      "epoch": 0.21371712044300878,
      "grad_norm": 0.3066560924053192,
      "learning_rate": 0.00019222725506809547,
      "loss": 0.9893,
      "step": 3705
    },
    {
      "epoch": 0.21400553760959853,
      "grad_norm": 0.31458479166030884,
      "learning_rate": 0.00019218829178601713,
      "loss": 1.0389,
      "step": 3710
    },
    {
      "epoch": 0.2142939547761883,
      "grad_norm": 0.3057044446468353,
      "learning_rate": 0.00019214923505918202,
      "loss": 1.0005,
      "step": 3715
    },
    {
      "epoch": 0.21458237194277804,
      "grad_norm": 0.27441418170928955,
      "learning_rate": 0.00019211008492717914,
      "loss": 0.9777,
      "step": 3720
    },
    {
      "epoch": 0.2148707891093678,
      "grad_norm": 0.2985784113407135,
      "learning_rate": 0.00019207084142969225,
      "loss": 1.0475,
      "step": 3725
    },
    {
      "epoch": 0.21515920627595755,
      "grad_norm": 0.305512934923172,
      "learning_rate": 0.0001920315046064997,
      "loss": 0.9554,
      "step": 3730
    },
    {
      "epoch": 0.2154476234425473,
      "grad_norm": 0.3009251356124878,
      "learning_rate": 0.0001919920744974745,
      "loss": 0.9912,
      "step": 3735
    },
    {
      "epoch": 0.21573604060913706,
      "grad_norm": 0.29489755630493164,
      "learning_rate": 0.00019195255114258408,
      "loss": 0.9554,
      "step": 3740
    },
    {
      "epoch": 0.21602445777572682,
      "grad_norm": 0.3059771955013275,
      "learning_rate": 0.0001919129345818905,
      "loss": 0.9819,
      "step": 3745
    },
    {
      "epoch": 0.21631287494231657,
      "grad_norm": 0.3015615940093994,
      "learning_rate": 0.00019187322485555031,
      "loss": 0.9948,
      "step": 3750
    },
    {
      "epoch": 0.21660129210890633,
      "grad_norm": 0.3108586072921753,
      "learning_rate": 0.0001918334220038144,
      "loss": 0.9818,
      "step": 3755
    },
    {
      "epoch": 0.21688970927549608,
      "grad_norm": 0.30573326349258423,
      "learning_rate": 0.00019179352606702813,
      "loss": 0.9519,
      "step": 3760
    },
    {
      "epoch": 0.21717812644208584,
      "grad_norm": 0.2957397997379303,
      "learning_rate": 0.00019175353708563117,
      "loss": 1.0094,
      "step": 3765
    },
    {
      "epoch": 0.2174665436086756,
      "grad_norm": 0.2969014644622803,
      "learning_rate": 0.00019171345510015758,
      "loss": 1.0162,
      "step": 3770
    },
    {
      "epoch": 0.21775496077526535,
      "grad_norm": 0.33074361085891724,
      "learning_rate": 0.00019167328015123558,
      "loss": 0.9382,
      "step": 3775
    },
    {
      "epoch": 0.2180433779418551,
      "grad_norm": 0.2909998297691345,
      "learning_rate": 0.0001916330122795877,
      "loss": 0.9768,
      "step": 3780
    },
    {
      "epoch": 0.21833179510844486,
      "grad_norm": 0.28647512197494507,
      "learning_rate": 0.00019159265152603064,
      "loss": 0.9658,
      "step": 3785
    },
    {
      "epoch": 0.21862021227503461,
      "grad_norm": 0.3733946979045868,
      "learning_rate": 0.00019155219793147522,
      "loss": 1.037,
      "step": 3790
    },
    {
      "epoch": 0.21890862944162437,
      "grad_norm": 0.2883405089378357,
      "learning_rate": 0.00019151165153692644,
      "loss": 0.9551,
      "step": 3795
    },
    {
      "epoch": 0.21919704660821412,
      "grad_norm": 0.33625394105911255,
      "learning_rate": 0.00019147101238348326,
      "loss": 0.995,
      "step": 3800
    },
    {
      "epoch": 0.21948546377480388,
      "grad_norm": 0.4042999744415283,
      "learning_rate": 0.00019143028051233873,
      "loss": 0.9512,
      "step": 3805
    },
    {
      "epoch": 0.21977388094139363,
      "grad_norm": 0.277295857667923,
      "learning_rate": 0.00019138945596477994,
      "loss": 0.9281,
      "step": 3810
    },
    {
      "epoch": 0.2200622981079834,
      "grad_norm": 0.3070628046989441,
      "learning_rate": 0.0001913485387821877,
      "loss": 0.938,
      "step": 3815
    },
    {
      "epoch": 0.22035071527457314,
      "grad_norm": 0.2898661494255066,
      "learning_rate": 0.00019130752900603702,
      "loss": 1.0103,
      "step": 3820
    },
    {
      "epoch": 0.2206391324411629,
      "grad_norm": 0.2981604039669037,
      "learning_rate": 0.00019126642667789654,
      "loss": 0.9787,
      "step": 3825
    },
    {
      "epoch": 0.22092754960775265,
      "grad_norm": 0.2816370129585266,
      "learning_rate": 0.00019122523183942879,
      "loss": 1.039,
      "step": 3830
    },
    {
      "epoch": 0.2212159667743424,
      "grad_norm": 0.306822806596756,
      "learning_rate": 0.00019118394453239006,
      "loss": 1.0161,
      "step": 3835
    },
    {
      "epoch": 0.22150438394093216,
      "grad_norm": 0.29982468485832214,
      "learning_rate": 0.00019114256479863038,
      "loss": 0.959,
      "step": 3840
    },
    {
      "epoch": 0.22179280110752192,
      "grad_norm": 0.2966124713420868,
      "learning_rate": 0.00019110109268009347,
      "loss": 0.9996,
      "step": 3845
    },
    {
      "epoch": 0.22208121827411167,
      "grad_norm": 0.3192947208881378,
      "learning_rate": 0.00019105952821881668,
      "loss": 1.0132,
      "step": 3850
    },
    {
      "epoch": 0.22236963544070143,
      "grad_norm": 0.2927592694759369,
      "learning_rate": 0.00019101787145693098,
      "loss": 0.9738,
      "step": 3855
    },
    {
      "epoch": 0.22265805260729118,
      "grad_norm": 0.2782720923423767,
      "learning_rate": 0.00019097612243666086,
      "loss": 0.9538,
      "step": 3860
    },
    {
      "epoch": 0.22294646977388094,
      "grad_norm": 0.32348090410232544,
      "learning_rate": 0.0001909342812003244,
      "loss": 0.9593,
      "step": 3865
    },
    {
      "epoch": 0.2232348869404707,
      "grad_norm": 0.32968342304229736,
      "learning_rate": 0.00019089234779033306,
      "loss": 0.9899,
      "step": 3870
    },
    {
      "epoch": 0.22352330410706045,
      "grad_norm": 0.29580381512641907,
      "learning_rate": 0.00019085032224919177,
      "loss": 0.9515,
      "step": 3875
    },
    {
      "epoch": 0.2238117212736502,
      "grad_norm": 0.27999478578567505,
      "learning_rate": 0.00019080820461949886,
      "loss": 0.9596,
      "step": 3880
    },
    {
      "epoch": 0.22410013844023996,
      "grad_norm": 0.31083959341049194,
      "learning_rate": 0.00019076599494394602,
      "loss": 1.0069,
      "step": 3885
    },
    {
      "epoch": 0.22438855560682971,
      "grad_norm": 0.2649812400341034,
      "learning_rate": 0.00019072369326531824,
      "loss": 0.9238,
      "step": 3890
    },
    {
      "epoch": 0.22467697277341947,
      "grad_norm": 0.2908613383769989,
      "learning_rate": 0.00019068129962649365,
      "loss": 0.9745,
      "step": 3895
    },
    {
      "epoch": 0.22496538994000922,
      "grad_norm": 0.2983262538909912,
      "learning_rate": 0.00019063881407044373,
      "loss": 0.9155,
      "step": 3900
    },
    {
      "epoch": 0.22525380710659898,
      "grad_norm": 0.3074907660484314,
      "learning_rate": 0.00019059623664023311,
      "loss": 1.0384,
      "step": 3905
    },
    {
      "epoch": 0.22554222427318874,
      "grad_norm": 0.3024677336215973,
      "learning_rate": 0.00019055356737901952,
      "loss": 1.0626,
      "step": 3910
    },
    {
      "epoch": 0.2258306414397785,
      "grad_norm": 0.324719101190567,
      "learning_rate": 0.00019051080633005372,
      "loss": 0.9757,
      "step": 3915
    },
    {
      "epoch": 0.22611905860636825,
      "grad_norm": 0.31149742007255554,
      "learning_rate": 0.00019046795353667965,
      "loss": 1.0294,
      "step": 3920
    },
    {
      "epoch": 0.226407475772958,
      "grad_norm": 0.3361373543739319,
      "learning_rate": 0.00019042500904233408,
      "loss": 0.949,
      "step": 3925
    },
    {
      "epoch": 0.22669589293954776,
      "grad_norm": 0.3346847593784332,
      "learning_rate": 0.00019038197289054684,
      "loss": 0.9531,
      "step": 3930
    },
    {
      "epoch": 0.2269843101061375,
      "grad_norm": 0.3011166453361511,
      "learning_rate": 0.00019033884512494064,
      "loss": 0.9515,
      "step": 3935
    },
    {
      "epoch": 0.22727272727272727,
      "grad_norm": 0.350754052400589,
      "learning_rate": 0.00019029562578923106,
      "loss": 0.9878,
      "step": 3940
    },
    {
      "epoch": 0.22756114443931702,
      "grad_norm": 0.3115714192390442,
      "learning_rate": 0.00019025231492722643,
      "loss": 0.9914,
      "step": 3945
    },
    {
      "epoch": 0.22784956160590678,
      "grad_norm": 0.29641732573509216,
      "learning_rate": 0.000190208912582828,
      "loss": 0.9508,
      "step": 3950
    },
    {
      "epoch": 0.22813797877249653,
      "grad_norm": 0.3013533353805542,
      "learning_rate": 0.0001901654188000296,
      "loss": 0.9551,
      "step": 3955
    },
    {
      "epoch": 0.22842639593908629,
      "grad_norm": 0.3072235584259033,
      "learning_rate": 0.0001901218336229178,
      "loss": 1.0324,
      "step": 3960
    },
    {
      "epoch": 0.22871481310567604,
      "grad_norm": 0.2967047691345215,
      "learning_rate": 0.00019007815709567183,
      "loss": 0.9767,
      "step": 3965
    },
    {
      "epoch": 0.2290032302722658,
      "grad_norm": 0.3344308137893677,
      "learning_rate": 0.0001900343892625635,
      "loss": 1.053,
      "step": 3970
    },
    {
      "epoch": 0.22929164743885555,
      "grad_norm": 0.279471218585968,
      "learning_rate": 0.00018999053016795719,
      "loss": 0.9597,
      "step": 3975
    },
    {
      "epoch": 0.2295800646054453,
      "grad_norm": 0.3151692748069763,
      "learning_rate": 0.00018994657985630972,
      "loss": 0.981,
      "step": 3980
    },
    {
      "epoch": 0.22986848177203506,
      "grad_norm": 0.29757049679756165,
      "learning_rate": 0.00018990253837217042,
      "loss": 0.9948,
      "step": 3985
    },
    {
      "epoch": 0.23015689893862482,
      "grad_norm": 0.29068654775619507,
      "learning_rate": 0.00018985840576018107,
      "loss": 0.9492,
      "step": 3990
    },
    {
      "epoch": 0.23044531610521457,
      "grad_norm": 0.29149913787841797,
      "learning_rate": 0.00018981418206507575,
      "loss": 0.9603,
      "step": 3995
    },
    {
      "epoch": 0.23073373327180433,
      "grad_norm": 0.2850954830646515,
      "learning_rate": 0.00018976986733168093,
      "loss": 1.0198,
      "step": 4000
    },
    {
      "epoch": 0.23102215043839408,
      "grad_norm": 0.3014662563800812,
      "learning_rate": 0.00018972546160491528,
      "loss": 1.0628,
      "step": 4005
    },
    {
      "epoch": 0.23131056760498384,
      "grad_norm": 0.29958969354629517,
      "learning_rate": 0.00018968096492978976,
      "loss": 0.9891,
      "step": 4010
    },
    {
      "epoch": 0.2315989847715736,
      "grad_norm": 0.29551297426223755,
      "learning_rate": 0.0001896363773514075,
      "loss": 0.9811,
      "step": 4015
    },
    {
      "epoch": 0.23188740193816337,
      "grad_norm": 0.30971017479896545,
      "learning_rate": 0.0001895916989149638,
      "loss": 1.0459,
      "step": 4020
    },
    {
      "epoch": 0.23217581910475313,
      "grad_norm": 0.3282906115055084,
      "learning_rate": 0.000189546929665746,
      "loss": 1.0698,
      "step": 4025
    },
    {
      "epoch": 0.23246423627134288,
      "grad_norm": 0.3017507493495941,
      "learning_rate": 0.00018950206964913355,
      "loss": 0.9867,
      "step": 4030
    },
    {
      "epoch": 0.23275265343793264,
      "grad_norm": 0.34195518493652344,
      "learning_rate": 0.0001894571189105979,
      "loss": 0.9247,
      "step": 4035
    },
    {
      "epoch": 0.2330410706045224,
      "grad_norm": 0.33378762006759644,
      "learning_rate": 0.00018941207749570237,
      "loss": 1.0384,
      "step": 4040
    },
    {
      "epoch": 0.23332948777111215,
      "grad_norm": 0.325948029756546,
      "learning_rate": 0.00018936694545010232,
      "loss": 0.9698,
      "step": 4045
    },
    {
      "epoch": 0.2336179049377019,
      "grad_norm": 0.2848076820373535,
      "learning_rate": 0.0001893217228195449,
      "loss": 1.0036,
      "step": 4050
    },
    {
      "epoch": 0.23390632210429166,
      "grad_norm": 0.30070775747299194,
      "learning_rate": 0.0001892764096498691,
      "loss": 1.0397,
      "step": 4055
    },
    {
      "epoch": 0.2341947392708814,
      "grad_norm": 0.3177594244480133,
      "learning_rate": 0.00018923100598700561,
      "loss": 1.0136,
      "step": 4060
    },
    {
      "epoch": 0.23448315643747117,
      "grad_norm": 0.31077563762664795,
      "learning_rate": 0.00018918551187697703,
      "loss": 0.9457,
      "step": 4065
    },
    {
      "epoch": 0.23477157360406092,
      "grad_norm": 0.2947135865688324,
      "learning_rate": 0.00018913992736589746,
      "loss": 0.9988,
      "step": 4070
    },
    {
      "epoch": 0.23505999077065068,
      "grad_norm": 0.26377373933792114,
      "learning_rate": 0.00018909425249997267,
      "loss": 0.9891,
      "step": 4075
    },
    {
      "epoch": 0.23534840793724043,
      "grad_norm": 0.3427537977695465,
      "learning_rate": 0.0001890484873255001,
      "loss": 0.993,
      "step": 4080
    },
    {
      "epoch": 0.2356368251038302,
      "grad_norm": 0.28606218099594116,
      "learning_rate": 0.00018900263188886864,
      "loss": 0.9609,
      "step": 4085
    },
    {
      "epoch": 0.23592524227041994,
      "grad_norm": 0.31335821747779846,
      "learning_rate": 0.00018895668623655873,
      "loss": 0.9278,
      "step": 4090
    },
    {
      "epoch": 0.2362136594370097,
      "grad_norm": 0.3148699104785919,
      "learning_rate": 0.00018891065041514224,
      "loss": 0.9486,
      "step": 4095
    },
    {
      "epoch": 0.23650207660359945,
      "grad_norm": 0.30335333943367004,
      "learning_rate": 0.0001888645244712824,
      "loss": 0.9604,
      "step": 4100
    },
    {
      "epoch": 0.2367904937701892,
      "grad_norm": 0.2990083396434784,
      "learning_rate": 0.0001888183084517338,
      "loss": 0.9277,
      "step": 4105
    },
    {
      "epoch": 0.23707891093677896,
      "grad_norm": 0.3039418160915375,
      "learning_rate": 0.00018877200240334236,
      "loss": 1.0381,
      "step": 4110
    },
    {
      "epoch": 0.23736732810336872,
      "grad_norm": 0.3109247386455536,
      "learning_rate": 0.0001887256063730453,
      "loss": 1.0214,
      "step": 4115
    },
    {
      "epoch": 0.23765574526995847,
      "grad_norm": 0.29135051369667053,
      "learning_rate": 0.00018867912040787096,
      "loss": 1.0111,
      "step": 4120
    },
    {
      "epoch": 0.23794416243654823,
      "grad_norm": 0.29950061440467834,
      "learning_rate": 0.0001886325445549389,
      "loss": 0.9879,
      "step": 4125
    },
    {
      "epoch": 0.23823257960313798,
      "grad_norm": 0.3028976619243622,
      "learning_rate": 0.00018858587886145975,
      "loss": 0.9808,
      "step": 4130
    },
    {
      "epoch": 0.23852099676972774,
      "grad_norm": 0.2960391342639923,
      "learning_rate": 0.0001885391233747352,
      "loss": 0.9033,
      "step": 4135
    },
    {
      "epoch": 0.2388094139363175,
      "grad_norm": 0.28858163952827454,
      "learning_rate": 0.00018849227814215805,
      "loss": 0.8774,
      "step": 4140
    },
    {
      "epoch": 0.23909783110290725,
      "grad_norm": 0.3187437653541565,
      "learning_rate": 0.00018844534321121195,
      "loss": 1.032,
      "step": 4145
    },
    {
      "epoch": 0.239386248269497,
      "grad_norm": 0.30050045251846313,
      "learning_rate": 0.00018839831862947152,
      "loss": 0.9785,
      "step": 4150
    },
    {
      "epoch": 0.23967466543608676,
      "grad_norm": 0.3172016739845276,
      "learning_rate": 0.0001883512044446023,
      "loss": 1.0049,
      "step": 4155
    },
    {
      "epoch": 0.23996308260267651,
      "grad_norm": 0.2758901119232178,
      "learning_rate": 0.00018830400070436057,
      "loss": 0.8758,
      "step": 4160
    },
    {
      "epoch": 0.24025149976926627,
      "grad_norm": 0.31265828013420105,
      "learning_rate": 0.00018825670745659345,
      "loss": 0.9875,
      "step": 4165
    },
    {
      "epoch": 0.24053991693585602,
      "grad_norm": 0.2935623526573181,
      "learning_rate": 0.00018820932474923873,
      "loss": 0.9738,
      "step": 4170
    },
    {
      "epoch": 0.24082833410244578,
      "grad_norm": 0.31961116194725037,
      "learning_rate": 0.00018816185263032496,
      "loss": 0.985,
      "step": 4175
    },
    {
      "epoch": 0.24111675126903553,
      "grad_norm": 0.302990198135376,
      "learning_rate": 0.00018811429114797123,
      "loss": 0.9693,
      "step": 4180
    },
    {
      "epoch": 0.2414051684356253,
      "grad_norm": 0.3246656358242035,
      "learning_rate": 0.00018806664035038727,
      "loss": 0.9715,
      "step": 4185
    },
    {
      "epoch": 0.24169358560221504,
      "grad_norm": 0.30691856145858765,
      "learning_rate": 0.00018801890028587333,
      "loss": 0.9967,
      "step": 4190
    },
    {
      "epoch": 0.2419820027688048,
      "grad_norm": 0.3090788424015045,
      "learning_rate": 0.00018797107100282015,
      "loss": 1.0014,
      "step": 4195
    },
    {
      "epoch": 0.24227041993539455,
      "grad_norm": 0.28349974751472473,
      "learning_rate": 0.0001879231525497089,
      "loss": 0.9426,
      "step": 4200
    },
    {
      "epoch": 0.2425588371019843,
      "grad_norm": 0.3226814270019531,
      "learning_rate": 0.00018787514497511104,
      "loss": 1.0058,
      "step": 4205
    },
    {
      "epoch": 0.24284725426857406,
      "grad_norm": 0.3090320825576782,
      "learning_rate": 0.0001878270483276886,
      "loss": 0.9565,
      "step": 4210
    },
    {
      "epoch": 0.24313567143516382,
      "grad_norm": 0.29639485478401184,
      "learning_rate": 0.00018777886265619365,
      "loss": 0.9994,
      "step": 4215
    },
    {
      "epoch": 0.24342408860175357,
      "grad_norm": 0.30157527327537537,
      "learning_rate": 0.00018773058800946858,
      "loss": 0.9349,
      "step": 4220
    },
    {
      "epoch": 0.24371250576834333,
      "grad_norm": 0.2847401797771454,
      "learning_rate": 0.0001876822244364461,
      "loss": 0.9882,
      "step": 4225
    },
    {
      "epoch": 0.24400092293493308,
      "grad_norm": 0.2939082086086273,
      "learning_rate": 0.00018763377198614887,
      "loss": 0.9545,
      "step": 4230
    },
    {
      "epoch": 0.24428934010152284,
      "grad_norm": 0.30300137400627136,
      "learning_rate": 0.00018758523070768973,
      "loss": 0.9069,
      "step": 4235
    },
    {
      "epoch": 0.2445777572681126,
      "grad_norm": 0.2980591952800751,
      "learning_rate": 0.00018753660065027152,
      "loss": 0.9992,
      "step": 4240
    },
    {
      "epoch": 0.24486617443470235,
      "grad_norm": 0.31828731298446655,
      "learning_rate": 0.00018748788186318712,
      "loss": 0.9711,
      "step": 4245
    },
    {
      "epoch": 0.2451545916012921,
      "grad_norm": 0.31123876571655273,
      "learning_rate": 0.00018743907439581933,
      "loss": 0.9393,
      "step": 4250
    },
    {
      "epoch": 0.24544300876788186,
      "grad_norm": 0.29812201857566833,
      "learning_rate": 0.00018739017829764082,
      "loss": 0.9653,
      "step": 4255
    },
    {
      "epoch": 0.24573142593447161,
      "grad_norm": 0.33146384358406067,
      "learning_rate": 0.0001873411936182141,
      "loss": 0.9758,
      "step": 4260
    },
    {
      "epoch": 0.24601984310106137,
      "grad_norm": 0.3051407039165497,
      "learning_rate": 0.0001872921204071915,
      "loss": 1.0172,
      "step": 4265
    },
    {
      "epoch": 0.24630826026765112,
      "grad_norm": 0.30195561051368713,
      "learning_rate": 0.000187242958714315,
      "loss": 0.9868,
      "step": 4270
    },
    {
      "epoch": 0.24659667743424088,
      "grad_norm": 0.2948630750179291,
      "learning_rate": 0.00018719370858941644,
      "loss": 0.9771,
      "step": 4275
    },
    {
      "epoch": 0.24688509460083063,
      "grad_norm": 0.3198891282081604,
      "learning_rate": 0.00018714437008241709,
      "loss": 1.04,
      "step": 4280
    },
    {
      "epoch": 0.2471735117674204,
      "grad_norm": 0.3208988606929779,
      "learning_rate": 0.000187094943243328,
      "loss": 0.9666,
      "step": 4285
    },
    {
      "epoch": 0.24746192893401014,
      "grad_norm": 0.3209957182407379,
      "learning_rate": 0.00018704542812224956,
      "loss": 0.9374,
      "step": 4290
    },
    {
      "epoch": 0.2477503461005999,
      "grad_norm": 0.3006252348423004,
      "learning_rate": 0.00018699582476937185,
      "loss": 0.9798,
      "step": 4295
    },
    {
      "epoch": 0.24803876326718965,
      "grad_norm": 0.3490176796913147,
      "learning_rate": 0.00018694613323497422,
      "loss": 1.0087,
      "step": 4300
    },
    {
      "epoch": 0.2483271804337794,
      "grad_norm": 0.3163358271121979,
      "learning_rate": 0.0001868963535694255,
      "loss": 1.043,
      "step": 4305
    },
    {
      "epoch": 0.24861559760036916,
      "grad_norm": 0.298026442527771,
      "learning_rate": 0.0001868464858231838,
      "loss": 1.0404,
      "step": 4310
    },
    {
      "epoch": 0.24890401476695892,
      "grad_norm": 0.3209499418735504,
      "learning_rate": 0.00018679653004679655,
      "loss": 0.9687,
      "step": 4315
    },
    {
      "epoch": 0.24919243193354867,
      "grad_norm": 0.3158719539642334,
      "learning_rate": 0.0001867464862909004,
      "loss": 0.9548,
      "step": 4320
    },
    {
      "epoch": 0.24948084910013843,
      "grad_norm": 0.28783926367759705,
      "learning_rate": 0.00018669635460622107,
      "loss": 0.9042,
      "step": 4325
    },
    {
      "epoch": 0.24976926626672818,
      "grad_norm": 0.2980654835700989,
      "learning_rate": 0.00018664613504357366,
      "loss": 0.97,
      "step": 4330
    },
    {
      "epoch": 0.25005768343331797,
      "grad_norm": 0.2950812876224518,
      "learning_rate": 0.00018659582765386204,
      "loss": 1.0261,
      "step": 4335
    },
    {
      "epoch": 0.2503461005999077,
      "grad_norm": 0.2984694540500641,
      "learning_rate": 0.0001865454324880794,
      "loss": 0.9859,
      "step": 4340
    },
    {
      "epoch": 0.2506345177664975,
      "grad_norm": 0.3119395971298218,
      "learning_rate": 0.00018649494959730765,
      "loss": 1.03,
      "step": 4345
    },
    {
      "epoch": 0.2509229349330872,
      "grad_norm": 0.3380660116672516,
      "learning_rate": 0.00018644437903271778,
      "loss": 1.0373,
      "step": 4350
    },
    {
      "epoch": 0.251211352099677,
      "grad_norm": 0.310693621635437,
      "learning_rate": 0.0001863937208455696,
      "loss": 0.977,
      "step": 4355
    },
    {
      "epoch": 0.2514997692662667,
      "grad_norm": 0.3119440972805023,
      "learning_rate": 0.00018634297508721167,
      "loss": 0.9384,
      "step": 4360
    },
    {
      "epoch": 0.2517881864328565,
      "grad_norm": 0.3072355389595032,
      "learning_rate": 0.00018629214180908144,
      "loss": 1.0126,
      "step": 4365
    },
    {
      "epoch": 0.2520766035994462,
      "grad_norm": 0.3056802749633789,
      "learning_rate": 0.00018624122106270506,
      "loss": 0.9496,
      "step": 4370
    },
    {
      "epoch": 0.252365020766036,
      "grad_norm": 0.34883102774620056,
      "learning_rate": 0.00018619021289969717,
      "loss": 0.9626,
      "step": 4375
    },
    {
      "epoch": 0.25265343793262574,
      "grad_norm": 0.2876664698123932,
      "learning_rate": 0.00018613911737176125,
      "loss": 0.9452,
      "step": 4380
    },
    {
      "epoch": 0.2529418550992155,
      "grad_norm": 0.3051524758338928,
      "learning_rate": 0.00018608793453068914,
      "loss": 0.996,
      "step": 4385
    },
    {
      "epoch": 0.25323027226580525,
      "grad_norm": 0.2734985053539276,
      "learning_rate": 0.0001860366644283613,
      "loss": 0.9395,
      "step": 4390
    },
    {
      "epoch": 0.25351868943239503,
      "grad_norm": 0.30163031816482544,
      "learning_rate": 0.00018598530711674667,
      "loss": 0.9608,
      "step": 4395
    },
    {
      "epoch": 0.25380710659898476,
      "grad_norm": 0.2709837555885315,
      "learning_rate": 0.00018593386264790243,
      "loss": 0.9611,
      "step": 4400
    },
    {
      "epoch": 0.25409552376557454,
      "grad_norm": 0.3166120946407318,
      "learning_rate": 0.00018588233107397429,
      "loss": 0.8999,
      "step": 4405
    },
    {
      "epoch": 0.25438394093216427,
      "grad_norm": 0.2956826090812683,
      "learning_rate": 0.00018583071244719607,
      "loss": 0.9097,
      "step": 4410
    },
    {
      "epoch": 0.25467235809875405,
      "grad_norm": 0.31426194310188293,
      "learning_rate": 0.00018577900681989,
      "loss": 0.941,
      "step": 4415
    },
    {
      "epoch": 0.2549607752653438,
      "grad_norm": 0.2746027410030365,
      "learning_rate": 0.0001857272142444664,
      "loss": 0.9168,
      "step": 4420
    },
    {
      "epoch": 0.25524919243193356,
      "grad_norm": 0.2936379015445709,
      "learning_rate": 0.00018567533477342377,
      "loss": 0.9536,
      "step": 4425
    },
    {
      "epoch": 0.2555376095985233,
      "grad_norm": 0.31358134746551514,
      "learning_rate": 0.0001856233684593486,
      "loss": 0.9569,
      "step": 4430
    },
    {
      "epoch": 0.25582602676511307,
      "grad_norm": 0.31144851446151733,
      "learning_rate": 0.0001855713153549155,
      "loss": 0.9447,
      "step": 4435
    },
    {
      "epoch": 0.2561144439317028,
      "grad_norm": 0.31088197231292725,
      "learning_rate": 0.00018551917551288706,
      "loss": 0.9873,
      "step": 4440
    },
    {
      "epoch": 0.2564028610982926,
      "grad_norm": 0.31137150526046753,
      "learning_rate": 0.0001854669489861137,
      "loss": 0.9769,
      "step": 4445
    },
    {
      "epoch": 0.2566912782648823,
      "grad_norm": 0.3470550775527954,
      "learning_rate": 0.0001854146358275338,
      "loss": 0.9824,
      "step": 4450
    },
    {
      "epoch": 0.2569796954314721,
      "grad_norm": 0.305550754070282,
      "learning_rate": 0.00018536223609017348,
      "loss": 1.0573,
      "step": 4455
    },
    {
      "epoch": 0.2572681125980618,
      "grad_norm": 0.30111902952194214,
      "learning_rate": 0.00018530974982714667,
      "loss": 0.9919,
      "step": 4460
    },
    {
      "epoch": 0.2575565297646516,
      "grad_norm": 0.29458123445510864,
      "learning_rate": 0.00018525717709165498,
      "loss": 1.0249,
      "step": 4465
    },
    {
      "epoch": 0.2578449469312413,
      "grad_norm": 0.2974050045013428,
      "learning_rate": 0.0001852045179369877,
      "loss": 1.0155,
      "step": 4470
    },
    {
      "epoch": 0.2581333640978311,
      "grad_norm": 0.27646365761756897,
      "learning_rate": 0.00018515177241652163,
      "loss": 0.9477,
      "step": 4475
    },
    {
      "epoch": 0.25842178126442084,
      "grad_norm": 0.3065283000469208,
      "learning_rate": 0.0001850989405837212,
      "loss": 0.9789,
      "step": 4480
    },
    {
      "epoch": 0.2587101984310106,
      "grad_norm": 0.31208351254463196,
      "learning_rate": 0.00018504602249213838,
      "loss": 1.0209,
      "step": 4485
    },
    {
      "epoch": 0.25899861559760035,
      "grad_norm": 0.27680978178977966,
      "learning_rate": 0.0001849930181954124,
      "loss": 0.9937,
      "step": 4490
    },
    {
      "epoch": 0.25928703276419013,
      "grad_norm": 0.35537493228912354,
      "learning_rate": 0.00018493992774727005,
      "loss": 1.019,
      "step": 4495
    },
    {
      "epoch": 0.25957544993077986,
      "grad_norm": 0.2992296814918518,
      "learning_rate": 0.00018488675120152532,
      "loss": 0.9409,
      "step": 4500
    },
    {
      "epoch": 0.25986386709736964,
      "grad_norm": 0.2907122075557709,
      "learning_rate": 0.00018483348861207953,
      "loss": 0.9925,
      "step": 4505
    },
    {
      "epoch": 0.26015228426395937,
      "grad_norm": 0.3083319664001465,
      "learning_rate": 0.00018478014003292116,
      "loss": 0.9494,
      "step": 4510
    },
    {
      "epoch": 0.26044070143054915,
      "grad_norm": 0.2940841615200043,
      "learning_rate": 0.00018472670551812596,
      "loss": 1.0234,
      "step": 4515
    },
    {
      "epoch": 0.2607291185971389,
      "grad_norm": 0.3526857793331146,
      "learning_rate": 0.0001846731851218567,
      "loss": 1.0047,
      "step": 4520
    },
    {
      "epoch": 0.26101753576372866,
      "grad_norm": 0.2867284119129181,
      "learning_rate": 0.00018461957889836324,
      "loss": 0.953,
      "step": 4525
    },
    {
      "epoch": 0.2613059529303184,
      "grad_norm": 0.28662440180778503,
      "learning_rate": 0.00018456588690198236,
      "loss": 0.9734,
      "step": 4530
    },
    {
      "epoch": 0.26159437009690817,
      "grad_norm": 0.2874925136566162,
      "learning_rate": 0.0001845121091871379,
      "loss": 1.012,
      "step": 4535
    },
    {
      "epoch": 0.2618827872634979,
      "grad_norm": 0.30890873074531555,
      "learning_rate": 0.0001844582458083405,
      "loss": 0.9317,
      "step": 4540
    },
    {
      "epoch": 0.2621712044300877,
      "grad_norm": 0.2991410791873932,
      "learning_rate": 0.0001844042968201877,
      "loss": 0.9488,
      "step": 4545
    },
    {
      "epoch": 0.26245962159667746,
      "grad_norm": 0.29846030473709106,
      "learning_rate": 0.0001843502622773637,
      "loss": 0.9722,
      "step": 4550
    },
    {
      "epoch": 0.2627480387632672,
      "grad_norm": 0.30086445808410645,
      "learning_rate": 0.0001842961422346396,
      "loss": 0.9901,
      "step": 4555
    },
    {
      "epoch": 0.26303645592985697,
      "grad_norm": 0.3020675778388977,
      "learning_rate": 0.00018424193674687297,
      "loss": 1.0275,
      "step": 4560
    },
    {
      "epoch": 0.2633248730964467,
      "grad_norm": 0.3111262023448944,
      "learning_rate": 0.00018418764586900817,
      "loss": 0.9977,
      "step": 4565
    },
    {
      "epoch": 0.2636132902630365,
      "grad_norm": 0.3167891204357147,
      "learning_rate": 0.00018413326965607593,
      "loss": 1.0266,
      "step": 4570
    },
    {
      "epoch": 0.2639017074296262,
      "grad_norm": 0.28536850214004517,
      "learning_rate": 0.00018407880816319363,
      "loss": 0.9475,
      "step": 4575
    },
    {
      "epoch": 0.264190124596216,
      "grad_norm": 0.30811807513237,
      "learning_rate": 0.00018402426144556504,
      "loss": 0.9549,
      "step": 4580
    },
    {
      "epoch": 0.2644785417628057,
      "grad_norm": 0.2881765365600586,
      "learning_rate": 0.0001839696295584803,
      "loss": 1.0276,
      "step": 4585
    },
    {
      "epoch": 0.2647669589293955,
      "grad_norm": 0.3339601159095764,
      "learning_rate": 0.0001839149125573159,
      "loss": 0.9772,
      "step": 4590
    },
    {
      "epoch": 0.26505537609598523,
      "grad_norm": 0.2897505760192871,
      "learning_rate": 0.0001838601104975346,
      "loss": 1.0897,
      "step": 4595
    },
    {
      "epoch": 0.265343793262575,
      "grad_norm": 0.3119150400161743,
      "learning_rate": 0.00018380522343468532,
      "loss": 0.9842,
      "step": 4600
    },
    {
      "epoch": 0.265343793262575,
      "step": 4600,
      "total_flos": 3.2343958172802744e+18,
      "train_loss": 0.0,
      "train_runtime": 0.0427,
      "train_samples_per_second": 9970.556,
      "train_steps_per_second": 304.266
    }
  ],
  "logging_steps": 5,
  "max_steps": 13,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.2343958172802744e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}