{
  "best_metric": 11.018465042114258,
  "best_model_checkpoint": "miner_id_24/checkpoint-370",
  "epoch": 0.016722785925741793,
  "eval_steps": 5,
  "global_step": 370,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.519671871822106e-05,
      "grad_norm": 0.741265594959259,
      "learning_rate": 2e-05,
      "loss": 44.3865,
      "step": 1
    },
    {
      "epoch": 4.519671871822106e-05,
      "eval_loss": 11.093368530273438,
      "eval_runtime": 175.5908,
      "eval_samples_per_second": 53.061,
      "eval_steps_per_second": 26.533,
      "step": 1
    },
    {
      "epoch": 9.039343743644212e-05,
      "grad_norm": 0.6581929326057434,
      "learning_rate": 4e-05,
      "loss": 44.3813,
      "step": 2
    },
    {
      "epoch": 0.00013559015615466317,
      "grad_norm": 0.6729432344436646,
      "learning_rate": 6e-05,
      "loss": 44.3393,
      "step": 3
    },
    {
      "epoch": 0.00018078687487288423,
      "grad_norm": 0.6872175335884094,
      "learning_rate": 8e-05,
      "loss": 44.3795,
      "step": 4
    },
    {
      "epoch": 0.00022598359359110527,
      "grad_norm": 0.704067051410675,
      "learning_rate": 0.0001,
      "loss": 44.389,
      "step": 5
    },
    {
      "epoch": 0.00022598359359110527,
      "eval_loss": 11.093063354492188,
      "eval_runtime": 176.3334,
      "eval_samples_per_second": 52.837,
      "eval_steps_per_second": 26.422,
      "step": 5
    },
    {
      "epoch": 0.00027118031230932634,
      "grad_norm": 0.6682418584823608,
      "learning_rate": 0.00012,
      "loss": 44.3529,
      "step": 6
    },
    {
      "epoch": 0.0003163770310275474,
      "grad_norm": 0.6353705525398254,
      "learning_rate": 0.00014,
      "loss": 44.4355,
      "step": 7
    },
    {
      "epoch": 0.00036157374974576847,
      "grad_norm": 0.6866922974586487,
      "learning_rate": 0.00016,
      "loss": 44.4036,
      "step": 8
    },
    {
      "epoch": 0.00040677046846398953,
      "grad_norm": 0.7315343618392944,
      "learning_rate": 0.00018,
      "loss": 44.3756,
      "step": 9
    },
    {
      "epoch": 0.00045196718718221055,
      "grad_norm": 0.6867555379867554,
      "learning_rate": 0.0002,
      "loss": 44.3678,
      "step": 10
    },
    {
      "epoch": 0.00045196718718221055,
      "eval_loss": 11.091917037963867,
      "eval_runtime": 176.1396,
      "eval_samples_per_second": 52.896,
      "eval_steps_per_second": 26.451,
      "step": 10
    },
    {
      "epoch": 0.0004971639059004316,
      "grad_norm": 0.7067858576774597,
      "learning_rate": 0.0001999979446958366,
      "loss": 44.3933,
      "step": 11
    },
    {
      "epoch": 0.0005423606246186527,
      "grad_norm": 0.7694055438041687,
      "learning_rate": 0.00019999177886783194,
      "loss": 44.3476,
      "step": 12
    },
    {
      "epoch": 0.0005875573433368737,
      "grad_norm": 0.6980550289154053,
      "learning_rate": 0.00019998150276943902,
      "loss": 44.3621,
      "step": 13
    },
    {
      "epoch": 0.0006327540620550948,
      "grad_norm": 0.7399426698684692,
      "learning_rate": 0.000199967116823068,
      "loss": 44.3727,
      "step": 14
    },
    {
      "epoch": 0.0006779507807733159,
      "grad_norm": 0.6623771786689758,
      "learning_rate": 0.0001999486216200688,
      "loss": 44.3563,
      "step": 15
    },
    {
      "epoch": 0.0006779507807733159,
      "eval_loss": 11.089905738830566,
      "eval_runtime": 176.0326,
      "eval_samples_per_second": 52.928,
      "eval_steps_per_second": 26.467,
      "step": 15
    },
    {
      "epoch": 0.0007231474994915369,
      "grad_norm": 0.6647756695747375,
      "learning_rate": 0.00019992601792070679,
      "loss": 44.3454,
      "step": 16
    },
    {
      "epoch": 0.000768344218209758,
      "grad_norm": 0.7416101694107056,
      "learning_rate": 0.00019989930665413147,
      "loss": 44.3249,
      "step": 17
    },
    {
      "epoch": 0.0008135409369279791,
      "grad_norm": 0.6351829171180725,
      "learning_rate": 0.00019986848891833845,
      "loss": 44.37,
      "step": 18
    },
    {
      "epoch": 0.0008587376556462001,
      "grad_norm": 0.6839431524276733,
      "learning_rate": 0.0001998335659801241,
      "loss": 44.3472,
      "step": 19
    },
    {
      "epoch": 0.0009039343743644211,
      "grad_norm": 0.6762228608131409,
      "learning_rate": 0.00019979453927503364,
      "loss": 44.3507,
      "step": 20
    },
    {
      "epoch": 0.0009039343743644211,
      "eval_loss": 11.087591171264648,
      "eval_runtime": 176.1534,
      "eval_samples_per_second": 52.891,
      "eval_steps_per_second": 26.449,
      "step": 20
    },
    {
      "epoch": 0.0009491310930826422,
      "grad_norm": 0.7993413209915161,
      "learning_rate": 0.00019975141040730207,
      "loss": 44.288,
      "step": 21
    },
    {
      "epoch": 0.0009943278118008632,
      "grad_norm": 0.6926490664482117,
      "learning_rate": 0.0001997041811497882,
      "loss": 44.3672,
      "step": 22
    },
    {
      "epoch": 0.0010395245305190844,
      "grad_norm": 0.7373084425926208,
      "learning_rate": 0.00019965285344390184,
      "loss": 44.3927,
      "step": 23
    },
    {
      "epoch": 0.0010847212492373054,
      "grad_norm": 0.6655643582344055,
      "learning_rate": 0.00019959742939952392,
      "loss": 44.3481,
      "step": 24
    },
    {
      "epoch": 0.0011299179679555265,
      "grad_norm": 0.7115928530693054,
      "learning_rate": 0.00019953791129491983,
      "loss": 44.3368,
      "step": 25
    },
    {
      "epoch": 0.0011299179679555265,
      "eval_loss": 11.085227012634277,
      "eval_runtime": 175.877,
      "eval_samples_per_second": 52.975,
      "eval_steps_per_second": 26.49,
      "step": 25
    },
    {
      "epoch": 0.0011751146866737475,
      "grad_norm": 0.7096830010414124,
      "learning_rate": 0.00019947430157664576,
      "loss": 44.3735,
      "step": 26
    },
    {
      "epoch": 0.0012203114053919684,
      "grad_norm": 0.6747312545776367,
      "learning_rate": 0.00019940660285944803,
      "loss": 44.3323,
      "step": 27
    },
    {
      "epoch": 0.0012655081241101896,
      "grad_norm": 0.7371957302093506,
      "learning_rate": 0.00019933481792615583,
      "loss": 44.2951,
      "step": 28
    },
    {
      "epoch": 0.0013107048428284106,
      "grad_norm": 0.7316697239875793,
      "learning_rate": 0.0001992589497275665,
      "loss": 44.3097,
      "step": 29
    },
    {
      "epoch": 0.0013559015615466317,
      "grad_norm": 0.6886783838272095,
      "learning_rate": 0.0001991790013823246,
      "loss": 44.3137,
      "step": 30
    },
    {
      "epoch": 0.0013559015615466317,
      "eval_loss": 11.082609176635742,
      "eval_runtime": 176.2695,
      "eval_samples_per_second": 52.857,
      "eval_steps_per_second": 26.431,
      "step": 30
    },
    {
      "epoch": 0.0014010982802648527,
      "grad_norm": 0.7027749419212341,
      "learning_rate": 0.00019909497617679348,
      "loss": 44.3391,
      "step": 31
    },
    {
      "epoch": 0.0014462949989830739,
      "grad_norm": 0.735598087310791,
      "learning_rate": 0.0001990068775649202,
      "loss": 44.3645,
      "step": 32
    },
    {
      "epoch": 0.0014914917177012948,
      "grad_norm": 0.7152600288391113,
      "learning_rate": 0.00019891470916809362,
      "loss": 44.3478,
      "step": 33
    },
    {
      "epoch": 0.001536688436419516,
      "grad_norm": 0.6983291506767273,
      "learning_rate": 0.00019881847477499557,
      "loss": 44.3252,
      "step": 34
    },
    {
      "epoch": 0.001581885155137737,
      "grad_norm": 0.6892045140266418,
      "learning_rate": 0.00019871817834144504,
      "loss": 44.2998,
      "step": 35
    },
    {
      "epoch": 0.001581885155137737,
      "eval_loss": 11.079712867736816,
      "eval_runtime": 176.1378,
      "eval_samples_per_second": 52.896,
      "eval_steps_per_second": 26.451,
      "step": 35
    },
    {
      "epoch": 0.0016270818738559581,
      "grad_norm": 0.7166262865066528,
      "learning_rate": 0.0001986138239902355,
      "loss": 44.3485,
      "step": 36
    },
    {
      "epoch": 0.001672278592574179,
      "grad_norm": 0.7545002102851868,
      "learning_rate": 0.0001985054160109657,
      "loss": 44.2613,
      "step": 37
    },
    {
      "epoch": 0.0017174753112924003,
      "grad_norm": 0.7944263219833374,
      "learning_rate": 0.00019839295885986296,
      "loss": 44.2665,
      "step": 38
    },
    {
      "epoch": 0.0017626720300106212,
      "grad_norm": 0.7216903567314148,
      "learning_rate": 0.0001982764571596004,
      "loss": 44.3546,
      "step": 39
    },
    {
      "epoch": 0.0018078687487288422,
      "grad_norm": 0.7492774128913879,
      "learning_rate": 0.00019815591569910654,
      "loss": 44.3223,
      "step": 40
    },
    {
      "epoch": 0.0018078687487288422,
      "eval_loss": 11.076553344726562,
      "eval_runtime": 176.1866,
      "eval_samples_per_second": 52.881,
      "eval_steps_per_second": 26.444,
      "step": 40
    },
    {
      "epoch": 0.0018530654674470634,
      "grad_norm": 0.8118460774421692,
      "learning_rate": 0.00019803133943336874,
      "loss": 44.3122,
      "step": 41
    },
    {
      "epoch": 0.0018982621861652843,
      "grad_norm": 0.7527559399604797,
      "learning_rate": 0.0001979027334832293,
      "loss": 44.3061,
      "step": 42
    },
    {
      "epoch": 0.0019434589048835055,
      "grad_norm": 0.7425262331962585,
      "learning_rate": 0.00019777010313517518,
      "loss": 44.2408,
      "step": 43
    },
    {
      "epoch": 0.0019886556236017264,
      "grad_norm": 0.753101646900177,
      "learning_rate": 0.00019763345384112043,
      "loss": 44.3362,
      "step": 44
    },
    {
      "epoch": 0.0020338523423199476,
      "grad_norm": 0.767737090587616,
      "learning_rate": 0.00019749279121818235,
      "loss": 44.2864,
      "step": 45
    },
    {
      "epoch": 0.0020338523423199476,
      "eval_loss": 11.072389602661133,
      "eval_runtime": 175.9667,
      "eval_samples_per_second": 52.948,
      "eval_steps_per_second": 26.477,
      "step": 45
    },
    {
      "epoch": 0.002079049061038169,
      "grad_norm": 0.7275786995887756,
      "learning_rate": 0.00019734812104845047,
      "loss": 44.3542,
      "step": 46
    },
    {
      "epoch": 0.0021242457797563895,
      "grad_norm": 0.6908650994300842,
      "learning_rate": 0.00019719944927874881,
      "loss": 44.3377,
      "step": 47
    },
    {
      "epoch": 0.0021694424984746107,
      "grad_norm": 0.7260599136352539,
      "learning_rate": 0.0001970467820203915,
      "loss": 44.2621,
      "step": 48
    },
    {
      "epoch": 0.002214639217192832,
      "grad_norm": 0.7138715982437134,
      "learning_rate": 0.00019689012554893154,
      "loss": 44.2338,
      "step": 49
    },
    {
      "epoch": 0.002259835935911053,
      "grad_norm": 0.7867954969406128,
      "learning_rate": 0.00019672948630390294,
      "loss": 44.3044,
      "step": 50
    },
    {
      "epoch": 0.002259835935911053,
      "eval_loss": 11.067892074584961,
      "eval_runtime": 176.5244,
      "eval_samples_per_second": 52.78,
      "eval_steps_per_second": 26.393,
      "step": 50
    },
    {
      "epoch": 0.002305032654629274,
      "grad_norm": 0.7787512540817261,
      "learning_rate": 0.00019656487088855592,
      "loss": 44.2918,
      "step": 51
    },
    {
      "epoch": 0.002350229373347495,
      "grad_norm": 0.7184544801712036,
      "learning_rate": 0.00019639628606958533,
      "loss": 44.2751,
      "step": 52
    },
    {
      "epoch": 0.002395426092065716,
      "grad_norm": 0.7348573803901672,
      "learning_rate": 0.0001962237387768529,
      "loss": 44.246,
      "step": 53
    },
    {
      "epoch": 0.002440622810783937,
      "grad_norm": 0.7713965773582458,
      "learning_rate": 0.00019604723610310194,
      "loss": 44.3292,
      "step": 54
    },
    {
      "epoch": 0.002485819529502158,
      "grad_norm": 0.8040369749069214,
      "learning_rate": 0.00019586678530366606,
      "loss": 44.2155,
      "step": 55
    },
    {
      "epoch": 0.002485819529502158,
      "eval_loss": 11.062650680541992,
      "eval_runtime": 176.278,
      "eval_samples_per_second": 52.854,
      "eval_steps_per_second": 26.43,
      "step": 55
    },
    {
      "epoch": 0.0025310162482203792,
      "grad_norm": 0.7459877133369446,
      "learning_rate": 0.00019568239379617088,
      "loss": 44.2188,
      "step": 56
    },
    {
      "epoch": 0.0025762129669386004,
      "grad_norm": 0.8008533716201782,
      "learning_rate": 0.00019549406916022905,
      "loss": 44.226,
      "step": 57
    },
    {
      "epoch": 0.002621409685656821,
      "grad_norm": 0.7918010354042053,
      "learning_rate": 0.00019530181913712872,
      "loss": 44.287,
      "step": 58
    },
    {
      "epoch": 0.0026666064043750423,
      "grad_norm": 0.7287217974662781,
      "learning_rate": 0.00019510565162951537,
      "loss": 44.2581,
      "step": 59
    },
    {
      "epoch": 0.0027118031230932635,
      "grad_norm": 0.7925474643707275,
      "learning_rate": 0.00019490557470106686,
      "loss": 44.2277,
      "step": 60
    },
    {
      "epoch": 0.0027118031230932635,
      "eval_loss": 11.05736255645752,
      "eval_runtime": 176.2465,
      "eval_samples_per_second": 52.863,
      "eval_steps_per_second": 26.435,
      "step": 60
    },
    {
      "epoch": 0.0027569998418114847,
      "grad_norm": 0.8553807735443115,
      "learning_rate": 0.00019470159657616215,
      "loss": 44.2439,
      "step": 61
    },
    {
      "epoch": 0.0028021965605297054,
      "grad_norm": 0.7586395740509033,
      "learning_rate": 0.00019449372563954293,
      "loss": 44.1943,
      "step": 62
    },
    {
      "epoch": 0.0028473932792479266,
      "grad_norm": 0.7628232836723328,
      "learning_rate": 0.0001942819704359693,
      "loss": 44.2594,
      "step": 63
    },
    {
      "epoch": 0.0028925899979661478,
      "grad_norm": 0.718551754951477,
      "learning_rate": 0.00019406633966986828,
      "loss": 44.2302,
      "step": 64
    },
    {
      "epoch": 0.002937786716684369,
      "grad_norm": 0.7625423073768616,
      "learning_rate": 0.00019384684220497605,
      "loss": 44.1989,
      "step": 65
    },
    {
      "epoch": 0.002937786716684369,
      "eval_loss": 11.051901817321777,
      "eval_runtime": 176.1759,
      "eval_samples_per_second": 52.885,
      "eval_steps_per_second": 26.445,
      "step": 65
    },
    {
      "epoch": 0.0029829834354025897,
      "grad_norm": 0.7891851663589478,
      "learning_rate": 0.00019362348706397373,
      "loss": 44.2199,
      "step": 66
    },
    {
      "epoch": 0.003028180154120811,
      "grad_norm": 0.6770808100700378,
      "learning_rate": 0.00019339628342811632,
      "loss": 44.1689,
      "step": 67
    },
    {
      "epoch": 0.003073376872839032,
      "grad_norm": 0.7498692870140076,
      "learning_rate": 0.0001931652406368554,
      "loss": 44.1741,
      "step": 68
    },
    {
      "epoch": 0.0031185735915572528,
      "grad_norm": 0.7661782503128052,
      "learning_rate": 0.0001929303681874552,
      "loss": 44.2123,
      "step": 69
    },
    {
      "epoch": 0.003163770310275474,
      "grad_norm": 0.6438837647438049,
      "learning_rate": 0.0001926916757346022,
      "loss": 44.1718,
      "step": 70
    },
    {
      "epoch": 0.003163770310275474,
      "eval_loss": 11.046669960021973,
      "eval_runtime": 176.3634,
      "eval_samples_per_second": 52.828,
      "eval_steps_per_second": 26.417,
      "step": 70
    },
    {
      "epoch": 0.003208967028993695,
      "grad_norm": 0.7522275447845459,
      "learning_rate": 0.00019244917309000817,
      "loss": 44.2246,
      "step": 71
    },
    {
      "epoch": 0.0032541637477119163,
      "grad_norm": 0.7135974168777466,
      "learning_rate": 0.00019220287022200707,
      "loss": 44.2111,
      "step": 72
    },
    {
      "epoch": 0.003299360466430137,
      "grad_norm": 0.7275662422180176,
      "learning_rate": 0.0001919527772551451,
      "loss": 44.1464,
      "step": 73
    },
    {
      "epoch": 0.003344557185148358,
      "grad_norm": 0.6742229461669922,
      "learning_rate": 0.00019169890446976454,
      "loss": 44.2105,
      "step": 74
    },
    {
      "epoch": 0.0033897539038665794,
      "grad_norm": 0.6085646152496338,
      "learning_rate": 0.00019144126230158127,
      "loss": 44.0926,
      "step": 75
    },
    {
      "epoch": 0.0033897539038665794,
      "eval_loss": 11.042237281799316,
      "eval_runtime": 176.114,
      "eval_samples_per_second": 52.903,
      "eval_steps_per_second": 26.454,
      "step": 75
    },
    {
      "epoch": 0.0034349506225848005,
      "grad_norm": 0.7245734333992004,
      "learning_rate": 0.0001911798613412557,
      "loss": 44.2154,
      "step": 76
    },
    {
      "epoch": 0.0034801473413030213,
      "grad_norm": 0.7311281561851501,
      "learning_rate": 0.0001909147123339575,
      "loss": 44.1687,
      "step": 77
    },
    {
      "epoch": 0.0035253440600212425,
      "grad_norm": 0.6399495601654053,
      "learning_rate": 0.0001906458261789238,
      "loss": 44.1596,
      "step": 78
    },
    {
      "epoch": 0.0035705407787394636,
      "grad_norm": 0.5650178790092468,
      "learning_rate": 0.00019037321392901136,
      "loss": 44.1466,
      "step": 79
    },
    {
      "epoch": 0.0036157374974576844,
      "grad_norm": 0.6039579510688782,
      "learning_rate": 0.0001900968867902419,
      "loss": 44.1955,
      "step": 80
    },
    {
      "epoch": 0.0036157374974576844,
      "eval_loss": 11.038910865783691,
      "eval_runtime": 176.3853,
      "eval_samples_per_second": 52.822,
      "eval_steps_per_second": 26.414,
      "step": 80
    },
    {
      "epoch": 0.0036609342161759055,
      "grad_norm": 0.7481367588043213,
      "learning_rate": 0.0001898168561213419,
      "loss": 44.2182,
      "step": 81
    },
    {
      "epoch": 0.0037061309348941267,
      "grad_norm": 0.628414511680603,
      "learning_rate": 0.0001895331334332753,
      "loss": 44.1519,
      "step": 82
    },
    {
      "epoch": 0.003751327653612348,
      "grad_norm": 0.658549964427948,
      "learning_rate": 0.0001892457303887706,
      "loss": 44.1364,
      "step": 83
    },
    {
      "epoch": 0.0037965243723305686,
      "grad_norm": 0.5245007276535034,
      "learning_rate": 0.0001889546588018412,
      "loss": 44.1079,
      "step": 84
    },
    {
      "epoch": 0.00384172109104879,
      "grad_norm": 0.5555324554443359,
      "learning_rate": 0.00018865993063730004,
      "loss": 44.1445,
      "step": 85
    },
    {
      "epoch": 0.00384172109104879,
      "eval_loss": 11.036417007446289,
      "eval_runtime": 176.131,
      "eval_samples_per_second": 52.898,
      "eval_steps_per_second": 26.452,
      "step": 85
    },
    {
      "epoch": 0.003886917809767011,
      "grad_norm": 0.43622660636901855,
      "learning_rate": 0.00018836155801026753,
      "loss": 44.1515,
      "step": 86
    },
    {
      "epoch": 0.003932114528485232,
      "grad_norm": 0.578544020652771,
      "learning_rate": 0.0001880595531856738,
      "loss": 44.0766,
      "step": 87
    },
    {
      "epoch": 0.003977311247203453,
      "grad_norm": 0.598685085773468,
      "learning_rate": 0.00018775392857775432,
      "loss": 44.1756,
      "step": 88
    },
    {
      "epoch": 0.004022507965921674,
      "grad_norm": 0.5733134150505066,
      "learning_rate": 0.00018744469674953956,
      "loss": 44.1756,
      "step": 89
    },
    {
      "epoch": 0.004067704684639895,
      "grad_norm": 0.5177151560783386,
      "learning_rate": 0.00018713187041233896,
      "loss": 44.173,
      "step": 90
    },
    {
      "epoch": 0.004067704684639895,
      "eval_loss": 11.034589767456055,
      "eval_runtime": 176.3402,
      "eval_samples_per_second": 52.835,
      "eval_steps_per_second": 26.421,
      "step": 90
    },
    {
      "epoch": 0.004112901403358116,
      "grad_norm": 0.5208268761634827,
      "learning_rate": 0.00018681546242521786,
      "loss": 44.1346,
      "step": 91
    },
    {
      "epoch": 0.004158098122076338,
      "grad_norm": 0.6029201149940491,
      "learning_rate": 0.00018649548579446936,
      "loss": 44.152,
      "step": 92
    },
    {
      "epoch": 0.004203294840794558,
      "grad_norm": 0.468414843082428,
      "learning_rate": 0.0001861719536730795,
      "loss": 44.117,
      "step": 93
    },
    {
      "epoch": 0.004248491559512779,
      "grad_norm": 0.3942670226097107,
      "learning_rate": 0.00018584487936018661,
      "loss": 44.137,
      "step": 94
    },
    {
      "epoch": 0.004293688278231,
      "grad_norm": 0.49822431802749634,
      "learning_rate": 0.00018551427630053463,
      "loss": 44.119,
      "step": 95
    },
    {
      "epoch": 0.004293688278231,
      "eval_loss": 11.03354549407959,
      "eval_runtime": 176.0642,
      "eval_samples_per_second": 52.918,
      "eval_steps_per_second": 26.462,
      "step": 95
    },
    {
      "epoch": 0.004338884996949221,
      "grad_norm": 0.5527846813201904,
      "learning_rate": 0.00018518015808392045,
      "loss": 44.0893,
      "step": 96
    },
    {
      "epoch": 0.004384081715667443,
      "grad_norm": 0.5725367665290833,
      "learning_rate": 0.00018484253844463526,
      "loss": 44.1162,
      "step": 97
    },
    {
      "epoch": 0.004429278434385664,
      "grad_norm": 0.49278348684310913,
      "learning_rate": 0.00018450143126090015,
      "loss": 44.1031,
      "step": 98
    },
    {
      "epoch": 0.004474475153103885,
      "grad_norm": 0.4361265301704407,
      "learning_rate": 0.00018415685055429533,
      "loss": 44.1386,
      "step": 99
    },
    {
      "epoch": 0.004519671871822106,
      "grad_norm": 0.397714763879776,
      "learning_rate": 0.00018380881048918405,
      "loss": 44.1072,
      "step": 100
    },
    {
      "epoch": 0.004519671871822106,
      "eval_loss": 11.032732963562012,
      "eval_runtime": 176.1844,
      "eval_samples_per_second": 52.882,
      "eval_steps_per_second": 26.444,
      "step": 100
    },
    {
      "epoch": 0.004564868590540326,
      "grad_norm": 0.46195968985557556,
      "learning_rate": 0.00018345732537213027,
      "loss": 44.1243,
      "step": 101
    },
    {
      "epoch": 0.004610065309258548,
      "grad_norm": 0.4918234348297119,
      "learning_rate": 0.00018310240965131041,
      "loss": 44.0833,
      "step": 102
    },
    {
      "epoch": 0.004655262027976769,
      "grad_norm": 0.39288461208343506,
      "learning_rate": 0.00018274407791591966,
      "loss": 44.0844,
      "step": 103
    },
    {
      "epoch": 0.00470045874669499,
      "grad_norm": 0.7819874882698059,
      "learning_rate": 0.00018238234489557215,
      "loss": 44.0727,
      "step": 104
    },
    {
      "epoch": 0.004745655465413211,
      "grad_norm": 0.4996788203716278,
      "learning_rate": 0.0001820172254596956,
      "loss": 44.0926,
      "step": 105
    },
    {
      "epoch": 0.004745655465413211,
      "eval_loss": 11.03187370300293,
      "eval_runtime": 176.1674,
      "eval_samples_per_second": 52.887,
      "eval_steps_per_second": 26.446,
      "step": 105
    },
    {
      "epoch": 0.004790852184131432,
      "grad_norm": 0.4443046748638153,
      "learning_rate": 0.00018164873461691986,
      "loss": 44.1211,
      "step": 106
    },
    {
      "epoch": 0.0048360489028496535,
      "grad_norm": 0.6192988753318787,
      "learning_rate": 0.00018127688751446027,
      "loss": 44.2023,
      "step": 107
    },
    {
      "epoch": 0.004881245621567874,
      "grad_norm": 0.49968671798706055,
      "learning_rate": 0.00018090169943749476,
      "loss": 44.1175,
      "step": 108
    },
    {
      "epoch": 0.004926442340286095,
      "grad_norm": 0.5411902070045471,
      "learning_rate": 0.0001805231858085356,
      "loss": 44.1106,
      "step": 109
    },
    {
      "epoch": 0.004971639059004316,
      "grad_norm": 0.7971486449241638,
      "learning_rate": 0.00018014136218679567,
      "loss": 44.1488,
      "step": 110
    },
    {
      "epoch": 0.004971639059004316,
      "eval_loss": 11.030839920043945,
      "eval_runtime": 176.4251,
      "eval_samples_per_second": 52.81,
      "eval_steps_per_second": 26.408,
      "step": 110
    },
    {
      "epoch": 0.005016835777722537,
      "grad_norm": 0.39622390270233154,
      "learning_rate": 0.00017975624426754848,
      "loss": 44.1091,
      "step": 111
    },
    {
      "epoch": 0.0050620324964407585,
      "grad_norm": 0.4785301089286804,
      "learning_rate": 0.00017936784788148328,
      "loss": 44.1038,
      "step": 112
    },
    {
      "epoch": 0.00510722921515898,
      "grad_norm": 0.5272740125656128,
      "learning_rate": 0.00017897618899405423,
      "loss": 44.1133,
      "step": 113
    },
    {
      "epoch": 0.005152425933877201,
      "grad_norm": 0.6231501698493958,
      "learning_rate": 0.00017858128370482426,
      "loss": 44.1085,
      "step": 114
    },
    {
      "epoch": 0.005197622652595422,
      "grad_norm": 0.5427981019020081,
      "learning_rate": 0.000178183148246803,
      "loss": 44.1395,
      "step": 115
    },
    {
      "epoch": 0.005197622652595422,
      "eval_loss": 11.029810905456543,
      "eval_runtime": 176.1516,
      "eval_samples_per_second": 52.892,
      "eval_steps_per_second": 26.449,
      "step": 115
    },
    {
      "epoch": 0.005242819371313642,
      "grad_norm": 0.4265317916870117,
      "learning_rate": 0.00017778179898577973,
      "loss": 44.1501,
      "step": 116
    },
    {
      "epoch": 0.0052880160900318635,
      "grad_norm": 0.9469470381736755,
      "learning_rate": 0.00017737725241965069,
      "loss": 44.2129,
      "step": 117
    },
    {
      "epoch": 0.005333212808750085,
      "grad_norm": 0.4538600742816925,
      "learning_rate": 0.00017696952517774062,
      "loss": 44.0941,
      "step": 118
    },
    {
      "epoch": 0.005378409527468306,
      "grad_norm": 0.7306213974952698,
      "learning_rate": 0.00017655863402011947,
      "loss": 44.1601,
      "step": 119
    },
    {
      "epoch": 0.005423606246186527,
      "grad_norm": 0.5303515195846558,
      "learning_rate": 0.00017614459583691346,
      "loss": 44.1485,
      "step": 120
    },
    {
      "epoch": 0.005423606246186527,
      "eval_loss": 11.029101371765137,
      "eval_runtime": 176.3314,
      "eval_samples_per_second": 52.838,
      "eval_steps_per_second": 26.422,
      "step": 120
    },
    {
      "epoch": 0.005468802964904748,
      "grad_norm": 0.43057698011398315,
      "learning_rate": 0.00017572742764761055,
      "loss": 44.1271,
      "step": 121
    },
    {
      "epoch": 0.005513999683622969,
      "grad_norm": 0.5054545402526855,
      "learning_rate": 0.00017530714660036112,
      "loss": 44.1574,
      "step": 122
    },
    {
      "epoch": 0.00555919640234119,
      "grad_norm": 0.47395941615104675,
      "learning_rate": 0.00017488376997127283,
      "loss": 44.0802,
      "step": 123
    },
    {
      "epoch": 0.005604393121059411,
      "grad_norm": 0.5438507795333862,
      "learning_rate": 0.0001744573151637007,
      "loss": 44.0974,
      "step": 124
    },
    {
      "epoch": 0.005649589839777632,
      "grad_norm": 0.5694723129272461,
      "learning_rate": 0.00017402779970753155,
      "loss": 44.1329,
      "step": 125
    },
    {
      "epoch": 0.005649589839777632,
      "eval_loss": 11.028435707092285,
      "eval_runtime": 176.0545,
      "eval_samples_per_second": 52.921,
      "eval_steps_per_second": 26.463,
      "step": 125
    },
    {
      "epoch": 0.005694786558495853,
      "grad_norm": 0.49188655614852905,
      "learning_rate": 0.0001735952412584635,
      "loss": 44.0859,
      "step": 126
    },
    {
      "epoch": 0.005739983277214074,
      "grad_norm": 0.5955361127853394,
      "learning_rate": 0.00017315965759728014,
      "loss": 44.0938,
      "step": 127
    },
    {
      "epoch": 0.0057851799959322955,
      "grad_norm": 0.4358704090118408,
      "learning_rate": 0.00017272106662911973,
      "loss": 44.1165,
      "step": 128
    },
    {
      "epoch": 0.005830376714650517,
      "grad_norm": 0.4302980899810791,
      "learning_rate": 0.00017227948638273916,
      "loss": 44.1088,
      "step": 129
    },
    {
      "epoch": 0.005875573433368738,
      "grad_norm": 0.5749801397323608,
      "learning_rate": 0.00017183493500977278,
      "loss": 44.1311,
      "step": 130
    },
    {
      "epoch": 0.005875573433368738,
      "eval_loss": 11.027961730957031,
      "eval_runtime": 176.2218,
      "eval_samples_per_second": 52.871,
      "eval_steps_per_second": 26.438,
      "step": 130
    },
    {
      "epoch": 0.005920770152086958,
      "grad_norm": 0.4459182620048523,
      "learning_rate": 0.0001713874307839863,
      "loss": 44.0874,
      "step": 131
    },
    {
      "epoch": 0.005965966870805179,
      "grad_norm": 0.5632774233818054,
      "learning_rate": 0.0001709369921005258,
      "loss": 44.1085,
      "step": 132
    },
    {
      "epoch": 0.0060111635895234005,
      "grad_norm": 0.5518532991409302,
      "learning_rate": 0.00017048363747516117,
      "loss": 44.0409,
      "step": 133
    },
    {
      "epoch": 0.006056360308241622,
      "grad_norm": 0.5138490200042725,
      "learning_rate": 0.00017002738554352552,
      "loss": 44.1078,
      "step": 134
    },
    {
      "epoch": 0.006101557026959843,
      "grad_norm": 0.44584622979164124,
      "learning_rate": 0.00016956825506034867,
      "loss": 44.1152,
      "step": 135
    },
    {
      "epoch": 0.006101557026959843,
      "eval_loss": 11.027368545532227,
      "eval_runtime": 175.9823,
      "eval_samples_per_second": 52.943,
      "eval_steps_per_second": 26.474,
      "step": 135
    },
    {
      "epoch": 0.006146753745678064,
      "grad_norm": 0.5159522294998169,
      "learning_rate": 0.00016910626489868649,
      "loss": 44.0946,
      "step": 136
    },
    {
      "epoch": 0.006191950464396285,
      "grad_norm": 0.4725247323513031,
      "learning_rate": 0.00016864143404914504,
      "loss": 44.1131,
      "step": 137
    },
    {
      "epoch": 0.0062371471831145055,
      "grad_norm": 0.5374069213867188,
      "learning_rate": 0.00016817378161909996,
      "loss": 44.1304,
      "step": 138
    },
    {
      "epoch": 0.006282343901832727,
      "grad_norm": 0.44262439012527466,
      "learning_rate": 0.00016770332683191096,
      "loss": 44.065,
      "step": 139
    },
    {
      "epoch": 0.006327540620550948,
      "grad_norm": 0.5221428871154785,
      "learning_rate": 0.0001672300890261317,
      "loss": 44.1053,
      "step": 140
    },
    {
      "epoch": 0.006327540620550948,
      "eval_loss": 11.026728630065918,
      "eval_runtime": 176.1986,
      "eval_samples_per_second": 52.878,
      "eval_steps_per_second": 26.442,
      "step": 140
    },
    {
      "epoch": 0.006372737339269169,
      "grad_norm": 0.47628021240234375,
      "learning_rate": 0.0001667540876547148,
      "loss": 44.1197,
      "step": 141
    },
    {
      "epoch": 0.00641793405798739,
      "grad_norm": 0.4244273006916046,
      "learning_rate": 0.0001662753422842123,
      "loss": 44.0529,
      "step": 142
    },
    {
      "epoch": 0.006463130776705611,
      "grad_norm": 0.4019363820552826,
      "learning_rate": 0.00016579387259397127,
      "loss": 44.107,
      "step": 143
    },
    {
      "epoch": 0.0065083274954238325,
      "grad_norm": 0.41666439175605774,
      "learning_rate": 0.00016530969837532487,
      "loss": 44.1185,
      "step": 144
    },
    {
      "epoch": 0.006553524214142053,
      "grad_norm": 0.52204829454422,
      "learning_rate": 0.00016482283953077887,
      "loss": 44.0868,
      "step": 145
    },
    {
      "epoch": 0.006553524214142053,
      "eval_loss": 11.026100158691406,
      "eval_runtime": 175.9985,
      "eval_samples_per_second": 52.938,
      "eval_steps_per_second": 26.472,
      "step": 145
    },
    {
      "epoch": 0.006598720932860274,
      "grad_norm": 0.4917082190513611,
      "learning_rate": 0.00016433331607319343,
      "loss": 44.0786,
      "step": 146
    },
    {
      "epoch": 0.006643917651578495,
      "grad_norm": 0.6054917573928833,
      "learning_rate": 0.00016384114812496056,
      "loss": 44.0952,
      "step": 147
    },
    {
      "epoch": 0.006689114370296716,
      "grad_norm": 0.46359196305274963,
      "learning_rate": 0.00016334635591717703,
      "loss": 44.1401,
      "step": 148
    },
    {
      "epoch": 0.0067343110890149376,
      "grad_norm": 0.5335073471069336,
      "learning_rate": 0.00016284895978881236,
      "loss": 44.0664,
      "step": 149
    },
    {
      "epoch": 0.006779507807733159,
      "grad_norm": 0.3754950761795044,
      "learning_rate": 0.00016234898018587337,
      "loss": 44.1361,
      "step": 150
    },
    {
      "epoch": 0.006779507807733159,
      "eval_loss": 11.025545120239258,
      "eval_runtime": 176.2544,
      "eval_samples_per_second": 52.861,
      "eval_steps_per_second": 26.433,
      "step": 150
    },
    {
      "epoch": 0.00682470452645138,
      "grad_norm": 0.48478755354881287,
      "learning_rate": 0.00016184643766056317,
      "loss": 44.14,
      "step": 151
    },
    {
      "epoch": 0.006869901245169601,
      "grad_norm": 0.4497169852256775,
      "learning_rate": 0.00016134135287043669,
      "loss": 44.0882,
      "step": 152
    },
    {
      "epoch": 0.006915097963887821,
      "grad_norm": 0.5556149482727051,
      "learning_rate": 0.00016083374657755134,
      "loss": 44.148,
      "step": 153
    },
    {
      "epoch": 0.0069602946826060426,
      "grad_norm": 0.4659099280834198,
      "learning_rate": 0.00016032363964761363,
      "loss": 44.0788,
      "step": 154
    },
    {
      "epoch": 0.007005491401324264,
      "grad_norm": 0.5520086288452148,
      "learning_rate": 0.00015981105304912162,
      "loss": 44.1322,
      "step": 155
    },
    {
      "epoch": 0.007005491401324264,
      "eval_loss": 11.025052070617676,
      "eval_runtime": 176.1047,
      "eval_samples_per_second": 52.906,
      "eval_steps_per_second": 26.456,
      "step": 155
    },
    {
      "epoch": 0.007050688120042485,
      "grad_norm": 0.5233341455459595,
      "learning_rate": 0.00015929600785250257,
      "loss": 44.0942,
      "step": 156
    },
    {
      "epoch": 0.007095884838760706,
      "grad_norm": 0.4378088712692261,
      "learning_rate": 0.00015877852522924732,
      "loss": 44.0818,
      "step": 157
    },
    {
      "epoch": 0.007141081557478927,
      "grad_norm": 0.46756836771965027,
      "learning_rate": 0.0001582586264510396,
      "loss": 44.1222,
      "step": 158
    },
    {
      "epoch": 0.007186278276197148,
      "grad_norm": 0.5881497859954834,
      "learning_rate": 0.00015773633288888197,
      "loss": 44.0838,
      "step": 159
    },
    {
      "epoch": 0.007231474994915369,
      "grad_norm": 0.4284621775150299,
      "learning_rate": 0.00015721166601221698,
      "loss": 44.1098,
      "step": 160
    },
    {
      "epoch": 0.007231474994915369,
      "eval_loss": 11.024553298950195,
      "eval_runtime": 176.2152,
      "eval_samples_per_second": 52.873,
      "eval_steps_per_second": 26.439,
      "step": 160
    },
    {
      "epoch": 0.00727667171363359,
      "grad_norm": 0.5078541040420532,
      "learning_rate": 0.000156684647388045,
      "loss": 44.0764,
      "step": 161
    },
    {
      "epoch": 0.007321868432351811,
      "grad_norm": 0.46269139647483826,
      "learning_rate": 0.0001561552986800375,
      "loss": 44.0991,
      "step": 162
    },
    {
      "epoch": 0.007367065151070032,
      "grad_norm": 0.5498519539833069,
      "learning_rate": 0.0001556236416476465,
      "loss": 44.1389,
      "step": 163
    },
    {
      "epoch": 0.007412261869788253,
      "grad_norm": 0.8603391647338867,
      "learning_rate": 0.00015508969814521025,
      "loss": 44.1567,
      "step": 164
    },
    {
      "epoch": 0.007457458588506475,
      "grad_norm": 0.6750001907348633,
      "learning_rate": 0.00015455349012105486,
      "loss": 44.1007,
      "step": 165
    },
    {
      "epoch": 0.007457458588506475,
      "eval_loss": 11.024243354797363,
      "eval_runtime": 175.9806,
      "eval_samples_per_second": 52.943,
      "eval_steps_per_second": 26.475,
      "step": 165
    },
    {
      "epoch": 0.007502655307224696,
      "grad_norm": 0.5474929809570312,
      "learning_rate": 0.00015401503961659204,
      "loss": 44.0842,
      "step": 166
    },
    {
      "epoch": 0.007547852025942917,
      "grad_norm": 0.5558362603187561,
      "learning_rate": 0.00015347436876541297,
      "loss": 44.1025,
      "step": 167
    },
    {
      "epoch": 0.007593048744661137,
      "grad_norm": 0.5435320138931274,
      "learning_rate": 0.00015293149979237876,
      "loss": 44.073,
      "step": 168
    },
    {
      "epoch": 0.007638245463379358,
      "grad_norm": 0.41495761275291443,
      "learning_rate": 0.00015238645501270654,
      "loss": 44.0608,
      "step": 169
    },
    {
      "epoch": 0.00768344218209758,
      "grad_norm": 0.4491158127784729,
      "learning_rate": 0.00015183925683105254,
      "loss": 44.0995,
      "step": 170
    },
    {
      "epoch": 0.00768344218209758,
      "eval_loss": 11.023889541625977,
      "eval_runtime": 176.2494,
      "eval_samples_per_second": 52.863,
      "eval_steps_per_second": 26.434,
      "step": 170
    },
    {
      "epoch": 0.007728638900815801,
      "grad_norm": 0.6309311389923096,
      "learning_rate": 0.00015128992774059063,
      "loss": 44.1244,
      "step": 171
    },
    {
      "epoch": 0.007773835619534022,
      "grad_norm": 0.4494941830635071,
      "learning_rate": 0.00015073849032208822,
      "loss": 44.1336,
      "step": 172
    },
    {
      "epoch": 0.007819032338252242,
      "grad_norm": 0.5996090173721313,
      "learning_rate": 0.00015018496724297778,
      "loss": 44.1116,
      "step": 173
    },
    {
      "epoch": 0.007864229056970463,
      "grad_norm": 0.73329097032547,
      "learning_rate": 0.00014962938125642503,
      "loss": 44.1541,
      "step": 174
    },
    {
      "epoch": 0.007909425775688685,
      "grad_norm": 0.5808178186416626,
      "learning_rate": 0.0001490717552003938,
      "loss": 44.114,
      "step": 175
    },
    {
      "epoch": 0.007909425775688685,
      "eval_loss": 11.023494720458984,
      "eval_runtime": 175.9386,
      "eval_samples_per_second": 52.956,
      "eval_steps_per_second": 26.481,
      "step": 175
    },
    {
      "epoch": 0.007954622494406906,
      "grad_norm": 0.46136102080345154,
      "learning_rate": 0.00014851211199670721,
      "loss": 44.0922,
      "step": 176
    },
    {
      "epoch": 0.007999819213125127,
      "grad_norm": 0.4197680354118347,
      "learning_rate": 0.0001479504746501054,
      "loss": 44.0494,
      "step": 177
    },
    {
      "epoch": 0.008045015931843348,
      "grad_norm": 0.4883246421813965,
      "learning_rate": 0.00014738686624729986,
      "loss": 44.0914,
      "step": 178
    },
    {
      "epoch": 0.00809021265056157,
      "grad_norm": 0.4930349588394165,
      "learning_rate": 0.0001468213099560246,
      "loss": 44.0695,
      "step": 179
    },
    {
      "epoch": 0.00813540936927979,
      "grad_norm": 0.5016703009605408,
      "learning_rate": 0.00014625382902408356,
      "loss": 44.0501,
      "step": 180
    },
    {
      "epoch": 0.00813540936927979,
      "eval_loss": 11.023147583007812,
      "eval_runtime": 176.3497,
      "eval_samples_per_second": 52.833,
      "eval_steps_per_second": 26.419,
      "step": 180
    },
    {
      "epoch": 0.008180606087998012,
      "grad_norm": 0.5716975927352905,
      "learning_rate": 0.00014568444677839516,
      "loss": 44.1164,
      "step": 181
    },
    {
      "epoch": 0.008225802806716233,
      "grad_norm": 0.6961561441421509,
      "learning_rate": 0.00014511318662403347,
      "loss": 44.1024,
      "step": 182
    },
    {
      "epoch": 0.008270999525434454,
      "grad_norm": 0.5740232467651367,
      "learning_rate": 0.0001445400720432659,
      "loss": 44.1379,
      "step": 183
    },
    {
      "epoch": 0.008316196244152675,
      "grad_norm": 0.5687277913093567,
      "learning_rate": 0.00014396512659458824,
      "loss": 44.1165,
      "step": 184
    },
    {
      "epoch": 0.008361392962870896,
      "grad_norm": 0.6230690479278564,
      "learning_rate": 0.00014338837391175582,
      "loss": 44.118,
      "step": 185
    },
    {
      "epoch": 0.008361392962870896,
      "eval_loss": 11.022916793823242,
      "eval_runtime": 176.0405,
      "eval_samples_per_second": 52.925,
      "eval_steps_per_second": 26.465,
      "step": 185
    },
    {
      "epoch": 0.008406589681589116,
      "grad_norm": 0.48787158727645874,
      "learning_rate": 0.0001428098377028126,
      "loss": 44.0875,
      "step": 186
    },
    {
      "epoch": 0.008451786400307337,
      "grad_norm": 0.44323569536209106,
      "learning_rate": 0.000142229541749116,
      "loss": 44.143,
      "step": 187
    },
    {
      "epoch": 0.008496983119025558,
      "grad_norm": 0.47104522585868835,
      "learning_rate": 0.0001416475099043599,
      "loss": 44.0804,
      "step": 188
    },
    {
      "epoch": 0.00854217983774378,
      "grad_norm": 0.549055814743042,
      "learning_rate": 0.0001410637660935938,
      "loss": 44.0923,
      "step": 189
    },
    {
      "epoch": 0.008587376556462,
      "grad_norm": 0.4136901795864105,
      "learning_rate": 0.00014047833431223938,
      "loss": 44.0967,
      "step": 190
    },
    {
      "epoch": 0.008587376556462,
      "eval_loss": 11.02279281616211,
      "eval_runtime": 176.1885,
      "eval_samples_per_second": 52.881,
      "eval_steps_per_second": 26.443,
      "step": 190
    },
    {
      "epoch": 0.008632573275180222,
      "grad_norm": 0.5897504091262817,
      "learning_rate": 0.0001398912386251042,
      "loss": 44.0428,
      "step": 191
    },
    {
      "epoch": 0.008677769993898443,
      "grad_norm": 0.4917847514152527,
      "learning_rate": 0.00013930250316539238,
      "loss": 44.0819,
      "step": 192
    },
    {
      "epoch": 0.008722966712616664,
      "grad_norm": 0.4644782245159149,
      "learning_rate": 0.00013871215213371284,
      "loss": 44.0209,
      "step": 193
    },
    {
      "epoch": 0.008768163431334885,
      "grad_norm": 0.6393492817878723,
      "learning_rate": 0.00013812020979708418,
      "loss": 44.101,
      "step": 194
    },
    {
      "epoch": 0.008813360150053106,
      "grad_norm": 0.60307377576828,
      "learning_rate": 0.00013752670048793744,
      "loss": 44.1646,
      "step": 195
    },
    {
      "epoch": 0.008813360150053106,
      "eval_loss": 11.022566795349121,
      "eval_runtime": 176.0184,
      "eval_samples_per_second": 52.932,
      "eval_steps_per_second": 26.469,
      "step": 195
    },
    {
      "epoch": 0.008858556868771328,
      "grad_norm": 0.4305557608604431,
      "learning_rate": 0.00013693164860311565,
      "loss": 44.0883,
      "step": 196
    },
    {
      "epoch": 0.008903753587489549,
      "grad_norm": 0.4658234119415283,
      "learning_rate": 0.00013633507860287116,
      "loss": 44.1006,
      "step": 197
    },
    {
      "epoch": 0.00894895030620777,
      "grad_norm": 0.5248441100120544,
      "learning_rate": 0.0001357370150098601,
      "loss": 44.0716,
      "step": 198
    },
    {
      "epoch": 0.008994147024925991,
      "grad_norm": 0.5177784562110901,
      "learning_rate": 0.0001351374824081343,
      "loss": 44.1013,
      "step": 199
    },
    {
      "epoch": 0.009039343743644212,
      "grad_norm": 0.5134817361831665,
      "learning_rate": 0.00013453650544213076,
      "loss": 44.0501,
      "step": 200
    },
    {
      "epoch": 0.009039343743644212,
      "eval_loss": 11.022467613220215,
      "eval_runtime": 176.1703,
      "eval_samples_per_second": 52.886,
      "eval_steps_per_second": 26.446,
      "step": 200
    },
    {
      "epoch": 0.009084540462362432,
      "grad_norm": 0.6612194776535034,
      "learning_rate": 0.00013393410881565876,
      "loss": 44.1568,
      "step": 201
    },
    {
      "epoch": 0.009129737181080653,
      "grad_norm": 0.5365848541259766,
      "learning_rate": 0.00013333031729088419,
      "loss": 44.0318,
      "step": 202
    },
    {
      "epoch": 0.009174933899798874,
      "grad_norm": 0.43999558687210083,
      "learning_rate": 0.0001327251556873117,
      "loss": 44.0544,
      "step": 203
    },
    {
      "epoch": 0.009220130618517095,
      "grad_norm": 0.5535528659820557,
      "learning_rate": 0.00013211864888076457,
      "loss": 44.0657,
      "step": 204
    },
    {
      "epoch": 0.009265327337235316,
      "grad_norm": 0.5289484262466431,
      "learning_rate": 0.0001315108218023621,
      "loss": 44.0946,
      "step": 205
    },
    {
      "epoch": 0.009265327337235316,
      "eval_loss": 11.022246360778809,
      "eval_runtime": 175.5631,
      "eval_samples_per_second": 53.069,
      "eval_steps_per_second": 26.537,
      "step": 205
    },
    {
      "epoch": 0.009310524055953538,
      "grad_norm": 0.515040934085846,
      "learning_rate": 0.00013090169943749476,
      "loss": 44.1026,
      "step": 206
    },
    {
      "epoch": 0.009355720774671759,
      "grad_norm": 0.43807700276374817,
      "learning_rate": 0.00013029130682479722,
      "loss": 44.0529,
      "step": 207
    },
    {
      "epoch": 0.00940091749338998,
      "grad_norm": 0.40383437275886536,
      "learning_rate": 0.00012967966905511906,
      "loss": 44.0854,
      "step": 208
    },
    {
      "epoch": 0.009446114212108201,
      "grad_norm": 0.42450079321861267,
      "learning_rate": 0.00012906681127049338,
      "loss": 44.0488,
      "step": 209
    },
    {
      "epoch": 0.009491310930826422,
      "grad_norm": 0.5043962597846985,
      "learning_rate": 0.00012845275866310324,
      "loss": 44.047,
      "step": 210
    },
    {
      "epoch": 0.009491310930826422,
      "eval_loss": 11.02186393737793,
      "eval_runtime": 176.4502,
      "eval_samples_per_second": 52.802,
      "eval_steps_per_second": 26.404,
      "step": 210
    },
    {
      "epoch": 0.009536507649544643,
      "grad_norm": 0.5239633321762085,
      "learning_rate": 0.00012783753647424635,
      "loss": 44.1326,
      "step": 211
    },
    {
      "epoch": 0.009581704368262865,
      "grad_norm": 0.4532044231891632,
      "learning_rate": 0.00012722116999329712,
      "loss": 44.1039,
      "step": 212
    },
    {
      "epoch": 0.009626901086981086,
      "grad_norm": 0.5784953832626343,
      "learning_rate": 0.00012660368455666752,
      "loss": 44.0902,
      "step": 213
    },
    {
      "epoch": 0.009672097805699307,
      "grad_norm": 0.46399155259132385,
      "learning_rate": 0.0001259851055467653,
      "loss": 44.0665,
      "step": 214
    },
    {
      "epoch": 0.009717294524417528,
      "grad_norm": 0.5353842973709106,
      "learning_rate": 0.00012536545839095074,
      "loss": 44.0339,
      "step": 215
    },
    {
      "epoch": 0.009717294524417528,
      "eval_loss": 11.021649360656738,
      "eval_runtime": 176.1431,
      "eval_samples_per_second": 52.895,
      "eval_steps_per_second": 26.45,
      "step": 215
    },
    {
      "epoch": 0.009762491243135748,
      "grad_norm": 0.4887973666191101,
      "learning_rate": 0.00012474476856049144,
      "loss": 44.074,
      "step": 216
    },
    {
      "epoch": 0.009807687961853969,
      "grad_norm": 0.44021403789520264,
      "learning_rate": 0.00012412306156951526,
      "loss": 44.0695,
      "step": 217
    },
    {
      "epoch": 0.00985288468057219,
      "grad_norm": 0.5092349052429199,
      "learning_rate": 0.00012350036297396154,
      "loss": 44.0596,
      "step": 218
    },
    {
      "epoch": 0.009898081399290411,
      "grad_norm": 0.47505757212638855,
      "learning_rate": 0.00012287669837053055,
      "loss": 44.0435,
      "step": 219
    },
    {
      "epoch": 0.009943278118008632,
      "grad_norm": 0.4098033308982849,
      "learning_rate": 0.00012225209339563145,
      "loss": 44.1334,
      "step": 220
    },
    {
      "epoch": 0.009943278118008632,
      "eval_loss": 11.021401405334473,
      "eval_runtime": 176.2917,
      "eval_samples_per_second": 52.85,
      "eval_steps_per_second": 26.428,
      "step": 220
    },
    {
      "epoch": 0.009988474836726853,
      "grad_norm": 0.5452781915664673,
      "learning_rate": 0.00012162657372432836,
      "loss": 44.0602,
      "step": 221
    },
    {
      "epoch": 0.010033671555445075,
      "grad_norm": 0.5344114303588867,
      "learning_rate": 0.00012100016506928493,
      "loss": 44.045,
      "step": 222
    },
    {
      "epoch": 0.010078868274163296,
      "grad_norm": 0.4083841145038605,
      "learning_rate": 0.00012037289317970757,
      "loss": 44.0642,
      "step": 223
    },
    {
      "epoch": 0.010124064992881517,
      "grad_norm": 0.4382067918777466,
      "learning_rate": 0.00011974478384028672,
      "loss": 44.0648,
      "step": 224
    },
    {
      "epoch": 0.010169261711599738,
      "grad_norm": 0.42340517044067383,
      "learning_rate": 0.00011911586287013725,
      "loss": 44.1315,
      "step": 225
    },
    {
      "epoch": 0.010169261711599738,
      "eval_loss": 11.021224975585938,
      "eval_runtime": 176.0622,
      "eval_samples_per_second": 52.919,
      "eval_steps_per_second": 26.462,
      "step": 225
    },
    {
      "epoch": 0.01021445843031796,
      "grad_norm": 0.5047578811645508,
      "learning_rate": 0.00011848615612173688,
      "loss": 44.123,
      "step": 226
    },
    {
      "epoch": 0.01025965514903618,
      "grad_norm": 0.5647579431533813,
      "learning_rate": 0.00011785568947986367,
      "loss": 44.0525,
      "step": 227
    },
    {
      "epoch": 0.010304851867754402,
      "grad_norm": 0.48243632912635803,
      "learning_rate": 0.0001172244888605319,
      "loss": 44.1143,
      "step": 228
    },
    {
      "epoch": 0.010350048586472623,
      "grad_norm": 0.5492759943008423,
      "learning_rate": 0.0001165925802099268,
      "loss": 44.0494,
      "step": 229
    },
    {
      "epoch": 0.010395245305190844,
      "grad_norm": 0.5804261565208435,
      "learning_rate": 0.00011595998950333793,
      "loss": 44.0785,
      "step": 230
    },
    {
      "epoch": 0.010395245305190844,
      "eval_loss": 11.021036148071289,
      "eval_runtime": 176.2523,
      "eval_samples_per_second": 52.862,
      "eval_steps_per_second": 26.434,
      "step": 230
    },
    {
      "epoch": 0.010440442023909063,
      "grad_norm": 0.4731612503528595,
      "learning_rate": 0.00011532674274409159,
      "loss": 44.1151,
      "step": 231
    },
    {
      "epoch": 0.010485638742627285,
      "grad_norm": 0.47020676732063293,
      "learning_rate": 0.00011469286596248181,
      "loss": 44.0772,
      "step": 232
    },
    {
      "epoch": 0.010530835461345506,
      "grad_norm": 0.4738229215145111,
      "learning_rate": 0.00011405838521470029,
      "loss": 44.1274,
      "step": 233
    },
    {
      "epoch": 0.010576032180063727,
      "grad_norm": 0.5980152487754822,
      "learning_rate": 0.00011342332658176555,
      "loss": 44.0543,
      "step": 234
    },
    {
      "epoch": 0.010621228898781948,
      "grad_norm": 0.45920702815055847,
      "learning_rate": 0.00011278771616845061,
      "loss": 44.0846,
      "step": 235
    },
    {
      "epoch": 0.010621228898781948,
      "eval_loss": 11.02093505859375,
      "eval_runtime": 176.025,
      "eval_samples_per_second": 52.93,
      "eval_steps_per_second": 26.468,
      "step": 235
    },
    {
      "epoch": 0.01066642561750017,
      "grad_norm": 0.48931440711021423,
      "learning_rate": 0.00011215158010221005,
      "loss": 44.0991,
      "step": 236
    },
    {
      "epoch": 0.01071162233621839,
      "grad_norm": 0.4345873296260834,
      "learning_rate": 0.00011151494453210596,
      "loss": 44.0491,
      "step": 237
    },
    {
      "epoch": 0.010756819054936612,
      "grad_norm": 0.43655380606651306,
      "learning_rate": 0.00011087783562773311,
      "loss": 44.0903,
      "step": 238
    },
    {
      "epoch": 0.010802015773654833,
      "grad_norm": 0.616533637046814,
      "learning_rate": 0.00011024027957814314,
      "loss": 44.1318,
      "step": 239
    },
    {
      "epoch": 0.010847212492373054,
      "grad_norm": 0.45536908507347107,
      "learning_rate": 0.00010960230259076818,
      "loss": 44.0812,
      "step": 240
    },
    {
      "epoch": 0.010847212492373054,
      "eval_loss": 11.020767211914062,
      "eval_runtime": 176.3636,
      "eval_samples_per_second": 52.828,
      "eval_steps_per_second": 26.417,
      "step": 240
    },
    {
      "epoch": 0.010892409211091275,
      "grad_norm": 0.47256338596343994,
      "learning_rate": 0.00010896393089034336,
      "loss": 44.0513,
      "step": 241
    },
    {
      "epoch": 0.010937605929809496,
      "grad_norm": 0.42103204131126404,
      "learning_rate": 0.00010832519071782894,
      "loss": 44.0399,
      "step": 242
    },
    {
      "epoch": 0.010982802648527717,
      "grad_norm": 0.49555832147598267,
      "learning_rate": 0.00010768610832933168,
      "loss": 44.1504,
      "step": 243
    },
    {
      "epoch": 0.011027999367245939,
      "grad_norm": 0.42800289392471313,
      "learning_rate": 0.0001070467099950254,
      "loss": 44.0886,
      "step": 244
    },
    {
      "epoch": 0.01107319608596416,
      "grad_norm": 0.6031785607337952,
      "learning_rate": 0.0001064070219980713,
      "loss": 44.0548,
      "step": 245
    },
    {
      "epoch": 0.01107319608596416,
      "eval_loss": 11.020543098449707,
      "eval_runtime": 176.1913,
      "eval_samples_per_second": 52.88,
      "eval_steps_per_second": 26.443,
      "step": 245
    },
    {
      "epoch": 0.01111839280468238,
      "grad_norm": 0.4927026629447937,
      "learning_rate": 0.00010576707063353746,
      "loss": 44.0813,
      "step": 246
    },
    {
      "epoch": 0.0111635895234006,
      "grad_norm": 0.6148269772529602,
      "learning_rate": 0.00010512688220731792,
      "loss": 44.0928,
      "step": 247
    },
    {
      "epoch": 0.011208786242118822,
      "grad_norm": 0.4395325779914856,
      "learning_rate": 0.00010448648303505151,
      "loss": 44.047,
      "step": 248
    },
    {
      "epoch": 0.011253982960837043,
      "grad_norm": 0.4433494806289673,
      "learning_rate": 0.00010384589944103984,
      "loss": 44.1,
      "step": 249
    },
    {
      "epoch": 0.011299179679555264,
      "grad_norm": 0.6447661519050598,
      "learning_rate": 0.00010320515775716555,
      "loss": 44.0861,
      "step": 250
    },
    {
      "epoch": 0.011299179679555264,
      "eval_loss": 11.020323753356934,
      "eval_runtime": 176.3276,
      "eval_samples_per_second": 52.839,
      "eval_steps_per_second": 26.422,
      "step": 250
    },
    {
      "epoch": 0.011344376398273485,
      "grad_norm": 0.5418515801429749,
      "learning_rate": 0.00010256428432180956,
      "loss": 44.0602,
      "step": 251
    },
    {
      "epoch": 0.011389573116991706,
      "grad_norm": 0.45757991075515747,
      "learning_rate": 0.00010192330547876871,
      "loss": 44.0788,
      "step": 252
    },
    {
      "epoch": 0.011434769835709927,
      "grad_norm": 0.5210107564926147,
      "learning_rate": 0.00010128224757617274,
      "loss": 44.0517,
      "step": 253
    },
    {
      "epoch": 0.011479966554428149,
      "grad_norm": 0.39198753237724304,
      "learning_rate": 0.00010064113696540111,
      "loss": 44.0776,
      "step": 254
    },
    {
      "epoch": 0.01152516327314637,
      "grad_norm": 0.4305363893508911,
      "learning_rate": 0.0001,
      "loss": 44.1121,
      "step": 255
    },
    {
      "epoch": 0.01152516327314637,
      "eval_loss": 11.02021312713623,
      "eval_runtime": 176.1601,
      "eval_samples_per_second": 52.889,
      "eval_steps_per_second": 26.448,
      "step": 255
    },
    {
      "epoch": 0.011570359991864591,
      "grad_norm": 0.4909750521183014,
      "learning_rate": 9.93588630345989e-05,
      "loss": 44.0858,
      "step": 256
    },
    {
      "epoch": 0.011615556710582812,
      "grad_norm": 0.4016626477241516,
      "learning_rate": 9.871775242382727e-05,
      "loss": 44.0732,
      "step": 257
    },
    {
      "epoch": 0.011660753429301033,
      "grad_norm": 0.5827097296714783,
      "learning_rate": 9.80766945212313e-05,
      "loss": 44.0957,
      "step": 258
    },
    {
      "epoch": 0.011705950148019255,
      "grad_norm": 0.48728469014167786,
      "learning_rate": 9.743571567819046e-05,
      "loss": 44.0648,
      "step": 259
    },
    {
      "epoch": 0.011751146866737476,
      "grad_norm": 0.455342173576355,
      "learning_rate": 9.679484224283449e-05,
      "loss": 44.0327,
      "step": 260
    },
    {
      "epoch": 0.011751146866737476,
      "eval_loss": 11.020062446594238,
      "eval_runtime": 176.2853,
      "eval_samples_per_second": 52.852,
      "eval_steps_per_second": 26.429,
      "step": 260
    },
    {
      "epoch": 0.011796343585455695,
      "grad_norm": 0.50531005859375,
      "learning_rate": 9.615410055896015e-05,
      "loss": 44.0094,
      "step": 261
    },
    {
      "epoch": 0.011841540304173916,
      "grad_norm": 0.6205224990844727,
      "learning_rate": 9.551351696494854e-05,
      "loss": 44.1,
      "step": 262
    },
    {
      "epoch": 0.011886737022892137,
      "grad_norm": 0.5274375081062317,
      "learning_rate": 9.48731177926821e-05,
      "loss": 44.1223,
      "step": 263
    },
    {
      "epoch": 0.011931933741610359,
      "grad_norm": 0.5149595141410828,
      "learning_rate": 9.423292936646257e-05,
      "loss": 44.1192,
      "step": 264
    },
    {
      "epoch": 0.01197713046032858,
      "grad_norm": 0.5359209179878235,
      "learning_rate": 9.359297800192872e-05,
      "loss": 44.1155,
      "step": 265
    },
    {
      "epoch": 0.01197713046032858,
      "eval_loss": 11.019892692565918,
      "eval_runtime": 176.1866,
      "eval_samples_per_second": 52.881,
      "eval_steps_per_second": 26.444,
      "step": 265
    },
    {
      "epoch": 0.012022327179046801,
      "grad_norm": 0.5752252340316772,
      "learning_rate": 9.29532900049746e-05,
      "loss": 44.0821,
      "step": 266
    },
    {
      "epoch": 0.012067523897765022,
      "grad_norm": 0.5125178098678589,
      "learning_rate": 9.231389167066837e-05,
      "loss": 44.061,
      "step": 267
    },
    {
      "epoch": 0.012112720616483243,
      "grad_norm": 0.5295204520225525,
      "learning_rate": 9.167480928217108e-05,
      "loss": 43.9889,
      "step": 268
    },
    {
      "epoch": 0.012157917335201465,
      "grad_norm": 0.40016570687294006,
      "learning_rate": 9.103606910965666e-05,
      "loss": 44.0684,
      "step": 269
    },
    {
      "epoch": 0.012203114053919686,
      "grad_norm": 0.42660149931907654,
      "learning_rate": 9.039769740923183e-05,
      "loss": 44.0547,
      "step": 270
    },
    {
      "epoch": 0.012203114053919686,
      "eval_loss": 11.01980209350586,
      "eval_runtime": 176.1599,
      "eval_samples_per_second": 52.889,
      "eval_steps_per_second": 26.448,
      "step": 270
    },
    {
      "epoch": 0.012248310772637907,
      "grad_norm": 0.636551022529602,
      "learning_rate": 8.975972042185687e-05,
      "loss": 44.1385,
      "step": 271
    },
    {
      "epoch": 0.012293507491356128,
      "grad_norm": 0.5031408071517944,
      "learning_rate": 8.912216437226693e-05,
      "loss": 44.1121,
      "step": 272
    },
    {
      "epoch": 0.01233870421007435,
      "grad_norm": 0.49243634939193726,
      "learning_rate": 8.848505546789408e-05,
      "loss": 44.0864,
      "step": 273
    },
    {
      "epoch": 0.01238390092879257,
      "grad_norm": 0.47308340668678284,
      "learning_rate": 8.784841989778996e-05,
      "loss": 44.0391,
      "step": 274
    },
    {
      "epoch": 0.012429097647510792,
      "grad_norm": 0.43966105580329895,
      "learning_rate": 8.721228383154939e-05,
      "loss": 44.0969,
      "step": 275
    },
    {
      "epoch": 0.012429097647510792,
      "eval_loss": 11.019760131835938,
      "eval_runtime": 176.1857,
      "eval_samples_per_second": 52.882,
      "eval_steps_per_second": 26.444,
      "step": 275
    },
    {
      "epoch": 0.012474294366229011,
      "grad_norm": 0.4853382706642151,
      "learning_rate": 8.657667341823448e-05,
      "loss": 44.079,
      "step": 276
    },
    {
      "epoch": 0.012519491084947232,
      "grad_norm": 0.453819215297699,
      "learning_rate": 8.594161478529974e-05,
      "loss": 44.0371,
      "step": 277
    },
    {
      "epoch": 0.012564687803665453,
      "grad_norm": 0.4855421483516693,
      "learning_rate": 8.530713403751821e-05,
      "loss": 44.0514,
      "step": 278
    },
    {
      "epoch": 0.012609884522383675,
      "grad_norm": 0.49890294671058655,
      "learning_rate": 8.46732572559084e-05,
      "loss": 44.0561,
      "step": 279
    },
    {
      "epoch": 0.012655081241101896,
      "grad_norm": 0.406686007976532,
      "learning_rate": 8.404001049666211e-05,
      "loss": 44.0746,
      "step": 280
    },
    {
      "epoch": 0.012655081241101896,
      "eval_loss": 11.01966381072998,
      "eval_runtime": 176.4032,
      "eval_samples_per_second": 52.817,
      "eval_steps_per_second": 26.411,
      "step": 280
    },
    {
      "epoch": 0.012700277959820117,
      "grad_norm": 0.584389865398407,
      "learning_rate": 8.340741979007325e-05,
      "loss": 44.0014,
      "step": 281
    },
    {
      "epoch": 0.012745474678538338,
      "grad_norm": 0.5981946587562561,
      "learning_rate": 8.277551113946812e-05,
      "loss": 44.1037,
      "step": 282
    },
    {
      "epoch": 0.01279067139725656,
      "grad_norm": 0.48125511407852173,
      "learning_rate": 8.214431052013634e-05,
      "loss": 44.1114,
      "step": 283
    },
    {
      "epoch": 0.01283586811597478,
      "grad_norm": 0.4403318762779236,
      "learning_rate": 8.151384387826313e-05,
      "loss": 44.0742,
      "step": 284
    },
    {
      "epoch": 0.012881064834693002,
      "grad_norm": 0.5336763262748718,
      "learning_rate": 8.08841371298628e-05,
      "loss": 44.0535,
      "step": 285
    },
    {
      "epoch": 0.012881064834693002,
      "eval_loss": 11.01951789855957,
      "eval_runtime": 176.2803,
      "eval_samples_per_second": 52.853,
      "eval_steps_per_second": 26.429,
      "step": 285
    },
    {
      "epoch": 0.012926261553411223,
      "grad_norm": 0.4550967216491699,
      "learning_rate": 8.02552161597133e-05,
      "loss": 44.0825,
      "step": 286
    },
    {
      "epoch": 0.012971458272129444,
      "grad_norm": 0.5073683261871338,
      "learning_rate": 7.962710682029245e-05,
      "loss": 44.0045,
      "step": 287
    },
    {
      "epoch": 0.013016654990847665,
      "grad_norm": 0.424605131149292,
      "learning_rate": 7.899983493071507e-05,
      "loss": 44.0451,
      "step": 288
    },
    {
      "epoch": 0.013061851709565886,
      "grad_norm": 0.48650291562080383,
      "learning_rate": 7.837342627567165e-05,
      "loss": 44.0424,
      "step": 289
    },
    {
      "epoch": 0.013107048428284106,
      "grad_norm": 0.5977911949157715,
      "learning_rate": 7.774790660436858e-05,
      "loss": 44.1303,
      "step": 290
    },
    {
      "epoch": 0.013107048428284106,
      "eval_loss": 11.019427299499512,
      "eval_runtime": 176.4378,
      "eval_samples_per_second": 52.806,
      "eval_steps_per_second": 26.406,
      "step": 290
    },
    {
      "epoch": 0.013152245147002327,
      "grad_norm": 0.5895593166351318,
      "learning_rate": 7.712330162946948e-05,
      "loss": 44.0645,
      "step": 291
    },
    {
      "epoch": 0.013197441865720548,
      "grad_norm": 0.4745809733867645,
      "learning_rate": 7.649963702603849e-05,
      "loss": 44.0755,
      "step": 292
    },
    {
      "epoch": 0.01324263858443877,
      "grad_norm": 0.5061216950416565,
      "learning_rate": 7.587693843048475e-05,
      "loss": 44.0751,
      "step": 293
    },
    {
      "epoch": 0.01328783530315699,
      "grad_norm": 0.42560261487960815,
      "learning_rate": 7.525523143950859e-05,
      "loss": 44.0495,
      "step": 294
    },
    {
      "epoch": 0.013333032021875212,
      "grad_norm": 0.44290590286254883,
      "learning_rate": 7.463454160904928e-05,
      "loss": 44.1142,
      "step": 295
    },
    {
      "epoch": 0.013333032021875212,
      "eval_loss": 11.019330978393555,
      "eval_runtime": 175.7063,
      "eval_samples_per_second": 53.026,
      "eval_steps_per_second": 26.516,
      "step": 295
    },
    {
      "epoch": 0.013378228740593433,
      "grad_norm": 0.6524297595024109,
      "learning_rate": 7.401489445323473e-05,
      "loss": 44.0737,
      "step": 296
    },
    {
      "epoch": 0.013423425459311654,
      "grad_norm": 0.49754655361175537,
      "learning_rate": 7.339631544333249e-05,
      "loss": 44.0838,
      "step": 297
    },
    {
      "epoch": 0.013468622178029875,
      "grad_norm": 0.4138273596763611,
      "learning_rate": 7.27788300067029e-05,
      "loss": 44.0653,
      "step": 298
    },
    {
      "epoch": 0.013513818896748096,
      "grad_norm": 0.5399671792984009,
      "learning_rate": 7.21624635257537e-05,
      "loss": 44.0646,
      "step": 299
    },
    {
      "epoch": 0.013559015615466317,
      "grad_norm": 0.41923409700393677,
      "learning_rate": 7.154724133689677e-05,
      "loss": 44.0685,
      "step": 300
    },
    {
      "epoch": 0.013559015615466317,
      "eval_loss": 11.019237518310547,
      "eval_runtime": 176.4288,
      "eval_samples_per_second": 52.809,
      "eval_steps_per_second": 26.407,
      "step": 300
    },
    {
      "epoch": 0.013604212334184539,
      "grad_norm": 0.49278682470321655,
      "learning_rate": 7.093318872950665e-05,
      "loss": 44.0319,
      "step": 301
    },
    {
      "epoch": 0.01364940905290276,
      "grad_norm": 0.5009450316429138,
      "learning_rate": 7.032033094488095e-05,
      "loss": 44.0988,
      "step": 302
    },
    {
      "epoch": 0.013694605771620981,
      "grad_norm": 0.4270615577697754,
      "learning_rate": 6.97086931752028e-05,
      "loss": 44.1025,
      "step": 303
    },
    {
      "epoch": 0.013739802490339202,
      "grad_norm": 0.49744102358818054,
      "learning_rate": 6.909830056250527e-05,
      "loss": 44.0652,
      "step": 304
    },
    {
      "epoch": 0.013784999209057422,
      "grad_norm": 0.48600587248802185,
      "learning_rate": 6.848917819763793e-05,
      "loss": 44.1292,
      "step": 305
    },
    {
      "epoch": 0.013784999209057422,
      "eval_loss": 11.01909351348877,
      "eval_runtime": 176.1259,
      "eval_samples_per_second": 52.9,
      "eval_steps_per_second": 26.453,
      "step": 305
    },
    {
      "epoch": 0.013830195927775643,
      "grad_norm": 0.4116569459438324,
      "learning_rate": 6.788135111923545e-05,
      "loss": 44.0897,
      "step": 306
    },
    {
      "epoch": 0.013875392646493864,
      "grad_norm": 0.4364916682243347,
      "learning_rate": 6.72748443126883e-05,
      "loss": 44.1195,
      "step": 307
    },
    {
      "epoch": 0.013920589365212085,
      "grad_norm": 0.5589216351509094,
      "learning_rate": 6.666968270911584e-05,
      "loss": 44.0911,
      "step": 308
    },
    {
      "epoch": 0.013965786083930306,
      "grad_norm": 0.5414496064186096,
      "learning_rate": 6.606589118434126e-05,
      "loss": 44.1532,
      "step": 309
    },
    {
      "epoch": 0.014010982802648527,
      "grad_norm": 0.4488687515258789,
      "learning_rate": 6.546349455786926e-05,
      "loss": 44.0637,
      "step": 310
    },
    {
      "epoch": 0.014010982802648527,
      "eval_loss": 11.018967628479004,
      "eval_runtime": 176.4018,
      "eval_samples_per_second": 52.817,
      "eval_steps_per_second": 26.411,
      "step": 310
    },
    {
      "epoch": 0.014056179521366749,
      "grad_norm": 0.5137606859207153,
      "learning_rate": 6.486251759186572e-05,
      "loss": 44.1158,
      "step": 311
    },
    {
      "epoch": 0.01410137624008497,
      "grad_norm": 0.5155542492866516,
      "learning_rate": 6.426298499013994e-05,
      "loss": 44.1199,
      "step": 312
    },
    {
      "epoch": 0.014146572958803191,
      "grad_norm": 0.37395790219306946,
      "learning_rate": 6.366492139712886e-05,
      "loss": 44.0457,
      "step": 313
    },
    {
      "epoch": 0.014191769677521412,
      "grad_norm": 0.6116747260093689,
      "learning_rate": 6.306835139688438e-05,
      "loss": 44.1012,
      "step": 314
    },
    {
      "epoch": 0.014236966396239633,
      "grad_norm": 0.5333120822906494,
      "learning_rate": 6.24732995120626e-05,
      "loss": 44.1035,
      "step": 315
    },
    {
      "epoch": 0.014236966396239633,
      "eval_loss": 11.018932342529297,
      "eval_runtime": 176.1972,
      "eval_samples_per_second": 52.878,
      "eval_steps_per_second": 26.442,
      "step": 315
    },
    {
      "epoch": 0.014282163114957854,
      "grad_norm": 0.43927499651908875,
      "learning_rate": 6.187979020291583e-05,
      "loss": 44.0191,
      "step": 316
    },
    {
      "epoch": 0.014327359833676076,
      "grad_norm": 0.4511764347553253,
      "learning_rate": 6.12878478662872e-05,
      "loss": 44.036,
      "step": 317
    },
    {
      "epoch": 0.014372556552394297,
      "grad_norm": 0.4678284823894501,
      "learning_rate": 6.069749683460765e-05,
      "loss": 44.1023,
      "step": 318
    },
    {
      "epoch": 0.014417753271112518,
      "grad_norm": 0.4449803829193115,
      "learning_rate": 6.010876137489584e-05,
      "loss": 44.0835,
      "step": 319
    },
    {
      "epoch": 0.014462949989830737,
      "grad_norm": 0.42860502004623413,
      "learning_rate": 5.952166568776062e-05,
      "loss": 44.0725,
      "step": 320
    },
    {
      "epoch": 0.014462949989830737,
      "eval_loss": 11.018913269042969,
      "eval_runtime": 176.3627,
      "eval_samples_per_second": 52.829,
      "eval_steps_per_second": 26.417,
      "step": 320
    },
    {
      "epoch": 0.014508146708548959,
      "grad_norm": 0.47462332248687744,
      "learning_rate": 5.893623390640621e-05,
      "loss": 44.0712,
      "step": 321
    },
    {
      "epoch": 0.01455334342726718,
      "grad_norm": 0.3999902307987213,
      "learning_rate": 5.835249009564012e-05,
      "loss": 44.0985,
      "step": 322
    },
    {
      "epoch": 0.014598540145985401,
      "grad_norm": 0.5390244126319885,
      "learning_rate": 5.777045825088404e-05,
      "loss": 44.0947,
      "step": 323
    },
    {
      "epoch": 0.014643736864703622,
      "grad_norm": 0.5316472053527832,
      "learning_rate": 5.7190162297187475e-05,
      "loss": 44.0887,
      "step": 324
    },
    {
      "epoch": 0.014688933583421843,
      "grad_norm": 0.43537721037864685,
      "learning_rate": 5.6611626088244194e-05,
      "loss": 44.1142,
      "step": 325
    },
    {
      "epoch": 0.014688933583421843,
      "eval_loss": 11.018884658813477,
      "eval_runtime": 176.0785,
      "eval_samples_per_second": 52.914,
      "eval_steps_per_second": 26.46,
      "step": 325
    },
    {
      "epoch": 0.014734130302140065,
      "grad_norm": 0.42780250310897827,
      "learning_rate": 5.60348734054118e-05,
      "loss": 44.0567,
      "step": 326
    },
    {
      "epoch": 0.014779327020858286,
      "grad_norm": 0.418026864528656,
      "learning_rate": 5.545992795673408e-05,
      "loss": 44.0578,
      "step": 327
    },
    {
      "epoch": 0.014824523739576507,
      "grad_norm": 0.507036030292511,
      "learning_rate": 5.488681337596653e-05,
      "loss": 44.0708,
      "step": 328
    },
    {
      "epoch": 0.014869720458294728,
      "grad_norm": 0.4779205322265625,
      "learning_rate": 5.431555322160483e-05,
      "loss": 44.0879,
      "step": 329
    },
    {
      "epoch": 0.01491491717701295,
      "grad_norm": 0.48253196477890015,
      "learning_rate": 5.37461709759165e-05,
      "loss": 44.005,
      "step": 330
    },
    {
      "epoch": 0.01491491717701295,
      "eval_loss": 11.018866539001465,
      "eval_runtime": 176.4141,
      "eval_samples_per_second": 52.813,
      "eval_steps_per_second": 26.409,
      "step": 330
    },
    {
      "epoch": 0.01496011389573117,
      "grad_norm": 0.503404438495636,
      "learning_rate": 5.317869004397544e-05,
      "loss": 44.0551,
      "step": 331
    },
    {
      "epoch": 0.015005310614449392,
      "grad_norm": 0.5667140483856201,
      "learning_rate": 5.261313375270014e-05,
      "loss": 44.1005,
      "step": 332
    },
    {
      "epoch": 0.015050507333167613,
      "grad_norm": 0.4343127906322479,
      "learning_rate": 5.2049525349894625e-05,
      "loss": 44.0367,
      "step": 333
    },
    {
      "epoch": 0.015095704051885834,
      "grad_norm": 0.4030550420284271,
      "learning_rate": 5.148788800329278e-05,
      "loss": 44.0094,
      "step": 334
    },
    {
      "epoch": 0.015140900770604053,
      "grad_norm": 0.7541276812553406,
      "learning_rate": 5.092824479960625e-05,
      "loss": 44.0686,
      "step": 335
    },
    {
      "epoch": 0.015140900770604053,
      "eval_loss": 11.018802642822266,
      "eval_runtime": 176.1322,
      "eval_samples_per_second": 52.898,
      "eval_steps_per_second": 26.452,
      "step": 335
    },
    {
      "epoch": 0.015186097489322275,
      "grad_norm": 0.4742172360420227,
      "learning_rate": 5.0370618743575026e-05,
      "loss": 44.0855,
      "step": 336
    },
    {
      "epoch": 0.015231294208040496,
      "grad_norm": 0.4134741723537445,
      "learning_rate": 4.981503275702227e-05,
      "loss": 44.0928,
      "step": 337
    },
    {
      "epoch": 0.015276490926758717,
      "grad_norm": 0.6316869258880615,
      "learning_rate": 4.92615096779118e-05,
      "loss": 44.0649,
      "step": 338
    },
    {
      "epoch": 0.015321687645476938,
      "grad_norm": 0.4112119674682617,
      "learning_rate": 4.87100722594094e-05,
      "loss": 44.0769,
      "step": 339
    },
    {
      "epoch": 0.01536688436419516,
      "grad_norm": 0.4423971474170685,
      "learning_rate": 4.8160743168947496e-05,
      "loss": 44.059,
      "step": 340
    },
    {
      "epoch": 0.01536688436419516,
      "eval_loss": 11.018733024597168,
      "eval_runtime": 176.2897,
      "eval_samples_per_second": 52.85,
      "eval_steps_per_second": 26.428,
      "step": 340
    },
    {
      "epoch": 0.01541208108291338,
      "grad_norm": 0.46714112162590027,
      "learning_rate": 4.7613544987293446e-05,
      "loss": 44.007,
      "step": 341
    },
    {
      "epoch": 0.015457277801631602,
      "grad_norm": 0.449789434671402,
      "learning_rate": 4.706850020762126e-05,
      "loss": 44.0599,
      "step": 342
    },
    {
      "epoch": 0.015502474520349823,
      "grad_norm": 0.5278406739234924,
      "learning_rate": 4.6525631234587034e-05,
      "loss": 44.0606,
      "step": 343
    },
    {
      "epoch": 0.015547671239068044,
      "grad_norm": 0.5856757760047913,
      "learning_rate": 4.5984960383408005e-05,
      "loss": 44.0862,
      "step": 344
    },
    {
      "epoch": 0.015592867957786265,
      "grad_norm": 0.48914504051208496,
      "learning_rate": 4.544650987894514e-05,
      "loss": 44.0642,
      "step": 345
    },
    {
      "epoch": 0.015592867957786265,
      "eval_loss": 11.018689155578613,
      "eval_runtime": 176.1852,
      "eval_samples_per_second": 52.882,
      "eval_steps_per_second": 26.444,
      "step": 345
    },
    {
      "epoch": 0.015638064676504485,
      "grad_norm": 0.5346770882606506,
      "learning_rate": 4.491030185478976e-05,
      "loss": 44.122,
      "step": 346
    },
    {
      "epoch": 0.015683261395222706,
      "grad_norm": 0.4303387701511383,
      "learning_rate": 4.437635835235353e-05,
      "loss": 44.0754,
      "step": 347
    },
    {
      "epoch": 0.015728458113940927,
      "grad_norm": 0.3995809555053711,
      "learning_rate": 4.384470131996252e-05,
      "loss": 44.1039,
      "step": 348
    },
    {
      "epoch": 0.015773654832659148,
      "grad_norm": 0.44882121682167053,
      "learning_rate": 4.331535261195504e-05,
      "loss": 44.1023,
      "step": 349
    },
    {
      "epoch": 0.01581885155137737,
      "grad_norm": 0.4910334646701813,
      "learning_rate": 4.278833398778306e-05,
      "loss": 44.0906,
      "step": 350
    },
    {
      "epoch": 0.01581885155137737,
      "eval_loss": 11.018669128417969,
      "eval_runtime": 176.2273,
      "eval_samples_per_second": 52.869,
      "eval_steps_per_second": 26.437,
      "step": 350
    },
    {
      "epoch": 0.01586404827009559,
      "grad_norm": 0.4974361062049866,
      "learning_rate": 4.2263667111118074e-05,
      "loss": 44.0836,
      "step": 351
    },
    {
      "epoch": 0.01590924498881381,
      "grad_norm": 0.4839700162410736,
      "learning_rate": 4.174137354896039e-05,
      "loss": 44.0984,
      "step": 352
    },
    {
      "epoch": 0.015954441707532033,
      "grad_norm": 0.4186987578868866,
      "learning_rate": 4.12214747707527e-05,
      "loss": 44.0672,
      "step": 353
    },
    {
      "epoch": 0.015999638426250254,
      "grad_norm": 0.5234962701797485,
      "learning_rate": 4.0703992147497425e-05,
      "loss": 44.0376,
      "step": 354
    },
    {
      "epoch": 0.016044835144968475,
      "grad_norm": 0.47532570362091064,
      "learning_rate": 4.0188946950878404e-05,
      "loss": 44.0386,
      "step": 355
    },
    {
      "epoch": 0.016044835144968475,
      "eval_loss": 11.018640518188477,
      "eval_runtime": 176.1029,
      "eval_samples_per_second": 52.907,
      "eval_steps_per_second": 26.456,
      "step": 355
    },
    {
      "epoch": 0.016090031863686696,
      "grad_norm": 0.397630900144577,
      "learning_rate": 3.9676360352386356e-05,
      "loss": 44.1375,
      "step": 356
    },
    {
      "epoch": 0.016135228582404917,
      "grad_norm": 0.530908465385437,
      "learning_rate": 3.9166253422448686e-05,
      "loss": 44.1015,
      "step": 357
    },
    {
      "epoch": 0.01618042530112314,
      "grad_norm": 0.41138243675231934,
      "learning_rate": 3.8658647129563364e-05,
      "loss": 44.0516,
      "step": 358
    },
    {
      "epoch": 0.01622562201984136,
      "grad_norm": 0.5258074402809143,
      "learning_rate": 3.8153562339436855e-05,
      "loss": 44.1157,
      "step": 359
    },
    {
      "epoch": 0.01627081873855958,
      "grad_norm": 0.3948734402656555,
      "learning_rate": 3.7651019814126654e-05,
      "loss": 44.0478,
      "step": 360
    },
    {
      "epoch": 0.01627081873855958,
      "eval_loss": 11.018574714660645,
      "eval_runtime": 176.3307,
      "eval_samples_per_second": 52.838,
      "eval_steps_per_second": 26.422,
      "step": 360
    },
    {
      "epoch": 0.016316015457277802,
      "grad_norm": 0.47562116384506226,
      "learning_rate": 3.7151040211187635e-05,
      "loss": 44.0571,
      "step": 361
    },
    {
      "epoch": 0.016361212175996023,
      "grad_norm": 0.439248651266098,
      "learning_rate": 3.665364408282305e-05,
      "loss": 44.0292,
      "step": 362
    },
    {
      "epoch": 0.016406408894714244,
      "grad_norm": 0.5355764031410217,
      "learning_rate": 3.615885187503946e-05,
      "loss": 44.1601,
      "step": 363
    },
    {
      "epoch": 0.016451605613432466,
      "grad_norm": 0.5143962502479553,
      "learning_rate": 3.566668392680662e-05,
      "loss": 44.0829,
      "step": 364
    },
    {
      "epoch": 0.016496802332150687,
      "grad_norm": 0.5054187178611755,
      "learning_rate": 3.517716046922118e-05,
      "loss": 44.144,
      "step": 365
    },
    {
      "epoch": 0.016496802332150687,
      "eval_loss": 11.018515586853027,
      "eval_runtime": 176.1346,
      "eval_samples_per_second": 52.897,
      "eval_steps_per_second": 26.451,
      "step": 365
    },
    {
      "epoch": 0.016541999050868908,
      "grad_norm": 0.44439616799354553,
      "learning_rate": 3.469030162467513e-05,
      "loss": 44.0321,
      "step": 366
    },
    {
      "epoch": 0.01658719576958713,
      "grad_norm": 0.5372561812400818,
      "learning_rate": 3.4206127406028745e-05,
      "loss": 44.0923,
      "step": 367
    },
    {
      "epoch": 0.01663239248830535,
      "grad_norm": 0.48407748341560364,
      "learning_rate": 3.372465771578771e-05,
      "loss": 44.1126,
      "step": 368
    },
    {
      "epoch": 0.01667758920702357,
      "grad_norm": 0.4682793915271759,
      "learning_rate": 3.32459123452852e-05,
      "loss": 44.0227,
      "step": 369
    },
    {
      "epoch": 0.016722785925741793,
      "grad_norm": 0.4110027551651001,
      "learning_rate": 3.276991097386831e-05,
      "loss": 44.0354,
      "step": 370
    },
    {
      "epoch": 0.016722785925741793,
      "eval_loss": 11.018465042114258,
      "eval_runtime": 176.3082,
      "eval_samples_per_second": 52.845,
      "eval_steps_per_second": 26.425,
      "step": 370
    }
  ],
  "logging_steps": 1,
  "max_steps": 500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3887490662400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}