{
  "best_metric": 1.1947814226150513,
  "best_model_checkpoint": "./output/checkpoint-4650",
  "epoch": 0.21500559910414332,
  "eval_steps": 150,
  "global_step": 4800,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004479283314669653,
      "grad_norm": 6.820243835449219,
      "learning_rate": 7.500000000000001e-07,
      "loss": 1.2628,
      "step": 10
    },
    {
      "epoch": 0.0008958566629339306,
      "grad_norm": 5.822151184082031,
      "learning_rate": 1.5000000000000002e-06,
      "loss": 1.3652,
      "step": 20
    },
    {
      "epoch": 0.0013437849944008958,
      "grad_norm": 4.442959785461426,
      "learning_rate": 2.25e-06,
      "loss": 1.412,
      "step": 30
    },
    {
      "epoch": 0.0017917133258678612,
      "grad_norm": 9.916281700134277,
      "learning_rate": 3.0000000000000005e-06,
      "loss": 1.5213,
      "step": 40
    },
    {
      "epoch": 0.0022396416573348264,
      "grad_norm": 22.53717613220215,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.3189,
      "step": 50
    },
    {
      "epoch": 0.0026875699888017916,
      "grad_norm": 5.07314920425415,
      "learning_rate": 4.5e-06,
      "loss": 1.3022,
      "step": 60
    },
    {
      "epoch": 0.003135498320268757,
      "grad_norm": 9.401494026184082,
      "learning_rate": 5.2500000000000006e-06,
      "loss": 1.5065,
      "step": 70
    },
    {
      "epoch": 0.0035834266517357225,
      "grad_norm": 8.749906539916992,
      "learning_rate": 6.000000000000001e-06,
      "loss": 1.1579,
      "step": 80
    },
    {
      "epoch": 0.004031354983202688,
      "grad_norm": 6.749314785003662,
      "learning_rate": 6.7500000000000014e-06,
      "loss": 1.2524,
      "step": 90
    },
    {
      "epoch": 0.004479283314669653,
      "grad_norm": 8.411529541015625,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.3242,
      "step": 100
    },
    {
      "epoch": 0.004927211646136618,
      "grad_norm": 5.293492794036865,
      "learning_rate": 7.499922926093874e-06,
      "loss": 0.9967,
      "step": 110
    },
    {
      "epoch": 0.005375139977603583,
      "grad_norm": 8.860544204711914,
      "learning_rate": 7.499691707543699e-06,
      "loss": 1.1881,
      "step": 120
    },
    {
      "epoch": 0.0058230683090705485,
      "grad_norm": 9.859148979187012,
      "learning_rate": 7.499306353853963e-06,
      "loss": 1.0598,
      "step": 130
    },
    {
      "epoch": 0.006270996640537514,
      "grad_norm": 4.37281608581543,
      "learning_rate": 7.49876688086505e-06,
      "loss": 1.1233,
      "step": 140
    },
    {
      "epoch": 0.006718924972004479,
      "grad_norm": 4.489595890045166,
      "learning_rate": 7.4980733107525805e-06,
      "loss": 1.2183,
      "step": 150
    },
    {
      "epoch": 0.006718924972004479,
      "eval_loss": 1.282976508140564,
      "eval_runtime": 51.7095,
      "eval_samples_per_second": 9.669,
      "eval_steps_per_second": 9.669,
      "step": 150
    },
    {
      "epoch": 0.007166853303471445,
      "grad_norm": 6.339463233947754,
      "learning_rate": 7.4972256720265044e-06,
      "loss": 1.1818,
      "step": 160
    },
    {
      "epoch": 0.00761478163493841,
      "grad_norm": 6.762680530548096,
      "learning_rate": 7.496223999529932e-06,
      "loss": 1.0349,
      "step": 170
    },
    {
      "epoch": 0.008062709966405375,
      "grad_norm": 7.486023426055908,
      "learning_rate": 7.4950683344376926e-06,
      "loss": 1.1735,
      "step": 180
    },
    {
      "epoch": 0.00851063829787234,
      "grad_norm": 4.099631309509277,
      "learning_rate": 7.4937587242546544e-06,
      "loss": 1.2452,
      "step": 190
    },
    {
      "epoch": 0.008958566629339306,
      "grad_norm": 5.422396183013916,
      "learning_rate": 7.492295222813762e-06,
      "loss": 1.1032,
      "step": 200
    },
    {
      "epoch": 0.009406494960806271,
      "grad_norm": 6.336536407470703,
      "learning_rate": 7.490677890273828e-06,
      "loss": 1.0852,
      "step": 210
    },
    {
      "epoch": 0.009854423292273236,
      "grad_norm": 4.766495704650879,
      "learning_rate": 7.488906793117058e-06,
      "loss": 1.2168,
      "step": 220
    },
    {
      "epoch": 0.010302351623740201,
      "grad_norm": 5.892153263092041,
      "learning_rate": 7.486982004146319e-06,
      "loss": 1.1595,
      "step": 230
    },
    {
      "epoch": 0.010750279955207167,
      "grad_norm": 4.957208633422852,
      "learning_rate": 7.484903602482148e-06,
      "loss": 1.1423,
      "step": 240
    },
    {
      "epoch": 0.011198208286674132,
      "grad_norm": 4.198282718658447,
      "learning_rate": 7.4826716735594945e-06,
      "loss": 1.0562,
      "step": 250
    },
    {
      "epoch": 0.011646136618141097,
      "grad_norm": 3.4756815433502197,
      "learning_rate": 7.480286309124216e-06,
      "loss": 0.9894,
      "step": 260
    },
    {
      "epoch": 0.012094064949608062,
      "grad_norm": 4.725418567657471,
      "learning_rate": 7.477747607229302e-06,
      "loss": 1.1761,
      "step": 270
    },
    {
      "epoch": 0.012541993281075027,
      "grad_norm": 4.241955280303955,
      "learning_rate": 7.475055672230844e-06,
      "loss": 1.1118,
      "step": 280
    },
    {
      "epoch": 0.012989921612541993,
      "grad_norm": 5.7904863357543945,
      "learning_rate": 7.472210614783745e-06,
      "loss": 1.0932,
      "step": 290
    },
    {
      "epoch": 0.013437849944008958,
      "grad_norm": 4.546011924743652,
      "learning_rate": 7.469212551837173e-06,
      "loss": 1.1187,
      "step": 300
    },
    {
      "epoch": 0.013437849944008958,
      "eval_loss": 1.26471745967865,
      "eval_runtime": 51.7822,
      "eval_samples_per_second": 9.656,
      "eval_steps_per_second": 9.656,
      "step": 300
    },
    {
      "epoch": 0.013885778275475923,
      "grad_norm": 6.256772994995117,
      "learning_rate": 7.4660616066297565e-06,
      "loss": 1.2176,
      "step": 310
    },
    {
      "epoch": 0.01433370660694289,
      "grad_norm": 7.437366485595703,
      "learning_rate": 7.462757908684509e-06,
      "loss": 1.046,
      "step": 320
    },
    {
      "epoch": 0.014781634938409855,
      "grad_norm": 8.049488067626953,
      "learning_rate": 7.459301593803512e-06,
      "loss": 1.2396,
      "step": 330
    },
    {
      "epoch": 0.01522956326987682,
      "grad_norm": 5.115020751953125,
      "learning_rate": 7.455692804062335e-06,
      "loss": 1.1018,
      "step": 340
    },
    {
      "epoch": 0.015677491601343786,
      "grad_norm": 5.805201530456543,
      "learning_rate": 7.451931687804189e-06,
      "loss": 1.0083,
      "step": 350
    },
    {
      "epoch": 0.01612541993281075,
      "grad_norm": 5.960669040679932,
      "learning_rate": 7.448018399633831e-06,
      "loss": 1.1773,
      "step": 360
    },
    {
      "epoch": 0.016573348264277716,
      "grad_norm": 4.82655143737793,
      "learning_rate": 7.443953100411214e-06,
      "loss": 1.2279,
      "step": 370
    },
    {
      "epoch": 0.01702127659574468,
      "grad_norm": 5.768619060516357,
      "learning_rate": 7.439735957244862e-06,
      "loss": 1.0924,
      "step": 380
    },
    {
      "epoch": 0.017469204927211646,
      "grad_norm": 4.603348731994629,
      "learning_rate": 7.435367143485015e-06,
      "loss": 0.9547,
      "step": 390
    },
    {
      "epoch": 0.01791713325867861,
      "grad_norm": 3.802041530609131,
      "learning_rate": 7.430846838716496e-06,
      "loss": 1.0569,
      "step": 400
    },
    {
      "epoch": 0.018365061590145577,
      "grad_norm": 4.473762035369873,
      "learning_rate": 7.426175228751328e-06,
      "loss": 1.1299,
      "step": 410
    },
    {
      "epoch": 0.018812989921612542,
      "grad_norm": 4.674028396606445,
      "learning_rate": 7.421352505621099e-06,
      "loss": 1.0512,
      "step": 420
    },
    {
      "epoch": 0.019260918253079507,
      "grad_norm": 5.1446852684021,
      "learning_rate": 7.416378867569069e-06,
      "loss": 1.2024,
      "step": 430
    },
    {
      "epoch": 0.019708846584546472,
      "grad_norm": 3.742156744003296,
      "learning_rate": 7.411254519042017e-06,
      "loss": 1.1778,
      "step": 440
    },
    {
      "epoch": 0.020156774916013438,
      "grad_norm": 4.0376200675964355,
      "learning_rate": 7.4059796706818396e-06,
      "loss": 1.1754,
      "step": 450
    },
    {
      "epoch": 0.020156774916013438,
      "eval_loss": 1.2499778270721436,
      "eval_runtime": 51.5995,
      "eval_samples_per_second": 9.69,
      "eval_steps_per_second": 9.69,
      "step": 450
    },
    {
      "epoch": 0.020604703247480403,
      "grad_norm": 3.672325372695923,
      "learning_rate": 7.400554539316894e-06,
      "loss": 1.1627,
      "step": 460
    },
    {
      "epoch": 0.021052631578947368,
      "grad_norm": 4.949635982513428,
      "learning_rate": 7.394979347953081e-06,
      "loss": 1.3115,
      "step": 470
    },
    {
      "epoch": 0.021500559910414333,
      "grad_norm": 4.03855037689209,
      "learning_rate": 7.389254325764681e-06,
      "loss": 1.1176,
      "step": 480
    },
    {
      "epoch": 0.0219484882418813,
      "grad_norm": 4.981250762939453,
      "learning_rate": 7.383379708084934e-06,
      "loss": 1.0668,
      "step": 490
    },
    {
      "epoch": 0.022396416573348264,
      "grad_norm": 4.68571138381958,
      "learning_rate": 7.377355736396362e-06,
      "loss": 1.1235,
      "step": 500
    },
    {
      "epoch": 0.02284434490481523,
      "grad_norm": 5.7003326416015625,
      "learning_rate": 7.371182658320847e-06,
      "loss": 1.0535,
      "step": 510
    },
    {
      "epoch": 0.023292273236282194,
      "grad_norm": 2.357079029083252,
      "learning_rate": 7.36486072760945e-06,
      "loss": 0.9768,
      "step": 520
    },
    {
      "epoch": 0.02374020156774916,
      "grad_norm": 4.828664779663086,
      "learning_rate": 7.358390204131984e-06,
      "loss": 1.0385,
      "step": 530
    },
    {
      "epoch": 0.024188129899216124,
      "grad_norm": 3.4303321838378906,
      "learning_rate": 7.3517713538663235e-06,
      "loss": 0.9826,
      "step": 540
    },
    {
      "epoch": 0.02463605823068309,
      "grad_norm": 8.705097198486328,
      "learning_rate": 7.345004448887478e-06,
      "loss": 1.0988,
      "step": 550
    },
    {
      "epoch": 0.025083986562150055,
      "grad_norm": 4.806099891662598,
      "learning_rate": 7.3380897673564085e-06,
      "loss": 1.2765,
      "step": 560
    },
    {
      "epoch": 0.02553191489361702,
      "grad_norm": 3.948829174041748,
      "learning_rate": 7.33102759350859e-06,
      "loss": 1.2548,
      "step": 570
    },
    {
      "epoch": 0.025979843225083985,
      "grad_norm": 8.706982612609863,
      "learning_rate": 7.323818217642328e-06,
      "loss": 1.1907,
      "step": 580
    },
    {
      "epoch": 0.02642777155655095,
      "grad_norm": 4.196287155151367,
      "learning_rate": 7.316461936106827e-06,
      "loss": 1.1541,
      "step": 590
    },
    {
      "epoch": 0.026875699888017916,
      "grad_norm": 4.2185187339782715,
      "learning_rate": 7.3089590512900084e-06,
      "loss": 1.0761,
      "step": 600
    },
    {
      "epoch": 0.026875699888017916,
      "eval_loss": 1.2407419681549072,
      "eval_runtime": 51.6589,
      "eval_samples_per_second": 9.679,
      "eval_steps_per_second": 9.679,
      "step": 600
    },
    {
      "epoch": 0.02732362821948488,
      "grad_norm": 4.50939416885376,
      "learning_rate": 7.301309871606081e-06,
      "loss": 1.1746,
      "step": 610
    },
    {
      "epoch": 0.027771556550951846,
      "grad_norm": 5.48988676071167,
      "learning_rate": 7.293514711482861e-06,
      "loss": 1.0518,
      "step": 620
    },
    {
      "epoch": 0.028219484882418815,
      "grad_norm": 4.441885471343994,
      "learning_rate": 7.285573891348849e-06,
      "loss": 1.0679,
      "step": 630
    },
    {
      "epoch": 0.02866741321388578,
      "grad_norm": 6.711030006408691,
      "learning_rate": 7.27748773762006e-06,
      "loss": 1.2901,
      "step": 640
    },
    {
      "epoch": 0.029115341545352745,
      "grad_norm": 5.328275680541992,
      "learning_rate": 7.269256582686603e-06,
      "loss": 1.1749,
      "step": 650
    },
    {
      "epoch": 0.02956326987681971,
      "grad_norm": 3.016313314437866,
      "learning_rate": 7.260880764899016e-06,
      "loss": 1.1398,
      "step": 660
    },
    {
      "epoch": 0.030011198208286675,
      "grad_norm": 4.6470866203308105,
      "learning_rate": 7.252360628554363e-06,
      "loss": 1.0427,
      "step": 670
    },
    {
      "epoch": 0.03045912653975364,
      "grad_norm": 9.044170379638672,
      "learning_rate": 7.243696523882079e-06,
      "loss": 1.0913,
      "step": 680
    },
    {
      "epoch": 0.030907054871220606,
      "grad_norm": 4.983870029449463,
      "learning_rate": 7.2348888070295705e-06,
      "loss": 1.1174,
      "step": 690
    },
    {
      "epoch": 0.03135498320268757,
      "grad_norm": 10.38315486907959,
      "learning_rate": 7.225937840047583e-06,
      "loss": 1.2386,
      "step": 700
    },
    {
      "epoch": 0.031802911534154536,
      "grad_norm": 5.104282855987549,
      "learning_rate": 7.216843990875307e-06,
      "loss": 1.1014,
      "step": 710
    },
    {
      "epoch": 0.0322508398656215,
      "grad_norm": 5.493166446685791,
      "learning_rate": 7.207607633325266e-06,
      "loss": 1.2569,
      "step": 720
    },
    {
      "epoch": 0.03269876819708847,
      "grad_norm": 5.069271564483643,
      "learning_rate": 7.198229147067941e-06,
      "loss": 1.1938,
      "step": 730
    },
    {
      "epoch": 0.03314669652855543,
      "grad_norm": 5.183401107788086,
      "learning_rate": 7.18870891761617e-06,
      "loss": 0.9859,
      "step": 740
    },
    {
      "epoch": 0.0335946248600224,
      "grad_norm": 4.3622965812683105,
      "learning_rate": 7.1790473363092974e-06,
      "loss": 1.1359,
      "step": 750
    },
    {
      "epoch": 0.0335946248600224,
      "eval_loss": 1.2344202995300293,
      "eval_runtime": 51.6321,
      "eval_samples_per_second": 9.684,
      "eval_steps_per_second": 9.684,
      "step": 750
    },
    {
      "epoch": 0.03404255319148936,
      "grad_norm": 4.141931056976318,
      "learning_rate": 7.169244800297089e-06,
      "loss": 1.2613,
      "step": 760
    },
    {
      "epoch": 0.03449048152295633,
      "grad_norm": 4.191932201385498,
      "learning_rate": 7.159301712523407e-06,
      "loss": 1.1802,
      "step": 770
    },
    {
      "epoch": 0.03493840985442329,
      "grad_norm": 4.759700775146484,
      "learning_rate": 7.149218481709644e-06,
      "loss": 1.0651,
      "step": 780
    },
    {
      "epoch": 0.03538633818589026,
      "grad_norm": 3.969430923461914,
      "learning_rate": 7.1389955223379266e-06,
      "loss": 0.9129,
      "step": 790
    },
    {
      "epoch": 0.03583426651735722,
      "grad_norm": 5.1956467628479,
      "learning_rate": 7.128633254634072e-06,
      "loss": 1.2688,
      "step": 800
    },
    {
      "epoch": 0.03628219484882419,
      "grad_norm": 3.615705966949463,
      "learning_rate": 7.118132104550322e-06,
      "loss": 1.1092,
      "step": 810
    },
    {
      "epoch": 0.036730123180291153,
      "grad_norm": 3.635277271270752,
      "learning_rate": 7.107492503747826e-06,
      "loss": 1.0265,
      "step": 820
    },
    {
      "epoch": 0.03717805151175812,
      "grad_norm": 4.518077373504639,
      "learning_rate": 7.096714889578898e-06,
      "loss": 1.0817,
      "step": 830
    },
    {
      "epoch": 0.037625979843225084,
      "grad_norm": 6.652565002441406,
      "learning_rate": 7.085799705069046e-06,
      "loss": 0.9709,
      "step": 840
    },
    {
      "epoch": 0.03807390817469205,
      "grad_norm": 5.337361812591553,
      "learning_rate": 7.0747473988987515e-06,
      "loss": 1.0883,
      "step": 850
    },
    {
      "epoch": 0.038521836506159014,
      "grad_norm": 5.067249774932861,
      "learning_rate": 7.063558425385033e-06,
      "loss": 1.08,
      "step": 860
    },
    {
      "epoch": 0.03896976483762598,
      "grad_norm": 3.9859232902526855,
      "learning_rate": 7.052233244462769e-06,
      "loss": 1.0063,
      "step": 870
    },
    {
      "epoch": 0.039417693169092945,
      "grad_norm": 5.297623634338379,
      "learning_rate": 7.040772321665788e-06,
      "loss": 0.9638,
      "step": 880
    },
    {
      "epoch": 0.03986562150055991,
      "grad_norm": 6.088709354400635,
      "learning_rate": 7.029176128107734e-06,
      "loss": 1.2673,
      "step": 890
    },
    {
      "epoch": 0.040313549832026875,
      "grad_norm": 7.997159957885742,
      "learning_rate": 7.017445140462711e-06,
      "loss": 0.9986,
      "step": 900
    },
    {
      "epoch": 0.040313549832026875,
      "eval_loss": 1.2309150695800781,
      "eval_runtime": 51.612,
      "eval_samples_per_second": 9.688,
      "eval_steps_per_second": 9.688,
      "step": 900
    },
    {
      "epoch": 0.04076147816349384,
      "grad_norm": 6.393094062805176,
      "learning_rate": 7.00557984094567e-06,
      "loss": 1.066,
      "step": 910
    },
    {
      "epoch": 0.041209406494960805,
      "grad_norm": 4.47462797164917,
      "learning_rate": 6.993580717292601e-06,
      "loss": 1.3117,
      "step": 920
    },
    {
      "epoch": 0.04165733482642777,
      "grad_norm": 4.160079479217529,
      "learning_rate": 6.981448262740483e-06,
      "loss": 1.3003,
      "step": 930
    },
    {
      "epoch": 0.042105263157894736,
      "grad_norm": 5.260162353515625,
      "learning_rate": 6.969182976006999e-06,
      "loss": 1.312,
      "step": 940
    },
    {
      "epoch": 0.0425531914893617,
      "grad_norm": 4.503716468811035,
      "learning_rate": 6.95678536127005e-06,
      "loss": 1.185,
      "step": 950
    },
    {
      "epoch": 0.043001119820828666,
      "grad_norm": 3.7414872646331787,
      "learning_rate": 6.944255928147017e-06,
      "loss": 1.1585,
      "step": 960
    },
    {
      "epoch": 0.04344904815229563,
      "grad_norm": 5.410964012145996,
      "learning_rate": 6.931595191673823e-06,
      "loss": 1.1403,
      "step": 970
    },
    {
      "epoch": 0.0438969764837626,
      "grad_norm": 4.388716220855713,
      "learning_rate": 6.9188036722837555e-06,
      "loss": 1.0452,
      "step": 980
    },
    {
      "epoch": 0.04434490481522956,
      "grad_norm": 2.7749533653259277,
      "learning_rate": 6.905881895786076e-06,
      "loss": 1.0638,
      "step": 990
    },
    {
      "epoch": 0.04479283314669653,
      "grad_norm": 5.431761741638184,
      "learning_rate": 6.892830393344403e-06,
      "loss": 1.2718,
      "step": 1000
    },
    {
      "epoch": 0.04524076147816349,
      "grad_norm": 4.384571552276611,
      "learning_rate": 6.879649701454886e-06,
      "loss": 1.0594,
      "step": 1010
    },
    {
      "epoch": 0.04568868980963046,
      "grad_norm": 5.040534019470215,
      "learning_rate": 6.866340361924141e-06,
      "loss": 1.2255,
      "step": 1020
    },
    {
      "epoch": 0.04613661814109742,
      "grad_norm": 4.800682544708252,
      "learning_rate": 6.852902921846988e-06,
      "loss": 1.1093,
      "step": 1030
    },
    {
      "epoch": 0.04658454647256439,
      "grad_norm": 5.662080764770508,
      "learning_rate": 6.8393379335839565e-06,
      "loss": 1.2003,
      "step": 1040
    },
    {
      "epoch": 0.04703247480403135,
      "grad_norm": 3.93361234664917,
      "learning_rate": 6.825645954738586e-06,
      "loss": 1.0652,
      "step": 1050
    },
    {
      "epoch": 0.04703247480403135,
      "eval_loss": 1.2271474599838257,
      "eval_runtime": 51.5746,
      "eval_samples_per_second": 9.695,
      "eval_steps_per_second": 9.695,
      "step": 1050
    },
    {
      "epoch": 0.04748040313549832,
      "grad_norm": 4.918002605438232,
      "learning_rate": 6.811827548134495e-06,
      "loss": 1.156,
      "step": 1060
    },
    {
      "epoch": 0.047928331466965284,
      "grad_norm": 3.533487319946289,
      "learning_rate": 6.797883281792261e-06,
      "loss": 1.0533,
      "step": 1070
    },
    {
      "epoch": 0.04837625979843225,
      "grad_norm": 4.698348045349121,
      "learning_rate": 6.783813728906054e-06,
      "loss": 1.2621,
      "step": 1080
    },
    {
      "epoch": 0.048824188129899214,
      "grad_norm": 3.90852427482605,
      "learning_rate": 6.769619467820086e-06,
      "loss": 1.0754,
      "step": 1090
    },
    {
      "epoch": 0.04927211646136618,
      "grad_norm": 6.924786567687988,
      "learning_rate": 6.755301082004838e-06,
      "loss": 1.0617,
      "step": 1100
    },
    {
      "epoch": 0.049720044792833144,
      "grad_norm": 5.685960292816162,
      "learning_rate": 6.740859160033068e-06,
      "loss": 1.2185,
      "step": 1110
    },
    {
      "epoch": 0.05016797312430011,
      "grad_norm": 5.533092975616455,
      "learning_rate": 6.726294295555623e-06,
      "loss": 1.0583,
      "step": 1120
    },
    {
      "epoch": 0.050615901455767075,
      "grad_norm": 4.5029988288879395,
      "learning_rate": 6.711607087277034e-06,
      "loss": 1.1781,
      "step": 1130
    },
    {
      "epoch": 0.05106382978723404,
      "grad_norm": 3.2203736305236816,
      "learning_rate": 6.69679813893091e-06,
      "loss": 1.151,
      "step": 1140
    },
    {
      "epoch": 0.051511758118701005,
      "grad_norm": 6.602795600891113,
      "learning_rate": 6.681868059255113e-06,
      "loss": 1.1373,
      "step": 1150
    },
    {
      "epoch": 0.05195968645016797,
      "grad_norm": 3.071552038192749,
      "learning_rate": 6.666817461966741e-06,
      "loss": 1.1554,
      "step": 1160
    },
    {
      "epoch": 0.052407614781634936,
      "grad_norm": 5.886751174926758,
      "learning_rate": 6.651646965736902e-06,
      "loss": 1.1328,
      "step": 1170
    },
    {
      "epoch": 0.0528555431131019,
      "grad_norm": 4.323307991027832,
      "learning_rate": 6.636357194165274e-06,
      "loss": 1.1535,
      "step": 1180
    },
    {
      "epoch": 0.053303471444568866,
      "grad_norm": 4.585876941680908,
      "learning_rate": 6.620948775754481e-06,
      "loss": 1.1636,
      "step": 1190
    },
    {
      "epoch": 0.05375139977603583,
      "grad_norm": 3.9351437091827393,
      "learning_rate": 6.605422343884255e-06,
      "loss": 1.2689,
      "step": 1200
    },
    {
      "epoch": 0.05375139977603583,
      "eval_loss": 1.2224195003509521,
      "eval_runtime": 51.5936,
      "eval_samples_per_second": 9.691,
      "eval_steps_per_second": 9.691,
      "step": 1200
    },
    {
      "epoch": 0.054199328107502796,
      "grad_norm": 3.1242146492004395,
      "learning_rate": 6.589778536785396e-06,
      "loss": 1.2646,
      "step": 1210
    },
    {
      "epoch": 0.05464725643896976,
      "grad_norm": 3.1645703315734863,
      "learning_rate": 6.5740179975135426e-06,
      "loss": 0.9831,
      "step": 1220
    },
    {
      "epoch": 0.05509518477043673,
      "grad_norm": 6.550941467285156,
      "learning_rate": 6.5581413739227314e-06,
      "loss": 1.1777,
      "step": 1230
    },
    {
      "epoch": 0.05554311310190369,
      "grad_norm": 17.51181983947754,
      "learning_rate": 6.542149318638777e-06,
      "loss": 1.0765,
      "step": 1240
    },
    {
      "epoch": 0.055991041433370664,
      "grad_norm": 6.8737664222717285,
      "learning_rate": 6.526042489032434e-06,
      "loss": 1.0107,
      "step": 1250
    },
    {
      "epoch": 0.05643896976483763,
      "grad_norm": 3.5256145000457764,
      "learning_rate": 6.509821547192383e-06,
      "loss": 1.1973,
      "step": 1260
    },
    {
      "epoch": 0.056886898096304594,
      "grad_norm": 5.974047660827637,
      "learning_rate": 6.493487159898006e-06,
      "loss": 1.2409,
      "step": 1270
    },
    {
      "epoch": 0.05733482642777156,
      "grad_norm": 3.98787522315979,
      "learning_rate": 6.477039998591991e-06,
      "loss": 1.3272,
      "step": 1280
    },
    {
      "epoch": 0.057782754759238525,
      "grad_norm": 5.225778102874756,
      "learning_rate": 6.460480739352719e-06,
      "loss": 1.2937,
      "step": 1290
    },
    {
      "epoch": 0.05823068309070549,
      "grad_norm": 3.719729423522949,
      "learning_rate": 6.4438100628664795e-06,
      "loss": 1.0965,
      "step": 1300
    },
    {
      "epoch": 0.058678611422172455,
      "grad_norm": 2.8820245265960693,
      "learning_rate": 6.4270286543994874e-06,
      "loss": 1.2178,
      "step": 1310
    },
    {
      "epoch": 0.05912653975363942,
      "grad_norm": 3.031202793121338,
      "learning_rate": 6.410137203769718e-06,
      "loss": 1.354,
      "step": 1320
    },
    {
      "epoch": 0.059574468085106386,
      "grad_norm": 3.010680675506592,
      "learning_rate": 6.393136405318545e-06,
      "loss": 1.185,
      "step": 1330
    },
    {
      "epoch": 0.06002239641657335,
      "grad_norm": 3.756014823913574,
      "learning_rate": 6.376026957882207e-06,
      "loss": 1.1636,
      "step": 1340
    },
    {
      "epoch": 0.060470324748040316,
      "grad_norm": 4.391636848449707,
      "learning_rate": 6.3588095647630754e-06,
      "loss": 1.2252,
      "step": 1350
    },
    {
      "epoch": 0.060470324748040316,
      "eval_loss": 1.222408652305603,
      "eval_runtime": 51.5211,
      "eval_samples_per_second": 9.705,
      "eval_steps_per_second": 9.705,
      "step": 1350
    },
    {
      "epoch": 0.06091825307950728,
      "grad_norm": 3.5359737873077393,
      "learning_rate": 6.341484933700744e-06,
      "loss": 1.0688,
      "step": 1360
    },
    {
      "epoch": 0.061366181410974247,
      "grad_norm": 4.412395477294922,
      "learning_rate": 6.32405377684294e-06,
      "loss": 1.1889,
      "step": 1370
    },
    {
      "epoch": 0.06181410974244121,
      "grad_norm": 7.099231719970703,
      "learning_rate": 6.306516810716249e-06,
      "loss": 1.0922,
      "step": 1380
    },
    {
      "epoch": 0.06226203807390818,
      "grad_norm": 3.257270097732544,
      "learning_rate": 6.288874756196662e-06,
      "loss": 1.2291,
      "step": 1390
    },
    {
      "epoch": 0.06270996640537514,
      "grad_norm": 3.6133875846862793,
      "learning_rate": 6.271128338479939e-06,
      "loss": 1.0567,
      "step": 1400
    },
    {
      "epoch": 0.06315789473684211,
      "grad_norm": 4.996825695037842,
      "learning_rate": 6.253278287051806e-06,
      "loss": 1.1242,
      "step": 1410
    },
    {
      "epoch": 0.06360582306830907,
      "grad_norm": 5.642391204833984,
      "learning_rate": 6.235325335657962e-06,
      "loss": 1.1998,
      "step": 1420
    },
    {
      "epoch": 0.06405375139977604,
      "grad_norm": 4.652320384979248,
      "learning_rate": 6.217270222273923e-06,
      "loss": 1.0647,
      "step": 1430
    },
    {
      "epoch": 0.064501679731243,
      "grad_norm": 8.814513206481934,
      "learning_rate": 6.1991136890746825e-06,
      "loss": 0.97,
      "step": 1440
    },
    {
      "epoch": 0.06494960806270997,
      "grad_norm": 4.535324573516846,
      "learning_rate": 6.180856482404208e-06,
      "loss": 1.0829,
      "step": 1450
    },
    {
      "epoch": 0.06539753639417693,
      "grad_norm": 5.13389778137207,
      "learning_rate": 6.162499352744754e-06,
      "loss": 1.3333,
      "step": 1460
    },
    {
      "epoch": 0.0658454647256439,
      "grad_norm": 4.871939182281494,
      "learning_rate": 6.144043054686022e-06,
      "loss": 1.1397,
      "step": 1470
    },
    {
      "epoch": 0.06629339305711086,
      "grad_norm": 3.31581449508667,
      "learning_rate": 6.125488346894139e-06,
      "loss": 1.0983,
      "step": 1480
    },
    {
      "epoch": 0.06674132138857783,
      "grad_norm": 6.067586898803711,
      "learning_rate": 6.106835992080464e-06,
      "loss": 1.0931,
      "step": 1490
    },
    {
      "epoch": 0.0671892497200448,
      "grad_norm": 4.4560465812683105,
      "learning_rate": 6.088086756970252e-06,
      "loss": 1.0743,
      "step": 1500
    },
    {
      "epoch": 0.0671892497200448,
      "eval_loss": 1.21743643283844,
      "eval_runtime": 51.7437,
      "eval_samples_per_second": 9.663,
      "eval_steps_per_second": 9.663,
      "step": 1500
    },
    {
      "epoch": 0.06763717805151176,
      "grad_norm": 6.724518775939941,
      "learning_rate": 6.0692414122711184e-06,
      "loss": 1.2655,
      "step": 1510
    },
    {
      "epoch": 0.06808510638297872,
      "grad_norm": 4.3255085945129395,
      "learning_rate": 6.050300732641376e-06,
      "loss": 1.0058,
      "step": 1520
    },
    {
      "epoch": 0.06853303471444569,
      "grad_norm": 2.7948145866394043,
      "learning_rate": 6.0312654966581755e-06,
      "loss": 1.1331,
      "step": 1530
    },
    {
      "epoch": 0.06898096304591265,
      "grad_norm": 4.223801612854004,
      "learning_rate": 6.012136486785512e-06,
      "loss": 0.9267,
      "step": 1540
    },
    {
      "epoch": 0.06942889137737962,
      "grad_norm": 8.328617095947266,
      "learning_rate": 5.992914489342061e-06,
      "loss": 1.0601,
      "step": 1550
    },
    {
      "epoch": 0.06987681970884659,
      "grad_norm": 3.9401023387908936,
      "learning_rate": 5.9736002944688474e-06,
      "loss": 1.1296,
      "step": 1560
    },
    {
      "epoch": 0.07032474804031355,
      "grad_norm": 4.462929725646973,
      "learning_rate": 5.954194696096775e-06,
      "loss": 1.1266,
      "step": 1570
    },
    {
      "epoch": 0.07077267637178052,
      "grad_norm": 9.879998207092285,
      "learning_rate": 5.9346984919139865e-06,
      "loss": 1.0835,
      "step": 1580
    },
    {
      "epoch": 0.07122060470324748,
      "grad_norm": 4.088196277618408,
      "learning_rate": 5.9151124833330745e-06,
      "loss": 1.1256,
      "step": 1590
    },
    {
      "epoch": 0.07166853303471445,
      "grad_norm": 6.066174030303955,
      "learning_rate": 5.895437475458137e-06,
      "loss": 1.2295,
      "step": 1600
    },
    {
      "epoch": 0.07211646136618141,
      "grad_norm": 4.754509449005127,
      "learning_rate": 5.875674277051688e-06,
      "loss": 1.1676,
      "step": 1610
    },
    {
      "epoch": 0.07256438969764838,
      "grad_norm": 3.898282289505005,
      "learning_rate": 5.855823700501406e-06,
      "loss": 1.2583,
      "step": 1620
    },
    {
      "epoch": 0.07301231802911534,
      "grad_norm": 5.35301399230957,
      "learning_rate": 5.835886561786744e-06,
      "loss": 1.3667,
      "step": 1630
    },
    {
      "epoch": 0.07346024636058231,
      "grad_norm": 6.24777889251709,
      "learning_rate": 5.815863680445385e-06,
      "loss": 1.1099,
      "step": 1640
    },
    {
      "epoch": 0.07390817469204927,
      "grad_norm": 3.7771286964416504,
      "learning_rate": 5.795755879539558e-06,
      "loss": 0.9985,
      "step": 1650
    },
    {
      "epoch": 0.07390817469204927,
      "eval_loss": 1.2118867635726929,
      "eval_runtime": 51.6701,
      "eval_samples_per_second": 9.677,
      "eval_steps_per_second": 9.677,
      "step": 1650
    },
    {
      "epoch": 0.07435610302351624,
      "grad_norm": 4.368626117706299,
      "learning_rate": 5.775563985622202e-06,
      "loss": 1.1,
      "step": 1660
    },
    {
      "epoch": 0.0748040313549832,
      "grad_norm": 6.341384410858154,
      "learning_rate": 5.755288828702987e-06,
      "loss": 1.0292,
      "step": 1670
    },
    {
      "epoch": 0.07525195968645017,
      "grad_norm": 5.869757652282715,
      "learning_rate": 5.734931242214204e-06,
      "loss": 1.0937,
      "step": 1680
    },
    {
      "epoch": 0.07569988801791713,
      "grad_norm": 4.857089042663574,
      "learning_rate": 5.7144920629764955e-06,
      "loss": 1.0987,
      "step": 1690
    },
    {
      "epoch": 0.0761478163493841,
      "grad_norm": 5.114626884460449,
      "learning_rate": 5.693972131164471e-06,
      "loss": 0.9623,
      "step": 1700
    },
    {
      "epoch": 0.07659574468085106,
      "grad_norm": 5.152310371398926,
      "learning_rate": 5.673372290272149e-06,
      "loss": 1.1423,
      "step": 1710
    },
    {
      "epoch": 0.07704367301231803,
      "grad_norm": 3.8204965591430664,
      "learning_rate": 5.652693387078309e-06,
      "loss": 1.0523,
      "step": 1720
    },
    {
      "epoch": 0.077491601343785,
      "grad_norm": 3.0346767902374268,
      "learning_rate": 5.631936271611667e-06,
      "loss": 1.0483,
      "step": 1730
    },
    {
      "epoch": 0.07793952967525196,
      "grad_norm": 4.436351299285889,
      "learning_rate": 5.611101797115939e-06,
      "loss": 1.0144,
      "step": 1740
    },
    {
      "epoch": 0.07838745800671892,
      "grad_norm": 5.614783763885498,
      "learning_rate": 5.5901908200147685e-06,
      "loss": 1.078,
      "step": 1750
    },
    {
      "epoch": 0.07883538633818589,
      "grad_norm": 4.0426926612854,
      "learning_rate": 5.56920419987652e-06,
      "loss": 1.2628,
      "step": 1760
    },
    {
      "epoch": 0.07928331466965285,
      "grad_norm": 5.30089807510376,
      "learning_rate": 5.5481427993789534e-06,
      "loss": 1.1257,
      "step": 1770
    },
    {
      "epoch": 0.07973124300111982,
      "grad_norm": 3.5508739948272705,
      "learning_rate": 5.527007484273746e-06,
      "loss": 1.0355,
      "step": 1780
    },
    {
      "epoch": 0.08017917133258678,
      "grad_norm": 4.027277946472168,
      "learning_rate": 5.5057991233509225e-06,
      "loss": 0.9196,
      "step": 1790
    },
    {
      "epoch": 0.08062709966405375,
      "grad_norm": 7.427858352661133,
      "learning_rate": 5.484518588403134e-06,
      "loss": 1.1913,
      "step": 1800
    },
    {
      "epoch": 0.08062709966405375,
      "eval_loss": 1.2111696004867554,
      "eval_runtime": 51.6854,
      "eval_samples_per_second": 9.674,
      "eval_steps_per_second": 9.674,
      "step": 1800
    },
    {
      "epoch": 0.08107502799552072,
      "grad_norm": 6.3730597496032715,
      "learning_rate": 5.463166754189819e-06,
      "loss": 1.171,
      "step": 1810
    },
    {
      "epoch": 0.08152295632698768,
      "grad_norm": 5.194447994232178,
      "learning_rate": 5.441744498401255e-06,
      "loss": 1.2202,
      "step": 1820
    },
    {
      "epoch": 0.08197088465845465,
      "grad_norm": 4.3045454025268555,
      "learning_rate": 5.4202527016224725e-06,
      "loss": 1.1318,
      "step": 1830
    },
    {
      "epoch": 0.08241881298992161,
      "grad_norm": 5.316900253295898,
      "learning_rate": 5.398692247297059e-06,
      "loss": 1.2107,
      "step": 1840
    },
    {
      "epoch": 0.08286674132138858,
      "grad_norm": 8.284939765930176,
      "learning_rate": 5.377064021690844e-06,
      "loss": 1.1683,
      "step": 1850
    },
    {
      "epoch": 0.08331466965285554,
      "grad_norm": 4.051226615905762,
      "learning_rate": 5.355368913855472e-06,
      "loss": 1.2974,
      "step": 1860
    },
    {
      "epoch": 0.0837625979843225,
      "grad_norm": 5.353118896484375,
      "learning_rate": 5.333607815591851e-06,
      "loss": 1.235,
      "step": 1870
    },
    {
      "epoch": 0.08421052631578947,
      "grad_norm": 5.097784996032715,
      "learning_rate": 5.311781621413497e-06,
      "loss": 1.0172,
      "step": 1880
    },
    {
      "epoch": 0.08465845464725644,
      "grad_norm": 3.437659978866577,
      "learning_rate": 5.289891228509769e-06,
      "loss": 1.0104,
      "step": 1890
    },
    {
      "epoch": 0.0851063829787234,
      "grad_norm": 4.631069660186768,
      "learning_rate": 5.267937536708977e-06,
      "loss": 1.0368,
      "step": 1900
    },
    {
      "epoch": 0.08555431131019037,
      "grad_norm": 5.044907569885254,
      "learning_rate": 5.245921448441407e-06,
      "loss": 1.0732,
      "step": 1910
    },
    {
      "epoch": 0.08600223964165733,
      "grad_norm": 3.2756667137145996,
      "learning_rate": 5.223843868702214e-06,
      "loss": 1.2815,
      "step": 1920
    },
    {
      "epoch": 0.0864501679731243,
      "grad_norm": 5.061473369598389,
      "learning_rate": 5.201705705014231e-06,
      "loss": 1.1059,
      "step": 1930
    },
    {
      "epoch": 0.08689809630459126,
      "grad_norm": 4.924319744110107,
      "learning_rate": 5.1795078673906575e-06,
      "loss": 1.0561,
      "step": 1940
    },
    {
      "epoch": 0.08734602463605823,
      "grad_norm": 4.019739627838135,
      "learning_rate": 5.1572512682976546e-06,
      "loss": 0.9889,
      "step": 1950
    },
    {
      "epoch": 0.08734602463605823,
      "eval_loss": 1.2077045440673828,
      "eval_runtime": 51.7283,
      "eval_samples_per_second": 9.666,
      "eval_steps_per_second": 9.666,
      "step": 1950
    },
    {
      "epoch": 0.0877939529675252,
      "grad_norm": 6.297740459442139,
      "learning_rate": 5.134936822616837e-06,
      "loss": 1.1664,
      "step": 1960
    },
    {
      "epoch": 0.08824188129899216,
      "grad_norm": 5.478749752044678,
      "learning_rate": 5.112565447607669e-06,
      "loss": 1.2503,
      "step": 1970
    },
    {
      "epoch": 0.08868980963045912,
      "grad_norm": 4.692316055297852,
      "learning_rate": 5.090138062869755e-06,
      "loss": 1.1421,
      "step": 1980
    },
    {
      "epoch": 0.08913773796192609,
      "grad_norm": 3.5623536109924316,
      "learning_rate": 5.067655590305036e-06,
      "loss": 1.1203,
      "step": 1990
    },
    {
      "epoch": 0.08958566629339305,
      "grad_norm": 6.875621318817139,
      "learning_rate": 5.045118954079904e-06,
      "loss": 1.1348,
      "step": 2000
    },
    {
      "epoch": 0.09003359462486002,
      "grad_norm": 5.2604756355285645,
      "learning_rate": 5.022529080587205e-06,
      "loss": 1.0326,
      "step": 2010
    },
    {
      "epoch": 0.09048152295632698,
      "grad_norm": 5.012307643890381,
      "learning_rate": 4.999886898408157e-06,
      "loss": 1.12,
      "step": 2020
    },
    {
      "epoch": 0.09092945128779395,
      "grad_norm": 5.246688365936279,
      "learning_rate": 4.977193338274189e-06,
      "loss": 1.1164,
      "step": 2030
    },
    {
      "epoch": 0.09137737961926092,
      "grad_norm": 3.9779398441314697,
      "learning_rate": 4.954449333028672e-06,
      "loss": 1.0607,
      "step": 2040
    },
    {
      "epoch": 0.09182530795072788,
      "grad_norm": 5.392056465148926,
      "learning_rate": 4.931655817588579e-06,
      "loss": 1.1102,
      "step": 2050
    },
    {
      "epoch": 0.09227323628219485,
      "grad_norm": 5.144470691680908,
      "learning_rate": 4.9088137289060535e-06,
      "loss": 1.0649,
      "step": 2060
    },
    {
      "epoch": 0.09272116461366181,
      "grad_norm": 3.7060792446136475,
      "learning_rate": 4.885924005929896e-06,
      "loss": 1.0718,
      "step": 2070
    },
    {
      "epoch": 0.09316909294512878,
      "grad_norm": 3.357794761657715,
      "learning_rate": 4.862987589566965e-06,
      "loss": 1.1003,
      "step": 2080
    },
    {
      "epoch": 0.09361702127659574,
      "grad_norm": 5.704718589782715,
      "learning_rate": 4.840005422643503e-06,
      "loss": 1.2042,
      "step": 2090
    },
    {
      "epoch": 0.0940649496080627,
      "grad_norm": 5.481514930725098,
      "learning_rate": 4.816978449866372e-06,
      "loss": 1.0777,
      "step": 2100
    },
    {
      "epoch": 0.0940649496080627,
      "eval_loss": 1.2093305587768555,
      "eval_runtime": 51.7975,
      "eval_samples_per_second": 9.653,
      "eval_steps_per_second": 9.653,
      "step": 2100
    },
    {
      "epoch": 0.09451287793952967,
      "grad_norm": 5.508385181427002,
      "learning_rate": 4.793907617784238e-06,
      "loss": 1.5375,
      "step": 2110
    },
    {
      "epoch": 0.09496080627099664,
      "grad_norm": 4.192409515380859,
      "learning_rate": 4.770793874748642e-06,
      "loss": 0.9964,
      "step": 2120
    },
    {
      "epoch": 0.0954087346024636,
      "grad_norm": 4.068387508392334,
      "learning_rate": 4.747638170875032e-06,
      "loss": 0.9244,
      "step": 2130
    },
    {
      "epoch": 0.09585666293393057,
      "grad_norm": 2.513946771621704,
      "learning_rate": 4.724441458003699e-06,
      "loss": 1.1329,
      "step": 2140
    },
    {
      "epoch": 0.09630459126539753,
      "grad_norm": 4.470638275146484,
      "learning_rate": 4.701204689660653e-06,
      "loss": 1.0299,
      "step": 2150
    },
    {
      "epoch": 0.0967525195968645,
      "grad_norm": 5.644805908203125,
      "learning_rate": 4.67792882101843e-06,
      "loss": 1.2654,
      "step": 2160
    },
    {
      "epoch": 0.09720044792833146,
      "grad_norm": 5.1912736892700195,
      "learning_rate": 4.654614808856823e-06,
      "loss": 1.2265,
      "step": 2170
    },
    {
      "epoch": 0.09764837625979843,
      "grad_norm": 11.092533111572266,
      "learning_rate": 4.631263611523557e-06,
      "loss": 1.2182,
      "step": 2180
    },
    {
      "epoch": 0.09809630459126539,
      "grad_norm": 4.138496398925781,
      "learning_rate": 4.607876188894896e-06,
      "loss": 1.2283,
      "step": 2190
    },
    {
      "epoch": 0.09854423292273236,
      "grad_norm": 5.229914665222168,
      "learning_rate": 4.58445350233618e-06,
      "loss": 1.1319,
      "step": 2200
    },
    {
      "epoch": 0.09899216125419932,
      "grad_norm": 4.059961318969727,
      "learning_rate": 4.560996514662314e-06,
      "loss": 1.0411,
      "step": 2210
    },
    {
      "epoch": 0.09944008958566629,
      "grad_norm": 4.80086088180542,
      "learning_rate": 4.5375061900981855e-06,
      "loss": 1.23,
      "step": 2220
    },
    {
      "epoch": 0.09988801791713325,
      "grad_norm": 5.166756629943848,
      "learning_rate": 4.513983494239034e-06,
      "loss": 1.219,
      "step": 2230
    },
    {
      "epoch": 0.10033594624860022,
      "grad_norm": 5.53660249710083,
      "learning_rate": 4.490429394010752e-06,
      "loss": 1.1245,
      "step": 2240
    },
    {
      "epoch": 0.10078387458006718,
      "grad_norm": 2.9756040573120117,
      "learning_rate": 4.466844857630147e-06,
      "loss": 1.1395,
      "step": 2250
    },
    {
      "epoch": 0.10078387458006718,
      "eval_loss": 1.2089135646820068,
      "eval_runtime": 51.6342,
      "eval_samples_per_second": 9.684,
      "eval_steps_per_second": 9.684,
      "step": 2250
    },
    {
      "epoch": 0.10123180291153415,
      "grad_norm": 3.644266128540039,
      "learning_rate": 4.443230854565133e-06,
      "loss": 1.0985,
      "step": 2260
    },
    {
      "epoch": 0.10167973124300111,
      "grad_norm": 4.662050724029541,
      "learning_rate": 4.4195883554948885e-06,
      "loss": 1.3397,
      "step": 2270
    },
    {
      "epoch": 0.10212765957446808,
      "grad_norm": 5.3237385749816895,
      "learning_rate": 4.3959183322699466e-06,
      "loss": 1.1351,
      "step": 2280
    },
    {
      "epoch": 0.10257558790593505,
      "grad_norm": 4.3604207038879395,
      "learning_rate": 4.372221757872255e-06,
      "loss": 1.1208,
      "step": 2290
    },
    {
      "epoch": 0.10302351623740201,
      "grad_norm": 3.731410264968872,
      "learning_rate": 4.3484996063751725e-06,
      "loss": 1.1584,
      "step": 2300
    },
    {
      "epoch": 0.10347144456886898,
      "grad_norm": 4.031397342681885,
      "learning_rate": 4.324752852903435e-06,
      "loss": 0.9656,
      "step": 2310
    },
    {
      "epoch": 0.10391937290033594,
      "grad_norm": 3.564148187637329,
      "learning_rate": 4.300982473593068e-06,
      "loss": 1.0031,
      "step": 2320
    },
    {
      "epoch": 0.1043673012318029,
      "grad_norm": 5.459331035614014,
      "learning_rate": 4.277189445551261e-06,
      "loss": 1.0037,
      "step": 2330
    },
    {
      "epoch": 0.10481522956326987,
      "grad_norm": 4.870905876159668,
      "learning_rate": 4.253374746816209e-06,
      "loss": 0.9615,
      "step": 2340
    },
    {
      "epoch": 0.10526315789473684,
      "grad_norm": 5.284097671508789,
      "learning_rate": 4.229539356316898e-06,
      "loss": 1.3278,
      "step": 2350
    },
    {
      "epoch": 0.1057110862262038,
      "grad_norm": 5.323864459991455,
      "learning_rate": 4.205684253832877e-06,
      "loss": 1.1903,
      "step": 2360
    },
    {
      "epoch": 0.10615901455767077,
      "grad_norm": 7.844208717346191,
      "learning_rate": 4.1818104199539735e-06,
      "loss": 1.056,
      "step": 2370
    },
    {
      "epoch": 0.10660694288913773,
      "grad_norm": 4.325316905975342,
      "learning_rate": 4.1579188360399916e-06,
      "loss": 1.2431,
      "step": 2380
    },
    {
      "epoch": 0.1070548712206047,
      "grad_norm": 3.5362424850463867,
      "learning_rate": 4.134010484180368e-06,
      "loss": 1.1804,
      "step": 2390
    },
    {
      "epoch": 0.10750279955207166,
      "grad_norm": 3.2404041290283203,
      "learning_rate": 4.110086347153807e-06,
      "loss": 1.1556,
      "step": 2400
    },
    {
      "epoch": 0.10750279955207166,
      "eval_loss": 1.2038679122924805,
      "eval_runtime": 51.7303,
      "eval_samples_per_second": 9.666,
      "eval_steps_per_second": 9.666,
      "step": 2400
    },
    {
      "epoch": 0.10795072788353863,
      "grad_norm": 3.8270246982574463,
      "learning_rate": 4.0861474083878765e-06,
      "loss": 1.0918,
      "step": 2410
    },
    {
      "epoch": 0.10839865621500559,
      "grad_norm": 5.627485752105713,
      "learning_rate": 4.062194651918585e-06,
      "loss": 1.257,
      "step": 2420
    },
    {
      "epoch": 0.10884658454647256,
      "grad_norm": 4.910660743713379,
      "learning_rate": 4.0382290623499384e-06,
      "loss": 1.2748,
      "step": 2430
    },
    {
      "epoch": 0.10929451287793952,
      "grad_norm": 2.3609941005706787,
      "learning_rate": 4.014251624813453e-06,
      "loss": 0.9422,
      "step": 2440
    },
    {
      "epoch": 0.10974244120940649,
      "grad_norm": 3.063828706741333,
      "learning_rate": 3.990263324927675e-06,
      "loss": 1.1829,
      "step": 2450
    },
    {
      "epoch": 0.11019036954087345,
      "grad_norm": 2.658452033996582,
      "learning_rate": 3.966265148757655e-06,
      "loss": 1.0062,
      "step": 2460
    },
    {
      "epoch": 0.11063829787234042,
      "grad_norm": 6.130062103271484,
      "learning_rate": 3.9422580827744224e-06,
      "loss": 1.1504,
      "step": 2470
    },
    {
      "epoch": 0.11108622620380738,
      "grad_norm": 3.3496034145355225,
      "learning_rate": 3.9182431138144315e-06,
      "loss": 0.8731,
      "step": 2480
    },
    {
      "epoch": 0.11153415453527436,
      "grad_norm": 3.8455569744110107,
      "learning_rate": 3.894221229038995e-06,
      "loss": 1.0125,
      "step": 2490
    },
    {
      "epoch": 0.11198208286674133,
      "grad_norm": 4.499962329864502,
      "learning_rate": 3.870193415893709e-06,
      "loss": 1.0228,
      "step": 2500
    },
    {
      "epoch": 0.1124300111982083,
      "grad_norm": 6.230105876922607,
      "learning_rate": 3.846160662067859e-06,
      "loss": 1.1794,
      "step": 2510
    },
    {
      "epoch": 0.11287793952967526,
      "grad_norm": 7.316727638244629,
      "learning_rate": 3.8221239554538275e-06,
      "loss": 1.2728,
      "step": 2520
    },
    {
      "epoch": 0.11332586786114222,
      "grad_norm": 3.291714906692505,
      "learning_rate": 3.798084284106478e-06,
      "loss": 1.167,
      "step": 2530
    },
    {
      "epoch": 0.11377379619260919,
      "grad_norm": 5.075141429901123,
      "learning_rate": 3.7740426362025424e-06,
      "loss": 1.0547,
      "step": 2540
    },
    {
      "epoch": 0.11422172452407615,
      "grad_norm": 3.961540937423706,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.0713,
      "step": 2550
    },
    {
      "epoch": 0.11422172452407615,
      "eval_loss": 1.2046430110931396,
      "eval_runtime": 51.7175,
      "eval_samples_per_second": 9.668,
      "eval_steps_per_second": 9.668,
      "step": 2550
    },
    {
      "epoch": 0.11466965285554312,
      "grad_norm": 6.124125003814697,
      "learning_rate": 3.7259573637974587e-06,
      "loss": 1.0568,
      "step": 2560
    },
    {
      "epoch": 0.11511758118701008,
      "grad_norm": 4.3748602867126465,
      "learning_rate": 3.701915715893523e-06,
      "loss": 1.4124,
      "step": 2570
    },
    {
      "epoch": 0.11556550951847705,
      "grad_norm": 7.382061004638672,
      "learning_rate": 3.677876044546174e-06,
      "loss": 1.1357,
      "step": 2580
    },
    {
      "epoch": 0.11601343784994401,
      "grad_norm": 4.097735404968262,
      "learning_rate": 3.6538393379321427e-06,
      "loss": 1.0885,
      "step": 2590
    },
    {
      "epoch": 0.11646136618141098,
      "grad_norm": 5.039736270904541,
      "learning_rate": 3.6298065841062934e-06,
      "loss": 1.107,
      "step": 2600
    },
    {
      "epoch": 0.11690929451287795,
      "grad_norm": 4.383152008056641,
      "learning_rate": 3.6057787709610064e-06,
      "loss": 1.1695,
      "step": 2610
    },
    {
      "epoch": 0.11735722284434491,
      "grad_norm": 4.900496482849121,
      "learning_rate": 3.5817568861855708e-06,
      "loss": 1.1107,
      "step": 2620
    },
    {
      "epoch": 0.11780515117581188,
      "grad_norm": 6.267992973327637,
      "learning_rate": 3.557741917225579e-06,
      "loss": 1.1896,
      "step": 2630
    },
    {
      "epoch": 0.11825307950727884,
      "grad_norm": 3.8060693740844727,
      "learning_rate": 3.5337348512423468e-06,
      "loss": 1.2245,
      "step": 2640
    },
    {
      "epoch": 0.1187010078387458,
      "grad_norm": 3.5068161487579346,
      "learning_rate": 3.5097366750723275e-06,
      "loss": 1.0629,
      "step": 2650
    },
    {
      "epoch": 0.11914893617021277,
      "grad_norm": 4.6765360832214355,
      "learning_rate": 3.4857483751865478e-06,
      "loss": 1.1783,
      "step": 2660
    },
    {
      "epoch": 0.11959686450167974,
      "grad_norm": 7.864380836486816,
      "learning_rate": 3.461770937650064e-06,
      "loss": 1.0683,
      "step": 2670
    },
    {
      "epoch": 0.1200447928331467,
      "grad_norm": 3.138843297958374,
      "learning_rate": 3.437805348081416e-06,
      "loss": 0.9814,
      "step": 2680
    },
    {
      "epoch": 0.12049272116461367,
      "grad_norm": 5.134324550628662,
      "learning_rate": 3.413852591612125e-06,
      "loss": 1.1631,
      "step": 2690
    },
    {
      "epoch": 0.12094064949608063,
      "grad_norm": 4.688596725463867,
      "learning_rate": 3.389913652846194e-06,
      "loss": 1.0644,
      "step": 2700
    },
    {
      "epoch": 0.12094064949608063,
      "eval_loss": 1.2033374309539795,
      "eval_runtime": 51.6099,
      "eval_samples_per_second": 9.688,
      "eval_steps_per_second": 9.688,
      "step": 2700
    },
    {
      "epoch": 0.1213885778275476,
      "grad_norm": 4.218849182128906,
      "learning_rate": 3.365989515819633e-06,
      "loss": 1.1395,
      "step": 2710
    },
    {
      "epoch": 0.12183650615901456,
      "grad_norm": 5.043267726898193,
      "learning_rate": 3.34208116396001e-06,
      "loss": 1.2327,
      "step": 2720
    },
    {
      "epoch": 0.12228443449048153,
      "grad_norm": 7.991638660430908,
      "learning_rate": 3.318189580046028e-06,
      "loss": 1.0106,
      "step": 2730
    },
    {
      "epoch": 0.12273236282194849,
      "grad_norm": 4.103755474090576,
      "learning_rate": 3.294315746167124e-06,
      "loss": 0.9751,
      "step": 2740
    },
    {
      "epoch": 0.12318029115341546,
      "grad_norm": 4.224274635314941,
      "learning_rate": 3.2704606436831023e-06,
      "loss": 1.1427,
      "step": 2750
    },
    {
      "epoch": 0.12362821948488242,
      "grad_norm": 5.190283298492432,
      "learning_rate": 3.2466252531837934e-06,
      "loss": 1.1758,
      "step": 2760
    },
    {
      "epoch": 0.12407614781634939,
      "grad_norm": 6.470210075378418,
      "learning_rate": 3.2228105544487405e-06,
      "loss": 1.2584,
      "step": 2770
    },
    {
      "epoch": 0.12452407614781635,
      "grad_norm": 4.470674514770508,
      "learning_rate": 3.1990175264069333e-06,
      "loss": 1.0279,
      "step": 2780
    },
    {
      "epoch": 0.12497200447928332,
      "grad_norm": 4.63865327835083,
      "learning_rate": 3.1752471470965653e-06,
      "loss": 1.2431,
      "step": 2790
    },
    {
      "epoch": 0.12541993281075028,
      "grad_norm": 5.2822089195251465,
      "learning_rate": 3.151500393624829e-06,
      "loss": 1.0206,
      "step": 2800
    },
    {
      "epoch": 0.12586786114221724,
      "grad_norm": 3.3929495811462402,
      "learning_rate": 3.127778242127747e-06,
      "loss": 0.9654,
      "step": 2810
    },
    {
      "epoch": 0.12631578947368421,
      "grad_norm": 3.526858329772949,
      "learning_rate": 3.104081667730055e-06,
      "loss": 1.0832,
      "step": 2820
    },
    {
      "epoch": 0.12676371780515117,
      "grad_norm": 5.531039714813232,
      "learning_rate": 3.0804116445051133e-06,
      "loss": 1.1649,
      "step": 2830
    },
    {
      "epoch": 0.12721164613661815,
      "grad_norm": 5.811004161834717,
      "learning_rate": 3.0567691454348674e-06,
      "loss": 1.095,
      "step": 2840
    },
    {
      "epoch": 0.1276595744680851,
      "grad_norm": 4.319146633148193,
      "learning_rate": 3.033155142369855e-06,
      "loss": 0.9761,
      "step": 2850
    },
    {
      "epoch": 0.1276595744680851,
      "eval_loss": 1.2028086185455322,
      "eval_runtime": 51.6383,
      "eval_samples_per_second": 9.683,
      "eval_steps_per_second": 9.683,
      "step": 2850
    },
    {
      "epoch": 0.12810750279955208,
      "grad_norm": 5.54340124130249,
      "learning_rate": 3.009570605989249e-06,
      "loss": 0.999,
      "step": 2860
    },
    {
      "epoch": 0.12855543113101903,
      "grad_norm": 3.859863758087158,
      "learning_rate": 2.986016505760967e-06,
      "loss": 1.025,
      "step": 2870
    },
    {
      "epoch": 0.129003359462486,
      "grad_norm": 5.119099140167236,
      "learning_rate": 2.962493809901815e-06,
      "loss": 1.3963,
      "step": 2880
    },
    {
      "epoch": 0.12945128779395296,
      "grad_norm": 5.8379130363464355,
      "learning_rate": 2.9390034853376875e-06,
      "loss": 1.0822,
      "step": 2890
    },
    {
      "epoch": 0.12989921612541994,
      "grad_norm": 3.261016845703125,
      "learning_rate": 2.9155464976638217e-06,
      "loss": 1.0526,
      "step": 2900
    },
    {
      "epoch": 0.1303471444568869,
      "grad_norm": 3.678527355194092,
      "learning_rate": 2.8921238111051057e-06,
      "loss": 1.1167,
      "step": 2910
    },
    {
      "epoch": 0.13079507278835387,
      "grad_norm": 4.787365436553955,
      "learning_rate": 2.8687363884764434e-06,
      "loss": 1.0829,
      "step": 2920
    },
    {
      "epoch": 0.13124300111982082,
      "grad_norm": 3.475607395172119,
      "learning_rate": 2.8453851911431783e-06,
      "loss": 1.0801,
      "step": 2930
    },
    {
      "epoch": 0.1316909294512878,
      "grad_norm": 6.456125736236572,
      "learning_rate": 2.822071178981572e-06,
      "loss": 1.1287,
      "step": 2940
    },
    {
      "epoch": 0.13213885778275475,
      "grad_norm": 3.778585910797119,
      "learning_rate": 2.7987953103393484e-06,
      "loss": 1.1359,
      "step": 2950
    },
    {
      "epoch": 0.13258678611422173,
      "grad_norm": 3.37793231010437,
      "learning_rate": 2.7755585419963026e-06,
      "loss": 1.0584,
      "step": 2960
    },
    {
      "epoch": 0.13303471444568868,
      "grad_norm": 5.2485575675964355,
      "learning_rate": 2.7523618291249687e-06,
      "loss": 1.2037,
      "step": 2970
    },
    {
      "epoch": 0.13348264277715566,
      "grad_norm": 4.524936676025391,
      "learning_rate": 2.729206125251359e-06,
      "loss": 0.9778,
      "step": 2980
    },
    {
      "epoch": 0.1339305711086226,
      "grad_norm": 5.820756912231445,
      "learning_rate": 2.7060923822157638e-06,
      "loss": 1.0351,
      "step": 2990
    },
    {
      "epoch": 0.1343784994400896,
      "grad_norm": 5.031400680541992,
      "learning_rate": 2.6830215501336288e-06,
      "loss": 1.1926,
      "step": 3000
    },
    {
      "epoch": 0.1343784994400896,
      "eval_loss": 1.199351191520691,
      "eval_runtime": 51.5688,
      "eval_samples_per_second": 9.696,
      "eval_steps_per_second": 9.696,
      "step": 3000
    },
    {
      "epoch": 0.13482642777155654,
      "grad_norm": 4.307104587554932,
      "learning_rate": 2.6599945773564997e-06,
      "loss": 1.1743,
      "step": 3010
    },
    {
      "epoch": 0.13527435610302352,
      "grad_norm": 4.9457221031188965,
      "learning_rate": 2.6370124104330357e-06,
      "loss": 1.1287,
      "step": 3020
    },
    {
      "epoch": 0.13572228443449047,
      "grad_norm": 3.17401385307312,
      "learning_rate": 2.614075994070105e-06,
      "loss": 1.1686,
      "step": 3030
    },
    {
      "epoch": 0.13617021276595745,
      "grad_norm": 6.098177433013916,
      "learning_rate": 2.591186271093948e-06,
      "loss": 1.1546,
      "step": 3040
    },
    {
      "epoch": 0.1366181410974244,
      "grad_norm": 4.12905216217041,
      "learning_rate": 2.568344182411423e-06,
      "loss": 1.0909,
      "step": 3050
    },
    {
      "epoch": 0.13706606942889138,
      "grad_norm": 4.946627616882324,
      "learning_rate": 2.5455506669713293e-06,
      "loss": 1.2223,
      "step": 3060
    },
    {
      "epoch": 0.13751399776035833,
      "grad_norm": 4.25789737701416,
      "learning_rate": 2.522806661725812e-06,
      "loss": 1.0383,
      "step": 3070
    },
    {
      "epoch": 0.1379619260918253,
      "grad_norm": 6.536715030670166,
      "learning_rate": 2.5001131015918444e-06,
      "loss": 0.9992,
      "step": 3080
    },
    {
      "epoch": 0.13840985442329226,
      "grad_norm": 5.861030578613281,
      "learning_rate": 2.4774709194127973e-06,
      "loss": 1.1678,
      "step": 3090
    },
    {
      "epoch": 0.13885778275475924,
      "grad_norm": 4.58046293258667,
      "learning_rate": 2.4548810459200973e-06,
      "loss": 1.2545,
      "step": 3100
    },
    {
      "epoch": 0.1393057110862262,
      "grad_norm": 6.048022270202637,
      "learning_rate": 2.4323444096949647e-06,
      "loss": 1.0531,
      "step": 3110
    },
    {
      "epoch": 0.13975363941769317,
      "grad_norm": 5.86400842666626,
      "learning_rate": 2.409861937130248e-06,
      "loss": 1.1093,
      "step": 3120
    },
    {
      "epoch": 0.14020156774916012,
      "grad_norm": 3.7916102409362793,
      "learning_rate": 2.3874345523923327e-06,
      "loss": 1.1048,
      "step": 3130
    },
    {
      "epoch": 0.1406494960806271,
      "grad_norm": 4.009166717529297,
      "learning_rate": 2.3650631773831644e-06,
      "loss": 1.0198,
      "step": 3140
    },
    {
      "epoch": 0.14109742441209405,
      "grad_norm": 4.695572853088379,
      "learning_rate": 2.3427487317023477e-06,
      "loss": 1.1909,
      "step": 3150
    },
    {
      "epoch": 0.14109742441209405,
      "eval_loss": 1.1985480785369873,
      "eval_runtime": 51.6619,
      "eval_samples_per_second": 9.678,
      "eval_steps_per_second": 9.678,
      "step": 3150
    },
    {
      "epoch": 0.14154535274356103,
      "grad_norm": 5.317529201507568,
      "learning_rate": 2.320492132609344e-06,
      "loss": 1.084,
      "step": 3160
    },
    {
      "epoch": 0.14199328107502798,
      "grad_norm": 3.3507909774780273,
      "learning_rate": 2.2982942949857705e-06,
      "loss": 1.0169,
      "step": 3170
    },
    {
      "epoch": 0.14244120940649496,
      "grad_norm": 5.125346660614014,
      "learning_rate": 2.276156131297787e-06,
      "loss": 1.0202,
      "step": 3180
    },
    {
      "epoch": 0.1428891377379619,
      "grad_norm": 6.09945821762085,
      "learning_rate": 2.254078551558594e-06,
      "loss": 1.1235,
      "step": 3190
    },
    {
      "epoch": 0.1433370660694289,
      "grad_norm": 6.263647079467773,
      "learning_rate": 2.2320624632910232e-06,
      "loss": 1.1284,
      "step": 3200
    },
    {
      "epoch": 0.14378499440089584,
      "grad_norm": 6.879512310028076,
      "learning_rate": 2.210108771490233e-06,
      "loss": 1.0602,
      "step": 3210
    },
    {
      "epoch": 0.14423292273236282,
      "grad_norm": 3.726658582687378,
      "learning_rate": 2.1882183785865047e-06,
      "loss": 1.1038,
      "step": 3220
    },
    {
      "epoch": 0.14468085106382977,
      "grad_norm": 5.486456394195557,
      "learning_rate": 2.166392184408152e-06,
      "loss": 1.1794,
      "step": 3230
    },
    {
      "epoch": 0.14512877939529675,
      "grad_norm": 4.750957012176514,
      "learning_rate": 2.1446310861445306e-06,
      "loss": 0.9833,
      "step": 3240
    },
    {
      "epoch": 0.1455767077267637,
      "grad_norm": 3.6656692028045654,
      "learning_rate": 2.1229359783091576e-06,
      "loss": 1.0272,
      "step": 3250
    },
    {
      "epoch": 0.14602463605823068,
      "grad_norm": 3.691014528274536,
      "learning_rate": 2.1013077527029428e-06,
      "loss": 1.0861,
      "step": 3260
    },
    {
      "epoch": 0.14647256438969763,
      "grad_norm": 5.651008605957031,
      "learning_rate": 2.079747298377528e-06,
      "loss": 1.096,
      "step": 3270
    },
    {
      "epoch": 0.14692049272116461,
      "grad_norm": 4.2657318115234375,
      "learning_rate": 2.058255501598745e-06,
      "loss": 1.0871,
      "step": 3280
    },
    {
      "epoch": 0.14736842105263157,
      "grad_norm": 3.884568452835083,
      "learning_rate": 2.0368332458101814e-06,
      "loss": 1.0087,
      "step": 3290
    },
    {
      "epoch": 0.14781634938409854,
      "grad_norm": 3.191197395324707,
      "learning_rate": 2.015481411596869e-06,
      "loss": 1.1387,
      "step": 3300
    },
    {
      "epoch": 0.14781634938409854,
      "eval_loss": 1.1979233026504517,
      "eval_runtime": 51.7549,
      "eval_samples_per_second": 9.661,
      "eval_steps_per_second": 9.661,
      "step": 3300
    },
    {
      "epoch": 0.14826427771556552,
      "grad_norm": 6.709813594818115,
      "learning_rate": 1.9942008766490793e-06,
      "loss": 1.0685,
      "step": 3310
    },
    {
      "epoch": 0.14871220604703247,
      "grad_norm": 3.687634229660034,
      "learning_rate": 1.9729925157262554e-06,
      "loss": 1.1542,
      "step": 3320
    },
    {
      "epoch": 0.14916013437849945,
      "grad_norm": 3.637235403060913,
      "learning_rate": 1.9518572006210484e-06,
      "loss": 1.1365,
      "step": 3330
    },
    {
      "epoch": 0.1496080627099664,
      "grad_norm": 3.113184690475464,
      "learning_rate": 1.9307958001234794e-06,
      "loss": 1.0218,
      "step": 3340
    },
    {
      "epoch": 0.15005599104143338,
      "grad_norm": 4.447634220123291,
      "learning_rate": 1.9098091799852347e-06,
      "loss": 1.222,
      "step": 3350
    },
    {
      "epoch": 0.15050391937290034,
      "grad_norm": 3.8236501216888428,
      "learning_rate": 1.8888982028840636e-06,
      "loss": 1.2012,
      "step": 3360
    },
    {
      "epoch": 0.15095184770436731,
      "grad_norm": 5.108892440795898,
      "learning_rate": 1.8680637283883355e-06,
      "loss": 1.0181,
      "step": 3370
    },
    {
      "epoch": 0.15139977603583427,
      "grad_norm": 3.81886887550354,
      "learning_rate": 1.8473066129216927e-06,
      "loss": 1.125,
      "step": 3380
    },
    {
      "epoch": 0.15184770436730124,
      "grad_norm": 4.7799835205078125,
      "learning_rate": 1.8266277097278527e-06,
      "loss": 1.1038,
      "step": 3390
    },
    {
      "epoch": 0.1522956326987682,
      "grad_norm": 6.478558540344238,
      "learning_rate": 1.8060278688355313e-06,
      "loss": 0.9218,
      "step": 3400
    },
    {
      "epoch": 0.15274356103023518,
      "grad_norm": 4.482583522796631,
      "learning_rate": 1.7855079370235043e-06,
      "loss": 1.0629,
      "step": 3410
    },
    {
      "epoch": 0.15319148936170213,
      "grad_norm": 2.6053950786590576,
      "learning_rate": 1.7650687577857972e-06,
      "loss": 1.1975,
      "step": 3420
    },
    {
      "epoch": 0.1536394176931691,
      "grad_norm": 4.930041313171387,
      "learning_rate": 1.7447111712970138e-06,
      "loss": 1.0566,
      "step": 3430
    },
    {
      "epoch": 0.15408734602463606,
      "grad_norm": 4.492660045623779,
      "learning_rate": 1.7244360143778004e-06,
      "loss": 1.1441,
      "step": 3440
    },
    {
      "epoch": 0.15453527435610304,
      "grad_norm": 4.847555637359619,
      "learning_rate": 1.704244120460443e-06,
      "loss": 1.231,
      "step": 3450
    },
    {
      "epoch": 0.15453527435610304,
      "eval_loss": 1.198148488998413,
      "eval_runtime": 51.6757,
      "eval_samples_per_second": 9.676,
      "eval_steps_per_second": 9.676,
      "step": 3450
    },
    {
      "epoch": 0.15498320268757,
      "grad_norm": 5.320653438568115,
      "learning_rate": 1.6841363195546162e-06,
      "loss": 0.996,
      "step": 3460
    },
    {
      "epoch": 0.15543113101903697,
      "grad_norm": 4.333999156951904,
      "learning_rate": 1.6641134382132576e-06,
      "loss": 1.2536,
      "step": 3470
    },
    {
      "epoch": 0.15587905935050392,
      "grad_norm": 6.867399215698242,
      "learning_rate": 1.6441762994985947e-06,
      "loss": 1.1461,
      "step": 3480
    },
    {
      "epoch": 0.1563269876819709,
      "grad_norm": 3.2110917568206787,
      "learning_rate": 1.6243257229483141e-06,
      "loss": 1.1086,
      "step": 3490
    },
    {
      "epoch": 0.15677491601343785,
      "grad_norm": 3.345970630645752,
      "learning_rate": 1.6045625245418648e-06,
      "loss": 0.9485,
      "step": 3500
    },
    {
      "epoch": 0.15722284434490483,
      "grad_norm": 4.890392780303955,
      "learning_rate": 1.584887516666928e-06,
      "loss": 1.0968,
      "step": 3510
    },
    {
      "epoch": 0.15767077267637178,
      "grad_norm": 5.448171615600586,
      "learning_rate": 1.565301508086015e-06,
      "loss": 1.1305,
      "step": 3520
    },
    {
      "epoch": 0.15811870100783876,
      "grad_norm": 7.16267728805542,
      "learning_rate": 1.5458053039032263e-06,
      "loss": 1.2279,
      "step": 3530
    },
    {
      "epoch": 0.1585666293393057,
      "grad_norm": 5.2700018882751465,
      "learning_rate": 1.5263997055311536e-06,
      "loss": 1.0474,
      "step": 3540
    },
    {
      "epoch": 0.1590145576707727,
      "grad_norm": 5.955024719238281,
      "learning_rate": 1.5070855106579404e-06,
      "loss": 1.1283,
      "step": 3550
    },
    {
      "epoch": 0.15946248600223964,
      "grad_norm": 2.882784366607666,
      "learning_rate": 1.4878635132144885e-06,
      "loss": 0.9112,
      "step": 3560
    },
    {
      "epoch": 0.15991041433370662,
      "grad_norm": 4.2263875007629395,
      "learning_rate": 1.4687345033418258e-06,
      "loss": 1.1554,
      "step": 3570
    },
    {
      "epoch": 0.16035834266517357,
      "grad_norm": 4.622799396514893,
      "learning_rate": 1.4496992673586262e-06,
      "loss": 1.3423,
      "step": 3580
    },
    {
      "epoch": 0.16080627099664055,
      "grad_norm": 5.2950897216796875,
      "learning_rate": 1.4307585877288822e-06,
      "loss": 1.0494,
      "step": 3590
    },
    {
      "epoch": 0.1612541993281075,
      "grad_norm": 5.289889335632324,
      "learning_rate": 1.4119132430297496e-06,
      "loss": 1.1448,
      "step": 3600
    },
    {
      "epoch": 0.1612541993281075,
      "eval_loss": 1.1965739727020264,
      "eval_runtime": 51.7182,
      "eval_samples_per_second": 9.668,
      "eval_steps_per_second": 9.668,
      "step": 3600
    },
    {
      "epoch": 0.16170212765957448,
      "grad_norm": 6.415092468261719,
      "learning_rate": 1.3931640079195365e-06,
      "loss": 1.0204,
      "step": 3610
    },
    {
      "epoch": 0.16215005599104143,
      "grad_norm": 3.348160743713379,
      "learning_rate": 1.3745116531058645e-06,
      "loss": 1.1308,
      "step": 3620
    },
    {
      "epoch": 0.1625979843225084,
      "grad_norm": 6.698293209075928,
      "learning_rate": 1.3559569453139797e-06,
      "loss": 0.9401,
      "step": 3630
    },
    {
      "epoch": 0.16304591265397536,
      "grad_norm": 3.5045154094696045,
      "learning_rate": 1.3375006472552483e-06,
      "loss": 1.152,
      "step": 3640
    },
    {
      "epoch": 0.16349384098544234,
      "grad_norm": 4.656421661376953,
      "learning_rate": 1.3191435175957945e-06,
      "loss": 1.1775,
      "step": 3650
    },
    {
      "epoch": 0.1639417693169093,
      "grad_norm": 8.8998384475708,
      "learning_rate": 1.3008863109253174e-06,
      "loss": 1.0061,
      "step": 3660
    },
    {
      "epoch": 0.16438969764837627,
      "grad_norm": 3.5046370029449463,
      "learning_rate": 1.282729777726078e-06,
      "loss": 1.1871,
      "step": 3670
    },
    {
      "epoch": 0.16483762597984322,
      "grad_norm": 4.024252891540527,
      "learning_rate": 1.2646746643420392e-06,
      "loss": 1.2593,
      "step": 3680
    },
    {
      "epoch": 0.1652855543113102,
      "grad_norm": 4.861652851104736,
      "learning_rate": 1.2467217129481952e-06,
      "loss": 1.1068,
      "step": 3690
    },
    {
      "epoch": 0.16573348264277715,
      "grad_norm": 6.007284641265869,
      "learning_rate": 1.2288716615200617e-06,
      "loss": 1.0237,
      "step": 3700
    },
    {
      "epoch": 0.16618141097424413,
      "grad_norm": 4.506286144256592,
      "learning_rate": 1.2111252438033404e-06,
      "loss": 1.0827,
      "step": 3710
    },
    {
      "epoch": 0.16662933930571108,
      "grad_norm": 7.5774102210998535,
      "learning_rate": 1.1934831892837524e-06,
      "loss": 1.2481,
      "step": 3720
    },
    {
      "epoch": 0.16707726763717806,
      "grad_norm": 4.199349880218506,
      "learning_rate": 1.1759462231570618e-06,
      "loss": 1.1948,
      "step": 3730
    },
    {
      "epoch": 0.167525195968645,
      "grad_norm": 3.675760269165039,
      "learning_rate": 1.1585150662992578e-06,
      "loss": 0.8945,
      "step": 3740
    },
    {
      "epoch": 0.167973124300112,
      "grad_norm": 4.647981643676758,
      "learning_rate": 1.1411904352369262e-06,
      "loss": 1.0746,
      "step": 3750
    },
    {
      "epoch": 0.167973124300112,
      "eval_loss": 1.1958056688308716,
      "eval_runtime": 51.7591,
      "eval_samples_per_second": 9.66,
      "eval_steps_per_second": 9.66,
      "step": 3750
    },
    {
      "epoch": 0.16842105263157894,
      "grad_norm": 2.354313611984253,
      "learning_rate": 1.1239730421177952e-06,
      "loss": 1.0362,
      "step": 3760
    },
    {
      "epoch": 0.16886898096304592,
      "grad_norm": 4.00113582611084,
      "learning_rate": 1.1068635946814569e-06,
      "loss": 1.0924,
      "step": 3770
    },
    {
      "epoch": 0.16931690929451287,
      "grad_norm": 3.765235185623169,
      "learning_rate": 1.0898627962302831e-06,
      "loss": 1.3452,
      "step": 3780
    },
    {
      "epoch": 0.16976483762597985,
      "grad_norm": 3.814605236053467,
      "learning_rate": 1.072971345600513e-06,
      "loss": 1.0048,
      "step": 3790
    },
    {
      "epoch": 0.1702127659574468,
      "grad_norm": 3.447803020477295,
      "learning_rate": 1.056189937133522e-06,
      "loss": 1.149,
      "step": 3800
    },
    {
      "epoch": 0.17066069428891378,
      "grad_norm": 7.1337714195251465,
      "learning_rate": 1.0395192606472822e-06,
      "loss": 1.1497,
      "step": 3810
    },
    {
      "epoch": 0.17110862262038073,
      "grad_norm": 5.239931583404541,
      "learning_rate": 1.0229600014080101e-06,
      "loss": 0.9874,
      "step": 3820
    },
    {
      "epoch": 0.1715565509518477,
      "grad_norm": 3.4100687503814697,
      "learning_rate": 1.006512840101995e-06,
      "loss": 1.0393,
      "step": 3830
    },
    {
      "epoch": 0.17200447928331467,
      "grad_norm": 4.527777671813965,
      "learning_rate": 9.90178452807619e-07,
      "loss": 0.968,
      "step": 3840
    },
    {
      "epoch": 0.17245240761478164,
      "grad_norm": 3.7964625358581543,
      "learning_rate": 9.739575109675674e-07,
      "loss": 1.1207,
      "step": 3850
    },
    {
      "epoch": 0.1729003359462486,
      "grad_norm": 4.329505920410156,
      "learning_rate": 9.578506813612243e-07,
      "loss": 1.0924,
      "step": 3860
    },
    {
      "epoch": 0.17334826427771557,
      "grad_norm": 3.9827823638916016,
      "learning_rate": 9.418586260772695e-07,
      "loss": 1.0937,
      "step": 3870
    },
    {
      "epoch": 0.17379619260918253,
      "grad_norm": 4.150352954864502,
      "learning_rate": 9.259820024864594e-07,
      "loss": 1.2071,
      "step": 3880
    },
    {
      "epoch": 0.1742441209406495,
      "grad_norm": 2.648918867111206,
      "learning_rate": 9.102214632146059e-07,
      "loss": 1.1754,
      "step": 3890
    },
    {
      "epoch": 0.17469204927211646,
      "grad_norm": 5.348718166351318,
      "learning_rate": 8.94577656115746e-07,
      "loss": 1.1031,
      "step": 3900
    },
    {
      "epoch": 0.17469204927211646,
      "eval_loss": 1.1968835592269897,
      "eval_runtime": 51.6518,
      "eval_samples_per_second": 9.68,
      "eval_steps_per_second": 9.68,
      "step": 3900
    },
    {
      "epoch": 0.17513997760358344,
      "grad_norm": 6.799318313598633,
      "learning_rate": 8.790512242455198e-07,
      "loss": 1.1188,
      "step": 3910
    },
    {
      "epoch": 0.1755879059350504,
      "grad_norm": 4.05487060546875,
      "learning_rate": 8.636428058347274e-07,
      "loss": 1.3045,
      "step": 3920
    },
    {
      "epoch": 0.17603583426651737,
      "grad_norm": 4.513579845428467,
      "learning_rate": 8.483530342630993e-07,
      "loss": 1.2577,
      "step": 3930
    },
    {
      "epoch": 0.17648376259798432,
      "grad_norm": 7.971194267272949,
      "learning_rate": 8.331825380332599e-07,
      "loss": 1.1376,
      "step": 3940
    },
    {
      "epoch": 0.1769316909294513,
      "grad_norm": 3.740802764892578,
      "learning_rate": 8.181319407448884e-07,
      "loss": 1.1413,
      "step": 3950
    },
    {
      "epoch": 0.17737961926091825,
      "grad_norm": 3.431658983230591,
      "learning_rate": 8.032018610690914e-07,
      "loss": 1.0802,
      "step": 3960
    },
    {
      "epoch": 0.17782754759238523,
      "grad_norm": 3.8207449913024902,
      "learning_rate": 7.883929127229665e-07,
      "loss": 1.173,
      "step": 3970
    },
    {
      "epoch": 0.17827547592385218,
      "grad_norm": 3.088942289352417,
      "learning_rate": 7.737057044443793e-07,
      "loss": 1.1144,
      "step": 3980
    },
    {
      "epoch": 0.17872340425531916,
      "grad_norm": 3.705589532852173,
      "learning_rate": 7.591408399669337e-07,
      "loss": 1.2676,
      "step": 3990
    },
    {
      "epoch": 0.1791713325867861,
      "grad_norm": 4.925235271453857,
      "learning_rate": 7.446989179951632e-07,
      "loss": 1.0197,
      "step": 4000
    },
    {
      "epoch": 0.1796192609182531,
      "grad_norm": 4.373708248138428,
      "learning_rate": 7.303805321799146e-07,
      "loss": 1.0041,
      "step": 4010
    },
    {
      "epoch": 0.18006718924972004,
      "grad_norm": 4.23321008682251,
      "learning_rate": 7.161862710939476e-07,
      "loss": 1.0504,
      "step": 4020
    },
    {
      "epoch": 0.18051511758118702,
      "grad_norm": 6.634941101074219,
      "learning_rate": 7.021167182077403e-07,
      "loss": 1.062,
      "step": 4030
    },
    {
      "epoch": 0.18096304591265397,
      "grad_norm": 12.015007972717285,
      "learning_rate": 6.881724518655049e-07,
      "loss": 1.3095,
      "step": 4040
    },
    {
      "epoch": 0.18141097424412095,
      "grad_norm": 5.376244068145752,
      "learning_rate": 6.743540452614152e-07,
      "loss": 1.0552,
      "step": 4050
    },
    {
      "epoch": 0.18141097424412095,
      "eval_loss": 1.1952238082885742,
      "eval_runtime": 51.6946,
      "eval_samples_per_second": 9.672,
      "eval_steps_per_second": 9.672,
      "step": 4050
    },
    {
      "epoch": 0.1818589025755879,
      "grad_norm": 5.1148858070373535,
      "learning_rate": 6.606620664160438e-07,
      "loss": 1.0796,
      "step": 4060
    },
    {
      "epoch": 0.18230683090705488,
      "grad_norm": 3.497487783432007,
      "learning_rate": 6.470970781530139e-07,
      "loss": 1.0996,
      "step": 4070
    },
    {
      "epoch": 0.18275475923852183,
      "grad_norm": 4.02069616317749,
      "learning_rate": 6.336596380758604e-07,
      "loss": 1.18,
      "step": 4080
    },
    {
      "epoch": 0.1832026875699888,
      "grad_norm": 4.936882495880127,
      "learning_rate": 6.203502985451152e-07,
      "loss": 1.1434,
      "step": 4090
    },
    {
      "epoch": 0.18365061590145576,
      "grad_norm": 3.6114046573638916,
      "learning_rate": 6.071696066555978e-07,
      "loss": 1.1957,
      "step": 4100
    },
    {
      "epoch": 0.18409854423292274,
      "grad_norm": 3.0989315509796143,
      "learning_rate": 5.941181042139258e-07,
      "loss": 1.1672,
      "step": 4110
    },
    {
      "epoch": 0.1845464725643897,
      "grad_norm": 3.9395434856414795,
      "learning_rate": 5.811963277162466e-07,
      "loss": 1.3213,
      "step": 4120
    },
    {
      "epoch": 0.18499440089585667,
      "grad_norm": 3.7421300411224365,
      "learning_rate": 5.684048083261789e-07,
      "loss": 0.9563,
      "step": 4130
    },
    {
      "epoch": 0.18544232922732362,
      "grad_norm": 3.190976858139038,
      "learning_rate": 5.557440718529848e-07,
      "loss": 1.1234,
      "step": 4140
    },
    {
      "epoch": 0.1858902575587906,
      "grad_norm": 3.461064100265503,
      "learning_rate": 5.432146387299522e-07,
      "loss": 1.0016,
      "step": 4150
    },
    {
      "epoch": 0.18633818589025755,
      "grad_norm": 6.645826816558838,
      "learning_rate": 5.308170239930022e-07,
      "loss": 1.1967,
      "step": 4160
    },
    {
      "epoch": 0.18678611422172453,
      "grad_norm": 4.823378562927246,
      "learning_rate": 5.185517372595187e-07,
      "loss": 1.032,
      "step": 4170
    },
    {
      "epoch": 0.18723404255319148,
      "grad_norm": 3.5760250091552734,
      "learning_rate": 5.064192827073995e-07,
      "loss": 1.1513,
      "step": 4180
    },
    {
      "epoch": 0.18768197088465846,
      "grad_norm": 3.162781000137329,
      "learning_rate": 4.944201590543308e-07,
      "loss": 0.9593,
      "step": 4190
    },
    {
      "epoch": 0.1881298992161254,
      "grad_norm": 8.633989334106445,
      "learning_rate": 4.825548595372898e-07,
      "loss": 1.2696,
      "step": 4200
    },
    {
      "epoch": 0.1881298992161254,
      "eval_loss": 1.1959577798843384,
      "eval_runtime": 51.6407,
      "eval_samples_per_second": 9.682,
      "eval_steps_per_second": 9.682,
      "step": 4200
    },
    {
      "epoch": 0.1885778275475924,
      "grad_norm": 4.277423858642578,
      "learning_rate": 4.7082387189226646e-07,
      "loss": 1.0834,
      "step": 4210
    },
    {
      "epoch": 0.18902575587905934,
      "grad_norm": 3.7345645427703857,
      "learning_rate": 4.5922767833421454e-07,
      "loss": 1.255,
      "step": 4220
    },
    {
      "epoch": 0.18947368421052632,
      "grad_norm": 5.163575172424316,
      "learning_rate": 4.477667555372326e-07,
      "loss": 1.1317,
      "step": 4230
    },
    {
      "epoch": 0.18992161254199327,
      "grad_norm": 5.2220892906188965,
      "learning_rate": 4.364415746149678e-07,
      "loss": 1.0966,
      "step": 4240
    },
    {
      "epoch": 0.19036954087346025,
      "grad_norm": 5.796306610107422,
      "learning_rate": 4.2525260110124964e-07,
      "loss": 1.0268,
      "step": 4250
    },
    {
      "epoch": 0.1908174692049272,
      "grad_norm": 4.295403003692627,
      "learning_rate": 4.1420029493095623e-07,
      "loss": 1.0465,
      "step": 4260
    },
    {
      "epoch": 0.19126539753639418,
      "grad_norm": 5.671868324279785,
      "learning_rate": 4.032851104211036e-07,
      "loss": 1.2124,
      "step": 4270
    },
    {
      "epoch": 0.19171332586786113,
      "grad_norm": 4.053644180297852,
      "learning_rate": 3.925074962521762e-07,
      "loss": 1.0574,
      "step": 4280
    },
    {
      "epoch": 0.1921612541993281,
      "grad_norm": 3.7694053649902344,
      "learning_rate": 3.818678954496787e-07,
      "loss": 1.0604,
      "step": 4290
    },
    {
      "epoch": 0.19260918253079506,
      "grad_norm": 4.982527256011963,
      "learning_rate": 3.713667453659287e-07,
      "loss": 1.1518,
      "step": 4300
    },
    {
      "epoch": 0.19305711086226204,
      "grad_norm": 5.036848545074463,
      "learning_rate": 3.6100447766207473e-07,
      "loss": 1.0251,
      "step": 4310
    },
    {
      "epoch": 0.193505039193729,
      "grad_norm": 5.744006633758545,
      "learning_rate": 3.5078151829035693e-07,
      "loss": 1.0103,
      "step": 4320
    },
    {
      "epoch": 0.19395296752519597,
      "grad_norm": 3.843419075012207,
      "learning_rate": 3.4069828747659405e-07,
      "loss": 1.0053,
      "step": 4330
    },
    {
      "epoch": 0.19440089585666293,
      "grad_norm": 4.357511043548584,
      "learning_rate": 3.3075519970291144e-07,
      "loss": 1.202,
      "step": 4340
    },
    {
      "epoch": 0.1948488241881299,
      "grad_norm": 6.164062976837158,
      "learning_rate": 3.209526636907036e-07,
      "loss": 1.1136,
      "step": 4350
    },
    {
      "epoch": 0.1948488241881299,
      "eval_loss": 1.1951868534088135,
      "eval_runtime": 51.6432,
      "eval_samples_per_second": 9.682,
      "eval_steps_per_second": 9.682,
      "step": 4350
    },
    {
      "epoch": 0.19529675251959686,
      "grad_norm": 3.893348217010498,
      "learning_rate": 3.1129108238383095e-07,
      "loss": 1.2238,
      "step": 4360
    },
    {
      "epoch": 0.19574468085106383,
      "grad_norm": 3.704392433166504,
      "learning_rate": 3.017708529320604e-07,
      "loss": 1.0766,
      "step": 4370
    },
    {
      "epoch": 0.19619260918253079,
      "grad_norm": 4.406269073486328,
      "learning_rate": 2.923923666747357e-07,
      "loss": 0.9588,
      "step": 4380
    },
    {
      "epoch": 0.19664053751399777,
      "grad_norm": 6.578729152679443,
      "learning_rate": 2.8315600912469477e-07,
      "loss": 1.1622,
      "step": 4390
    },
    {
      "epoch": 0.19708846584546472,
      "grad_norm": 4.1804094314575195,
      "learning_rate": 2.740621599524189e-07,
      "loss": 1.1999,
      "step": 4400
    },
    {
      "epoch": 0.1975363941769317,
      "grad_norm": 6.192513465881348,
      "learning_rate": 2.651111929704303e-07,
      "loss": 1.1274,
      "step": 4410
    },
    {
      "epoch": 0.19798432250839865,
      "grad_norm": 4.356874942779541,
      "learning_rate": 2.563034761179223e-07,
      "loss": 1.0262,
      "step": 4420
    },
    {
      "epoch": 0.19843225083986563,
      "grad_norm": 4.435469627380371,
      "learning_rate": 2.476393714456384e-07,
      "loss": 1.1814,
      "step": 4430
    },
    {
      "epoch": 0.19888017917133258,
      "grad_norm": 3.9173505306243896,
      "learning_rate": 2.391192351009855e-07,
      "loss": 0.7984,
      "step": 4440
    },
    {
      "epoch": 0.19932810750279956,
      "grad_norm": 6.546506881713867,
      "learning_rate": 2.3074341731339837e-07,
      "loss": 1.168,
      "step": 4450
    },
    {
      "epoch": 0.1997760358342665,
      "grad_norm": 6.1646223068237305,
      "learning_rate": 2.225122623799407e-07,
      "loss": 1.2589,
      "step": 4460
    },
    {
      "epoch": 0.2002239641657335,
      "grad_norm": 3.210203170776367,
      "learning_rate": 2.1442610865115135e-07,
      "loss": 1.0636,
      "step": 4470
    },
    {
      "epoch": 0.20067189249720044,
      "grad_norm": 5.133816242218018,
      "learning_rate": 2.0648528851714077e-07,
      "loss": 1.0195,
      "step": 4480
    },
    {
      "epoch": 0.20111982082866742,
      "grad_norm": 4.449398517608643,
      "learning_rate": 1.9869012839392064e-07,
      "loss": 1.1007,
      "step": 4490
    },
    {
      "epoch": 0.20156774916013437,
      "grad_norm": 4.8083977699279785,
      "learning_rate": 1.9104094870999264e-07,
      "loss": 1.1975,
      "step": 4500
    },
    {
      "epoch": 0.20156774916013437,
      "eval_loss": 1.1950809955596924,
      "eval_runtime": 51.7311,
      "eval_samples_per_second": 9.665,
      "eval_steps_per_second": 9.665,
      "step": 4500
    },
    {
      "epoch": 0.20201567749160135,
      "grad_norm": 4.709386348724365,
      "learning_rate": 1.8353806389317428e-07,
      "loss": 0.9829,
      "step": 4510
    },
    {
      "epoch": 0.2024636058230683,
      "grad_norm": 5.23099946975708,
      "learning_rate": 1.761817823576731e-07,
      "loss": 1.1149,
      "step": 4520
    },
    {
      "epoch": 0.20291153415453528,
      "grad_norm": 3.4107179641723633,
      "learning_rate": 1.6897240649141125e-07,
      "loss": 0.9822,
      "step": 4530
    },
    {
      "epoch": 0.20335946248600223,
      "grad_norm": 3.951052188873291,
      "learning_rate": 1.619102326435923e-07,
      "loss": 1.2333,
      "step": 4540
    },
    {
      "epoch": 0.2038073908174692,
      "grad_norm": 4.30809211730957,
      "learning_rate": 1.5499555111252285e-07,
      "loss": 1.0641,
      "step": 4550
    },
    {
      "epoch": 0.20425531914893616,
      "grad_norm": 4.1274189949035645,
      "learning_rate": 1.4822864613367766e-07,
      "loss": 1.0962,
      "step": 4560
    },
    {
      "epoch": 0.20470324748040314,
      "grad_norm": 6.046044826507568,
      "learning_rate": 1.4160979586801724e-07,
      "loss": 1.0241,
      "step": 4570
    },
    {
      "epoch": 0.2051511758118701,
      "grad_norm": 4.066288471221924,
      "learning_rate": 1.3513927239055036e-07,
      "loss": 0.9061,
      "step": 4580
    },
    {
      "epoch": 0.20559910414333707,
      "grad_norm": 3.9250218868255615,
      "learning_rate": 1.2881734167915425e-07,
      "loss": 1.1666,
      "step": 4590
    },
    {
      "epoch": 0.20604703247480402,
      "grad_norm": 4.965548515319824,
      "learning_rate": 1.2264426360363956e-07,
      "loss": 0.8048,
      "step": 4600
    },
    {
      "epoch": 0.206494960806271,
      "grad_norm": 5.192389965057373,
      "learning_rate": 1.1662029191506775e-07,
      "loss": 0.9869,
      "step": 4610
    },
    {
      "epoch": 0.20694288913773795,
      "grad_norm": 4.953862190246582,
      "learning_rate": 1.107456742353201e-07,
      "loss": 1.0042,
      "step": 4620
    },
    {
      "epoch": 0.20739081746920493,
      "grad_norm": 4.955436706542969,
      "learning_rate": 1.0502065204692062e-07,
      "loss": 1.101,
      "step": 4630
    },
    {
      "epoch": 0.20783874580067188,
      "grad_norm": 2.5195674896240234,
      "learning_rate": 9.94454606831076e-08,
      "loss": 0.9542,
      "step": 4640
    },
    {
      "epoch": 0.20828667413213886,
      "grad_norm": 4.142997741699219,
      "learning_rate": 9.402032931816144e-08,
      "loss": 1.1318,
      "step": 4650
    },
    {
      "epoch": 0.20828667413213886,
      "eval_loss": 1.1947814226150513,
      "eval_runtime": 51.8063,
      "eval_samples_per_second": 9.651,
      "eval_steps_per_second": 9.651,
      "step": 4650
    },
    {
      "epoch": 0.2087346024636058,
      "grad_norm": 4.046876907348633,
      "learning_rate": 8.874548095798464e-08,
      "loss": 1.1393,
      "step": 4660
    },
    {
      "epoch": 0.2091825307950728,
      "grad_norm": 4.740685939788818,
      "learning_rate": 8.362113243093245e-08,
      "loss": 1.0529,
      "step": 4670
    },
    {
      "epoch": 0.20963045912653974,
      "grad_norm": 6.356805324554443,
      "learning_rate": 7.864749437890173e-08,
      "loss": 1.2791,
      "step": 4680
    },
    {
      "epoch": 0.21007838745800672,
      "grad_norm": 4.329228401184082,
      "learning_rate": 7.382477124867282e-08,
      "loss": 1.2672,
      "step": 4690
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 5.217611312866211,
      "learning_rate": 6.915316128350461e-08,
      "loss": 0.9357,
      "step": 4700
    },
    {
      "epoch": 0.21097424412094065,
      "grad_norm": 5.418657302856445,
      "learning_rate": 6.463285651498563e-08,
      "loss": 1.011,
      "step": 4710
    },
    {
      "epoch": 0.2114221724524076,
      "grad_norm": 6.056429386138916,
      "learning_rate": 6.026404275513875e-08,
      "loss": 1.4377,
      "step": 4720
    },
    {
      "epoch": 0.21187010078387458,
      "grad_norm": 3.5456736087799072,
      "learning_rate": 5.604689958878723e-08,
      "loss": 1.1192,
      "step": 4730
    },
    {
      "epoch": 0.21231802911534153,
      "grad_norm": 5.697049140930176,
      "learning_rate": 5.198160036616898e-08,
      "loss": 1.0392,
      "step": 4740
    },
    {
      "epoch": 0.2127659574468085,
      "grad_norm": 4.248316764831543,
      "learning_rate": 4.8068312195811847e-08,
      "loss": 1.0041,
      "step": 4750
    },
    {
      "epoch": 0.21321388577827546,
      "grad_norm": 3.3937604427337646,
      "learning_rate": 4.4307195937666194e-08,
      "loss": 0.9791,
      "step": 4760
    },
    {
      "epoch": 0.21366181410974244,
      "grad_norm": 3.097196340560913,
      "learning_rate": 4.069840619648935e-08,
      "loss": 1.1306,
      "step": 4770
    },
    {
      "epoch": 0.2141097424412094,
      "grad_norm": 5.534854888916016,
      "learning_rate": 3.72420913154932e-08,
      "loss": 1.104,
      "step": 4780
    },
    {
      "epoch": 0.21455767077267637,
      "grad_norm": 5.693947792053223,
      "learning_rate": 3.3938393370244876e-08,
      "loss": 1.1541,
      "step": 4790
    },
    {
      "epoch": 0.21500559910414332,
      "grad_norm": 4.025967597961426,
      "learning_rate": 3.078744816282731e-08,
      "loss": 1.1515,
      "step": 4800
    },
    {
      "epoch": 0.21500559910414332,
      "eval_loss": 1.1954809427261353,
      "eval_runtime": 51.6284,
      "eval_samples_per_second": 9.685,
      "eval_steps_per_second": 9.685,
      "step": 4800
    }
  ],
  "logging_steps": 10,
  "max_steps": 5000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 150,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.204448348803072e+17,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}