{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9977324263038548,
  "eval_steps": 500,
  "global_step": 330,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0030234315948601664,
      "grad_norm": 0.6349862119317693,
      "learning_rate": 5.000000000000001e-07,
      "loss": 1.3237,
      "step": 1
    },
    {
      "epoch": 0.006046863189720333,
      "grad_norm": 0.6915137231647266,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 1.3595,
      "step": 2
    },
    {
      "epoch": 0.009070294784580499,
      "grad_norm": 0.623700079073619,
      "learning_rate": 1.5e-06,
      "loss": 1.343,
      "step": 3
    },
    {
      "epoch": 0.012093726379440665,
      "grad_norm": 0.7242880491963869,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.3527,
      "step": 4
    },
    {
      "epoch": 0.015117157974300832,
      "grad_norm": 0.6516906859598985,
      "learning_rate": 2.5e-06,
      "loss": 1.3319,
      "step": 5
    },
    {
      "epoch": 0.018140589569160998,
      "grad_norm": 0.5742747957897,
      "learning_rate": 3e-06,
      "loss": 1.342,
      "step": 6
    },
    {
      "epoch": 0.021164021164021163,
      "grad_norm": 0.557815390462239,
      "learning_rate": 3.5e-06,
      "loss": 1.3152,
      "step": 7
    },
    {
      "epoch": 0.02418745275888133,
      "grad_norm": 0.4620246107786041,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.2963,
      "step": 8
    },
    {
      "epoch": 0.027210884353741496,
      "grad_norm": 0.44763809541022137,
      "learning_rate": 4.5e-06,
      "loss": 1.2895,
      "step": 9
    },
    {
      "epoch": 0.030234315948601664,
      "grad_norm": 0.3416187088663793,
      "learning_rate": 5e-06,
      "loss": 1.2531,
      "step": 10
    },
    {
      "epoch": 0.03325774754346183,
      "grad_norm": 0.31917539621933483,
      "learning_rate": 4.999970800043822e-06,
      "loss": 1.2006,
      "step": 11
    },
    {
      "epoch": 0.036281179138321996,
      "grad_norm": 0.27239571970104204,
      "learning_rate": 4.9998832008573975e-06,
      "loss": 1.1767,
      "step": 12
    },
    {
      "epoch": 0.039304610733182165,
      "grad_norm": 0.32495241030295385,
      "learning_rate": 4.999737204487039e-06,
      "loss": 1.1951,
      "step": 13
    },
    {
      "epoch": 0.042328042328042326,
      "grad_norm": 0.31114523478470957,
      "learning_rate": 4.999532814343219e-06,
      "loss": 1.1474,
      "step": 14
    },
    {
      "epoch": 0.045351473922902494,
      "grad_norm": 0.26573282398874887,
      "learning_rate": 4.999270035200483e-06,
      "loss": 1.1684,
      "step": 15
    },
    {
      "epoch": 0.04837490551776266,
      "grad_norm": 0.27675989125666167,
      "learning_rate": 4.998948873197342e-06,
      "loss": 1.142,
      "step": 16
    },
    {
      "epoch": 0.05139833711262283,
      "grad_norm": 0.2341024474066861,
      "learning_rate": 4.99856933583613e-06,
      "loss": 1.1735,
      "step": 17
    },
    {
      "epoch": 0.05442176870748299,
      "grad_norm": 0.20679018253539813,
      "learning_rate": 4.998131431982826e-06,
      "loss": 1.0896,
      "step": 18
    },
    {
      "epoch": 0.05744520030234316,
      "grad_norm": 0.21159362728987222,
      "learning_rate": 4.9976351718668485e-06,
      "loss": 1.1191,
      "step": 19
    },
    {
      "epoch": 0.06046863189720333,
      "grad_norm": 0.19379985234830382,
      "learning_rate": 4.9970805670808174e-06,
      "loss": 1.1162,
      "step": 20
    },
    {
      "epoch": 0.06349206349206349,
      "grad_norm": 0.2039064731806591,
      "learning_rate": 4.9964676305802794e-06,
      "loss": 1.1155,
      "step": 21
    },
    {
      "epoch": 0.06651549508692366,
      "grad_norm": 0.22133580902562022,
      "learning_rate": 4.995796376683411e-06,
      "loss": 1.0603,
      "step": 22
    },
    {
      "epoch": 0.06953892668178382,
      "grad_norm": 0.24913058306438574,
      "learning_rate": 4.9950668210706795e-06,
      "loss": 1.0854,
      "step": 23
    },
    {
      "epoch": 0.07256235827664399,
      "grad_norm": 0.22434864947712013,
      "learning_rate": 4.994278980784478e-06,
      "loss": 1.0601,
      "step": 24
    },
    {
      "epoch": 0.07558578987150416,
      "grad_norm": 0.18349247230596857,
      "learning_rate": 4.9934328742287285e-06,
      "loss": 1.1042,
      "step": 25
    },
    {
      "epoch": 0.07860922146636433,
      "grad_norm": 0.1585429266996897,
      "learning_rate": 4.992528521168449e-06,
      "loss": 1.0409,
      "step": 26
    },
    {
      "epoch": 0.08163265306122448,
      "grad_norm": 0.16168593725598268,
      "learning_rate": 4.991565942729298e-06,
      "loss": 1.0341,
      "step": 27
    },
    {
      "epoch": 0.08465608465608465,
      "grad_norm": 0.19566832668054185,
      "learning_rate": 4.990545161397073e-06,
      "loss": 1.0689,
      "step": 28
    },
    {
      "epoch": 0.08767951625094482,
      "grad_norm": 0.2499930738278608,
      "learning_rate": 4.989466201017188e-06,
      "loss": 1.0096,
      "step": 29
    },
    {
      "epoch": 0.09070294784580499,
      "grad_norm": 0.2779488624344162,
      "learning_rate": 4.988329086794122e-06,
      "loss": 1.0609,
      "step": 30
    },
    {
      "epoch": 0.09372637944066516,
      "grad_norm": 0.2244846945907016,
      "learning_rate": 4.987133845290823e-06,
      "loss": 1.0366,
      "step": 31
    },
    {
      "epoch": 0.09674981103552532,
      "grad_norm": 0.17994766023159892,
      "learning_rate": 4.98588050442809e-06,
      "loss": 1.0314,
      "step": 32
    },
    {
      "epoch": 0.09977324263038549,
      "grad_norm": 0.22279237142259942,
      "learning_rate": 4.984569093483922e-06,
      "loss": 1.0445,
      "step": 33
    },
    {
      "epoch": 0.10279667422524566,
      "grad_norm": 0.2494526014297992,
      "learning_rate": 4.983199643092833e-06,
      "loss": 1.0344,
      "step": 34
    },
    {
      "epoch": 0.10582010582010581,
      "grad_norm": 0.21434458455232053,
      "learning_rate": 4.981772185245135e-06,
      "loss": 1.0421,
      "step": 35
    },
    {
      "epoch": 0.10884353741496598,
      "grad_norm": 0.18307769428152484,
      "learning_rate": 4.980286753286196e-06,
      "loss": 0.9864,
      "step": 36
    },
    {
      "epoch": 0.11186696900982615,
      "grad_norm": 0.21179293089346243,
      "learning_rate": 4.97874338191565e-06,
      "loss": 0.9842,
      "step": 37
    },
    {
      "epoch": 0.11489040060468632,
      "grad_norm": 0.23379777419897857,
      "learning_rate": 4.977142107186602e-06,
      "loss": 0.9955,
      "step": 38
    },
    {
      "epoch": 0.11791383219954649,
      "grad_norm": 0.20298340697744424,
      "learning_rate": 4.975482966504772e-06,
      "loss": 0.9957,
      "step": 39
    },
    {
      "epoch": 0.12093726379440665,
      "grad_norm": 0.22788321802784506,
      "learning_rate": 4.973765998627628e-06,
      "loss": 0.9909,
      "step": 40
    },
    {
      "epoch": 0.12396069538926682,
      "grad_norm": 0.22447377185154144,
      "learning_rate": 4.97199124366348e-06,
      "loss": 0.9995,
      "step": 41
    },
    {
      "epoch": 0.12698412698412698,
      "grad_norm": 0.19695029744427425,
      "learning_rate": 4.970158743070542e-06,
      "loss": 0.9781,
      "step": 42
    },
    {
      "epoch": 0.13000755857898716,
      "grad_norm": 0.178963231333608,
      "learning_rate": 4.9682685396559625e-06,
      "loss": 0.9779,
      "step": 43
    },
    {
      "epoch": 0.1330309901738473,
      "grad_norm": 0.1873471219218099,
      "learning_rate": 4.966320677574828e-06,
      "loss": 0.9796,
      "step": 44
    },
    {
      "epoch": 0.1360544217687075,
      "grad_norm": 0.22949932135410833,
      "learning_rate": 4.964315202329127e-06,
      "loss": 0.9965,
      "step": 45
    },
    {
      "epoch": 0.13907785336356765,
      "grad_norm": 0.2274052062281532,
      "learning_rate": 4.9622521607666936e-06,
      "loss": 0.9625,
      "step": 46
    },
    {
      "epoch": 0.1421012849584278,
      "grad_norm": 0.1806669455946557,
      "learning_rate": 4.960131601080104e-06,
      "loss": 0.9807,
      "step": 47
    },
    {
      "epoch": 0.14512471655328799,
      "grad_norm": 0.19467061044424094,
      "learning_rate": 4.957953572805558e-06,
      "loss": 0.9615,
      "step": 48
    },
    {
      "epoch": 0.14814814814814814,
      "grad_norm": 0.2731410757300855,
      "learning_rate": 4.9557181268217225e-06,
      "loss": 0.9819,
      "step": 49
    },
    {
      "epoch": 0.15117157974300832,
      "grad_norm": 0.19042718807008738,
      "learning_rate": 4.953425315348534e-06,
      "loss": 0.9547,
      "step": 50
    },
    {
      "epoch": 0.15419501133786848,
      "grad_norm": 0.16643927370098177,
      "learning_rate": 4.9510751919459895e-06,
      "loss": 0.9892,
      "step": 51
    },
    {
      "epoch": 0.15721844293272866,
      "grad_norm": 0.2524323083468839,
      "learning_rate": 4.94866781151289e-06,
      "loss": 1.0181,
      "step": 52
    },
    {
      "epoch": 0.1602418745275888,
      "grad_norm": 0.27545197371921265,
      "learning_rate": 4.946203230285558e-06,
      "loss": 0.9713,
      "step": 53
    },
    {
      "epoch": 0.16326530612244897,
      "grad_norm": 0.17013540947461778,
      "learning_rate": 4.943681505836523e-06,
      "loss": 1.0005,
      "step": 54
    },
    {
      "epoch": 0.16628873771730915,
      "grad_norm": 0.18283369295290966,
      "learning_rate": 4.941102697073181e-06,
      "loss": 0.9183,
      "step": 55
    },
    {
      "epoch": 0.1693121693121693,
      "grad_norm": 0.2189807492467087,
      "learning_rate": 4.938466864236413e-06,
      "loss": 0.9683,
      "step": 56
    },
    {
      "epoch": 0.17233560090702948,
      "grad_norm": 0.2766806847549335,
      "learning_rate": 4.935774068899184e-06,
      "loss": 0.958,
      "step": 57
    },
    {
      "epoch": 0.17535903250188964,
      "grad_norm": 0.2295270706172793,
      "learning_rate": 4.933024373965097e-06,
      "loss": 0.9399,
      "step": 58
    },
    {
      "epoch": 0.17838246409674982,
      "grad_norm": 0.20415845821236425,
      "learning_rate": 4.930217843666929e-06,
      "loss": 0.9677,
      "step": 59
    },
    {
      "epoch": 0.18140589569160998,
      "grad_norm": 0.18705886763979152,
      "learning_rate": 4.927354543565131e-06,
      "loss": 0.9453,
      "step": 60
    },
    {
      "epoch": 0.18442932728647016,
      "grad_norm": 0.25228689054978015,
      "learning_rate": 4.924434540546291e-06,
      "loss": 0.9639,
      "step": 61
    },
    {
      "epoch": 0.1874527588813303,
      "grad_norm": 0.2685784416971121,
      "learning_rate": 4.921457902821578e-06,
      "loss": 0.9561,
      "step": 62
    },
    {
      "epoch": 0.19047619047619047,
      "grad_norm": 0.24674154778238747,
      "learning_rate": 4.918424699925146e-06,
      "loss": 0.952,
      "step": 63
    },
    {
      "epoch": 0.19349962207105065,
      "grad_norm": 0.19937803912058571,
      "learning_rate": 4.915335002712506e-06,
      "loss": 0.9158,
      "step": 64
    },
    {
      "epoch": 0.1965230536659108,
      "grad_norm": 0.21943107617585558,
      "learning_rate": 4.912188883358879e-06,
      "loss": 0.9622,
      "step": 65
    },
    {
      "epoch": 0.19954648526077098,
      "grad_norm": 0.20789781104002328,
      "learning_rate": 4.9089864153575016e-06,
      "loss": 0.9432,
      "step": 66
    },
    {
      "epoch": 0.20256991685563114,
      "grad_norm": 0.21625333461538526,
      "learning_rate": 4.9057276735179134e-06,
      "loss": 0.9136,
      "step": 67
    },
    {
      "epoch": 0.20559334845049132,
      "grad_norm": 0.20774782340550482,
      "learning_rate": 4.902412733964212e-06,
      "loss": 0.9205,
      "step": 68
    },
    {
      "epoch": 0.20861678004535147,
      "grad_norm": 0.23205941698573587,
      "learning_rate": 4.899041674133266e-06,
      "loss": 0.9193,
      "step": 69
    },
    {
      "epoch": 0.21164021164021163,
      "grad_norm": 0.20096610581169602,
      "learning_rate": 4.895614572772916e-06,
      "loss": 0.9332,
      "step": 70
    },
    {
      "epoch": 0.2146636432350718,
      "grad_norm": 0.18733010074274722,
      "learning_rate": 4.89213150994013e-06,
      "loss": 0.9562,
      "step": 71
    },
    {
      "epoch": 0.21768707482993196,
      "grad_norm": 0.2131500035254074,
      "learning_rate": 4.888592566999134e-06,
      "loss": 0.978,
      "step": 72
    },
    {
      "epoch": 0.22071050642479215,
      "grad_norm": 0.25995206465303416,
      "learning_rate": 4.884997826619512e-06,
      "loss": 0.9615,
      "step": 73
    },
    {
      "epoch": 0.2237339380196523,
      "grad_norm": 0.20122899473383501,
      "learning_rate": 4.88134737277427e-06,
      "loss": 0.9223,
      "step": 74
    },
    {
      "epoch": 0.22675736961451248,
      "grad_norm": 0.20082627865414718,
      "learning_rate": 4.8776412907378845e-06,
      "loss": 0.9129,
      "step": 75
    },
    {
      "epoch": 0.22978080120937264,
      "grad_norm": 0.22559902896183986,
      "learning_rate": 4.873879667084301e-06,
      "loss": 0.9331,
      "step": 76
    },
    {
      "epoch": 0.2328042328042328,
      "grad_norm": 0.24097328648057836,
      "learning_rate": 4.870062589684917e-06,
      "loss": 0.9302,
      "step": 77
    },
    {
      "epoch": 0.23582766439909297,
      "grad_norm": 0.2191859905396367,
      "learning_rate": 4.866190147706525e-06,
      "loss": 0.906,
      "step": 78
    },
    {
      "epoch": 0.23885109599395313,
      "grad_norm": 0.1927603541449588,
      "learning_rate": 4.862262431609235e-06,
      "loss": 0.9158,
      "step": 79
    },
    {
      "epoch": 0.2418745275888133,
      "grad_norm": 0.20091846606347583,
      "learning_rate": 4.858279533144358e-06,
      "loss": 0.9241,
      "step": 80
    },
    {
      "epoch": 0.24489795918367346,
      "grad_norm": 0.19776572498006212,
      "learning_rate": 4.854241545352262e-06,
      "loss": 0.908,
      "step": 81
    },
    {
      "epoch": 0.24792139077853365,
      "grad_norm": 0.19142342325998066,
      "learning_rate": 4.8501485625602e-06,
      "loss": 0.9031,
      "step": 82
    },
    {
      "epoch": 0.2509448223733938,
      "grad_norm": 0.255824517812554,
      "learning_rate": 4.846000680380106e-06,
      "loss": 0.896,
      "step": 83
    },
    {
      "epoch": 0.25396825396825395,
      "grad_norm": 0.23838401037023174,
      "learning_rate": 4.841797995706362e-06,
      "loss": 0.9169,
      "step": 84
    },
    {
      "epoch": 0.25699168556311414,
      "grad_norm": 0.20594758086068155,
      "learning_rate": 4.837540606713538e-06,
      "loss": 0.9293,
      "step": 85
    },
    {
      "epoch": 0.2600151171579743,
      "grad_norm": 0.21813818048500913,
      "learning_rate": 4.833228612854088e-06,
      "loss": 0.9194,
      "step": 86
    },
    {
      "epoch": 0.26303854875283444,
      "grad_norm": 0.23454835369326738,
      "learning_rate": 4.828862114856038e-06,
      "loss": 0.9214,
      "step": 87
    },
    {
      "epoch": 0.2660619803476946,
      "grad_norm": 0.2204000662732641,
      "learning_rate": 4.824441214720629e-06,
      "loss": 0.907,
      "step": 88
    },
    {
      "epoch": 0.2690854119425548,
      "grad_norm": 0.2250848297991148,
      "learning_rate": 4.819966015719933e-06,
      "loss": 0.9032,
      "step": 89
    },
    {
      "epoch": 0.272108843537415,
      "grad_norm": 0.2535347696118056,
      "learning_rate": 4.815436622394442e-06,
      "loss": 0.9149,
      "step": 90
    },
    {
      "epoch": 0.2751322751322751,
      "grad_norm": 0.22450012032883543,
      "learning_rate": 4.810853140550625e-06,
      "loss": 0.9055,
      "step": 91
    },
    {
      "epoch": 0.2781557067271353,
      "grad_norm": 0.17386208282106705,
      "learning_rate": 4.806215677258456e-06,
      "loss": 0.8933,
      "step": 92
    },
    {
      "epoch": 0.2811791383219955,
      "grad_norm": 0.19053752177477154,
      "learning_rate": 4.801524340848917e-06,
      "loss": 0.8915,
      "step": 93
    },
    {
      "epoch": 0.2842025699168556,
      "grad_norm": 0.2725320545499666,
      "learning_rate": 4.796779240911461e-06,
      "loss": 0.9251,
      "step": 94
    },
    {
      "epoch": 0.2872260015117158,
      "grad_norm": 0.2386183196781376,
      "learning_rate": 4.791980488291457e-06,
      "loss": 0.8928,
      "step": 95
    },
    {
      "epoch": 0.29024943310657597,
      "grad_norm": 0.1817710733957378,
      "learning_rate": 4.787128195087596e-06,
      "loss": 0.9165,
      "step": 96
    },
    {
      "epoch": 0.29327286470143615,
      "grad_norm": 0.17308690210240787,
      "learning_rate": 4.782222474649279e-06,
      "loss": 0.887,
      "step": 97
    },
    {
      "epoch": 0.2962962962962963,
      "grad_norm": 0.2404735832702819,
      "learning_rate": 4.777263441573963e-06,
      "loss": 0.9012,
      "step": 98
    },
    {
      "epoch": 0.29931972789115646,
      "grad_norm": 0.28779677911496493,
      "learning_rate": 4.772251211704487e-06,
      "loss": 0.9016,
      "step": 99
    },
    {
      "epoch": 0.30234315948601664,
      "grad_norm": 0.15787837522906498,
      "learning_rate": 4.7671859021263635e-06,
      "loss": 0.9051,
      "step": 100
    },
    {
      "epoch": 0.30536659108087677,
      "grad_norm": 0.1575234808015298,
      "learning_rate": 4.762067631165049e-06,
      "loss": 0.8917,
      "step": 101
    },
    {
      "epoch": 0.30839002267573695,
      "grad_norm": 0.17558403452861931,
      "learning_rate": 4.756896518383173e-06,
      "loss": 0.9174,
      "step": 102
    },
    {
      "epoch": 0.31141345427059713,
      "grad_norm": 0.28974349430226604,
      "learning_rate": 4.751672684577747e-06,
      "loss": 0.8929,
      "step": 103
    },
    {
      "epoch": 0.3144368858654573,
      "grad_norm": 0.24411092218088543,
      "learning_rate": 4.746396251777348e-06,
      "loss": 0.8811,
      "step": 104
    },
    {
      "epoch": 0.31746031746031744,
      "grad_norm": 0.16801064806045637,
      "learning_rate": 4.74106734323926e-06,
      "loss": 0.8758,
      "step": 105
    },
    {
      "epoch": 0.3204837490551776,
      "grad_norm": 0.19248014461061233,
      "learning_rate": 4.7356860834466e-06,
      "loss": 0.9103,
      "step": 106
    },
    {
      "epoch": 0.3235071806500378,
      "grad_norm": 0.27209908752286666,
      "learning_rate": 4.730252598105407e-06,
      "loss": 0.8843,
      "step": 107
    },
    {
      "epoch": 0.32653061224489793,
      "grad_norm": 0.2293714752972601,
      "learning_rate": 4.72476701414171e-06,
      "loss": 0.9231,
      "step": 108
    },
    {
      "epoch": 0.3295540438397581,
      "grad_norm": 0.18392800235656956,
      "learning_rate": 4.7192294596985564e-06,
      "loss": 0.8552,
      "step": 109
    },
    {
      "epoch": 0.3325774754346183,
      "grad_norm": 0.1893627518175467,
      "learning_rate": 4.7136400641330245e-06,
      "loss": 0.8811,
      "step": 110
    },
    {
      "epoch": 0.3356009070294785,
      "grad_norm": 0.27532406651290064,
      "learning_rate": 4.7079989580132005e-06,
      "loss": 0.9032,
      "step": 111
    },
    {
      "epoch": 0.3386243386243386,
      "grad_norm": 0.21281637805817608,
      "learning_rate": 4.702306273115122e-06,
      "loss": 0.8731,
      "step": 112
    },
    {
      "epoch": 0.3416477702191988,
      "grad_norm": 0.21685692387167585,
      "learning_rate": 4.696562142419712e-06,
      "loss": 0.8713,
      "step": 113
    },
    {
      "epoch": 0.34467120181405897,
      "grad_norm": 0.27021306476550466,
      "learning_rate": 4.690766700109659e-06,
      "loss": 0.88,
      "step": 114
    },
    {
      "epoch": 0.3476946334089191,
      "grad_norm": 0.23439835580439225,
      "learning_rate": 4.684920081566295e-06,
      "loss": 0.8814,
      "step": 115
    },
    {
      "epoch": 0.3507180650037793,
      "grad_norm": 0.21025681348048122,
      "learning_rate": 4.679022423366424e-06,
      "loss": 0.8535,
      "step": 116
    },
    {
      "epoch": 0.35374149659863946,
      "grad_norm": 0.21924118290065314,
      "learning_rate": 4.673073863279133e-06,
      "loss": 0.8869,
      "step": 117
    },
    {
      "epoch": 0.35676492819349964,
      "grad_norm": 0.2875708297089177,
      "learning_rate": 4.667074540262577e-06,
      "loss": 0.8646,
      "step": 118
    },
    {
      "epoch": 0.35978835978835977,
      "grad_norm": 0.20014737080144987,
      "learning_rate": 4.661024594460733e-06,
      "loss": 0.8718,
      "step": 119
    },
    {
      "epoch": 0.36281179138321995,
      "grad_norm": 0.19119381829230253,
      "learning_rate": 4.654924167200124e-06,
      "loss": 0.8683,
      "step": 120
    },
    {
      "epoch": 0.36583522297808013,
      "grad_norm": 0.2655620248145862,
      "learning_rate": 4.648773400986513e-06,
      "loss": 0.8655,
      "step": 121
    },
    {
      "epoch": 0.3688586545729403,
      "grad_norm": 0.25081787812962225,
      "learning_rate": 4.6425724395015865e-06,
      "loss": 0.8582,
      "step": 122
    },
    {
      "epoch": 0.37188208616780044,
      "grad_norm": 0.2146047325963571,
      "learning_rate": 4.636321427599586e-06,
      "loss": 0.8893,
      "step": 123
    },
    {
      "epoch": 0.3749055177626606,
      "grad_norm": 0.2309806267470169,
      "learning_rate": 4.63002051130393e-06,
      "loss": 0.8486,
      "step": 124
    },
    {
      "epoch": 0.3779289493575208,
      "grad_norm": 0.27736367362748365,
      "learning_rate": 4.623669837803803e-06,
      "loss": 0.8687,
      "step": 125
    },
    {
      "epoch": 0.38095238095238093,
      "grad_norm": 0.2224756513405458,
      "learning_rate": 4.617269555450715e-06,
      "loss": 0.8825,
      "step": 126
    },
    {
      "epoch": 0.3839758125472411,
      "grad_norm": 0.17936830170379472,
      "learning_rate": 4.610819813755038e-06,
      "loss": 0.8546,
      "step": 127
    },
    {
      "epoch": 0.3869992441421013,
      "grad_norm": 0.18923636586433076,
      "learning_rate": 4.604320763382512e-06,
      "loss": 0.87,
      "step": 128
    },
    {
      "epoch": 0.3900226757369615,
      "grad_norm": 0.18724186374787236,
      "learning_rate": 4.597772556150724e-06,
      "loss": 0.8676,
      "step": 129
    },
    {
      "epoch": 0.3930461073318216,
      "grad_norm": 0.2914426770268331,
      "learning_rate": 4.591175345025567e-06,
      "loss": 0.8799,
      "step": 130
    },
    {
      "epoch": 0.3960695389266818,
      "grad_norm": 0.23506817928141502,
      "learning_rate": 4.584529284117662e-06,
      "loss": 0.8895,
      "step": 131
    },
    {
      "epoch": 0.39909297052154197,
      "grad_norm": 0.19429487340998514,
      "learning_rate": 4.5778345286787575e-06,
      "loss": 0.8272,
      "step": 132
    },
    {
      "epoch": 0.4021164021164021,
      "grad_norm": 0.24906142354962724,
      "learning_rate": 4.5710912350981066e-06,
      "loss": 0.8647,
      "step": 133
    },
    {
      "epoch": 0.4051398337112623,
      "grad_norm": 0.25795927507557026,
      "learning_rate": 4.56429956089881e-06,
      "loss": 0.8653,
      "step": 134
    },
    {
      "epoch": 0.40816326530612246,
      "grad_norm": 0.18224019982541997,
      "learning_rate": 4.5574596647341414e-06,
      "loss": 0.8555,
      "step": 135
    },
    {
      "epoch": 0.41118669690098264,
      "grad_norm": 0.20473182208619398,
      "learning_rate": 4.550571706383833e-06,
      "loss": 0.8664,
      "step": 136
    },
    {
      "epoch": 0.41421012849584277,
      "grad_norm": 0.22168708013084754,
      "learning_rate": 4.543635846750351e-06,
      "loss": 0.8515,
      "step": 137
    },
    {
      "epoch": 0.41723356009070295,
      "grad_norm": 0.21632029243557258,
      "learning_rate": 4.536652247855133e-06,
      "loss": 0.8619,
      "step": 138
    },
    {
      "epoch": 0.42025699168556313,
      "grad_norm": 0.1920055931208493,
      "learning_rate": 4.529621072834805e-06,
      "loss": 0.8566,
      "step": 139
    },
    {
      "epoch": 0.42328042328042326,
      "grad_norm": 0.1880614895437287,
      "learning_rate": 4.522542485937369e-06,
      "loss": 0.8243,
      "step": 140
    },
    {
      "epoch": 0.42630385487528344,
      "grad_norm": 0.25600769805101486,
      "learning_rate": 4.515416652518366e-06,
      "loss": 0.8551,
      "step": 141
    },
    {
      "epoch": 0.4293272864701436,
      "grad_norm": 0.2034314626277561,
      "learning_rate": 4.508243739037016e-06,
      "loss": 0.8603,
      "step": 142
    },
    {
      "epoch": 0.4323507180650038,
      "grad_norm": 0.23508415301120186,
      "learning_rate": 4.501023913052326e-06,
      "loss": 0.8826,
      "step": 143
    },
    {
      "epoch": 0.43537414965986393,
      "grad_norm": 0.2775448226015208,
      "learning_rate": 4.4937573432191766e-06,
      "loss": 0.8764,
      "step": 144
    },
    {
      "epoch": 0.4383975812547241,
      "grad_norm": 0.24618223106362153,
      "learning_rate": 4.486444199284386e-06,
      "loss": 0.8973,
      "step": 145
    },
    {
      "epoch": 0.4414210128495843,
      "grad_norm": 0.23424108283949535,
      "learning_rate": 4.47908465208274e-06,
      "loss": 0.8736,
      "step": 146
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.22742376996470443,
      "learning_rate": 4.471678873533002e-06,
      "loss": 0.8581,
      "step": 147
    },
    {
      "epoch": 0.4474678760393046,
      "grad_norm": 0.24653243269473768,
      "learning_rate": 4.464227036633901e-06,
      "loss": 0.8489,
      "step": 148
    },
    {
      "epoch": 0.4504913076341648,
      "grad_norm": 0.2408835452466121,
      "learning_rate": 4.456729315460084e-06,
      "loss": 0.8637,
      "step": 149
    },
    {
      "epoch": 0.45351473922902497,
      "grad_norm": 0.20149761505503935,
      "learning_rate": 4.449185885158056e-06,
      "loss": 0.8671,
      "step": 150
    },
    {
      "epoch": 0.4565381708238851,
      "grad_norm": 0.19127590785183332,
      "learning_rate": 4.4415969219420846e-06,
      "loss": 0.8792,
      "step": 151
    },
    {
      "epoch": 0.4595616024187453,
      "grad_norm": 0.22390628054581238,
      "learning_rate": 4.433962603090083e-06,
      "loss": 0.8468,
      "step": 152
    },
    {
      "epoch": 0.46258503401360546,
      "grad_norm": 0.2957253215613366,
      "learning_rate": 4.426283106939474e-06,
      "loss": 0.8268,
      "step": 153
    },
    {
      "epoch": 0.4656084656084656,
      "grad_norm": 0.20506648122584112,
      "learning_rate": 4.418558612883016e-06,
      "loss": 0.8772,
      "step": 154
    },
    {
      "epoch": 0.46863189720332576,
      "grad_norm": 0.18636265474604682,
      "learning_rate": 4.410789301364621e-06,
      "loss": 0.858,
      "step": 155
    },
    {
      "epoch": 0.47165532879818595,
      "grad_norm": 0.2674232446173923,
      "learning_rate": 4.402975353875134e-06,
      "loss": 0.8683,
      "step": 156
    },
    {
      "epoch": 0.47467876039304613,
      "grad_norm": 0.2747499333038218,
      "learning_rate": 4.3951169529480934e-06,
      "loss": 0.8439,
      "step": 157
    },
    {
      "epoch": 0.47770219198790626,
      "grad_norm": 0.18463338955505504,
      "learning_rate": 4.3872142821554695e-06,
      "loss": 0.8321,
      "step": 158
    },
    {
      "epoch": 0.48072562358276644,
      "grad_norm": 0.19683973897761153,
      "learning_rate": 4.379267526103374e-06,
      "loss": 0.8378,
      "step": 159
    },
    {
      "epoch": 0.4837490551776266,
      "grad_norm": 0.23093724944543254,
      "learning_rate": 4.3712768704277535e-06,
      "loss": 0.8342,
      "step": 160
    },
    {
      "epoch": 0.48677248677248675,
      "grad_norm": 0.25457828536678356,
      "learning_rate": 4.36324250179004e-06,
      "loss": 0.8438,
      "step": 161
    },
    {
      "epoch": 0.4897959183673469,
      "grad_norm": 0.2341347444247441,
      "learning_rate": 4.355164607872806e-06,
      "loss": 0.874,
      "step": 162
    },
    {
      "epoch": 0.4928193499622071,
      "grad_norm": 0.19832386653308293,
      "learning_rate": 4.347043377375369e-06,
      "loss": 0.8871,
      "step": 163
    },
    {
      "epoch": 0.4958427815570673,
      "grad_norm": 0.23548674821464477,
      "learning_rate": 4.338879000009389e-06,
      "loss": 0.8571,
      "step": 164
    },
    {
      "epoch": 0.4988662131519274,
      "grad_norm": 0.2564635876122362,
      "learning_rate": 4.3306716664944345e-06,
      "loss": 0.8441,
      "step": 165
    },
    {
      "epoch": 0.5018896447467877,
      "grad_norm": 0.22937827244764553,
      "learning_rate": 4.322421568553529e-06,
      "loss": 0.8435,
      "step": 166
    },
    {
      "epoch": 0.5049130763416477,
      "grad_norm": 0.20546938114609037,
      "learning_rate": 4.314128898908672e-06,
      "loss": 0.8427,
      "step": 167
    },
    {
      "epoch": 0.5079365079365079,
      "grad_norm": 0.24461216551872245,
      "learning_rate": 4.305793851276335e-06,
      "loss": 0.8488,
      "step": 168
    },
    {
      "epoch": 0.5109599395313681,
      "grad_norm": 0.2280451372713774,
      "learning_rate": 4.297416620362939e-06,
      "loss": 0.8493,
      "step": 169
    },
    {
      "epoch": 0.5139833711262283,
      "grad_norm": 0.2202142714476725,
      "learning_rate": 4.288997401860303e-06,
      "loss": 0.8514,
      "step": 170
    },
    {
      "epoch": 0.5170068027210885,
      "grad_norm": 0.2426775141297586,
      "learning_rate": 4.280536392441078e-06,
      "loss": 0.8501,
      "step": 171
    },
    {
      "epoch": 0.5200302343159486,
      "grad_norm": 0.1998543423805206,
      "learning_rate": 4.272033789754146e-06,
      "loss": 0.8313,
      "step": 172
    },
    {
      "epoch": 0.5230536659108088,
      "grad_norm": 0.1847895892138973,
      "learning_rate": 4.263489792420008e-06,
      "loss": 0.8195,
      "step": 173
    },
    {
      "epoch": 0.5260770975056689,
      "grad_norm": 0.23817124539909545,
      "learning_rate": 4.254904600026143e-06,
      "loss": 0.8581,
      "step": 174
    },
    {
      "epoch": 0.5291005291005291,
      "grad_norm": 0.2575742303999011,
      "learning_rate": 4.246278413122344e-06,
      "loss": 0.8511,
      "step": 175
    },
    {
      "epoch": 0.5321239606953893,
      "grad_norm": 0.22609359204972732,
      "learning_rate": 4.2376114332160325e-06,
      "loss": 0.843,
      "step": 176
    },
    {
      "epoch": 0.5351473922902494,
      "grad_norm": 0.22696322689045012,
      "learning_rate": 4.2289038627675585e-06,
      "loss": 0.833,
      "step": 177
    },
    {
      "epoch": 0.5381708238851096,
      "grad_norm": 0.2083064134180325,
      "learning_rate": 4.220155905185461e-06,
      "loss": 0.8707,
      "step": 178
    },
    {
      "epoch": 0.5411942554799698,
      "grad_norm": 0.2188998951871127,
      "learning_rate": 4.211367764821722e-06,
      "loss": 0.8756,
      "step": 179
    },
    {
      "epoch": 0.54421768707483,
      "grad_norm": 0.21174182945781866,
      "learning_rate": 4.202539646966993e-06,
      "loss": 0.8431,
      "step": 180
    },
    {
      "epoch": 0.54724111866969,
      "grad_norm": 0.26921219919236117,
      "learning_rate": 4.193671757845797e-06,
      "loss": 0.8346,
      "step": 181
    },
    {
      "epoch": 0.5502645502645502,
      "grad_norm": 0.2410488610748255,
      "learning_rate": 4.184764304611715e-06,
      "loss": 0.8323,
      "step": 182
    },
    {
      "epoch": 0.5532879818594104,
      "grad_norm": 0.19188924232191892,
      "learning_rate": 4.17581749534254e-06,
      "loss": 0.8275,
      "step": 183
    },
    {
      "epoch": 0.5563114134542706,
      "grad_norm": 0.24965929389660024,
      "learning_rate": 4.166831539035423e-06,
      "loss": 0.8558,
      "step": 184
    },
    {
      "epoch": 0.5593348450491308,
      "grad_norm": 0.2715497253670651,
      "learning_rate": 4.1578066456019885e-06,
      "loss": 0.8667,
      "step": 185
    },
    {
      "epoch": 0.562358276643991,
      "grad_norm": 0.19906288449082996,
      "learning_rate": 4.148743025863432e-06,
      "loss": 0.8535,
      "step": 186
    },
    {
      "epoch": 0.5653817082388511,
      "grad_norm": 0.22076525732705374,
      "learning_rate": 4.139640891545591e-06,
      "loss": 0.8296,
      "step": 187
    },
    {
      "epoch": 0.5684051398337112,
      "grad_norm": 0.25483531753570576,
      "learning_rate": 4.130500455274005e-06,
      "loss": 0.8355,
      "step": 188
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 0.24421069561222894,
      "learning_rate": 4.121321930568946e-06,
      "loss": 0.8357,
      "step": 189
    },
    {
      "epoch": 0.5744520030234316,
      "grad_norm": 0.20339394657166124,
      "learning_rate": 4.112105531840427e-06,
      "loss": 0.8357,
      "step": 190
    },
    {
      "epoch": 0.5774754346182918,
      "grad_norm": 0.24233770822338466,
      "learning_rate": 4.1028514743832e-06,
      "loss": 0.8313,
      "step": 191
    },
    {
      "epoch": 0.5804988662131519,
      "grad_norm": 0.2829777666494022,
      "learning_rate": 4.093559974371725e-06,
      "loss": 0.8378,
      "step": 192
    },
    {
      "epoch": 0.5835222978080121,
      "grad_norm": 0.1699407087734907,
      "learning_rate": 4.084231248855113e-06,
      "loss": 0.8208,
      "step": 193
    },
    {
      "epoch": 0.5865457294028723,
      "grad_norm": 0.17498689950665328,
      "learning_rate": 4.074865515752068e-06,
      "loss": 0.838,
      "step": 194
    },
    {
      "epoch": 0.5895691609977324,
      "grad_norm": 0.2475691965670073,
      "learning_rate": 4.065462993845785e-06,
      "loss": 0.849,
      "step": 195
    },
    {
      "epoch": 0.5925925925925926,
      "grad_norm": 0.24997313540826083,
      "learning_rate": 4.056023902778846e-06,
      "loss": 0.8229,
      "step": 196
    },
    {
      "epoch": 0.5956160241874527,
      "grad_norm": 0.19976933217581305,
      "learning_rate": 4.046548463048089e-06,
      "loss": 0.8301,
      "step": 197
    },
    {
      "epoch": 0.5986394557823129,
      "grad_norm": 0.24028559185538167,
      "learning_rate": 4.037036895999453e-06,
      "loss": 0.8462,
      "step": 198
    },
    {
      "epoch": 0.6016628873771731,
      "grad_norm": 0.27335949880058813,
      "learning_rate": 4.0274894238228115e-06,
      "loss": 0.8364,
      "step": 199
    },
    {
      "epoch": 0.6046863189720333,
      "grad_norm": 0.18909543268493909,
      "learning_rate": 4.017906269546778e-06,
      "loss": 0.8083,
      "step": 200
    },
    {
      "epoch": 0.6077097505668935,
      "grad_norm": 0.20724602824279856,
      "learning_rate": 4.0082876570335025e-06,
      "loss": 0.8193,
      "step": 201
    },
    {
      "epoch": 0.6107331821617535,
      "grad_norm": 0.26651899455610345,
      "learning_rate": 3.9986338109734354e-06,
      "loss": 0.8299,
      "step": 202
    },
    {
      "epoch": 0.6137566137566137,
      "grad_norm": 0.20515478118259406,
      "learning_rate": 3.988944956880082e-06,
      "loss": 0.8323,
      "step": 203
    },
    {
      "epoch": 0.6167800453514739,
      "grad_norm": 0.1823781343576012,
      "learning_rate": 3.979221321084734e-06,
      "loss": 0.8224,
      "step": 204
    },
    {
      "epoch": 0.6198034769463341,
      "grad_norm": 0.19460227890197035,
      "learning_rate": 3.969463130731183e-06,
      "loss": 0.8243,
      "step": 205
    },
    {
      "epoch": 0.6228269085411943,
      "grad_norm": 0.25256274653870814,
      "learning_rate": 3.959670613770414e-06,
      "loss": 0.834,
      "step": 206
    },
    {
      "epoch": 0.6258503401360545,
      "grad_norm": 0.2099371278262912,
      "learning_rate": 3.949843998955279e-06,
      "loss": 0.8001,
      "step": 207
    },
    {
      "epoch": 0.6288737717309146,
      "grad_norm": 0.18831071399800087,
      "learning_rate": 3.939983515835157e-06,
      "loss": 0.846,
      "step": 208
    },
    {
      "epoch": 0.6318972033257747,
      "grad_norm": 0.20326222391630303,
      "learning_rate": 3.9300893947505865e-06,
      "loss": 0.813,
      "step": 209
    },
    {
      "epoch": 0.6349206349206349,
      "grad_norm": 0.28946931059014386,
      "learning_rate": 3.92016186682789e-06,
      "loss": 0.8252,
      "step": 210
    },
    {
      "epoch": 0.6379440665154951,
      "grad_norm": 0.20146394091804065,
      "learning_rate": 3.9102011639737715e-06,
      "loss": 0.8273,
      "step": 211
    },
    {
      "epoch": 0.6409674981103552,
      "grad_norm": 0.16554710439809656,
      "learning_rate": 3.900207518869901e-06,
      "loss": 0.8294,
      "step": 212
    },
    {
      "epoch": 0.6439909297052154,
      "grad_norm": 0.19154551239872575,
      "learning_rate": 3.890181164967476e-06,
      "loss": 0.8331,
      "step": 213
    },
    {
      "epoch": 0.6470143613000756,
      "grad_norm": 0.2863695398034112,
      "learning_rate": 3.880122336481774e-06,
      "loss": 0.8156,
      "step": 214
    },
    {
      "epoch": 0.6500377928949358,
      "grad_norm": 0.21052777788511692,
      "learning_rate": 3.870031268386676e-06,
      "loss": 0.7963,
      "step": 215
    },
    {
      "epoch": 0.6530612244897959,
      "grad_norm": 0.1566104119157067,
      "learning_rate": 3.859908196409177e-06,
      "loss": 0.8247,
      "step": 216
    },
    {
      "epoch": 0.656084656084656,
      "grad_norm": 0.17376065755010325,
      "learning_rate": 3.849753357023885e-06,
      "loss": 0.8412,
      "step": 217
    },
    {
      "epoch": 0.6591080876795162,
      "grad_norm": 0.2775570184417396,
      "learning_rate": 3.839566987447492e-06,
      "loss": 0.8444,
      "step": 218
    },
    {
      "epoch": 0.6621315192743764,
      "grad_norm": 0.3002446727716999,
      "learning_rate": 3.829349325633233e-06,
      "loss": 0.8353,
      "step": 219
    },
    {
      "epoch": 0.6651549508692366,
      "grad_norm": 0.17501583537193782,
      "learning_rate": 3.819100610265332e-06,
      "loss": 0.8406,
      "step": 220
    },
    {
      "epoch": 0.6681783824640968,
      "grad_norm": 0.16018543435725524,
      "learning_rate": 3.8088210807534185e-06,
      "loss": 0.8143,
      "step": 221
    },
    {
      "epoch": 0.671201814058957,
      "grad_norm": 0.26632239617155334,
      "learning_rate": 3.7985109772269435e-06,
      "loss": 0.8099,
      "step": 222
    },
    {
      "epoch": 0.674225245653817,
      "grad_norm": 0.2502372675648549,
      "learning_rate": 3.7881705405295623e-06,
      "loss": 0.828,
      "step": 223
    },
    {
      "epoch": 0.6772486772486772,
      "grad_norm": 0.21825897588135384,
      "learning_rate": 3.777800012213514e-06,
      "loss": 0.8246,
      "step": 224
    },
    {
      "epoch": 0.6802721088435374,
      "grad_norm": 0.27497686942905814,
      "learning_rate": 3.767399634533976e-06,
      "loss": 0.8131,
      "step": 225
    },
    {
      "epoch": 0.6832955404383976,
      "grad_norm": 0.22856597196018685,
      "learning_rate": 3.756969650443408e-06,
      "loss": 0.8098,
      "step": 226
    },
    {
      "epoch": 0.6863189720332578,
      "grad_norm": 0.21059170940590144,
      "learning_rate": 3.7465103035858718e-06,
      "loss": 0.8187,
      "step": 227
    },
    {
      "epoch": 0.6893424036281179,
      "grad_norm": 0.2289160214691356,
      "learning_rate": 3.7360218382913426e-06,
      "loss": 0.8265,
      "step": 228
    },
    {
      "epoch": 0.6923658352229781,
      "grad_norm": 0.22771294742249917,
      "learning_rate": 3.7255044995700024e-06,
      "loss": 0.8063,
      "step": 229
    },
    {
      "epoch": 0.6953892668178382,
      "grad_norm": 0.220912987205476,
      "learning_rate": 3.714958533106515e-06,
      "loss": 0.8141,
      "step": 230
    },
    {
      "epoch": 0.6984126984126984,
      "grad_norm": 0.2331093248404988,
      "learning_rate": 3.7043841852542884e-06,
      "loss": 0.7967,
      "step": 231
    },
    {
      "epoch": 0.7014361300075586,
      "grad_norm": 0.24044315675315245,
      "learning_rate": 3.6937817030297164e-06,
      "loss": 0.8202,
      "step": 232
    },
    {
      "epoch": 0.7044595616024187,
      "grad_norm": 0.17808063026487772,
      "learning_rate": 3.6831513341064128e-06,
      "loss": 0.824,
      "step": 233
    },
    {
      "epoch": 0.7074829931972789,
      "grad_norm": 0.1686282272216412,
      "learning_rate": 3.672493326809422e-06,
      "loss": 0.8265,
      "step": 234
    },
    {
      "epoch": 0.7105064247921391,
      "grad_norm": 0.2620354561369418,
      "learning_rate": 3.661807930109422e-06,
      "loss": 0.8156,
      "step": 235
    },
    {
      "epoch": 0.7135298563869993,
      "grad_norm": 0.325482330440253,
      "learning_rate": 3.651095393616904e-06,
      "loss": 0.828,
      "step": 236
    },
    {
      "epoch": 0.7165532879818595,
      "grad_norm": 0.15080114640909387,
      "learning_rate": 3.6403559675763457e-06,
      "loss": 0.7995,
      "step": 237
    },
    {
      "epoch": 0.7195767195767195,
      "grad_norm": 0.14745127928311055,
      "learning_rate": 3.629589902860363e-06,
      "loss": 0.8087,
      "step": 238
    },
    {
      "epoch": 0.7226001511715797,
      "grad_norm": 0.2799111726866219,
      "learning_rate": 3.6187974509638496e-06,
      "loss": 0.8176,
      "step": 239
    },
    {
      "epoch": 0.7256235827664399,
      "grad_norm": 0.2502547915239206,
      "learning_rate": 3.607978863998104e-06,
      "loss": 0.8064,
      "step": 240
    },
    {
      "epoch": 0.7286470143613001,
      "grad_norm": 0.13777657856560566,
      "learning_rate": 3.5971343946849374e-06,
      "loss": 0.8178,
      "step": 241
    },
    {
      "epoch": 0.7316704459561603,
      "grad_norm": 0.1385328283480905,
      "learning_rate": 3.586264296350775e-06,
      "loss": 0.8027,
      "step": 242
    },
    {
      "epoch": 0.7346938775510204,
      "grad_norm": 0.17341004642304678,
      "learning_rate": 3.57536882292073e-06,
      "loss": 0.8096,
      "step": 243
    },
    {
      "epoch": 0.7377173091458806,
      "grad_norm": 0.3691916406878038,
      "learning_rate": 3.564448228912682e-06,
      "loss": 0.8338,
      "step": 244
    },
    {
      "epoch": 0.7407407407407407,
      "grad_norm": 0.21689653213933718,
      "learning_rate": 3.5535027694313233e-06,
      "loss": 0.7977,
      "step": 245
    },
    {
      "epoch": 0.7437641723356009,
      "grad_norm": 0.16595312089208156,
      "learning_rate": 3.5425327001622034e-06,
      "loss": 0.7987,
      "step": 246
    },
    {
      "epoch": 0.7467876039304611,
      "grad_norm": 0.21979225164562236,
      "learning_rate": 3.5315382773657563e-06,
      "loss": 0.8181,
      "step": 247
    },
    {
      "epoch": 0.7498110355253212,
      "grad_norm": 0.31450056661452935,
      "learning_rate": 3.520519757871313e-06,
      "loss": 0.8128,
      "step": 248
    },
    {
      "epoch": 0.7528344671201814,
      "grad_norm": 0.155403218509628,
      "learning_rate": 3.5094773990711024e-06,
      "loss": 0.807,
      "step": 249
    },
    {
      "epoch": 0.7558578987150416,
      "grad_norm": 0.14490425331756726,
      "learning_rate": 3.4984114589142388e-06,
      "loss": 0.7883,
      "step": 250
    },
    {
      "epoch": 0.7588813303099018,
      "grad_norm": 0.21380341083079393,
      "learning_rate": 3.4873221959006973e-06,
      "loss": 0.8162,
      "step": 251
    },
    {
      "epoch": 0.7619047619047619,
      "grad_norm": 0.35920542267660566,
      "learning_rate": 3.476209869075273e-06,
      "loss": 0.7852,
      "step": 252
    },
    {
      "epoch": 0.764928193499622,
      "grad_norm": 0.14693329979199346,
      "learning_rate": 3.4650747380215296e-06,
      "loss": 0.8164,
      "step": 253
    },
    {
      "epoch": 0.7679516250944822,
      "grad_norm": 0.2613621433404773,
      "learning_rate": 3.4539170628557383e-06,
      "loss": 0.8083,
      "step": 254
    },
    {
      "epoch": 0.7709750566893424,
      "grad_norm": 0.3665112092678806,
      "learning_rate": 3.442737104220801e-06,
      "loss": 0.8181,
      "step": 255
    },
    {
      "epoch": 0.7739984882842026,
      "grad_norm": 0.16067983638579006,
      "learning_rate": 3.4315351232801597e-06,
      "loss": 0.8162,
      "step": 256
    },
    {
      "epoch": 0.7770219198790628,
      "grad_norm": 0.24580578582443013,
      "learning_rate": 3.4203113817116955e-06,
      "loss": 0.8199,
      "step": 257
    },
    {
      "epoch": 0.780045351473923,
      "grad_norm": 0.331248956918326,
      "learning_rate": 3.409066141701618e-06,
      "loss": 0.7913,
      "step": 258
    },
    {
      "epoch": 0.783068783068783,
      "grad_norm": 0.16426278470075412,
      "learning_rate": 3.3977996659383396e-06,
      "loss": 0.8166,
      "step": 259
    },
    {
      "epoch": 0.7860922146636432,
      "grad_norm": 0.2057865252683302,
      "learning_rate": 3.386512217606339e-06,
      "loss": 0.8018,
      "step": 260
    },
    {
      "epoch": 0.7891156462585034,
      "grad_norm": 0.3793459602253602,
      "learning_rate": 3.3752040603800148e-06,
      "loss": 0.8243,
      "step": 261
    },
    {
      "epoch": 0.7921390778533636,
      "grad_norm": 0.14811638555402215,
      "learning_rate": 3.3638754584175222e-06,
      "loss": 0.8144,
      "step": 262
    },
    {
      "epoch": 0.7951625094482238,
      "grad_norm": 0.3237839618432774,
      "learning_rate": 3.352526676354606e-06,
      "loss": 0.7933,
      "step": 263
    },
    {
      "epoch": 0.7981859410430839,
      "grad_norm": 0.21169351866452582,
      "learning_rate": 3.3411579792984178e-06,
      "loss": 0.8125,
      "step": 264
    },
    {
      "epoch": 0.8012093726379441,
      "grad_norm": 0.14502913140221696,
      "learning_rate": 3.3297696328213215e-06,
      "loss": 0.7919,
      "step": 265
    },
    {
      "epoch": 0.8042328042328042,
      "grad_norm": 0.130046065883626,
      "learning_rate": 3.318361902954692e-06,
      "loss": 0.7925,
      "step": 266
    },
    {
      "epoch": 0.8072562358276644,
      "grad_norm": 0.1806023890937921,
      "learning_rate": 3.3069350561826997e-06,
      "loss": 0.7977,
      "step": 267
    },
    {
      "epoch": 0.8102796674225246,
      "grad_norm": 0.3661239179855748,
      "learning_rate": 3.295489359436083e-06,
      "loss": 0.8121,
      "step": 268
    },
    {
      "epoch": 0.8133030990173847,
      "grad_norm": 0.15684544823299335,
      "learning_rate": 3.2840250800859185e-06,
      "loss": 0.8439,
      "step": 269
    },
    {
      "epoch": 0.8163265306122449,
      "grad_norm": 0.1442117724504863,
      "learning_rate": 3.272542485937369e-06,
      "loss": 0.8205,
      "step": 270
    },
    {
      "epoch": 0.8193499622071051,
      "grad_norm": 0.1630144971387636,
      "learning_rate": 3.2610418452234315e-06,
      "loss": 0.8116,
      "step": 271
    },
    {
      "epoch": 0.8223733938019653,
      "grad_norm": 0.2272302138625313,
      "learning_rate": 3.249523426598669e-06,
      "loss": 0.7889,
      "step": 272
    },
    {
      "epoch": 0.8253968253968254,
      "grad_norm": 0.2630488611954438,
      "learning_rate": 3.2379874991329374e-06,
      "loss": 0.8101,
      "step": 273
    },
    {
      "epoch": 0.8284202569916855,
      "grad_norm": 0.1636882510390679,
      "learning_rate": 3.2264343323050985e-06,
      "loss": 0.8067,
      "step": 274
    },
    {
      "epoch": 0.8314436885865457,
      "grad_norm": 0.1800718434777349,
      "learning_rate": 3.214864195996723e-06,
      "loss": 0.8267,
      "step": 275
    },
    {
      "epoch": 0.8344671201814059,
      "grad_norm": 0.27772170659214646,
      "learning_rate": 3.2032773604857915e-06,
      "loss": 0.8021,
      "step": 276
    },
    {
      "epoch": 0.8374905517762661,
      "grad_norm": 0.2524388193093376,
      "learning_rate": 3.1916740964403736e-06,
      "loss": 0.8067,
      "step": 277
    },
    {
      "epoch": 0.8405139833711263,
      "grad_norm": 0.18970600852145528,
      "learning_rate": 3.1800546749123108e-06,
      "loss": 0.8073,
      "step": 278
    },
    {
      "epoch": 0.8435374149659864,
      "grad_norm": 0.19923073362072904,
      "learning_rate": 3.168419367330883e-06,
      "loss": 0.799,
      "step": 279
    },
    {
      "epoch": 0.8465608465608465,
      "grad_norm": 0.25436094223895794,
      "learning_rate": 3.1567684454964674e-06,
      "loss": 0.8041,
      "step": 280
    },
    {
      "epoch": 0.8495842781557067,
      "grad_norm": 0.21128266721448266,
      "learning_rate": 3.14510218157419e-06,
      "loss": 0.8113,
      "step": 281
    },
    {
      "epoch": 0.8526077097505669,
      "grad_norm": 0.22163072880133364,
      "learning_rate": 3.133420848087566e-06,
      "loss": 0.7889,
      "step": 282
    },
    {
      "epoch": 0.8556311413454271,
      "grad_norm": 0.22883591781527274,
      "learning_rate": 3.121724717912138e-06,
      "loss": 0.7917,
      "step": 283
    },
    {
      "epoch": 0.8586545729402872,
      "grad_norm": 0.2032672012417271,
      "learning_rate": 3.110014064269094e-06,
      "loss": 0.8032,
      "step": 284
    },
    {
      "epoch": 0.8616780045351474,
      "grad_norm": 0.1740199158625731,
      "learning_rate": 3.0982891607188948e-06,
      "loss": 0.7827,
      "step": 285
    },
    {
      "epoch": 0.8647014361300076,
      "grad_norm": 0.18106353392739202,
      "learning_rate": 3.0865502811548755e-06,
      "loss": 0.7896,
      "step": 286
    },
    {
      "epoch": 0.8677248677248677,
      "grad_norm": 0.2292881686201471,
      "learning_rate": 3.0747976997968513e-06,
      "loss": 0.8159,
      "step": 287
    },
    {
      "epoch": 0.8707482993197279,
      "grad_norm": 0.27476966438745903,
      "learning_rate": 3.0630316911847112e-06,
      "loss": 0.7938,
      "step": 288
    },
    {
      "epoch": 0.873771730914588,
      "grad_norm": 0.21250803524552264,
      "learning_rate": 3.051252530172003e-06,
      "loss": 0.7912,
      "step": 289
    },
    {
      "epoch": 0.8767951625094482,
      "grad_norm": 0.20109882386036412,
      "learning_rate": 3.039460491919516e-06,
      "loss": 0.8005,
      "step": 290
    },
    {
      "epoch": 0.8798185941043084,
      "grad_norm": 0.22987450725486983,
      "learning_rate": 3.0276558518888496e-06,
      "loss": 0.8081,
      "step": 291
    },
    {
      "epoch": 0.8828420256991686,
      "grad_norm": 0.20495650915854588,
      "learning_rate": 3.015838885835981e-06,
      "loss": 0.8115,
      "step": 292
    },
    {
      "epoch": 0.8858654572940288,
      "grad_norm": 0.17141615072214778,
      "learning_rate": 3.0040098698048232e-06,
      "loss": 0.7813,
      "step": 293
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.18881546824196338,
      "learning_rate": 2.992169080120776e-06,
      "loss": 0.8113,
      "step": 294
    },
    {
      "epoch": 0.891912320483749,
      "grad_norm": 0.20261508334609984,
      "learning_rate": 2.9803167933842712e-06,
      "loss": 0.7993,
      "step": 295
    },
    {
      "epoch": 0.8949357520786092,
      "grad_norm": 0.2637865639683421,
      "learning_rate": 2.9684532864643123e-06,
      "loss": 0.8025,
      "step": 296
    },
    {
      "epoch": 0.8979591836734694,
      "grad_norm": 0.20588016874386464,
      "learning_rate": 2.9565788364920034e-06,
      "loss": 0.7869,
      "step": 297
    },
    {
      "epoch": 0.9009826152683296,
      "grad_norm": 0.1838418464531271,
      "learning_rate": 2.944693720854081e-06,
      "loss": 0.7976,
      "step": 298
    },
    {
      "epoch": 0.9040060468631897,
      "grad_norm": 0.2238627689541774,
      "learning_rate": 2.932798217186429e-06,
      "loss": 0.7886,
      "step": 299
    },
    {
      "epoch": 0.9070294784580499,
      "grad_norm": 0.2223361558094008,
      "learning_rate": 2.920892603367596e-06,
      "loss": 0.8163,
      "step": 300
    },
    {
      "epoch": 0.91005291005291,
      "grad_norm": 0.1664138917818463,
      "learning_rate": 2.908977157512305e-06,
      "loss": 0.7859,
      "step": 301
    },
    {
      "epoch": 0.9130763416477702,
      "grad_norm": 0.218098712406248,
      "learning_rate": 2.897052157964952e-06,
      "loss": 0.818,
      "step": 302
    },
    {
      "epoch": 0.9160997732426304,
      "grad_norm": 0.25476932805817953,
      "learning_rate": 2.8851178832931076e-06,
      "loss": 0.7936,
      "step": 303
    },
    {
      "epoch": 0.9191232048374905,
      "grad_norm": 0.20454797870655053,
      "learning_rate": 2.8731746122810105e-06,
      "loss": 0.8009,
      "step": 304
    },
    {
      "epoch": 0.9221466364323507,
      "grad_norm": 0.2171163509058848,
      "learning_rate": 2.8612226239230536e-06,
      "loss": 0.8012,
      "step": 305
    },
    {
      "epoch": 0.9251700680272109,
      "grad_norm": 0.3201406418230194,
      "learning_rate": 2.8492621974172653e-06,
      "loss": 0.8347,
      "step": 306
    },
    {
      "epoch": 0.9281934996220711,
      "grad_norm": 0.20044446217181253,
      "learning_rate": 2.8372936121587895e-06,
      "loss": 0.8066,
      "step": 307
    },
    {
      "epoch": 0.9312169312169312,
      "grad_norm": 0.16283549638272465,
      "learning_rate": 2.8253171477333585e-06,
      "loss": 0.8049,
      "step": 308
    },
    {
      "epoch": 0.9342403628117913,
      "grad_norm": 0.20912249423273097,
      "learning_rate": 2.813333083910761e-06,
      "loss": 0.8112,
      "step": 309
    },
    {
      "epoch": 0.9372637944066515,
      "grad_norm": 0.28501513792396893,
      "learning_rate": 2.8013417006383078e-06,
      "loss": 0.8033,
      "step": 310
    },
    {
      "epoch": 0.9402872260015117,
      "grad_norm": 0.17569005132324075,
      "learning_rate": 2.7893432780342928e-06,
      "loss": 0.7905,
      "step": 311
    },
    {
      "epoch": 0.9433106575963719,
      "grad_norm": 0.1707451012967817,
      "learning_rate": 2.7773380963814454e-06,
      "loss": 0.7992,
      "step": 312
    },
    {
      "epoch": 0.9463340891912321,
      "grad_norm": 0.23658188962283105,
      "learning_rate": 2.76532643612039e-06,
      "loss": 0.7959,
      "step": 313
    },
    {
      "epoch": 0.9493575207860923,
      "grad_norm": 0.2417426081720488,
      "learning_rate": 2.7533085778430884e-06,
      "loss": 0.7719,
      "step": 314
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 0.21779534491141914,
      "learning_rate": 2.7412848022862883e-06,
      "loss": 0.8148,
      "step": 315
    },
    {
      "epoch": 0.9554043839758125,
      "grad_norm": 0.1937439406511132,
      "learning_rate": 2.729255390324966e-06,
      "loss": 0.8099,
      "step": 316
    },
    {
      "epoch": 0.9584278155706727,
      "grad_norm": 0.22418232835047394,
      "learning_rate": 2.717220622965762e-06,
      "loss": 0.8029,
      "step": 317
    },
    {
      "epoch": 0.9614512471655329,
      "grad_norm": 0.24163066601859826,
      "learning_rate": 2.7051807813404213e-06,
      "loss": 0.8069,
      "step": 318
    },
    {
      "epoch": 0.9644746787603931,
      "grad_norm": 0.17718761833134763,
      "learning_rate": 2.6931361466992225e-06,
      "loss": 0.7964,
      "step": 319
    },
    {
      "epoch": 0.9674981103552532,
      "grad_norm": 0.21359305838545312,
      "learning_rate": 2.6810870004044065e-06,
      "loss": 0.7777,
      "step": 320
    },
    {
      "epoch": 0.9705215419501134,
      "grad_norm": 0.2951108231827231,
      "learning_rate": 2.6690336239236097e-06,
      "loss": 0.7654,
      "step": 321
    },
    {
      "epoch": 0.9735449735449735,
      "grad_norm": 0.17887426724913263,
      "learning_rate": 2.6569762988232838e-06,
      "loss": 0.8021,
      "step": 322
    },
    {
      "epoch": 0.9765684051398337,
      "grad_norm": 0.16446650801438847,
      "learning_rate": 2.644915306762121e-06,
      "loss": 0.7996,
      "step": 323
    },
    {
      "epoch": 0.9795918367346939,
      "grad_norm": 0.18349619699553313,
      "learning_rate": 2.632850929484472e-06,
      "loss": 0.769,
      "step": 324
    },
    {
      "epoch": 0.982615268329554,
      "grad_norm": 0.23290485597057656,
      "learning_rate": 2.620783448813768e-06,
      "loss": 0.8104,
      "step": 325
    },
    {
      "epoch": 0.9856386999244142,
      "grad_norm": 0.21697778026585082,
      "learning_rate": 2.6087131466459344e-06,
      "loss": 0.7919,
      "step": 326
    },
    {
      "epoch": 0.9886621315192744,
      "grad_norm": 0.18436604515216662,
      "learning_rate": 2.5966403049428056e-06,
      "loss": 0.7819,
      "step": 327
    },
    {
      "epoch": 0.9916855631141346,
      "grad_norm": 0.1916879714375915,
      "learning_rate": 2.5845652057255414e-06,
      "loss": 0.7565,
      "step": 328
    },
    {
      "epoch": 0.9947089947089947,
      "grad_norm": 0.2338419771871179,
      "learning_rate": 2.572488131068037e-06,
      "loss": 0.8002,
      "step": 329
    },
    {
      "epoch": 0.9977324263038548,
      "grad_norm": 0.19973120898443514,
      "learning_rate": 2.560409363090331e-06,
      "loss": 0.8019,
      "step": 330
    }
  ],
  "logging_steps": 1,
  "max_steps": 660,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 330,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.219445850938278e+18,
  "train_batch_size": 6,
  "trial_name": null,
  "trial_params": null
}