{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 770,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 10.01884195009205,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 1.6675,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.180633447078613,
      "learning_rate": 8.333333333333333e-07,
      "loss": 1.7678,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 10.303211452992821,
      "learning_rate": 1.25e-06,
      "loss": 1.7284,
      "step": 3
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.910461388084395,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 1.7352,
      "step": 4
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.326250707724988,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 1.7242,
      "step": 5
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.913664539477789,
      "learning_rate": 2.5e-06,
      "loss": 1.6469,
      "step": 6
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.078423538808147,
      "learning_rate": 2.916666666666667e-06,
      "loss": 1.6132,
      "step": 7
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.384402059977251,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.4678,
      "step": 8
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.3577482532491025,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.3556,
      "step": 9
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.174369624886316,
      "learning_rate": 4.166666666666667e-06,
      "loss": 1.4044,
      "step": 10
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.8639134882240826,
      "learning_rate": 4.583333333333333e-06,
      "loss": 1.3128,
      "step": 11
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.9821742334186547,
      "learning_rate": 5e-06,
      "loss": 1.3084,
      "step": 12
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.8428940928189363,
      "learning_rate": 5.416666666666667e-06,
      "loss": 1.287,
      "step": 13
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.770103811111949,
      "learning_rate": 5.833333333333334e-06,
      "loss": 1.1749,
      "step": 14
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.2520397890717034,
      "learning_rate": 6.25e-06,
      "loss": 1.1662,
      "step": 15
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.3752009512247585,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.1161,
      "step": 16
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.2116579911789667,
      "learning_rate": 7.083333333333335e-06,
      "loss": 1.1,
      "step": 17
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.0963580548505436,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.0793,
      "step": 18
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.651378799679108,
      "learning_rate": 7.916666666666667e-06,
      "loss": 1.0386,
      "step": 19
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5740210080816908,
      "learning_rate": 8.333333333333334e-06,
      "loss": 1.0234,
      "step": 20
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.777625330317658,
      "learning_rate": 8.750000000000001e-06,
      "loss": 1.0418,
      "step": 21
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5402956873406757,
      "learning_rate": 9.166666666666666e-06,
      "loss": 0.9971,
      "step": 22
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4503947750874269,
      "learning_rate": 9.583333333333335e-06,
      "loss": 1.0418,
      "step": 23
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4809567732326383,
      "learning_rate": 1e-05,
      "loss": 0.9896,
      "step": 24
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.347063159372048,
      "learning_rate": 9.999955663494783e-06,
      "loss": 0.9821,
      "step": 25
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.337982719973813,
      "learning_rate": 9.999822654765424e-06,
      "loss": 0.984,
      "step": 26
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2598040340641647,
      "learning_rate": 9.999600976170775e-06,
      "loss": 0.9564,
      "step": 27
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5283239907844695,
      "learning_rate": 9.999290631642222e-06,
      "loss": 0.9315,
      "step": 28
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3107099251584715,
      "learning_rate": 9.9988916266836e-06,
      "loss": 0.9524,
      "step": 29
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2841120681980969,
      "learning_rate": 9.998403968371104e-06,
      "loss": 0.9801,
      "step": 30
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2833311749613852,
      "learning_rate": 9.997827665353159e-06,
      "loss": 0.9564,
      "step": 31
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.326424018708689,
      "learning_rate": 9.997162727850271e-06,
      "loss": 0.9359,
      "step": 32
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4100755530546323,
      "learning_rate": 9.996409167654843e-06,
      "loss": 0.9462,
      "step": 33
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3058423401625958,
      "learning_rate": 9.995566998130962e-06,
      "loss": 0.9495,
      "step": 34
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3957855779834178,
      "learning_rate": 9.99463623421417e-06,
      "loss": 0.9394,
      "step": 35
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2590639321281085,
      "learning_rate": 9.993616892411198e-06,
      "loss": 0.9165,
      "step": 36
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2489518258284393,
      "learning_rate": 9.992508990799665e-06,
      "loss": 0.9682,
      "step": 37
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3114899180647628,
      "learning_rate": 9.991312549027762e-06,
      "loss": 0.9939,
      "step": 38
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2902990615583814,
      "learning_rate": 9.990027588313916e-06,
      "loss": 0.935,
      "step": 39
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.334306124290386,
      "learning_rate": 9.988654131446385e-06,
      "loss": 0.9489,
      "step": 40
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.214618974357902,
      "learning_rate": 9.987192202782886e-06,
      "loss": 0.9122,
      "step": 41
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2918632529579752,
      "learning_rate": 9.98564182825014e-06,
      "loss": 0.9633,
      "step": 42
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3534377529573218,
      "learning_rate": 9.984003035343422e-06,
      "loss": 0.9306,
      "step": 43
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3761114385394022,
      "learning_rate": 9.982275853126073e-06,
      "loss": 0.9354,
      "step": 44
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7160524235309491,
      "learning_rate": 9.980460312228981e-06,
      "loss": 0.9524,
      "step": 45
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4535654188609335,
      "learning_rate": 9.978556444850043e-06,
      "loss": 0.9126,
      "step": 46
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.329692670990971,
      "learning_rate": 9.97656428475359e-06,
      "loss": 0.8982,
      "step": 47
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2204169092183164,
      "learning_rate": 9.974483867269787e-06,
      "loss": 0.8878,
      "step": 48
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3914134893180399,
      "learning_rate": 9.97231522929401e-06,
      "loss": 0.8933,
      "step": 49
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.314449142464296,
      "learning_rate": 9.97005840928619e-06,
      "loss": 0.9163,
      "step": 50
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2684644507071798,
      "learning_rate": 9.967713447270134e-06,
      "loss": 0.9036,
      "step": 51
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1289718531785145,
      "learning_rate": 9.965280384832809e-06,
      "loss": 0.8844,
      "step": 52
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2737395334908646,
      "learning_rate": 9.962759265123611e-06,
      "loss": 0.8624,
      "step": 53
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3627730655756511,
      "learning_rate": 9.960150132853592e-06,
      "loss": 0.8977,
      "step": 54
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2442014917910598,
      "learning_rate": 9.957453034294677e-06,
      "loss": 0.9067,
      "step": 55
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4810477924919117,
      "learning_rate": 9.954668017278834e-06,
      "loss": 0.9119,
      "step": 56
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3799563005304054,
      "learning_rate": 9.951795131197233e-06,
      "loss": 0.9261,
      "step": 57
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.414006096549083,
      "learning_rate": 9.948834426999363e-06,
      "loss": 0.9121,
      "step": 58
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.6428491735539237,
      "learning_rate": 9.945785957192138e-06,
      "loss": 0.9428,
      "step": 59
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2653571709570268,
      "learning_rate": 9.942649775838955e-06,
      "loss": 0.8767,
      "step": 60
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.15765431948816,
      "learning_rate": 9.939425938558744e-06,
      "loss": 0.9034,
      "step": 61
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1798179797077757,
      "learning_rate": 9.936114502524974e-06,
      "loss": 0.9168,
      "step": 62
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.17972963935367,
      "learning_rate": 9.932715526464646e-06,
      "loss": 0.8591,
      "step": 63
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1938866521236933,
      "learning_rate": 9.929229070657251e-06,
      "loss": 0.9049,
      "step": 64
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2396855840030339,
      "learning_rate": 9.925655196933692e-06,
      "loss": 0.9578,
      "step": 65
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.266928905031081,
      "learning_rate": 9.921993968675198e-06,
      "loss": 0.9097,
      "step": 66
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.164862535741009,
      "learning_rate": 9.918245450812196e-06,
      "loss": 0.9182,
      "step": 67
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3760807748353976,
      "learning_rate": 9.914409709823158e-06,
      "loss": 0.9183,
      "step": 68
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.204551307828834,
      "learning_rate": 9.910486813733427e-06,
      "loss": 0.909,
      "step": 69
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3492227169803832,
      "learning_rate": 9.906476832114e-06,
      "loss": 0.8767,
      "step": 70
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2599025510474737,
      "learning_rate": 9.902379836080308e-06,
      "loss": 0.9017,
      "step": 71
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2291538586506283,
      "learning_rate": 9.898195898290944e-06,
      "loss": 0.879,
      "step": 72
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3486283669610692,
      "learning_rate": 9.893925092946379e-06,
      "loss": 0.904,
      "step": 73
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2322670763852388,
      "learning_rate": 9.889567495787651e-06,
      "loss": 0.9129,
      "step": 74
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6502741500539375,
      "learning_rate": 9.885123184095007e-06,
      "loss": 0.893,
      "step": 75
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2779919969142226,
      "learning_rate": 9.880592236686548e-06,
      "loss": 0.9129,
      "step": 76
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.221028204978688,
      "learning_rate": 9.875974733916822e-06,
      "loss": 0.8834,
      "step": 77
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.185083112243534,
      "learning_rate": 9.871270757675406e-06,
      "loss": 0.9237,
      "step": 78
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2932265161475407,
      "learning_rate": 9.866480391385446e-06,
      "loss": 0.8421,
      "step": 79
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4143826220607103,
      "learning_rate": 9.861603720002182e-06,
      "loss": 0.8825,
      "step": 80
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3149520714145249,
      "learning_rate": 9.856640830011437e-06,
      "loss": 0.8686,
      "step": 81
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2757323469959327,
      "learning_rate": 9.851591809428096e-06,
      "loss": 0.9248,
      "step": 82
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2619145491525985,
      "learning_rate": 9.846456747794526e-06,
      "loss": 0.9045,
      "step": 83
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2192461206205478,
      "learning_rate": 9.841235736179002e-06,
      "loss": 0.9009,
      "step": 84
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2543181200558176,
      "learning_rate": 9.83592886717409e-06,
      "loss": 0.8777,
      "step": 85
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2385868215899136,
      "learning_rate": 9.830536234894996e-06,
      "loss": 0.9023,
      "step": 86
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2899363487484155,
      "learning_rate": 9.825057934977912e-06,
      "loss": 0.9033,
      "step": 87
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4391428437617175,
      "learning_rate": 9.819494064578305e-06,
      "loss": 0.8457,
      "step": 88
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3299900370660194,
      "learning_rate": 9.813844722369204e-06,
      "loss": 0.8632,
      "step": 89
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.174244071731833,
      "learning_rate": 9.808110008539441e-06,
      "loss": 0.8913,
      "step": 90
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.266275549208671,
      "learning_rate": 9.80229002479189e-06,
      "loss": 0.8955,
      "step": 91
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.296325653451658,
      "learning_rate": 9.796384874341643e-06,
      "loss": 0.8731,
      "step": 92
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.264882203381404,
      "learning_rate": 9.790394661914194e-06,
      "loss": 0.8788,
      "step": 93
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0978252424854067,
      "learning_rate": 9.784319493743576e-06,
      "loss": 0.8415,
      "step": 94
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2829083314019198,
      "learning_rate": 9.778159477570483e-06,
      "loss": 0.9018,
      "step": 95
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2586291926807105,
      "learning_rate": 9.771914722640345e-06,
      "loss": 0.9072,
      "step": 96
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1796963405145942,
      "learning_rate": 9.76558533970141e-06,
      "loss": 0.8726,
      "step": 97
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.306469482808402,
      "learning_rate": 9.759171441002766e-06,
      "loss": 0.9025,
      "step": 98
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2313395789612747,
      "learning_rate": 9.75267314029235e-06,
      "loss": 0.8555,
      "step": 99
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3784125721886025,
      "learning_rate": 9.746090552814944e-06,
      "loss": 0.8959,
      "step": 100
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3345787723484401,
      "learning_rate": 9.739423795310115e-06,
      "loss": 0.8818,
      "step": 101
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2453323910999627,
      "learning_rate": 9.732672986010157e-06,
      "loss": 0.9028,
      "step": 102
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2850929631258812,
      "learning_rate": 9.725838244637982e-06,
      "loss": 0.8962,
      "step": 103
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.257323570554658,
      "learning_rate": 9.718919692405014e-06,
      "loss": 0.8679,
      "step": 104
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1908601963221823,
      "learning_rate": 9.711917452009021e-06,
      "loss": 0.9098,
      "step": 105
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4435199482611327,
      "learning_rate": 9.704831647631951e-06,
      "loss": 0.8695,
      "step": 106
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2562296479791273,
      "learning_rate": 9.697662404937724e-06,
      "loss": 0.9202,
      "step": 107
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2710317483643663,
      "learning_rate": 9.690409851070009e-06,
      "loss": 0.9095,
      "step": 108
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0364322803097805,
      "learning_rate": 9.68307411464996e-06,
      "loss": 0.8897,
      "step": 109
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7483739299613759,
      "learning_rate": 9.675655325773943e-06,
      "loss": 0.872,
      "step": 110
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2668959871346073,
      "learning_rate": 9.66815361601123e-06,
      "loss": 0.905,
      "step": 111
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1308633342373222,
      "learning_rate": 9.660569118401656e-06,
      "loss": 0.9043,
      "step": 112
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.272143699055615,
      "learning_rate": 9.65290196745327e-06,
      "loss": 0.8669,
      "step": 113
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5486854453771295,
      "learning_rate": 9.64515229913994e-06,
      "loss": 0.8908,
      "step": 114
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3773680680248115,
      "learning_rate": 9.637320250898953e-06,
      "loss": 0.8752,
      "step": 115
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4237537841409098,
      "learning_rate": 9.629405961628568e-06,
      "loss": 0.9257,
      "step": 116
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.162885378975861,
      "learning_rate": 9.621409571685555e-06,
      "loss": 0.8581,
      "step": 117
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4262660718320415,
      "learning_rate": 9.61333122288271e-06,
      "loss": 0.8929,
      "step": 118
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3321707519752775,
      "learning_rate": 9.605171058486329e-06,
      "loss": 0.8715,
      "step": 119
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.220589676110642,
      "learning_rate": 9.596929223213685e-06,
      "loss": 0.9275,
      "step": 120
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8226230069534708,
      "learning_rate": 9.588605863230447e-06,
      "loss": 0.8913,
      "step": 121
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1686577144464307,
      "learning_rate": 9.58020112614809e-06,
      "loss": 0.8661,
      "step": 122
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4726816440981407,
      "learning_rate": 9.571715161021285e-06,
      "loss": 0.8741,
      "step": 123
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1893010742558143,
      "learning_rate": 9.563148118345242e-06,
      "loss": 0.8963,
      "step": 124
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1341800604331242,
      "learning_rate": 9.55450015005306e-06,
      "loss": 0.8872,
      "step": 125
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0555002605396062,
      "learning_rate": 9.545771409513012e-06,
      "loss": 0.8417,
      "step": 126
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2311976830107538,
      "learning_rate": 9.536962051525837e-06,
      "loss": 0.8598,
      "step": 127
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.226898171357091,
      "learning_rate": 9.528072232321996e-06,
      "loss": 0.8893,
      "step": 128
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2603976581878822,
      "learning_rate": 9.519102109558893e-06,
      "loss": 0.8824,
      "step": 129
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.188060037369501,
      "learning_rate": 9.510051842318089e-06,
      "loss": 0.8809,
      "step": 130
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2452630639374425,
      "learning_rate": 9.50092159110247e-06,
      "loss": 0.8778,
      "step": 131
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.344515264849714,
      "learning_rate": 9.49171151783341e-06,
      "loss": 0.8657,
      "step": 132
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2874467819022641,
      "learning_rate": 9.48242178584789e-06,
      "loss": 0.8662,
      "step": 133
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1720764172369453,
      "learning_rate": 9.473052559895615e-06,
      "loss": 0.8398,
      "step": 134
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2724997102438147,
      "learning_rate": 9.463604006136076e-06,
      "loss": 0.8691,
      "step": 135
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2157718055799869,
      "learning_rate": 9.454076292135615e-06,
      "loss": 0.8966,
      "step": 136
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2041736734636745,
      "learning_rate": 9.44446958686445e-06,
      "loss": 0.8315,
      "step": 137
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2873000337357716,
      "learning_rate": 9.434784060693671e-06,
      "loss": 0.8387,
      "step": 138
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1238231039137265,
      "learning_rate": 9.425019885392238e-06,
      "loss": 0.9066,
      "step": 139
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3605721992080366,
      "learning_rate": 9.41517723412391e-06,
      "loss": 0.9199,
      "step": 140
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2105376013486355,
      "learning_rate": 9.405256281444192e-06,
      "loss": 0.8621,
      "step": 141
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1508108761585434,
      "learning_rate": 9.395257203297232e-06,
      "loss": 0.8725,
      "step": 142
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3578283923073486,
      "learning_rate": 9.385180177012703e-06,
      "loss": 0.9158,
      "step": 143
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1901249895249055,
      "learning_rate": 9.375025381302656e-06,
      "loss": 0.8794,
      "step": 144
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2932679790426476,
      "learning_rate": 9.36479299625835e-06,
      "loss": 0.8719,
      "step": 145
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1658450769719235,
      "learning_rate": 9.354483203347066e-06,
      "loss": 0.9041,
      "step": 146
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1074333464226818,
      "learning_rate": 9.344096185408875e-06,
      "loss": 0.9061,
      "step": 147
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3904132378009597,
      "learning_rate": 9.333632126653412e-06,
      "loss": 0.8168,
      "step": 148
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3016771798542626,
      "learning_rate": 9.323091212656589e-06,
      "loss": 0.9129,
      "step": 149
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3787628224004695,
      "learning_rate": 9.312473630357326e-06,
      "loss": 0.8934,
      "step": 150
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.225566612536322,
      "learning_rate": 9.301779568054219e-06,
      "loss": 0.8483,
      "step": 151
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2125198119803513,
      "learning_rate": 9.291009215402204e-06,
      "loss": 0.8858,
      "step": 152
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1519000629696743,
      "learning_rate": 9.280162763409207e-06,
      "loss": 0.8435,
      "step": 153
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1552307028646323,
      "learning_rate": 9.269240404432732e-06,
      "loss": 0.852,
      "step": 154
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2118496637645362,
      "learning_rate": 9.258242332176473e-06,
      "loss": 0.8951,
      "step": 155
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3963015983530243,
      "learning_rate": 9.247168741686863e-06,
      "loss": 0.8546,
      "step": 156
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.309312245402273,
      "learning_rate": 9.236019829349623e-06,
      "loss": 0.8902,
      "step": 157
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3032791306057538,
      "learning_rate": 9.224795792886276e-06,
      "loss": 0.8645,
      "step": 158
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2500412045624514,
      "learning_rate": 9.213496831350647e-06,
      "loss": 0.8514,
      "step": 159
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.502113914941289,
      "learning_rate": 9.202123145125318e-06,
      "loss": 0.8812,
      "step": 160
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.179178003711897,
      "learning_rate": 9.190674935918092e-06,
      "loss": 0.8585,
      "step": 161
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.273869159733753,
      "learning_rate": 9.1791524067584e-06,
      "loss": 0.8649,
      "step": 162
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2314877134912634,
      "learning_rate": 9.167555761993716e-06,
      "loss": 0.8649,
      "step": 163
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3622037711073158,
      "learning_rate": 9.155885207285919e-06,
      "loss": 0.8668,
      "step": 164
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2546049124533816,
      "learning_rate": 9.14414094960765e-06,
      "loss": 0.8182,
      "step": 165
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.113434892192804,
      "learning_rate": 9.132323197238649e-06,
      "loss": 0.859,
      "step": 166
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7423410683870517,
      "learning_rate": 9.120432159762051e-06,
      "loss": 0.9227,
      "step": 167
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1368796798921579,
      "learning_rate": 9.108468048060675e-06,
      "loss": 0.8546,
      "step": 168
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.224122669035051,
      "learning_rate": 9.096431074313278e-06,
      "loss": 0.8319,
      "step": 169
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3637642569977657,
      "learning_rate": 9.084321451990804e-06,
      "loss": 0.884,
      "step": 170
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3239374587315518,
      "learning_rate": 9.072139395852582e-06,
      "loss": 0.8418,
      "step": 171
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.18034938438751,
      "learning_rate": 9.059885121942533e-06,
      "loss": 0.8471,
      "step": 172
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2432620846129294,
      "learning_rate": 9.04755884758533e-06,
      "loss": 0.895,
      "step": 173
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2124450178376394,
      "learning_rate": 9.03516079138254e-06,
      "loss": 0.8576,
      "step": 174
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2905752914519677,
      "learning_rate": 9.022691173208759e-06,
      "loss": 0.836,
      "step": 175
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1768633931424846,
      "learning_rate": 9.010150214207704e-06,
      "loss": 0.8324,
      "step": 176
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3781750954365992,
      "learning_rate": 8.997538136788291e-06,
      "loss": 0.8426,
      "step": 177
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.230640779663414,
      "learning_rate": 8.984855164620694e-06,
      "loss": 0.8679,
      "step": 178
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2255727503119238,
      "learning_rate": 8.97210152263238e-06,
      "loss": 0.85,
      "step": 179
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3100217977587998,
      "learning_rate": 8.959277437004114e-06,
      "loss": 0.89,
      "step": 180
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3085937284787819,
      "learning_rate": 8.94638313516595e-06,
      "loss": 0.8748,
      "step": 181
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.10287922354063,
      "learning_rate": 8.933418845793202e-06,
      "loss": 0.8553,
      "step": 182
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.27133597219518,
      "learning_rate": 8.920384798802384e-06,
      "loss": 0.8757,
      "step": 183
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6520106528813114,
      "learning_rate": 8.907281225347134e-06,
      "loss": 0.8242,
      "step": 184
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2525684796940382,
      "learning_rate": 8.894108357814107e-06,
      "loss": 0.8834,
      "step": 185
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2578480714177394,
      "learning_rate": 8.880866429818873e-06,
      "loss": 0.8633,
      "step": 186
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.723729927706631,
      "learning_rate": 8.867555676201753e-06,
      "loss": 0.8565,
      "step": 187
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5654752498240772,
      "learning_rate": 8.85417633302367e-06,
      "loss": 0.875,
      "step": 188
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1660030377875041,
      "learning_rate": 8.840728637561947e-06,
      "loss": 0.8172,
      "step": 189
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.304332990745047,
      "learning_rate": 8.827212828306111e-06,
      "loss": 0.8593,
      "step": 190
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5873586326273417,
      "learning_rate": 8.813629144953666e-06,
      "loss": 0.8656,
      "step": 191
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.173378431318532,
      "learning_rate": 8.799977828405826e-06,
      "loss": 0.8444,
      "step": 192
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3871104053810464,
      "learning_rate": 8.786259120763263e-06,
      "loss": 0.8551,
      "step": 193
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2616067480138016,
      "learning_rate": 8.772473265321794e-06,
      "loss": 0.8798,
      "step": 194
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.180462258223769,
      "learning_rate": 8.758620506568084e-06,
      "loss": 0.8514,
      "step": 195
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1530272269450472,
      "learning_rate": 8.74470109017529e-06,
      "loss": 0.8726,
      "step": 196
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1563346325065118,
      "learning_rate": 8.730715262998733e-06,
      "loss": 0.8617,
      "step": 197
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2336725498438685,
      "learning_rate": 8.716663273071484e-06,
      "loss": 0.814,
      "step": 198
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2605889115541364,
      "learning_rate": 8.702545369599997e-06,
      "loss": 0.8588,
      "step": 199
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.19906305613824,
      "learning_rate": 8.688361802959673e-06,
      "loss": 0.8849,
      "step": 200
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1538706074366336,
      "learning_rate": 8.674112824690419e-06,
      "loss": 0.8267,
      "step": 201
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.169788765403587,
      "learning_rate": 8.659798687492199e-06,
      "loss": 0.8593,
      "step": 202
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3244594230863784,
      "learning_rate": 8.645419645220538e-06,
      "loss": 0.8348,
      "step": 203
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1732992626263374,
      "learning_rate": 8.630975952882027e-06,
      "loss": 0.8246,
      "step": 204
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.297363781740773,
      "learning_rate": 8.616467866629808e-06,
      "loss": 0.835,
      "step": 205
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7609709518413195,
      "learning_rate": 8.601895643759014e-06,
      "loss": 0.8755,
      "step": 206
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5862887040904983,
      "learning_rate": 8.58725954270222e-06,
      "loss": 0.8726,
      "step": 207
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1935398277338376,
      "learning_rate": 8.572559823024853e-06,
      "loss": 0.866,
      "step": 208
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1834450572696433,
      "learning_rate": 8.557796745420592e-06,
      "loss": 0.8614,
      "step": 209
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1878168847959716,
      "learning_rate": 8.542970571706748e-06,
      "loss": 0.8799,
      "step": 210
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.354522490073717,
      "learning_rate": 8.528081564819608e-06,
      "loss": 0.8531,
      "step": 211
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.317765104330031,
      "learning_rate": 8.513129988809787e-06,
      "loss": 0.8459,
      "step": 212
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3118174417979898,
      "learning_rate": 8.498116108837533e-06,
      "loss": 0.8922,
      "step": 213
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1131070658330877,
      "learning_rate": 8.483040191168037e-06,
      "loss": 0.8812,
      "step": 214
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2336386228496021,
      "learning_rate": 8.467902503166698e-06,
      "loss": 0.8282,
      "step": 215
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4586312090220346,
      "learning_rate": 8.45270331329439e-06,
      "loss": 0.8635,
      "step": 216
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3656966584287829,
      "learning_rate": 8.437442891102696e-06,
      "loss": 0.8877,
      "step": 217
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3937380322780935,
      "learning_rate": 8.42212150722913e-06,
      "loss": 0.8282,
      "step": 218
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.22224963815494,
      "learning_rate": 8.406739433392343e-06,
      "loss": 0.8424,
      "step": 219
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6065974227695905,
      "learning_rate": 8.391296942387293e-06,
      "loss": 0.8572,
      "step": 220
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3023080745688278,
      "learning_rate": 8.37579430808041e-06,
      "loss": 0.8362,
      "step": 221
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2324977420758008,
      "learning_rate": 8.360231805404745e-06,
      "loss": 0.8589,
      "step": 222
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4254937288107534,
      "learning_rate": 8.344609710355092e-06,
      "loss": 0.8644,
      "step": 223
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2762189341727412,
      "learning_rate": 8.32892829998309e-06,
      "loss": 0.8759,
      "step": 224
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.212162649007418,
      "learning_rate": 8.313187852392314e-06,
      "loss": 0.8318,
      "step": 225
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2879599902194216,
      "learning_rate": 8.297388646733335e-06,
      "loss": 0.8668,
      "step": 226
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2284347722023181,
      "learning_rate": 8.281530963198782e-06,
      "loss": 0.8455,
      "step": 227
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3556686197816876,
      "learning_rate": 8.26561508301836e-06,
      "loss": 0.8212,
      "step": 228
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.391929292166319,
      "learning_rate": 8.249641288453872e-06,
      "loss": 0.8788,
      "step": 229
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.4586892421492013,
      "learning_rate": 8.23360986279421e-06,
      "loss": 0.8261,
      "step": 230
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2170746219562474,
      "learning_rate": 8.217521090350326e-06,
      "loss": 0.8421,
      "step": 231
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.218271614680763,
      "learning_rate": 8.201375256450198e-06,
      "loss": 0.883,
      "step": 232
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4799501574669076,
      "learning_rate": 8.185172647433766e-06,
      "loss": 0.87,
      "step": 233
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.400079191714797,
      "learning_rate": 8.168913550647855e-06,
      "loss": 0.8373,
      "step": 234
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1669396201944626,
      "learning_rate": 8.152598254441076e-06,
      "loss": 0.847,
      "step": 235
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.195621110624864,
      "learning_rate": 8.136227048158716e-06,
      "loss": 0.8601,
      "step": 236
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2953519903155755,
      "learning_rate": 8.1198002221376e-06,
      "loss": 0.8441,
      "step": 237
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6326150827119306,
      "learning_rate": 8.103318067700957e-06,
      "loss": 0.8448,
      "step": 238
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0961196527359565,
      "learning_rate": 8.086780877153233e-06,
      "loss": 0.8268,
      "step": 239
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4247422383868384,
      "learning_rate": 8.070188943774921e-06,
      "loss": 0.8115,
      "step": 240
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2240799976807206,
      "learning_rate": 8.053542561817364e-06,
      "loss": 0.8047,
      "step": 241
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1148459295674251,
      "learning_rate": 8.036842026497515e-06,
      "loss": 0.7947,
      "step": 242
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3046439821028708,
      "learning_rate": 8.020087633992729e-06,
      "loss": 0.8596,
      "step": 243
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3923522847308203,
      "learning_rate": 8.003279681435483e-06,
      "loss": 0.8815,
      "step": 244
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.279395243287966,
      "learning_rate": 7.986418466908133e-06,
      "loss": 0.8218,
      "step": 245
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.305938895131756,
      "learning_rate": 7.969504289437607e-06,
      "loss": 0.8653,
      "step": 246
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2194222921731876,
      "learning_rate": 7.952537448990114e-06,
      "loss": 0.8413,
      "step": 247
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3454506997775046,
      "learning_rate": 7.935518246465815e-06,
      "loss": 0.8556,
      "step": 248
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2952291235408084,
      "learning_rate": 7.918446983693498e-06,
      "loss": 0.869,
      "step": 249
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2459907150930951,
      "learning_rate": 7.901323963425213e-06,
      "loss": 0.8427,
      "step": 250
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2147661517452935,
      "learning_rate": 7.884149489330912e-06,
      "loss": 0.832,
      "step": 251
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1668831211471047,
      "learning_rate": 7.866923865993057e-06,
      "loss": 0.8734,
      "step": 252
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4995150707097251,
      "learning_rate": 7.849647398901227e-06,
      "loss": 0.8809,
      "step": 253
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1424611915270306,
      "learning_rate": 7.832320394446688e-06,
      "loss": 0.8384,
      "step": 254
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2621218740072504,
      "learning_rate": 7.814943159916974e-06,
      "loss": 0.8465,
      "step": 255
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.273110955180023,
      "learning_rate": 7.797516003490421e-06,
      "loss": 0.8253,
      "step": 256
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3313009954548312,
      "learning_rate": 7.780039234230714e-06,
      "loss": 0.8794,
      "step": 257
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5759780161169947,
      "learning_rate": 7.762513162081402e-06,
      "loss": 0.8649,
      "step": 258
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.812796559030521,
      "learning_rate": 7.7449380978604e-06,
      "loss": 0.8065,
      "step": 259
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3596453509876505,
      "learning_rate": 7.727314353254482e-06,
      "loss": 0.8655,
      "step": 260
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1898419559244204,
      "learning_rate": 7.709642240813742e-06,
      "loss": 0.8415,
      "step": 261
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3500754898160217,
      "learning_rate": 7.691922073946063e-06,
      "loss": 0.853,
      "step": 262
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1504817003231094,
      "learning_rate": 7.674154166911553e-06,
      "loss": 0.8793,
      "step": 263
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2590688573293491,
      "learning_rate": 7.656338834816976e-06,
      "loss": 0.8715,
      "step": 264
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2651292489923993,
      "learning_rate": 7.638476393610155e-06,
      "loss": 0.8388,
      "step": 265
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3571956680408448,
      "learning_rate": 7.620567160074377e-06,
      "loss": 0.8849,
      "step": 266
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.552153053502718,
      "learning_rate": 7.602611451822775e-06,
      "loss": 0.8586,
      "step": 267
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5020758017980491,
      "learning_rate": 7.584609587292686e-06,
      "loss": 0.8817,
      "step": 268
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.329746891781287,
      "learning_rate": 7.566561885740019e-06,
      "loss": 0.8723,
      "step": 269
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1578631093841143,
      "learning_rate": 7.548468667233576e-06,
      "loss": 0.8455,
      "step": 270
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1032924408612441,
      "learning_rate": 7.5303302526493894e-06,
      "loss": 0.8342,
      "step": 271
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.564083216357106,
      "learning_rate": 7.512146963665023e-06,
      "loss": 0.8263,
      "step": 272
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2052297883957035,
      "learning_rate": 7.493919122753873e-06,
      "loss": 0.8385,
      "step": 273
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1808734641861955,
      "learning_rate": 7.475647053179444e-06,
      "loss": 0.8514,
      "step": 274
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.401160272277566,
      "learning_rate": 7.457331078989619e-06,
      "loss": 0.8467,
      "step": 275
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1227772209522688,
      "learning_rate": 7.438971525010914e-06,
      "loss": 0.8692,
      "step": 276
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.370076448447391,
      "learning_rate": 7.420568716842711e-06,
      "loss": 0.8432,
      "step": 277
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.244630228546123,
      "learning_rate": 7.402122980851491e-06,
      "loss": 0.8583,
      "step": 278
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.27669216892998,
      "learning_rate": 7.383634644165041e-06,
      "loss": 0.8712,
      "step": 279
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.553980990671672,
      "learning_rate": 7.365104034666657e-06,
      "loss": 0.8197,
      "step": 280
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.187131952435461,
      "learning_rate": 7.346531480989325e-06,
      "loss": 0.8434,
      "step": 281
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.8707182730243352,
      "learning_rate": 7.327917312509893e-06,
      "loss": 0.847,
      "step": 282
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4802799795263466,
      "learning_rate": 7.309261859343233e-06,
      "loss": 0.8184,
      "step": 283
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2194638672966402,
      "learning_rate": 7.290565452336382e-06,
      "loss": 0.8264,
      "step": 284
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.228307425661477,
      "learning_rate": 7.27182842306268e-06,
      "loss": 0.8445,
      "step": 285
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.330130601732375,
      "learning_rate": 7.253051103815887e-06,
      "loss": 0.8487,
      "step": 286
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2351793793938697,
      "learning_rate": 7.234233827604285e-06,
      "loss": 0.8315,
      "step": 287
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4996469832250112,
      "learning_rate": 7.215376928144783e-06,
      "loss": 0.8522,
      "step": 288
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2552008111918165,
      "learning_rate": 7.196480739856988e-06,
      "loss": 0.8163,
      "step": 289
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.502543788757623,
      "learning_rate": 7.177545597857279e-06,
      "loss": 0.8441,
      "step": 290
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.494129590625939,
      "learning_rate": 7.158571837952867e-06,
      "loss": 0.8256,
      "step": 291
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1732463644816806,
      "learning_rate": 7.139559796635833e-06,
      "loss": 0.8545,
      "step": 292
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2940044086310112,
      "learning_rate": 7.120509811077164e-06,
      "loss": 0.8436,
      "step": 293
    },
    {
      "epoch": 0.38,
      "grad_norm": 2.587490092215707,
      "learning_rate": 7.101422219120774e-06,
      "loss": 0.8492,
      "step": 294
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2525502879285224,
      "learning_rate": 7.082297359277513e-06,
      "loss": 0.8355,
      "step": 295
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2154301868677129,
      "learning_rate": 7.0631355707191575e-06,
      "loss": 0.864,
      "step": 296
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.509297691003082,
      "learning_rate": 7.043937193272405e-06,
      "loss": 0.8535,
      "step": 297
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.560282341886913,
      "learning_rate": 7.024702567412839e-06,
      "loss": 0.8415,
      "step": 298
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.215819914432597,
      "learning_rate": 7.0054320342588954e-06,
      "loss": 0.8307,
      "step": 299
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4363490411881552,
      "learning_rate": 6.986125935565813e-06,
      "loss": 0.8635,
      "step": 300
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.252680452931007,
      "learning_rate": 6.966784613719568e-06,
      "loss": 0.8187,
      "step": 301
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.147759930914122,
      "learning_rate": 6.94740841173081e-06,
      "loss": 0.855,
      "step": 302
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2481611069144203,
      "learning_rate": 6.927997673228766e-06,
      "loss": 0.88,
      "step": 303
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1605598358791287,
      "learning_rate": 6.908552742455167e-06,
      "loss": 0.8238,
      "step": 304
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.150740940595073,
      "learning_rate": 6.889073964258116e-06,
      "loss": 0.8416,
      "step": 305
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1875419366249447,
      "learning_rate": 6.869561684085998e-06,
      "loss": 0.861,
      "step": 306
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.117161313240673,
      "learning_rate": 6.850016247981335e-06,
      "loss": 0.8187,
      "step": 307
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.178563333637316,
      "learning_rate": 6.83043800257466e-06,
      "loss": 0.8637,
      "step": 308
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4846187498958823,
      "learning_rate": 6.810827295078365e-06,
      "loss": 0.8084,
      "step": 309
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2242229357089285,
      "learning_rate": 6.791184473280542e-06,
      "loss": 0.8452,
      "step": 310
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3028754268878384,
      "learning_rate": 6.771509885538823e-06,
      "loss": 0.8158,
      "step": 311
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1123018120100558,
      "learning_rate": 6.7518038807741915e-06,
      "loss": 0.8729,
      "step": 312
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1932793058105855,
      "learning_rate": 6.7320668084648e-06,
      "loss": 0.8522,
      "step": 313
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1640197426308538,
      "learning_rate": 6.712299018639772e-06,
      "loss": 0.8811,
      "step": 314
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2756920346871423,
      "learning_rate": 6.692500861872996e-06,
      "loss": 0.8499,
      "step": 315
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2063462879314655,
      "learning_rate": 6.672672689276902e-06,
      "loss": 0.8401,
      "step": 316
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4598555490832712,
      "learning_rate": 6.652814852496242e-06,
      "loss": 0.8271,
      "step": 317
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0938343281591207,
      "learning_rate": 6.6329277037018505e-06,
      "loss": 0.8206,
      "step": 318
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.225705583990496,
      "learning_rate": 6.6130115955843975e-06,
      "loss": 0.862,
      "step": 319
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2180868955960955,
      "learning_rate": 6.593066881348133e-06,
      "loss": 0.8253,
      "step": 320
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.213674446057375,
      "learning_rate": 6.573093914704633e-06,
      "loss": 0.833,
      "step": 321
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2175598412319608,
      "learning_rate": 6.553093049866509e-06,
      "loss": 0.863,
      "step": 322
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.8426677722391969,
      "learning_rate": 6.533064641541142e-06,
      "loss": 0.8585,
      "step": 323
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1805886991608463,
      "learning_rate": 6.513009044924384e-06,
      "loss": 0.8604,
      "step": 324
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1638818327339862,
      "learning_rate": 6.492926615694262e-06,
      "loss": 0.8624,
      "step": 325
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1190056074940464,
      "learning_rate": 6.472817710004664e-06,
      "loss": 0.8318,
      "step": 326
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4703765166977123,
      "learning_rate": 6.452682684479032e-06,
      "loss": 0.8659,
      "step": 327
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1488809794920523,
      "learning_rate": 6.432521896204035e-06,
      "loss": 0.8133,
      "step": 328
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2077971564958,
      "learning_rate": 6.412335702723224e-06,
      "loss": 0.8488,
      "step": 329
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.335953923852408,
      "learning_rate": 6.392124462030715e-06,
      "loss": 0.8209,
      "step": 330
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.239560657787868,
      "learning_rate": 6.371888532564817e-06,
      "loss": 0.8582,
      "step": 331
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.123443909247595,
      "learning_rate": 6.351628273201687e-06,
      "loss": 0.8522,
      "step": 332
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1930390364093206,
      "learning_rate": 6.331344043248961e-06,
      "loss": 0.8612,
      "step": 333
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1651674600359125,
      "learning_rate": 6.311036202439388e-06,
      "loss": 0.8141,
      "step": 334
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.827712401238591,
      "learning_rate": 6.290705110924442e-06,
      "loss": 0.8257,
      "step": 335
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1730736711077356,
      "learning_rate": 6.270351129267944e-06,
      "loss": 0.809,
      "step": 336
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2321894607586943,
      "learning_rate": 6.249974618439657e-06,
      "loss": 0.865,
      "step": 337
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2508419001037108,
      "learning_rate": 6.229575939808893e-06,
      "loss": 0.858,
      "step": 338
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1664795356123143,
      "learning_rate": 6.209155455138102e-06,
      "loss": 0.8473,
      "step": 339
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1058463932196927,
      "learning_rate": 6.188713526576452e-06,
      "loss": 0.827,
      "step": 340
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5948496072571947,
      "learning_rate": 6.1682505166534134e-06,
      "loss": 0.8441,
      "step": 341
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.123050976281229,
      "learning_rate": 6.1477667882723245e-06,
      "loss": 0.824,
      "step": 342
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1179511468396548,
      "learning_rate": 6.127262704703956e-06,
      "loss": 0.8116,
      "step": 343
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.448611313915091,
      "learning_rate": 6.106738629580073e-06,
      "loss": 0.8133,
      "step": 344
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4292078314595598,
      "learning_rate": 6.0861949268869814e-06,
      "loss": 0.8445,
      "step": 345
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1799038394669346,
      "learning_rate": 6.065631960959072e-06,
      "loss": 0.8298,
      "step": 346
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2343005419584467,
      "learning_rate": 6.045050096472363e-06,
      "loss": 0.874,
      "step": 347
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.133793942853395,
      "learning_rate": 6.024449698438033e-06,
      "loss": 0.8373,
      "step": 348
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1482697304859235,
      "learning_rate": 6.003831132195943e-06,
      "loss": 0.8291,
      "step": 349
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0714069634839316,
      "learning_rate": 5.983194763408161e-06,
      "loss": 0.8038,
      "step": 350
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.189866180029149,
      "learning_rate": 5.962540958052478e-06,
      "loss": 0.8369,
      "step": 351
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.151937951000298,
      "learning_rate": 5.94187008241591e-06,
      "loss": 0.8724,
      "step": 352
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1885630504841458,
      "learning_rate": 5.921182503088212e-06,
      "loss": 0.8363,
      "step": 353
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2563198905659214,
      "learning_rate": 5.900478586955374e-06,
      "loss": 0.8414,
      "step": 354
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0903183738957514,
      "learning_rate": 5.879758701193108e-06,
      "loss": 0.8104,
      "step": 355
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3514303801827983,
      "learning_rate": 5.8590232132603444e-06,
      "loss": 0.8723,
      "step": 356
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.385355867796163,
      "learning_rate": 5.838272490892708e-06,
      "loss": 0.8155,
      "step": 357
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4230336181646532,
      "learning_rate": 5.817506902096007e-06,
      "loss": 0.8227,
      "step": 358
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.292768981531148,
      "learning_rate": 5.796726815139695e-06,
      "loss": 0.8571,
      "step": 359
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2735642058681054,
      "learning_rate": 5.7759325985503435e-06,
      "loss": 0.8342,
      "step": 360
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2086676089354491,
      "learning_rate": 5.755124621105111e-06,
      "loss": 0.8496,
      "step": 361
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.244245262090597,
      "learning_rate": 5.734303251825198e-06,
      "loss": 0.8257,
      "step": 362
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0803631521753734,
      "learning_rate": 5.713468859969301e-06,
      "loss": 0.813,
      "step": 363
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1478802532788033,
      "learning_rate": 5.6926218150270716e-06,
      "loss": 0.8022,
      "step": 364
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9961671906693075,
      "learning_rate": 5.671762486712557e-06,
      "loss": 0.8405,
      "step": 365
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1541301819630243,
      "learning_rate": 5.650891244957644e-06,
      "loss": 0.8289,
      "step": 366
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1824673976498992,
      "learning_rate": 5.630008459905498e-06,
      "loss": 0.8413,
      "step": 367
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2250269994788847,
      "learning_rate": 5.609114501904006e-06,
      "loss": 0.8447,
      "step": 368
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.16055884464047,
      "learning_rate": 5.588209741499196e-06,
      "loss": 0.8173,
      "step": 369
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1285506194740014,
      "learning_rate": 5.567294549428678e-06,
      "loss": 0.8435,
      "step": 370
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3319483590214511,
      "learning_rate": 5.54636929661506e-06,
      "loss": 0.8393,
      "step": 371
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1399581144803144,
      "learning_rate": 5.525434354159374e-06,
      "loss": 0.8383,
      "step": 372
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2097290183876572,
      "learning_rate": 5.504490093334493e-06,
      "loss": 0.8489,
      "step": 373
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.352780644899712,
      "learning_rate": 5.48353688557855e-06,
      "loss": 0.8643,
      "step": 374
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2582400293178824,
      "learning_rate": 5.462575102488348e-06,
      "loss": 0.805,
      "step": 375
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.574728499559222,
      "learning_rate": 5.441605115812767e-06,
      "loss": 0.8594,
      "step": 376
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.829195542286078,
      "learning_rate": 5.420627297446179e-06,
      "loss": 0.8765,
      "step": 377
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0805397201337004,
      "learning_rate": 5.399642019421844e-06,
      "loss": 0.8453,
      "step": 378
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2382172071093036,
      "learning_rate": 5.378649653905316e-06,
      "loss": 0.8332,
      "step": 379
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1809812345716155,
      "learning_rate": 5.357650573187847e-06,
      "loss": 0.8254,
      "step": 380
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1932829048262574,
      "learning_rate": 5.336645149679775e-06,
      "loss": 0.8231,
      "step": 381
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3006622982723932,
      "learning_rate": 5.315633755903931e-06,
      "loss": 0.8341,
      "step": 382
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1773771127758201,
      "learning_rate": 5.294616764489018e-06,
      "loss": 0.82,
      "step": 383
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.120358554988103,
      "learning_rate": 5.27359454816302e-06,
      "loss": 0.8183,
      "step": 384
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1479966317416317,
      "learning_rate": 5.252567479746577e-06,
      "loss": 0.8504,
      "step": 385
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7373144722386622,
      "learning_rate": 5.231535932146382e-06,
      "loss": 0.8293,
      "step": 386
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2159912654625296,
      "learning_rate": 5.210500278348561e-06,
      "loss": 0.828,
      "step": 387
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2134302086400865,
      "learning_rate": 5.1894608914120635e-06,
      "loss": 0.8645,
      "step": 388
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0591258858274246,
      "learning_rate": 5.168418144462046e-06,
      "loss": 0.8164,
      "step": 389
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2186717818024067,
      "learning_rate": 5.147372410683252e-06,
      "loss": 0.8476,
      "step": 390
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1213501657531966,
      "learning_rate": 5.126324063313397e-06,
      "loss": 0.8663,
      "step": 391
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4491273350649847,
      "learning_rate": 5.105273475636545e-06,
      "loss": 0.8525,
      "step": 392
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.159514917414318,
      "learning_rate": 5.084221020976491e-06,
      "loss": 0.8317,
      "step": 393
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1877065524083912,
      "learning_rate": 5.063167072690144e-06,
      "loss": 0.8363,
      "step": 394
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0824757433851597,
      "learning_rate": 5.042112004160898e-06,
      "loss": 0.8384,
      "step": 395
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1452248714301483,
      "learning_rate": 5.021056188792014e-06,
      "loss": 0.8789,
      "step": 396
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1364607148991899,
      "learning_rate": 5e-06,
      "loss": 0.8524,
      "step": 397
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1839720849840152,
      "learning_rate": 4.978943811207988e-06,
      "loss": 0.8741,
      "step": 398
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5936600484839722,
      "learning_rate": 4.957887995839104e-06,
      "loss": 0.8254,
      "step": 399
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0926397681862798,
      "learning_rate": 4.936832927309858e-06,
      "loss": 0.8252,
      "step": 400
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0770992635214238,
      "learning_rate": 4.915778979023511e-06,
      "loss": 0.8048,
      "step": 401
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3714502182024384,
      "learning_rate": 4.894726524363456e-06,
      "loss": 0.8148,
      "step": 402
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1328097681910083,
      "learning_rate": 4.873675936686604e-06,
      "loss": 0.8155,
      "step": 403
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1731809825959303,
      "learning_rate": 4.852627589316749e-06,
      "loss": 0.8593,
      "step": 404
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.049090459083091,
      "learning_rate": 4.831581855537955e-06,
      "loss": 0.8239,
      "step": 405
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0993193737486686,
      "learning_rate": 4.810539108587938e-06,
      "loss": 0.8425,
      "step": 406
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1941858463970723,
      "learning_rate": 4.789499721651441e-06,
      "loss": 0.8411,
      "step": 407
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1456952108338223,
      "learning_rate": 4.76846406785362e-06,
      "loss": 0.8074,
      "step": 408
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1787915666433677,
      "learning_rate": 4.747432520253424e-06,
      "loss": 0.8203,
      "step": 409
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3051379948424053,
      "learning_rate": 4.726405451836982e-06,
      "loss": 0.8447,
      "step": 410
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1233484298047998,
      "learning_rate": 4.705383235510984e-06,
      "loss": 0.8301,
      "step": 411
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0834579202868906,
      "learning_rate": 4.684366244096072e-06,
      "loss": 0.8429,
      "step": 412
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1507289567364096,
      "learning_rate": 4.663354850320226e-06,
      "loss": 0.8594,
      "step": 413
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1908348320197186,
      "learning_rate": 4.642349426812155e-06,
      "loss": 0.8214,
      "step": 414
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2504470609063638,
      "learning_rate": 4.621350346094685e-06,
      "loss": 0.8131,
      "step": 415
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.0624917538169445,
      "learning_rate": 4.600357980578158e-06,
      "loss": 0.8468,
      "step": 416
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3297179381863848,
      "learning_rate": 4.579372702553822e-06,
      "loss": 0.7982,
      "step": 417
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.246901494601956,
      "learning_rate": 4.558394884187234e-06,
      "loss": 0.8227,
      "step": 418
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.151150781962948,
      "learning_rate": 4.537424897511654e-06,
      "loss": 0.8338,
      "step": 419
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1660907114296764,
      "learning_rate": 4.516463114421452e-06,
      "loss": 0.8159,
      "step": 420
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7766157190258682,
      "learning_rate": 4.495509906665508e-06,
      "loss": 0.8345,
      "step": 421
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1857385105788216,
      "learning_rate": 4.474565645840629e-06,
      "loss": 0.8233,
      "step": 422
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2264446822967827,
      "learning_rate": 4.453630703384942e-06,
      "loss": 0.8468,
      "step": 423
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.264976558078766,
      "learning_rate": 4.432705450571323e-06,
      "loss": 0.8165,
      "step": 424
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1222621762765579,
      "learning_rate": 4.411790258500805e-06,
      "loss": 0.8184,
      "step": 425
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2233198012545898,
      "learning_rate": 4.390885498095996e-06,
      "loss": 0.8601,
      "step": 426
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1030451313547371,
      "learning_rate": 4.369991540094503e-06,
      "loss": 0.8259,
      "step": 427
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2243881638199383,
      "learning_rate": 4.3491087550423585e-06,
      "loss": 0.8308,
      "step": 428
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2802454455900687,
      "learning_rate": 4.328237513287444e-06,
      "loss": 0.8273,
      "step": 429
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5883389737605764,
      "learning_rate": 4.3073781849729276e-06,
      "loss": 0.793,
      "step": 430
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.151105984490431,
      "learning_rate": 4.286531140030699e-06,
      "loss": 0.7827,
      "step": 431
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2218234503282421,
      "learning_rate": 4.265696748174803e-06,
      "loss": 0.819,
      "step": 432
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.140797795358718,
      "learning_rate": 4.2448753788948895e-06,
      "loss": 0.8087,
      "step": 433
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0760664395492803,
      "learning_rate": 4.2240674014496565e-06,
      "loss": 0.8267,
      "step": 434
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1139625369896868,
      "learning_rate": 4.203273184860306e-06,
      "loss": 0.8008,
      "step": 435
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4018290508347282,
      "learning_rate": 4.1824930979039926e-06,
      "loss": 0.8546,
      "step": 436
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4091864309994824,
      "learning_rate": 4.161727509107292e-06,
      "loss": 0.7943,
      "step": 437
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1324871046006824,
      "learning_rate": 4.140976786739658e-06,
      "loss": 0.7966,
      "step": 438
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6224874962550682,
      "learning_rate": 4.120241298806893e-06,
      "loss": 0.8261,
      "step": 439
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.272631877145078,
      "learning_rate": 4.099521413044627e-06,
      "loss": 0.7966,
      "step": 440
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1425226366031473,
      "learning_rate": 4.078817496911788e-06,
      "loss": 0.8261,
      "step": 441
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4359985462900144,
      "learning_rate": 4.058129917584091e-06,
      "loss": 0.8568,
      "step": 442
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0753954087608588,
      "learning_rate": 4.037459041947523e-06,
      "loss": 0.8217,
      "step": 443
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2692450418319305,
      "learning_rate": 4.016805236591839e-06,
      "loss": 0.8673,
      "step": 444
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1195139212914398,
      "learning_rate": 3.996168867804058e-06,
      "loss": 0.7953,
      "step": 445
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3678518854634432,
      "learning_rate": 3.975550301561968e-06,
      "loss": 0.8095,
      "step": 446
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1569918654905087,
      "learning_rate": 3.9549499035276375e-06,
      "loss": 0.8733,
      "step": 447
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1854799970605574,
      "learning_rate": 3.934368039040929e-06,
      "loss": 0.8126,
      "step": 448
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3730103333668784,
      "learning_rate": 3.9138050731130185e-06,
      "loss": 0.8309,
      "step": 449
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1140616423192409,
      "learning_rate": 3.893261370419927e-06,
      "loss": 0.8065,
      "step": 450
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4052106203909946,
      "learning_rate": 3.872737295296044e-06,
      "loss": 0.8248,
      "step": 451
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1758315380501903,
      "learning_rate": 3.852233211727676e-06,
      "loss": 0.8342,
      "step": 452
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4482783731512796,
      "learning_rate": 3.8317494833465865e-06,
      "loss": 0.8264,
      "step": 453
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0844929617557844,
      "learning_rate": 3.811286473423549e-06,
      "loss": 0.8268,
      "step": 454
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.152076315782049,
      "learning_rate": 3.7908445448618992e-06,
      "loss": 0.8079,
      "step": 455
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1935228824138842,
      "learning_rate": 3.7704240601911075e-06,
      "loss": 0.8202,
      "step": 456
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1813858261394568,
      "learning_rate": 3.7500253815603442e-06,
      "loss": 0.8646,
      "step": 457
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2716301549560993,
      "learning_rate": 3.729648870732058e-06,
      "loss": 0.8167,
      "step": 458
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.177945879650482,
      "learning_rate": 3.7092948890755577e-06,
      "loss": 0.8678,
      "step": 459
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.214019403562676,
      "learning_rate": 3.688963797560615e-06,
      "loss": 0.8327,
      "step": 460
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.636773329857946,
      "learning_rate": 3.6686559567510417e-06,
      "loss": 0.824,
      "step": 461
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0666034783382468,
      "learning_rate": 3.648371726798316e-06,
      "loss": 0.7909,
      "step": 462
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.361459612074104,
      "learning_rate": 3.6281114674351846e-06,
      "loss": 0.8477,
      "step": 463
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6122680059960277,
      "learning_rate": 3.6078755379692855e-06,
      "loss": 0.8425,
      "step": 464
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1605817366410531,
      "learning_rate": 3.587664297276776e-06,
      "loss": 0.8335,
      "step": 465
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5046134018346586,
      "learning_rate": 3.5674781037959683e-06,
      "loss": 0.7833,
      "step": 466
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0563278373051415,
      "learning_rate": 3.5473173155209694e-06,
      "loss": 0.799,
      "step": 467
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0755240081794408,
      "learning_rate": 3.527182289995339e-06,
      "loss": 0.8536,
      "step": 468
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1146568468192999,
      "learning_rate": 3.5070733843057415e-06,
      "loss": 0.8271,
      "step": 469
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2145240314146524,
      "learning_rate": 3.4869909550756177e-06,
      "loss": 0.8215,
      "step": 470
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1149256639601721,
      "learning_rate": 3.4669353584588606e-06,
      "loss": 0.8287,
      "step": 471
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2796860456730539,
      "learning_rate": 3.4469069501334932e-06,
      "loss": 0.8484,
      "step": 472
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.073005938552458,
      "learning_rate": 3.426906085295369e-06,
      "loss": 0.8355,
      "step": 473
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1930321678421913,
      "learning_rate": 3.4069331186518677e-06,
      "loss": 0.8197,
      "step": 474
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1883434410680984,
      "learning_rate": 3.3869884044156054e-06,
      "loss": 0.7895,
      "step": 475
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3604734593340317,
      "learning_rate": 3.3670722962981516e-06,
      "loss": 0.8288,
      "step": 476
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0748441692901816,
      "learning_rate": 3.3471851475037596e-06,
      "loss": 0.8449,
      "step": 477
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0860864001092179,
      "learning_rate": 3.3273273107231007e-06,
      "loss": 0.8468,
      "step": 478
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1203049509506295,
      "learning_rate": 3.3074991381270072e-06,
      "loss": 0.7999,
      "step": 479
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0833871352844642,
      "learning_rate": 3.28770098136023e-06,
      "loss": 0.7806,
      "step": 480
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.143657532263609,
      "learning_rate": 3.2679331915352023e-06,
      "loss": 0.8364,
      "step": 481
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0808130722425977,
      "learning_rate": 3.248196119225811e-06,
      "loss": 0.8162,
      "step": 482
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5790710971517254,
      "learning_rate": 3.228490114461178e-06,
      "loss": 0.7935,
      "step": 483
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2311619644001286,
      "learning_rate": 3.2088155267194586e-06,
      "loss": 0.7944,
      "step": 484
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.282202384930966,
      "learning_rate": 3.1891727049216375e-06,
      "loss": 0.8352,
      "step": 485
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4793811130434844,
      "learning_rate": 3.169561997425342e-06,
      "loss": 0.822,
      "step": 486
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1796102209432577,
      "learning_rate": 3.1499837520186676e-06,
      "loss": 0.8111,
      "step": 487
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1580009886459264,
      "learning_rate": 3.130438315914005e-06,
      "loss": 0.8148,
      "step": 488
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0446124399556485,
      "learning_rate": 3.110926035741886e-06,
      "loss": 0.8328,
      "step": 489
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.651469788442752,
      "learning_rate": 3.091447257544836e-06,
      "loss": 0.8243,
      "step": 490
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5532921877403698,
      "learning_rate": 3.072002326771235e-06,
      "loss": 0.8522,
      "step": 491
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1116055858154035,
      "learning_rate": 3.0525915882691923e-06,
      "loss": 0.8214,
      "step": 492
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1956196368057803,
      "learning_rate": 3.0332153862804324e-06,
      "loss": 0.8314,
      "step": 493
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1689114541431895,
      "learning_rate": 3.0138740644341887e-06,
      "loss": 0.8838,
      "step": 494
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.248229372898906,
      "learning_rate": 2.9945679657411054e-06,
      "loss": 0.8347,
      "step": 495
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1078504742591242,
      "learning_rate": 2.9752974325871625e-06,
      "loss": 0.8227,
      "step": 496
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1900434139705938,
      "learning_rate": 2.9560628067275966e-06,
      "loss": 0.8188,
      "step": 497
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3818403864096889,
      "learning_rate": 2.9368644292808433e-06,
      "loss": 0.8107,
      "step": 498
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.149364405276468,
      "learning_rate": 2.917702640722488e-06,
      "loss": 0.8319,
      "step": 499
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1033046148197456,
      "learning_rate": 2.898577780879227e-06,
      "loss": 0.8056,
      "step": 500
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4667019536685615,
      "learning_rate": 2.879490188922837e-06,
      "loss": 0.8301,
      "step": 501
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0975707519773683,
      "learning_rate": 2.86044020336417e-06,
      "loss": 0.8436,
      "step": 502
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.124374118696095,
      "learning_rate": 2.8414281620471347e-06,
      "loss": 0.8468,
      "step": 503
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.858826654639766,
      "learning_rate": 2.8224544021427234e-06,
      "loss": 0.8187,
      "step": 504
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0707690364920266,
      "learning_rate": 2.803519260143014e-06,
      "loss": 0.7986,
      "step": 505
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4117752904872918,
      "learning_rate": 2.784623071855217e-06,
      "loss": 0.8525,
      "step": 506
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.127786410455673,
      "learning_rate": 2.765766172395716e-06,
      "loss": 0.8042,
      "step": 507
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.7330464613002825,
      "learning_rate": 2.746948896184114e-06,
      "loss": 0.8447,
      "step": 508
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2899602920949957,
      "learning_rate": 2.7281715769373205e-06,
      "loss": 0.854,
      "step": 509
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1424757403756332,
      "learning_rate": 2.7094345476636185e-06,
      "loss": 0.8148,
      "step": 510
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2199975615104413,
      "learning_rate": 2.6907381406567696e-06,
      "loss": 0.8014,
      "step": 511
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1194583712399984,
      "learning_rate": 2.6720826874901083e-06,
      "loss": 0.8419,
      "step": 512
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.16983949626066,
      "learning_rate": 2.653468519010677e-06,
      "loss": 0.8181,
      "step": 513
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1476527120151712,
      "learning_rate": 2.634895965333344e-06,
      "loss": 0.8038,
      "step": 514
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2383972572556945,
      "learning_rate": 2.6163653558349613e-06,
      "loss": 0.7947,
      "step": 515
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.294782640008379,
      "learning_rate": 2.5978770191485115e-06,
      "loss": 0.8118,
      "step": 516
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1307407949263424,
      "learning_rate": 2.5794312831572897e-06,
      "loss": 0.8161,
      "step": 517
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1156038483537878,
      "learning_rate": 2.561028474989088e-06,
      "loss": 0.8175,
      "step": 518
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1441747497674815,
      "learning_rate": 2.5426689210103813e-06,
      "loss": 0.8345,
      "step": 519
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1286048632129229,
      "learning_rate": 2.5243529468205574e-06,
      "loss": 0.8512,
      "step": 520
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2143329409471455,
      "learning_rate": 2.5060808772461275e-06,
      "loss": 0.84,
      "step": 521
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2053778551775718,
      "learning_rate": 2.487853036334979e-06,
      "loss": 0.8246,
      "step": 522
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1960048327957544,
      "learning_rate": 2.4696697473506122e-06,
      "loss": 0.8231,
      "step": 523
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.295745581171811,
      "learning_rate": 2.451531332766426e-06,
      "loss": 0.8853,
      "step": 524
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3067594332973278,
      "learning_rate": 2.433438114259982e-06,
      "loss": 0.8309,
      "step": 525
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1373281583361006,
      "learning_rate": 2.4153904127073137e-06,
      "loss": 0.8146,
      "step": 526
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1417580445878792,
      "learning_rate": 2.397388548177227e-06,
      "loss": 0.839,
      "step": 527
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5599739904042915,
      "learning_rate": 2.3794328399256235e-06,
      "loss": 0.8294,
      "step": 528
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.625491080719815,
      "learning_rate": 2.3615236063898474e-06,
      "loss": 0.8558,
      "step": 529
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1287172439081854,
      "learning_rate": 2.343661165183025e-06,
      "loss": 0.8196,
      "step": 530
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2174944956603801,
      "learning_rate": 2.325845833088448e-06,
      "loss": 0.8036,
      "step": 531
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.251400066331298,
      "learning_rate": 2.308077926053939e-06,
      "loss": 0.8371,
      "step": 532
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2121696312359778,
      "learning_rate": 2.290357759186261e-06,
      "loss": 0.8426,
      "step": 533
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0604225747034348,
      "learning_rate": 2.27268564674552e-06,
      "loss": 0.8188,
      "step": 534
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1011428657548785,
      "learning_rate": 2.2550619021396e-06,
      "loss": 0.8079,
      "step": 535
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1723339573000198,
      "learning_rate": 2.2374868379185998e-06,
      "loss": 0.8178,
      "step": 536
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.135210308251682,
      "learning_rate": 2.2199607657692874e-06,
      "loss": 0.8045,
      "step": 537
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3722545706665699,
      "learning_rate": 2.2024839965095814e-06,
      "loss": 0.8314,
      "step": 538
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1631275771309266,
      "learning_rate": 2.1850568400830268e-06,
      "loss": 0.8411,
      "step": 539
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0760153562190804,
      "learning_rate": 2.1676796055533125e-06,
      "loss": 0.8176,
      "step": 540
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1177832971628443,
      "learning_rate": 2.150352601098774e-06,
      "loss": 0.8719,
      "step": 541
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3419502743335265,
      "learning_rate": 2.133076134006945e-06,
      "loss": 0.8166,
      "step": 542
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0758424378799882,
      "learning_rate": 2.11585051066909e-06,
      "loss": 0.7853,
      "step": 543
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.291711507267418,
      "learning_rate": 2.0986760365747883e-06,
      "loss": 0.829,
      "step": 544
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0798176397290844,
      "learning_rate": 2.081553016306504e-06,
      "loss": 0.8003,
      "step": 545
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1801650428025168,
      "learning_rate": 2.0644817535341856e-06,
      "loss": 0.8362,
      "step": 546
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.268664958156847,
      "learning_rate": 2.0474625510098883e-06,
      "loss": 0.837,
      "step": 547
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1501634035936659,
      "learning_rate": 2.0304957105623936e-06,
      "loss": 0.8105,
      "step": 548
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0585458538794812,
      "learning_rate": 2.013581533091869e-06,
      "loss": 0.8033,
      "step": 549
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3468267171455577,
      "learning_rate": 1.996720318564518e-06,
      "loss": 0.8565,
      "step": 550
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1428836719091247,
      "learning_rate": 1.9799123660072744e-06,
      "loss": 0.8195,
      "step": 551
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.206897896948396,
      "learning_rate": 1.9631579735024854e-06,
      "loss": 0.84,
      "step": 552
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1891641075077786,
      "learning_rate": 1.9464574381826367e-06,
      "loss": 0.8356,
      "step": 553
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.222933588941957,
      "learning_rate": 1.9298110562250787e-06,
      "loss": 0.8156,
      "step": 554
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.155842038000571,
      "learning_rate": 1.9132191228467685e-06,
      "loss": 0.8097,
      "step": 555
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.140681245819448,
      "learning_rate": 1.8966819322990455e-06,
      "loss": 0.8128,
      "step": 556
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1221328511746198,
      "learning_rate": 1.8801997778623998e-06,
      "loss": 0.8572,
      "step": 557
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2526117843090938,
      "learning_rate": 1.8637729518412861e-06,
      "loss": 0.7972,
      "step": 558
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1590154010447482,
      "learning_rate": 1.8474017455589238e-06,
      "loss": 0.8268,
      "step": 559
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1525228183168728,
      "learning_rate": 1.8310864493521453e-06,
      "loss": 0.823,
      "step": 560
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.5610374437152565,
      "learning_rate": 1.8148273525662336e-06,
      "loss": 0.8313,
      "step": 561
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.518763002771371,
      "learning_rate": 1.7986247435498033e-06,
      "loss": 0.8418,
      "step": 562
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2059483655034768,
      "learning_rate": 1.7824789096496752e-06,
      "loss": 0.8304,
      "step": 563
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2028996101251008,
      "learning_rate": 1.7663901372057907e-06,
      "loss": 0.805,
      "step": 564
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1237925328355798,
      "learning_rate": 1.7503587115461286e-06,
      "loss": 0.8279,
      "step": 565
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1888955513675719,
      "learning_rate": 1.7343849169816396e-06,
      "loss": 0.8456,
      "step": 566
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.196964494587607,
      "learning_rate": 1.7184690368012191e-06,
      "loss": 0.8181,
      "step": 567
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4923991366523424,
      "learning_rate": 1.702611353266665e-06,
      "loss": 0.8275,
      "step": 568
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0896582192802815,
      "learning_rate": 1.6868121476076877e-06,
      "loss": 0.7931,
      "step": 569
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1459479171554634,
      "learning_rate": 1.6710717000169098e-06,
      "loss": 0.8249,
      "step": 570
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2161166441890499,
      "learning_rate": 1.6553902896449092e-06,
      "loss": 0.8541,
      "step": 571
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.181061357249287,
      "learning_rate": 1.639768194595256e-06,
      "loss": 0.7886,
      "step": 572
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0881658213398064,
      "learning_rate": 1.624205691919591e-06,
      "loss": 0.8381,
      "step": 573
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1232986701514402,
      "learning_rate": 1.6087030576127082e-06,
      "loss": 0.8017,
      "step": 574
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1128820987957522,
      "learning_rate": 1.5932605666076557e-06,
      "loss": 0.8363,
      "step": 575
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3744563473037221,
      "learning_rate": 1.5778784927708695e-06,
      "loss": 0.8154,
      "step": 576
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.120775385580711,
      "learning_rate": 1.5625571088973051e-06,
      "loss": 0.8199,
      "step": 577
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1360877101243405,
      "learning_rate": 1.5472966867056122e-06,
      "loss": 0.8327,
      "step": 578
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1280760221777546,
      "learning_rate": 1.5320974968333025e-06,
      "loss": 0.832,
      "step": 579
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3216185504239597,
      "learning_rate": 1.5169598088319642e-06,
      "loss": 0.8328,
      "step": 580
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1555998427076246,
      "learning_rate": 1.5018838911624671e-06,
      "loss": 0.7986,
      "step": 581
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.097188726494774,
      "learning_rate": 1.486870011190214e-06,
      "loss": 0.8139,
      "step": 582
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.313359424122802,
      "learning_rate": 1.4719184351803927e-06,
      "loss": 0.8247,
      "step": 583
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2841336725150148,
      "learning_rate": 1.457029428293254e-06,
      "loss": 0.8214,
      "step": 584
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4019331627637832,
      "learning_rate": 1.4422032545794096e-06,
      "loss": 0.8476,
      "step": 585
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2479270352689151,
      "learning_rate": 1.4274401769751496e-06,
      "loss": 0.8596,
      "step": 586
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.190584202906868,
      "learning_rate": 1.412740457297782e-06,
      "loss": 0.7976,
      "step": 587
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3358512600414083,
      "learning_rate": 1.398104356240988e-06,
      "loss": 0.8467,
      "step": 588
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1134129745594221,
      "learning_rate": 1.383532133370193e-06,
      "loss": 0.7994,
      "step": 589
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.7236513155468485,
      "learning_rate": 1.369024047117974e-06,
      "loss": 0.7879,
      "step": 590
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2979089557824244,
      "learning_rate": 1.3545803547794639e-06,
      "loss": 0.8403,
      "step": 591
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.235539117645581,
      "learning_rate": 1.3402013125078039e-06,
      "loss": 0.8364,
      "step": 592
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5366346531355402,
      "learning_rate": 1.325887175309582e-06,
      "loss": 0.8379,
      "step": 593
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.121574181414578,
      "learning_rate": 1.3116381970403302e-06,
      "loss": 0.836,
      "step": 594
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.340696954512561,
      "learning_rate": 1.2974546304000046e-06,
      "loss": 0.8027,
      "step": 595
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2132502416588156,
      "learning_rate": 1.2833367269285168e-06,
      "loss": 0.8077,
      "step": 596
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1192375791395337,
      "learning_rate": 1.2692847370012696e-06,
      "loss": 0.8522,
      "step": 597
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.741500020742988,
      "learning_rate": 1.2552989098247092e-06,
      "loss": 0.8067,
      "step": 598
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1150261698728017,
      "learning_rate": 1.241379493431919e-06,
      "loss": 0.8529,
      "step": 599
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3385533216939478,
      "learning_rate": 1.2275267346782067e-06,
      "loss": 0.843,
      "step": 600
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1806042588679646,
      "learning_rate": 1.2137408792367388e-06,
      "loss": 0.7897,
      "step": 601
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2608515351865308,
      "learning_rate": 1.2000221715941746e-06,
      "loss": 0.8248,
      "step": 602
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1452255358786536,
      "learning_rate": 1.1863708550463372e-06,
      "loss": 0.8283,
      "step": 603
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.584053048603632,
      "learning_rate": 1.1727871716938904e-06,
      "loss": 0.8472,
      "step": 604
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.16292088995077,
      "learning_rate": 1.1592713624380553e-06,
      "loss": 0.814,
      "step": 605
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0574349634190905,
      "learning_rate": 1.1458236669763323e-06,
      "loss": 0.8029,
      "step": 606
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1504507119536145,
      "learning_rate": 1.132444323798247e-06,
      "loss": 0.8376,
      "step": 607
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1683086518860988,
      "learning_rate": 1.1191335701811285e-06,
      "loss": 0.8231,
      "step": 608
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0085098659895237,
      "learning_rate": 1.105891642185894e-06,
      "loss": 0.8007,
      "step": 609
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2738890651414907,
      "learning_rate": 1.0927187746528695e-06,
      "loss": 0.7735,
      "step": 610
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0889145540805063,
      "learning_rate": 1.0796152011976164e-06,
      "loss": 0.8529,
      "step": 611
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0941937359259284,
      "learning_rate": 1.0665811542067988e-06,
      "loss": 0.8374,
      "step": 612
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1244112767282193,
      "learning_rate": 1.0536168648340506e-06,
      "loss": 0.8098,
      "step": 613
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1652423680488342,
      "learning_rate": 1.0407225629958883e-06,
      "loss": 0.8586,
      "step": 614
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.371358727142576,
      "learning_rate": 1.0278984773676214e-06,
      "loss": 0.8302,
      "step": 615
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.282130434347346,
      "learning_rate": 1.0151448353793064e-06,
      "loss": 0.7846,
      "step": 616
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0308140323506172,
      "learning_rate": 1.0024618632117112e-06,
      "loss": 0.8424,
      "step": 617
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0307135501463645,
      "learning_rate": 9.898497857922978e-07,
      "loss": 0.804,
      "step": 618
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1411850630578646,
      "learning_rate": 9.773088267912423e-07,
      "loss": 0.8061,
      "step": 619
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0646486743244608,
      "learning_rate": 9.648392086174612e-07,
      "loss": 0.834,
      "step": 620
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3421257146608427,
      "learning_rate": 9.524411524146726e-07,
      "loss": 0.849,
      "step": 621
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.094638647544279,
      "learning_rate": 9.401148780574682e-07,
      "loss": 0.8179,
      "step": 622
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1619475819740164,
      "learning_rate": 9.278606041474203e-07,
      "loss": 0.8457,
      "step": 623
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2816836446796047,
      "learning_rate": 9.15678548009199e-07,
      "loss": 0.8202,
      "step": 624
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1426328170657212,
      "learning_rate": 9.03568925686723e-07,
      "loss": 0.8166,
      "step": 625
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1247140360252137,
      "learning_rate": 8.915319519393278e-07,
      "loss": 0.8326,
      "step": 626
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.105494579178503,
      "learning_rate": 8.795678402379498e-07,
      "loss": 0.8282,
      "step": 627
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0572570612604646,
      "learning_rate": 8.676768027613525e-07,
      "loss": 0.812,
      "step": 628
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1209163806272,
      "learning_rate": 8.558590503923509e-07,
      "loss": 0.8326,
      "step": 629
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.415314790531641,
      "learning_rate": 8.441147927140836e-07,
      "loss": 0.8396,
      "step": 630
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1376087262273429,
      "learning_rate": 8.324442380062847e-07,
      "loss": 0.8003,
      "step": 631
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1053995721453131,
      "learning_rate": 8.208475932416005e-07,
      "loss": 0.8151,
      "step": 632
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.24029540386004,
      "learning_rate": 8.093250640819095e-07,
      "loss": 0.8624,
      "step": 633
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2129126237029006,
      "learning_rate": 7.978768548746818e-07,
      "loss": 0.8647,
      "step": 634
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2236973968631748,
      "learning_rate": 7.865031686493546e-07,
      "loss": 0.8326,
      "step": 635
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4420200195634538,
      "learning_rate": 7.752042071137239e-07,
      "loss": 0.8318,
      "step": 636
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.152704237069485,
      "learning_rate": 7.639801706503791e-07,
      "loss": 0.7957,
      "step": 637
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1410843484070319,
      "learning_rate": 7.528312583131387e-07,
      "loss": 0.8563,
      "step": 638
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4441417221706796,
      "learning_rate": 7.417576678235288e-07,
      "loss": 0.8485,
      "step": 639
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2782496928533214,
      "learning_rate": 7.307595955672686e-07,
      "loss": 0.8131,
      "step": 640
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3239848225764461,
      "learning_rate": 7.198372365907946e-07,
      "loss": 0.8278,
      "step": 641
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0124273493787945,
      "learning_rate": 7.089907845977962e-07,
      "loss": 0.8285,
      "step": 642
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1984388728115332,
      "learning_rate": 6.982204319457831e-07,
      "loss": 0.8147,
      "step": 643
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.7431070656458465,
      "learning_rate": 6.875263696426759e-07,
      "loss": 0.8392,
      "step": 644
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0841381618287178,
      "learning_rate": 6.769087873434122e-07,
      "loss": 0.7805,
      "step": 645
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1363894535495727,
      "learning_rate": 6.663678733465905e-07,
      "loss": 0.8522,
      "step": 646
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.149142197303568,
      "learning_rate": 6.55903814591125e-07,
      "loss": 0.8143,
      "step": 647
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2176090443322134,
      "learning_rate": 6.455167966529357e-07,
      "loss": 0.8031,
      "step": 648
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.210210988431294,
      "learning_rate": 6.352070037416503e-07,
      "loss": 0.8527,
      "step": 649
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1647607912725104,
      "learning_rate": 6.24974618697346e-07,
      "loss": 0.8086,
      "step": 650
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.210283794503598,
      "learning_rate": 6.148198229872981e-07,
      "loss": 0.7931,
      "step": 651
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1449560108431547,
      "learning_rate": 6.04742796702768e-07,
      "loss": 0.7754,
      "step": 652
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.229482257223063,
      "learning_rate": 5.947437185558091e-07,
      "loss": 0.7979,
      "step": 653
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1064351563786532,
      "learning_rate": 5.848227658760914e-07,
      "loss": 0.8302,
      "step": 654
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1639624432408997,
      "learning_rate": 5.749801146077638e-07,
      "loss": 0.783,
      "step": 655
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3066438219306855,
      "learning_rate": 5.652159393063295e-07,
      "loss": 0.8009,
      "step": 656
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.443570241927174,
      "learning_rate": 5.555304131355532e-07,
      "loss": 0.8553,
      "step": 657
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1154090455850014,
      "learning_rate": 5.459237078643864e-07,
      "loss": 0.8639,
      "step": 658
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3023330347714015,
      "learning_rate": 5.363959938639257e-07,
      "loss": 0.7804,
      "step": 659
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.249767283287092,
      "learning_rate": 5.269474401043861e-07,
      "loss": 0.7951,
      "step": 660
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1063372151581325,
      "learning_rate": 5.175782141521107e-07,
      "loss": 0.8224,
      "step": 661
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1100286563923407,
      "learning_rate": 5.082884821665918e-07,
      "loss": 0.7727,
      "step": 662
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.3724062097558187,
      "learning_rate": 4.990784088975298e-07,
      "loss": 0.8162,
      "step": 663
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0999505714218432,
      "learning_rate": 4.899481576819116e-07,
      "loss": 0.7921,
      "step": 664
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1869204585037552,
      "learning_rate": 4.808978904411066e-07,
      "loss": 0.7788,
      "step": 665
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.203463681829628,
      "learning_rate": 4.719277676780054e-07,
      "loss": 0.8159,
      "step": 666
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0816234617283351,
      "learning_rate": 4.630379484741643e-07,
      "loss": 0.8381,
      "step": 667
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0235382933487907,
      "learning_rate": 4.542285904869903e-07,
      "loss": 0.82,
      "step": 668
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1180943607355467,
      "learning_rate": 4.4549984994694095e-07,
      "loss": 0.8201,
      "step": 669
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0643402324837885,
      "learning_rate": 4.3685188165475847e-07,
      "loss": 0.8194,
      "step": 670
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2761426870344974,
      "learning_rate": 4.2828483897871644e-07,
      "loss": 0.8491,
      "step": 671
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.131085874662742,
      "learning_rate": 4.197988738519099e-07,
      "loss": 0.8208,
      "step": 672
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4239166104583856,
      "learning_rate": 4.11394136769554e-07,
      "loss": 0.8546,
      "step": 673
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1422745721220944,
      "learning_rate": 4.030707767863151e-07,
      "loss": 0.8394,
      "step": 674
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.163144758918877,
      "learning_rate": 3.9482894151367193e-07,
      "loss": 0.7996,
      "step": 675
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1466246998351644,
      "learning_rate": 3.866687771172917e-07,
      "loss": 0.842,
      "step": 676
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.5669370889766294,
      "learning_rate": 3.785904283144454e-07,
      "loss": 0.8256,
      "step": 677
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.118821104205034,
      "learning_rate": 3.705940383714318e-07,
      "loss": 0.8273,
      "step": 678
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.323490909694076,
      "learning_rate": 3.6267974910104696e-07,
      "loss": 0.7964,
      "step": 679
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.115932337714536,
      "learning_rate": 3.5484770086006037e-07,
      "loss": 0.8155,
      "step": 680
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0438668202049772,
      "learning_rate": 3.470980325467316e-07,
      "loss": 0.7981,
      "step": 681
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1725553396037112,
      "learning_rate": 3.394308815983455e-07,
      "loss": 0.8166,
      "step": 682
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0432079376075305,
      "learning_rate": 3.318463839887714e-07,
      "loss": 0.8048,
      "step": 683
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1190181566238873,
      "learning_rate": 3.243446742260581e-07,
      "loss": 0.8143,
      "step": 684
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2027311340026403,
      "learning_rate": 3.169258853500423e-07,
      "loss": 0.8072,
      "step": 685
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0448826480431468,
      "learning_rate": 3.095901489299935e-07,
      "loss": 0.8156,
      "step": 686
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.192618042559272,
      "learning_rate": 3.0233759506227646e-07,
      "loss": 0.8091,
      "step": 687
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5187121355543114,
      "learning_rate": 2.951683523680504e-07,
      "loss": 0.8679,
      "step": 688
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0879754257424312,
      "learning_rate": 2.8808254799097936e-07,
      "loss": 0.7972,
      "step": 689
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1613265458170998,
      "learning_rate": 2.8108030759498583e-07,
      "loss": 0.829,
      "step": 690
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1230654665039808,
      "learning_rate": 2.7416175536201794e-07,
      "loss": 0.8032,
      "step": 691
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1769239213597456,
      "learning_rate": 2.673270139898443e-07,
      "loss": 0.8239,
      "step": 692
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0197306575365235,
      "learning_rate": 2.605762046898852e-07,
      "loss": 0.8078,
      "step": 693
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1409475466437597,
      "learning_rate": 2.539094471850562e-07,
      "loss": 0.8414,
      "step": 694
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4106234568201388,
      "learning_rate": 2.4732685970765004e-07,
      "loss": 0.8255,
      "step": 695
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.392418029087564,
      "learning_rate": 2.408285589972353e-07,
      "loss": 0.8616,
      "step": 696
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1287766159634611,
      "learning_rate": 2.3441466029859027e-07,
      "loss": 0.8257,
      "step": 697
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.176991079235627,
      "learning_rate": 2.280852773596548e-07,
      "loss": 0.8592,
      "step": 698
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.159662292058494,
      "learning_rate": 2.218405224295178e-07,
      "loss": 0.8608,
      "step": 699
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1122413124432546,
      "learning_rate": 2.1568050625642323e-07,
      "loss": 0.8338,
      "step": 700
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3908225007282236,
      "learning_rate": 2.0960533808580596e-07,
      "loss": 0.824,
      "step": 701
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0773093703955594,
      "learning_rate": 2.0361512565835738e-07,
      "loss": 0.8022,
      "step": 702
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0665415052562757,
      "learning_rate": 1.9770997520810965e-07,
      "loss": 0.833,
      "step": 703
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1527526893626212,
      "learning_rate": 1.918899914605582e-07,
      "loss": 0.8078,
      "step": 704
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1609049518698369,
      "learning_rate": 1.8615527763079678e-07,
      "loss": 0.8044,
      "step": 705
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4022083725557934,
      "learning_rate": 1.8050593542169537e-07,
      "loss": 0.8395,
      "step": 706
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.152545683730929,
      "learning_rate": 1.7494206502208787e-07,
      "loss": 0.8257,
      "step": 707
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1491485626025015,
      "learning_rate": 1.6946376510500406e-07,
      "loss": 0.8384,
      "step": 708
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.052754057159298,
      "learning_rate": 1.6407113282591204e-07,
      "loss": 0.8274,
      "step": 709
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0398923442519588,
      "learning_rate": 1.5876426382099908e-07,
      "loss": 0.8142,
      "step": 710
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4521184232963287,
      "learning_rate": 1.5354325220547638e-07,
      "loss": 0.8346,
      "step": 711
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1173628865842729,
      "learning_rate": 1.4840819057190591e-07,
      "loss": 0.8292,
      "step": 712
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0382298520155955,
      "learning_rate": 1.433591699885639e-07,
      "loss": 0.7851,
      "step": 713
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0096877302771539,
      "learning_rate": 1.3839627999782056e-07,
      "loss": 0.7929,
      "step": 714
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0884547484191,
      "learning_rate": 1.3351960861455515e-07,
      "loss": 0.8375,
      "step": 715
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1252011150006394,
      "learning_rate": 1.287292423245945e-07,
      "loss": 0.7717,
      "step": 716
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.040686560253859,
      "learning_rate": 1.2402526608317812e-07,
      "loss": 0.7949,
      "step": 717
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.0364147961167727,
      "learning_rate": 1.1940776331345383e-07,
      "loss": 0.7683,
      "step": 718
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1201818935745307,
      "learning_rate": 1.1487681590499456e-07,
      "loss": 0.8266,
      "step": 719
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3409144389292686,
      "learning_rate": 1.1043250421235107e-07,
      "loss": 0.874,
      "step": 720
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.182209135051885,
      "learning_rate": 1.06074907053621e-07,
      "loss": 0.8179,
      "step": 721
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1131457112516843,
      "learning_rate": 1.0180410170905819e-07,
      "loss": 0.8328,
      "step": 722
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.190739874954435,
      "learning_rate": 9.762016391969386e-08,
      "loss": 0.7798,
      "step": 723
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1368913561260203,
      "learning_rate": 9.352316788600102e-08,
      "loss": 0.8303,
      "step": 724
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1850727243568353,
      "learning_rate": 8.95131862665749e-08,
      "loss": 0.7791,
      "step": 725
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1643319143252835,
      "learning_rate": 8.559029017684184e-08,
      "loss": 0.8276,
      "step": 726
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1274946360164755,
      "learning_rate": 8.175454918780467e-08,
      "loss": 0.8095,
      "step": 727
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1648118926590638,
      "learning_rate": 7.800603132480322e-08,
      "loss": 0.8263,
      "step": 728
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1391257495952203,
      "learning_rate": 7.434480306630965e-08,
      "loss": 0.7894,
      "step": 729
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5657383282724364,
      "learning_rate": 7.077092934275054e-08,
      "loss": 0.8102,
      "step": 730
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1438725716115983,
      "learning_rate": 6.72844735353545e-08,
      "loss": 0.8541,
      "step": 731
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3162108137240458,
      "learning_rate": 6.388549747502748e-08,
      "loss": 0.814,
      "step": 732
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2615633941509532,
      "learning_rate": 6.057406144125755e-08,
      "loss": 0.7947,
      "step": 733
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0545752870068084,
      "learning_rate": 5.7350224161046294e-08,
      "loss": 0.8528,
      "step": 734
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1412889461353484,
      "learning_rate": 5.421404280786302e-08,
      "loss": 0.812,
      "step": 735
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2921519350201203,
      "learning_rate": 5.116557300063774e-08,
      "loss": 0.8166,
      "step": 736
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1139933495136198,
      "learning_rate": 4.8204868802768645e-08,
      "loss": 0.8318,
      "step": 737
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0513282814995402,
      "learning_rate": 4.5331982721167345e-08,
      "loss": 0.836,
      "step": 738
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.232938382319419,
      "learning_rate": 4.254696570532402e-08,
      "loss": 0.8203,
      "step": 739
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2688797329670713,
      "learning_rate": 3.98498671464087e-08,
      "loss": 0.838,
      "step": 740
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2712704012974276,
      "learning_rate": 3.7240734876389796e-08,
      "loss": 0.8357,
      "step": 741
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2446289864712674,
      "learning_rate": 3.47196151671908e-08,
      "loss": 0.8294,
      "step": 742
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1249447697847985,
      "learning_rate": 3.2286552729866585e-08,
      "loss": 0.8005,
      "step": 743
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1970341383463035,
      "learning_rate": 2.9941590713810645e-08,
      "loss": 0.8006,
      "step": 744
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.052001308737665,
      "learning_rate": 2.768477070599185e-08,
      "loss": 0.8469,
      "step": 745
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4637979916072497,
      "learning_rate": 2.5516132730215028e-08,
      "loss": 0.833,
      "step": 746
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1844659936098128,
      "learning_rate": 2.3435715246411527e-08,
      "loss": 0.8483,
      "step": 747
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0850626596964983,
      "learning_rate": 2.1443555149957552e-08,
      "loss": 0.8224,
      "step": 748
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2824700674922327,
      "learning_rate": 1.9539687771019666e-08,
      "loss": 0.8203,
      "step": 749
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1706439545733154,
      "learning_rate": 1.772414687392865e-08,
      "loss": 0.8267,
      "step": 750
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3274049419404885,
      "learning_rate": 1.5996964656579405e-08,
      "loss": 0.8095,
      "step": 751
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1111642410420237,
      "learning_rate": 1.4358171749861427e-08,
      "loss": 0.7953,
      "step": 752
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0865690516156918,
      "learning_rate": 1.2807797217114782e-08,
      "loss": 0.8062,
      "step": 753
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1521753176211016,
      "learning_rate": 1.1345868553615525e-08,
      "loss": 0.8374,
      "step": 754
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.463454458386019,
      "learning_rate": 9.972411686085537e-09,
      "loss": 0.829,
      "step": 755
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3936488651540875,
      "learning_rate": 8.687450972237332e-09,
      "loss": 0.803,
      "step": 756
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.136244795446509,
      "learning_rate": 7.49100920033663e-09,
      "loss": 0.8198,
      "step": 757
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1217747805128075,
      "learning_rate": 6.383107588802673e-09,
      "loss": 0.8234,
      "step": 758
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0561447394170373,
      "learning_rate": 5.363765785829644e-09,
      "loss": 0.8227,
      "step": 759
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1412749499521242,
      "learning_rate": 4.433001869039166e-09,
      "loss": 0.8051,
      "step": 760
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2442817598179234,
      "learning_rate": 3.590832345158335e-09,
      "loss": 0.8286,
      "step": 761
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.9819842833626258,
      "learning_rate": 2.8372721497288423e-09,
      "loss": 0.8063,
      "step": 762
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1106115527855582,
      "learning_rate": 2.172334646841079e-09,
      "loss": 0.7925,
      "step": 763
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.060032513959221,
      "learning_rate": 1.596031628896544e-09,
      "loss": 0.8132,
      "step": 764
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1721837091645986,
      "learning_rate": 1.1083733164007904e-09,
      "loss": 0.8032,
      "step": 765
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1718732472907902,
      "learning_rate": 7.093683577791277e-10,
      "loss": 0.8607,
      "step": 766
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1656756317925252,
      "learning_rate": 3.99023829225631e-10,
      "loss": 0.8347,
      "step": 767
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.200374279193499,
      "learning_rate": 1.7734523457824116e-10,
      "loss": 0.8098,
      "step": 768
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2441092942236753,
      "learning_rate": 4.433650521717958e-11,
      "loss": 0.7924,
      "step": 769
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0824485212601966,
      "learning_rate": 0.0,
      "loss": 0.8336,
      "step": 770
    },
    {
      "epoch": 1.0,
      "step": 770,
      "total_flos": 423037538631680.0,
      "train_loss": 0.8593585531432907,
      "train_runtime": 3300.3249,
      "train_samples_per_second": 29.87,
      "train_steps_per_second": 0.233
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 770,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 1000,
  "total_flos": 423037538631680.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}