{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 0,
  "global_step": 274,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0036496350364963502,
      "grad_norm": 0.4296875,
      "learning_rate": 9.963503649635036e-06,
      "loss": 1.592,
      "step": 1
    },
    {
      "epoch": 0.0072992700729927005,
      "grad_norm": 0.400390625,
      "learning_rate": 9.927007299270073e-06,
      "loss": 1.5861,
      "step": 2
    },
    {
      "epoch": 0.010948905109489052,
      "grad_norm": 0.41015625,
      "learning_rate": 9.89051094890511e-06,
      "loss": 1.5383,
      "step": 3
    },
    {
      "epoch": 0.014598540145985401,
      "grad_norm": 0.40234375,
      "learning_rate": 9.854014598540148e-06,
      "loss": 1.5308,
      "step": 4
    },
    {
      "epoch": 0.01824817518248175,
      "grad_norm": 0.39453125,
      "learning_rate": 9.817518248175183e-06,
      "loss": 1.5993,
      "step": 5
    },
    {
      "epoch": 0.021897810218978103,
      "grad_norm": 0.369140625,
      "learning_rate": 9.78102189781022e-06,
      "loss": 1.5608,
      "step": 6
    },
    {
      "epoch": 0.025547445255474453,
      "grad_norm": 0.3828125,
      "learning_rate": 9.744525547445256e-06,
      "loss": 1.4996,
      "step": 7
    },
    {
      "epoch": 0.029197080291970802,
      "grad_norm": 0.330078125,
      "learning_rate": 9.708029197080293e-06,
      "loss": 1.5343,
      "step": 8
    },
    {
      "epoch": 0.032846715328467155,
      "grad_norm": 0.310546875,
      "learning_rate": 9.67153284671533e-06,
      "loss": 1.5858,
      "step": 9
    },
    {
      "epoch": 0.0364963503649635,
      "grad_norm": 0.251953125,
      "learning_rate": 9.635036496350367e-06,
      "loss": 1.4634,
      "step": 10
    },
    {
      "epoch": 0.040145985401459854,
      "grad_norm": 0.2294921875,
      "learning_rate": 9.598540145985402e-06,
      "loss": 1.4391,
      "step": 11
    },
    {
      "epoch": 0.043795620437956206,
      "grad_norm": 0.2236328125,
      "learning_rate": 9.56204379562044e-06,
      "loss": 1.4472,
      "step": 12
    },
    {
      "epoch": 0.04744525547445255,
      "grad_norm": 0.21484375,
      "learning_rate": 9.525547445255475e-06,
      "loss": 1.4924,
      "step": 13
    },
    {
      "epoch": 0.051094890510948905,
      "grad_norm": 0.22265625,
      "learning_rate": 9.48905109489051e-06,
      "loss": 1.4354,
      "step": 14
    },
    {
      "epoch": 0.05474452554744526,
      "grad_norm": 0.2080078125,
      "learning_rate": 9.452554744525548e-06,
      "loss": 1.4324,
      "step": 15
    },
    {
      "epoch": 0.058394160583941604,
      "grad_norm": 0.22265625,
      "learning_rate": 9.416058394160585e-06,
      "loss": 1.506,
      "step": 16
    },
    {
      "epoch": 0.06204379562043796,
      "grad_norm": 0.208984375,
      "learning_rate": 9.379562043795622e-06,
      "loss": 1.4579,
      "step": 17
    },
    {
      "epoch": 0.06569343065693431,
      "grad_norm": 0.1962890625,
      "learning_rate": 9.343065693430657e-06,
      "loss": 1.3932,
      "step": 18
    },
    {
      "epoch": 0.06934306569343066,
      "grad_norm": 0.19140625,
      "learning_rate": 9.306569343065694e-06,
      "loss": 1.4548,
      "step": 19
    },
    {
      "epoch": 0.072992700729927,
      "grad_norm": 0.1767578125,
      "learning_rate": 9.27007299270073e-06,
      "loss": 1.4047,
      "step": 20
    },
    {
      "epoch": 0.07664233576642336,
      "grad_norm": 0.16015625,
      "learning_rate": 9.233576642335767e-06,
      "loss": 1.4625,
      "step": 21
    },
    {
      "epoch": 0.08029197080291971,
      "grad_norm": 0.18359375,
      "learning_rate": 9.197080291970804e-06,
      "loss": 1.4113,
      "step": 22
    },
    {
      "epoch": 0.08394160583941605,
      "grad_norm": 0.193359375,
      "learning_rate": 9.160583941605841e-06,
      "loss": 1.5363,
      "step": 23
    },
    {
      "epoch": 0.08759124087591241,
      "grad_norm": 0.1611328125,
      "learning_rate": 9.124087591240877e-06,
      "loss": 1.3935,
      "step": 24
    },
    {
      "epoch": 0.09124087591240876,
      "grad_norm": 0.171875,
      "learning_rate": 9.087591240875912e-06,
      "loss": 1.4092,
      "step": 25
    },
    {
      "epoch": 0.0948905109489051,
      "grad_norm": 0.1416015625,
      "learning_rate": 9.05109489051095e-06,
      "loss": 1.4108,
      "step": 26
    },
    {
      "epoch": 0.09854014598540146,
      "grad_norm": 0.166015625,
      "learning_rate": 9.014598540145986e-06,
      "loss": 1.3834,
      "step": 27
    },
    {
      "epoch": 0.10218978102189781,
      "grad_norm": 0.1474609375,
      "learning_rate": 8.978102189781024e-06,
      "loss": 1.3912,
      "step": 28
    },
    {
      "epoch": 0.10583941605839416,
      "grad_norm": 0.1396484375,
      "learning_rate": 8.941605839416059e-06,
      "loss": 1.4093,
      "step": 29
    },
    {
      "epoch": 0.10948905109489052,
      "grad_norm": 0.142578125,
      "learning_rate": 8.905109489051096e-06,
      "loss": 1.3642,
      "step": 30
    },
    {
      "epoch": 0.11313868613138686,
      "grad_norm": 0.138671875,
      "learning_rate": 8.868613138686132e-06,
      "loss": 1.3745,
      "step": 31
    },
    {
      "epoch": 0.11678832116788321,
      "grad_norm": 0.12109375,
      "learning_rate": 8.832116788321169e-06,
      "loss": 1.3695,
      "step": 32
    },
    {
      "epoch": 0.12043795620437957,
      "grad_norm": 0.1298828125,
      "learning_rate": 8.795620437956204e-06,
      "loss": 1.413,
      "step": 33
    },
    {
      "epoch": 0.12408759124087591,
      "grad_norm": 0.140625,
      "learning_rate": 8.759124087591241e-06,
      "loss": 1.3645,
      "step": 34
    },
    {
      "epoch": 0.12773722627737227,
      "grad_norm": 0.15234375,
      "learning_rate": 8.722627737226278e-06,
      "loss": 1.4405,
      "step": 35
    },
    {
      "epoch": 0.13138686131386862,
      "grad_norm": 0.1396484375,
      "learning_rate": 8.686131386861315e-06,
      "loss": 1.3882,
      "step": 36
    },
    {
      "epoch": 0.13503649635036497,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.649635036496351e-06,
      "loss": 1.3424,
      "step": 37
    },
    {
      "epoch": 0.1386861313868613,
      "grad_norm": 0.1279296875,
      "learning_rate": 8.613138686131386e-06,
      "loss": 1.3767,
      "step": 38
    },
    {
      "epoch": 0.14233576642335766,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.576642335766423e-06,
      "loss": 1.3261,
      "step": 39
    },
    {
      "epoch": 0.145985401459854,
      "grad_norm": 0.146484375,
      "learning_rate": 8.54014598540146e-06,
      "loss": 1.4033,
      "step": 40
    },
    {
      "epoch": 0.14963503649635038,
      "grad_norm": 0.1689453125,
      "learning_rate": 8.503649635036498e-06,
      "loss": 1.4341,
      "step": 41
    },
    {
      "epoch": 0.15328467153284672,
      "grad_norm": 0.1396484375,
      "learning_rate": 8.467153284671533e-06,
      "loss": 1.3121,
      "step": 42
    },
    {
      "epoch": 0.15693430656934307,
      "grad_norm": 0.10986328125,
      "learning_rate": 8.43065693430657e-06,
      "loss": 1.3386,
      "step": 43
    },
    {
      "epoch": 0.16058394160583941,
      "grad_norm": 0.12451171875,
      "learning_rate": 8.394160583941606e-06,
      "loss": 1.3588,
      "step": 44
    },
    {
      "epoch": 0.16423357664233576,
      "grad_norm": 0.15625,
      "learning_rate": 8.357664233576643e-06,
      "loss": 1.3583,
      "step": 45
    },
    {
      "epoch": 0.1678832116788321,
      "grad_norm": 0.1142578125,
      "learning_rate": 8.32116788321168e-06,
      "loss": 1.3655,
      "step": 46
    },
    {
      "epoch": 0.17153284671532848,
      "grad_norm": 0.14453125,
      "learning_rate": 8.284671532846717e-06,
      "loss": 1.3465,
      "step": 47
    },
    {
      "epoch": 0.17518248175182483,
      "grad_norm": 0.130859375,
      "learning_rate": 8.248175182481753e-06,
      "loss": 1.3736,
      "step": 48
    },
    {
      "epoch": 0.17883211678832117,
      "grad_norm": 0.1259765625,
      "learning_rate": 8.21167883211679e-06,
      "loss": 1.3555,
      "step": 49
    },
    {
      "epoch": 0.18248175182481752,
      "grad_norm": 0.11181640625,
      "learning_rate": 8.175182481751825e-06,
      "loss": 1.3457,
      "step": 50
    },
    {
      "epoch": 0.18613138686131386,
      "grad_norm": 0.12451171875,
      "learning_rate": 8.138686131386862e-06,
      "loss": 1.3197,
      "step": 51
    },
    {
      "epoch": 0.1897810218978102,
      "grad_norm": 0.10986328125,
      "learning_rate": 8.1021897810219e-06,
      "loss": 1.3137,
      "step": 52
    },
    {
      "epoch": 0.19343065693430658,
      "grad_norm": 0.1123046875,
      "learning_rate": 8.065693430656935e-06,
      "loss": 1.3584,
      "step": 53
    },
    {
      "epoch": 0.19708029197080293,
      "grad_norm": 0.11083984375,
      "learning_rate": 8.029197080291972e-06,
      "loss": 1.335,
      "step": 54
    },
    {
      "epoch": 0.20072992700729927,
      "grad_norm": 0.11376953125,
      "learning_rate": 7.992700729927007e-06,
      "loss": 1.3429,
      "step": 55
    },
    {
      "epoch": 0.20437956204379562,
      "grad_norm": 0.11865234375,
      "learning_rate": 7.956204379562045e-06,
      "loss": 1.2972,
      "step": 56
    },
    {
      "epoch": 0.20802919708029197,
      "grad_norm": 0.130859375,
      "learning_rate": 7.91970802919708e-06,
      "loss": 1.3749,
      "step": 57
    },
    {
      "epoch": 0.2116788321167883,
      "grad_norm": 0.103515625,
      "learning_rate": 7.883211678832117e-06,
      "loss": 1.3242,
      "step": 58
    },
    {
      "epoch": 0.21532846715328466,
      "grad_norm": 0.09814453125,
      "learning_rate": 7.846715328467154e-06,
      "loss": 1.2903,
      "step": 59
    },
    {
      "epoch": 0.21897810218978103,
      "grad_norm": 0.119140625,
      "learning_rate": 7.810218978102191e-06,
      "loss": 1.4103,
      "step": 60
    },
    {
      "epoch": 0.22262773722627738,
      "grad_norm": 0.10546875,
      "learning_rate": 7.773722627737227e-06,
      "loss": 1.3133,
      "step": 61
    },
    {
      "epoch": 0.22627737226277372,
      "grad_norm": 0.111328125,
      "learning_rate": 7.737226277372264e-06,
      "loss": 1.3318,
      "step": 62
    },
    {
      "epoch": 0.22992700729927007,
      "grad_norm": 0.09814453125,
      "learning_rate": 7.7007299270073e-06,
      "loss": 1.3165,
      "step": 63
    },
    {
      "epoch": 0.23357664233576642,
      "grad_norm": 0.10009765625,
      "learning_rate": 7.664233576642336e-06,
      "loss": 1.3058,
      "step": 64
    },
    {
      "epoch": 0.23722627737226276,
      "grad_norm": 0.10205078125,
      "learning_rate": 7.627737226277373e-06,
      "loss": 1.3131,
      "step": 65
    },
    {
      "epoch": 0.24087591240875914,
      "grad_norm": 0.10009765625,
      "learning_rate": 7.591240875912409e-06,
      "loss": 1.2662,
      "step": 66
    },
    {
      "epoch": 0.24452554744525548,
      "grad_norm": 0.12353515625,
      "learning_rate": 7.554744525547446e-06,
      "loss": 1.3257,
      "step": 67
    },
    {
      "epoch": 0.24817518248175183,
      "grad_norm": 0.09521484375,
      "learning_rate": 7.5182481751824825e-06,
      "loss": 1.2798,
      "step": 68
    },
    {
      "epoch": 0.2518248175182482,
      "grad_norm": 0.11962890625,
      "learning_rate": 7.481751824817519e-06,
      "loss": 1.2306,
      "step": 69
    },
    {
      "epoch": 0.25547445255474455,
      "grad_norm": 0.09765625,
      "learning_rate": 7.445255474452555e-06,
      "loss": 1.3218,
      "step": 70
    },
    {
      "epoch": 0.2591240875912409,
      "grad_norm": 0.095703125,
      "learning_rate": 7.408759124087592e-06,
      "loss": 1.2795,
      "step": 71
    },
    {
      "epoch": 0.26277372262773724,
      "grad_norm": 0.09765625,
      "learning_rate": 7.3722627737226285e-06,
      "loss": 1.2747,
      "step": 72
    },
    {
      "epoch": 0.2664233576642336,
      "grad_norm": 0.1015625,
      "learning_rate": 7.335766423357666e-06,
      "loss": 1.3112,
      "step": 73
    },
    {
      "epoch": 0.27007299270072993,
      "grad_norm": 0.099609375,
      "learning_rate": 7.299270072992701e-06,
      "loss": 1.3041,
      "step": 74
    },
    {
      "epoch": 0.2737226277372263,
      "grad_norm": 0.11328125,
      "learning_rate": 7.262773722627737e-06,
      "loss": 1.2751,
      "step": 75
    },
    {
      "epoch": 0.2773722627737226,
      "grad_norm": 0.107421875,
      "learning_rate": 7.2262773722627744e-06,
      "loss": 1.3012,
      "step": 76
    },
    {
      "epoch": 0.28102189781021897,
      "grad_norm": 0.11962890625,
      "learning_rate": 7.189781021897811e-06,
      "loss": 1.2726,
      "step": 77
    },
    {
      "epoch": 0.2846715328467153,
      "grad_norm": 0.123046875,
      "learning_rate": 7.153284671532848e-06,
      "loss": 1.2871,
      "step": 78
    },
    {
      "epoch": 0.28832116788321166,
      "grad_norm": 0.10791015625,
      "learning_rate": 7.116788321167883e-06,
      "loss": 1.347,
      "step": 79
    },
    {
      "epoch": 0.291970802919708,
      "grad_norm": 0.11083984375,
      "learning_rate": 7.08029197080292e-06,
      "loss": 1.3112,
      "step": 80
    },
    {
      "epoch": 0.2956204379562044,
      "grad_norm": 0.09228515625,
      "learning_rate": 7.043795620437957e-06,
      "loss": 1.266,
      "step": 81
    },
    {
      "epoch": 0.29927007299270075,
      "grad_norm": 0.10888671875,
      "learning_rate": 7.007299270072994e-06,
      "loss": 1.2617,
      "step": 82
    },
    {
      "epoch": 0.3029197080291971,
      "grad_norm": 0.09130859375,
      "learning_rate": 6.970802919708029e-06,
      "loss": 1.284,
      "step": 83
    },
    {
      "epoch": 0.30656934306569344,
      "grad_norm": 0.09326171875,
      "learning_rate": 6.934306569343066e-06,
      "loss": 1.307,
      "step": 84
    },
    {
      "epoch": 0.3102189781021898,
      "grad_norm": 0.08935546875,
      "learning_rate": 6.897810218978103e-06,
      "loss": 1.2583,
      "step": 85
    },
    {
      "epoch": 0.31386861313868614,
      "grad_norm": 0.08935546875,
      "learning_rate": 6.86131386861314e-06,
      "loss": 1.2719,
      "step": 86
    },
    {
      "epoch": 0.3175182481751825,
      "grad_norm": 0.09716796875,
      "learning_rate": 6.824817518248176e-06,
      "loss": 1.2643,
      "step": 87
    },
    {
      "epoch": 0.32116788321167883,
      "grad_norm": 0.09130859375,
      "learning_rate": 6.7883211678832115e-06,
      "loss": 1.2807,
      "step": 88
    },
    {
      "epoch": 0.3248175182481752,
      "grad_norm": 0.10595703125,
      "learning_rate": 6.751824817518249e-06,
      "loss": 1.2979,
      "step": 89
    },
    {
      "epoch": 0.3284671532846715,
      "grad_norm": 0.08984375,
      "learning_rate": 6.715328467153285e-06,
      "loss": 1.288,
      "step": 90
    },
    {
      "epoch": 0.33211678832116787,
      "grad_norm": 0.08984375,
      "learning_rate": 6.678832116788322e-06,
      "loss": 1.2624,
      "step": 91
    },
    {
      "epoch": 0.3357664233576642,
      "grad_norm": 0.095703125,
      "learning_rate": 6.6423357664233575e-06,
      "loss": 1.2882,
      "step": 92
    },
    {
      "epoch": 0.33941605839416056,
      "grad_norm": 0.09326171875,
      "learning_rate": 6.605839416058395e-06,
      "loss": 1.2996,
      "step": 93
    },
    {
      "epoch": 0.34306569343065696,
      "grad_norm": 0.119140625,
      "learning_rate": 6.569343065693431e-06,
      "loss": 1.2549,
      "step": 94
    },
    {
      "epoch": 0.3467153284671533,
      "grad_norm": 0.0888671875,
      "learning_rate": 6.532846715328468e-06,
      "loss": 1.2458,
      "step": 95
    },
    {
      "epoch": 0.35036496350364965,
      "grad_norm": 0.09814453125,
      "learning_rate": 6.496350364963504e-06,
      "loss": 1.2425,
      "step": 96
    },
    {
      "epoch": 0.354014598540146,
      "grad_norm": 0.09375,
      "learning_rate": 6.4598540145985415e-06,
      "loss": 1.2804,
      "step": 97
    },
    {
      "epoch": 0.35766423357664234,
      "grad_norm": 0.1103515625,
      "learning_rate": 6.423357664233577e-06,
      "loss": 1.2688,
      "step": 98
    },
    {
      "epoch": 0.3613138686131387,
      "grad_norm": 0.09521484375,
      "learning_rate": 6.386861313868614e-06,
      "loss": 1.2709,
      "step": 99
    },
    {
      "epoch": 0.36496350364963503,
      "grad_norm": 0.10888671875,
      "learning_rate": 6.35036496350365e-06,
      "loss": 1.2435,
      "step": 100
    },
    {
      "epoch": 0.3686131386861314,
      "grad_norm": 0.10400390625,
      "learning_rate": 6.313868613138686e-06,
      "loss": 1.1989,
      "step": 101
    },
    {
      "epoch": 0.3722627737226277,
      "grad_norm": 0.09423828125,
      "learning_rate": 6.277372262773723e-06,
      "loss": 1.281,
      "step": 102
    },
    {
      "epoch": 0.3759124087591241,
      "grad_norm": 0.09228515625,
      "learning_rate": 6.240875912408759e-06,
      "loss": 1.2697,
      "step": 103
    },
    {
      "epoch": 0.3795620437956204,
      "grad_norm": 0.08935546875,
      "learning_rate": 6.204379562043796e-06,
      "loss": 1.2779,
      "step": 104
    },
    {
      "epoch": 0.38321167883211676,
      "grad_norm": 0.0888671875,
      "learning_rate": 6.1678832116788326e-06,
      "loss": 1.2693,
      "step": 105
    },
    {
      "epoch": 0.38686131386861317,
      "grad_norm": 0.0888671875,
      "learning_rate": 6.13138686131387e-06,
      "loss": 1.2527,
      "step": 106
    },
    {
      "epoch": 0.3905109489051095,
      "grad_norm": 0.09326171875,
      "learning_rate": 6.094890510948905e-06,
      "loss": 1.2678,
      "step": 107
    },
    {
      "epoch": 0.39416058394160586,
      "grad_norm": 0.09521484375,
      "learning_rate": 6.058394160583942e-06,
      "loss": 1.2477,
      "step": 108
    },
    {
      "epoch": 0.3978102189781022,
      "grad_norm": 0.0908203125,
      "learning_rate": 6.0218978102189786e-06,
      "loss": 1.2542,
      "step": 109
    },
    {
      "epoch": 0.40145985401459855,
      "grad_norm": 0.0966796875,
      "learning_rate": 5.985401459854016e-06,
      "loss": 1.2327,
      "step": 110
    },
    {
      "epoch": 0.4051094890510949,
      "grad_norm": 0.08642578125,
      "learning_rate": 5.948905109489051e-06,
      "loss": 1.2595,
      "step": 111
    },
    {
      "epoch": 0.40875912408759124,
      "grad_norm": 0.13671875,
      "learning_rate": 5.912408759124088e-06,
      "loss": 1.2944,
      "step": 112
    },
    {
      "epoch": 0.4124087591240876,
      "grad_norm": 0.0927734375,
      "learning_rate": 5.8759124087591245e-06,
      "loss": 1.3023,
      "step": 113
    },
    {
      "epoch": 0.41605839416058393,
      "grad_norm": 0.115234375,
      "learning_rate": 5.839416058394161e-06,
      "loss": 1.192,
      "step": 114
    },
    {
      "epoch": 0.4197080291970803,
      "grad_norm": 0.1259765625,
      "learning_rate": 5.802919708029198e-06,
      "loss": 1.2809,
      "step": 115
    },
    {
      "epoch": 0.4233576642335766,
      "grad_norm": 0.09375,
      "learning_rate": 5.766423357664233e-06,
      "loss": 1.2375,
      "step": 116
    },
    {
      "epoch": 0.42700729927007297,
      "grad_norm": 0.09228515625,
      "learning_rate": 5.7299270072992705e-06,
      "loss": 1.2174,
      "step": 117
    },
    {
      "epoch": 0.4306569343065693,
      "grad_norm": 0.1044921875,
      "learning_rate": 5.693430656934307e-06,
      "loss": 1.2917,
      "step": 118
    },
    {
      "epoch": 0.4343065693430657,
      "grad_norm": 0.12060546875,
      "learning_rate": 5.656934306569344e-06,
      "loss": 1.2789,
      "step": 119
    },
    {
      "epoch": 0.43795620437956206,
      "grad_norm": 0.10009765625,
      "learning_rate": 5.62043795620438e-06,
      "loss": 1.2532,
      "step": 120
    },
    {
      "epoch": 0.4416058394160584,
      "grad_norm": 0.453125,
      "learning_rate": 5.5839416058394165e-06,
      "loss": 1.4233,
      "step": 121
    },
    {
      "epoch": 0.44525547445255476,
      "grad_norm": 0.08935546875,
      "learning_rate": 5.547445255474453e-06,
      "loss": 1.2675,
      "step": 122
    },
    {
      "epoch": 0.4489051094890511,
      "grad_norm": 0.11962890625,
      "learning_rate": 5.51094890510949e-06,
      "loss": 1.2127,
      "step": 123
    },
    {
      "epoch": 0.45255474452554745,
      "grad_norm": 0.09033203125,
      "learning_rate": 5.474452554744526e-06,
      "loss": 1.2437,
      "step": 124
    },
    {
      "epoch": 0.4562043795620438,
      "grad_norm": 0.1064453125,
      "learning_rate": 5.437956204379562e-06,
      "loss": 1.2945,
      "step": 125
    },
    {
      "epoch": 0.45985401459854014,
      "grad_norm": 0.0888671875,
      "learning_rate": 5.401459854014599e-06,
      "loss": 1.264,
      "step": 126
    },
    {
      "epoch": 0.4635036496350365,
      "grad_norm": 0.10302734375,
      "learning_rate": 5.364963503649635e-06,
      "loss": 1.2687,
      "step": 127
    },
    {
      "epoch": 0.46715328467153283,
      "grad_norm": 0.10595703125,
      "learning_rate": 5.328467153284672e-06,
      "loss": 1.1756,
      "step": 128
    },
    {
      "epoch": 0.4708029197080292,
      "grad_norm": 0.1328125,
      "learning_rate": 5.2919708029197084e-06,
      "loss": 1.2547,
      "step": 129
    },
    {
      "epoch": 0.4744525547445255,
      "grad_norm": 0.1357421875,
      "learning_rate": 5.255474452554746e-06,
      "loss": 1.2345,
      "step": 130
    },
    {
      "epoch": 0.4781021897810219,
      "grad_norm": 0.11376953125,
      "learning_rate": 5.218978102189781e-06,
      "loss": 1.2385,
      "step": 131
    },
    {
      "epoch": 0.48175182481751827,
      "grad_norm": 0.0888671875,
      "learning_rate": 5.182481751824818e-06,
      "loss": 1.2257,
      "step": 132
    },
    {
      "epoch": 0.4854014598540146,
      "grad_norm": 0.09228515625,
      "learning_rate": 5.1459854014598544e-06,
      "loss": 1.2268,
      "step": 133
    },
    {
      "epoch": 0.48905109489051096,
      "grad_norm": 0.09423828125,
      "learning_rate": 5.1094890510948916e-06,
      "loss": 1.2784,
      "step": 134
    },
    {
      "epoch": 0.4927007299270073,
      "grad_norm": 0.08935546875,
      "learning_rate": 5.072992700729927e-06,
      "loss": 1.247,
      "step": 135
    },
    {
      "epoch": 0.49635036496350365,
      "grad_norm": 0.10009765625,
      "learning_rate": 5.036496350364964e-06,
      "loss": 1.2722,
      "step": 136
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.111328125,
      "learning_rate": 5e-06,
      "loss": 1.2572,
      "step": 137
    },
    {
      "epoch": 0.5036496350364964,
      "grad_norm": 0.09765625,
      "learning_rate": 4.963503649635037e-06,
      "loss": 1.2469,
      "step": 138
    },
    {
      "epoch": 0.5072992700729927,
      "grad_norm": 0.1298828125,
      "learning_rate": 4.927007299270074e-06,
      "loss": 1.2788,
      "step": 139
    },
    {
      "epoch": 0.5109489051094891,
      "grad_norm": 0.1025390625,
      "learning_rate": 4.89051094890511e-06,
      "loss": 1.2108,
      "step": 140
    },
    {
      "epoch": 0.5145985401459854,
      "grad_norm": 0.0927734375,
      "learning_rate": 4.854014598540146e-06,
      "loss": 1.2242,
      "step": 141
    },
    {
      "epoch": 0.5182481751824818,
      "grad_norm": 0.0908203125,
      "learning_rate": 4.8175182481751835e-06,
      "loss": 1.2953,
      "step": 142
    },
    {
      "epoch": 0.5218978102189781,
      "grad_norm": 0.09423828125,
      "learning_rate": 4.78102189781022e-06,
      "loss": 1.2759,
      "step": 143
    },
    {
      "epoch": 0.5255474452554745,
      "grad_norm": 0.09326171875,
      "learning_rate": 4.744525547445255e-06,
      "loss": 1.253,
      "step": 144
    },
    {
      "epoch": 0.5291970802919708,
      "grad_norm": 0.10400390625,
      "learning_rate": 4.708029197080292e-06,
      "loss": 1.2395,
      "step": 145
    },
    {
      "epoch": 0.5328467153284672,
      "grad_norm": 0.107421875,
      "learning_rate": 4.671532846715329e-06,
      "loss": 1.2892,
      "step": 146
    },
    {
      "epoch": 0.5364963503649635,
      "grad_norm": 0.1396484375,
      "learning_rate": 4.635036496350365e-06,
      "loss": 1.3309,
      "step": 147
    },
    {
      "epoch": 0.5401459854014599,
      "grad_norm": 0.09326171875,
      "learning_rate": 4.598540145985402e-06,
      "loss": 1.2437,
      "step": 148
    },
    {
      "epoch": 0.5437956204379562,
      "grad_norm": 0.0927734375,
      "learning_rate": 4.562043795620438e-06,
      "loss": 1.2562,
      "step": 149
    },
    {
      "epoch": 0.5474452554744526,
      "grad_norm": 0.0986328125,
      "learning_rate": 4.525547445255475e-06,
      "loss": 1.2615,
      "step": 150
    },
    {
      "epoch": 0.551094890510949,
      "grad_norm": 0.09619140625,
      "learning_rate": 4.489051094890512e-06,
      "loss": 1.2461,
      "step": 151
    },
    {
      "epoch": 0.5547445255474452,
      "grad_norm": 0.0927734375,
      "learning_rate": 4.452554744525548e-06,
      "loss": 1.1926,
      "step": 152
    },
    {
      "epoch": 0.5583941605839416,
      "grad_norm": 0.09521484375,
      "learning_rate": 4.416058394160584e-06,
      "loss": 1.2746,
      "step": 153
    },
    {
      "epoch": 0.5620437956204379,
      "grad_norm": 0.10986328125,
      "learning_rate": 4.379562043795621e-06,
      "loss": 1.2613,
      "step": 154
    },
    {
      "epoch": 0.5656934306569343,
      "grad_norm": 0.1220703125,
      "learning_rate": 4.343065693430658e-06,
      "loss": 1.2296,
      "step": 155
    },
    {
      "epoch": 0.5693430656934306,
      "grad_norm": 0.09765625,
      "learning_rate": 4.306569343065693e-06,
      "loss": 1.2373,
      "step": 156
    },
    {
      "epoch": 0.572992700729927,
      "grad_norm": 0.2080078125,
      "learning_rate": 4.27007299270073e-06,
      "loss": 1.2422,
      "step": 157
    },
    {
      "epoch": 0.5766423357664233,
      "grad_norm": 0.10595703125,
      "learning_rate": 4.233576642335767e-06,
      "loss": 1.297,
      "step": 158
    },
    {
      "epoch": 0.5802919708029197,
      "grad_norm": 0.1103515625,
      "learning_rate": 4.197080291970803e-06,
      "loss": 1.2681,
      "step": 159
    },
    {
      "epoch": 0.583941605839416,
      "grad_norm": 0.09326171875,
      "learning_rate": 4.16058394160584e-06,
      "loss": 1.2453,
      "step": 160
    },
    {
      "epoch": 0.5875912408759124,
      "grad_norm": 0.1259765625,
      "learning_rate": 4.124087591240876e-06,
      "loss": 1.2257,
      "step": 161
    },
    {
      "epoch": 0.5912408759124088,
      "grad_norm": 0.0966796875,
      "learning_rate": 4.0875912408759126e-06,
      "loss": 1.2247,
      "step": 162
    },
    {
      "epoch": 0.5948905109489051,
      "grad_norm": 0.10400390625,
      "learning_rate": 4.05109489051095e-06,
      "loss": 1.207,
      "step": 163
    },
    {
      "epoch": 0.5985401459854015,
      "grad_norm": 0.1015625,
      "learning_rate": 4.014598540145986e-06,
      "loss": 1.2347,
      "step": 164
    },
    {
      "epoch": 0.6021897810218978,
      "grad_norm": 0.0908203125,
      "learning_rate": 3.978102189781022e-06,
      "loss": 1.1992,
      "step": 165
    },
    {
      "epoch": 0.6058394160583942,
      "grad_norm": 0.12353515625,
      "learning_rate": 3.9416058394160585e-06,
      "loss": 1.2355,
      "step": 166
    },
    {
      "epoch": 0.6094890510948905,
      "grad_norm": 0.09375,
      "learning_rate": 3.905109489051096e-06,
      "loss": 1.2196,
      "step": 167
    },
    {
      "epoch": 0.6131386861313869,
      "grad_norm": 0.109375,
      "learning_rate": 3.868613138686132e-06,
      "loss": 1.2188,
      "step": 168
    },
    {
      "epoch": 0.6167883211678832,
      "grad_norm": 0.09375,
      "learning_rate": 3.832116788321168e-06,
      "loss": 1.2455,
      "step": 169
    },
    {
      "epoch": 0.6204379562043796,
      "grad_norm": 0.1171875,
      "learning_rate": 3.7956204379562045e-06,
      "loss": 1.2245,
      "step": 170
    },
    {
      "epoch": 0.6240875912408759,
      "grad_norm": 0.0966796875,
      "learning_rate": 3.7591240875912412e-06,
      "loss": 1.2579,
      "step": 171
    },
    {
      "epoch": 0.6277372262773723,
      "grad_norm": 0.12890625,
      "learning_rate": 3.7226277372262775e-06,
      "loss": 1.2523,
      "step": 172
    },
    {
      "epoch": 0.6313868613138686,
      "grad_norm": 0.0947265625,
      "learning_rate": 3.6861313868613142e-06,
      "loss": 1.2324,
      "step": 173
    },
    {
      "epoch": 0.635036496350365,
      "grad_norm": 0.166015625,
      "learning_rate": 3.6496350364963505e-06,
      "loss": 1.2588,
      "step": 174
    },
    {
      "epoch": 0.6386861313868614,
      "grad_norm": 0.1123046875,
      "learning_rate": 3.6131386861313872e-06,
      "loss": 1.2529,
      "step": 175
    },
    {
      "epoch": 0.6423357664233577,
      "grad_norm": 0.11962890625,
      "learning_rate": 3.576642335766424e-06,
      "loss": 1.2412,
      "step": 176
    },
    {
      "epoch": 0.6459854014598541,
      "grad_norm": 0.09228515625,
      "learning_rate": 3.54014598540146e-06,
      "loss": 1.2613,
      "step": 177
    },
    {
      "epoch": 0.6496350364963503,
      "grad_norm": 0.11083984375,
      "learning_rate": 3.503649635036497e-06,
      "loss": 1.1815,
      "step": 178
    },
    {
      "epoch": 0.6532846715328468,
      "grad_norm": 0.11865234375,
      "learning_rate": 3.467153284671533e-06,
      "loss": 1.2443,
      "step": 179
    },
    {
      "epoch": 0.656934306569343,
      "grad_norm": 0.09619140625,
      "learning_rate": 3.43065693430657e-06,
      "loss": 1.2417,
      "step": 180
    },
    {
      "epoch": 0.6605839416058394,
      "grad_norm": 0.1123046875,
      "learning_rate": 3.3941605839416058e-06,
      "loss": 1.2534,
      "step": 181
    },
    {
      "epoch": 0.6642335766423357,
      "grad_norm": 0.12353515625,
      "learning_rate": 3.3576642335766425e-06,
      "loss": 1.2235,
      "step": 182
    },
    {
      "epoch": 0.6678832116788321,
      "grad_norm": 0.119140625,
      "learning_rate": 3.3211678832116788e-06,
      "loss": 1.2402,
      "step": 183
    },
    {
      "epoch": 0.6715328467153284,
      "grad_norm": 0.103515625,
      "learning_rate": 3.2846715328467155e-06,
      "loss": 1.2838,
      "step": 184
    },
    {
      "epoch": 0.6751824817518248,
      "grad_norm": 0.10302734375,
      "learning_rate": 3.248175182481752e-06,
      "loss": 1.3437,
      "step": 185
    },
    {
      "epoch": 0.6788321167883211,
      "grad_norm": 0.107421875,
      "learning_rate": 3.2116788321167884e-06,
      "loss": 1.2333,
      "step": 186
    },
    {
      "epoch": 0.6824817518248175,
      "grad_norm": 0.09619140625,
      "learning_rate": 3.175182481751825e-06,
      "loss": 1.2391,
      "step": 187
    },
    {
      "epoch": 0.6861313868613139,
      "grad_norm": 0.1787109375,
      "learning_rate": 3.1386861313868614e-06,
      "loss": 1.2249,
      "step": 188
    },
    {
      "epoch": 0.6897810218978102,
      "grad_norm": 0.0986328125,
      "learning_rate": 3.102189781021898e-06,
      "loss": 1.2286,
      "step": 189
    },
    {
      "epoch": 0.6934306569343066,
      "grad_norm": 0.10498046875,
      "learning_rate": 3.065693430656935e-06,
      "loss": 1.2305,
      "step": 190
    },
    {
      "epoch": 0.6970802919708029,
      "grad_norm": 0.126953125,
      "learning_rate": 3.029197080291971e-06,
      "loss": 1.253,
      "step": 191
    },
    {
      "epoch": 0.7007299270072993,
      "grad_norm": 0.1328125,
      "learning_rate": 2.992700729927008e-06,
      "loss": 1.2213,
      "step": 192
    },
    {
      "epoch": 0.7043795620437956,
      "grad_norm": 0.115234375,
      "learning_rate": 2.956204379562044e-06,
      "loss": 1.2392,
      "step": 193
    },
    {
      "epoch": 0.708029197080292,
      "grad_norm": 0.1298828125,
      "learning_rate": 2.9197080291970804e-06,
      "loss": 1.2582,
      "step": 194
    },
    {
      "epoch": 0.7116788321167883,
      "grad_norm": 0.138671875,
      "learning_rate": 2.8832116788321167e-06,
      "loss": 1.2185,
      "step": 195
    },
    {
      "epoch": 0.7153284671532847,
      "grad_norm": 0.1806640625,
      "learning_rate": 2.8467153284671534e-06,
      "loss": 1.2429,
      "step": 196
    },
    {
      "epoch": 0.718978102189781,
      "grad_norm": 0.1328125,
      "learning_rate": 2.81021897810219e-06,
      "loss": 1.2507,
      "step": 197
    },
    {
      "epoch": 0.7226277372262774,
      "grad_norm": 0.109375,
      "learning_rate": 2.7737226277372264e-06,
      "loss": 1.2139,
      "step": 198
    },
    {
      "epoch": 0.7262773722627737,
      "grad_norm": 0.10888671875,
      "learning_rate": 2.737226277372263e-06,
      "loss": 1.2219,
      "step": 199
    },
    {
      "epoch": 0.7299270072992701,
      "grad_norm": 0.1943359375,
      "learning_rate": 2.7007299270072994e-06,
      "loss": 1.1527,
      "step": 200
    },
    {
      "epoch": 0.7335766423357665,
      "grad_norm": 0.10107421875,
      "learning_rate": 2.664233576642336e-06,
      "loss": 1.2797,
      "step": 201
    },
    {
      "epoch": 0.7372262773722628,
      "grad_norm": 0.134765625,
      "learning_rate": 2.627737226277373e-06,
      "loss": 1.2778,
      "step": 202
    },
    {
      "epoch": 0.7408759124087592,
      "grad_norm": 0.10693359375,
      "learning_rate": 2.591240875912409e-06,
      "loss": 1.2195,
      "step": 203
    },
    {
      "epoch": 0.7445255474452555,
      "grad_norm": 0.107421875,
      "learning_rate": 2.5547445255474458e-06,
      "loss": 1.2613,
      "step": 204
    },
    {
      "epoch": 0.7481751824817519,
      "grad_norm": 0.142578125,
      "learning_rate": 2.518248175182482e-06,
      "loss": 1.2169,
      "step": 205
    },
    {
      "epoch": 0.7518248175182481,
      "grad_norm": 0.1259765625,
      "learning_rate": 2.4817518248175183e-06,
      "loss": 1.1836,
      "step": 206
    },
    {
      "epoch": 0.7554744525547445,
      "grad_norm": 0.11181640625,
      "learning_rate": 2.445255474452555e-06,
      "loss": 1.2334,
      "step": 207
    },
    {
      "epoch": 0.7591240875912408,
      "grad_norm": 0.11865234375,
      "learning_rate": 2.4087591240875918e-06,
      "loss": 1.2824,
      "step": 208
    },
    {
      "epoch": 0.7627737226277372,
      "grad_norm": 0.1455078125,
      "learning_rate": 2.3722627737226276e-06,
      "loss": 1.2157,
      "step": 209
    },
    {
      "epoch": 0.7664233576642335,
      "grad_norm": 0.125,
      "learning_rate": 2.3357664233576643e-06,
      "loss": 1.2449,
      "step": 210
    },
    {
      "epoch": 0.7700729927007299,
      "grad_norm": 0.1357421875,
      "learning_rate": 2.299270072992701e-06,
      "loss": 1.2892,
      "step": 211
    },
    {
      "epoch": 0.7737226277372263,
      "grad_norm": 0.1103515625,
      "learning_rate": 2.2627737226277373e-06,
      "loss": 1.2176,
      "step": 212
    },
    {
      "epoch": 0.7773722627737226,
      "grad_norm": 0.3828125,
      "learning_rate": 2.226277372262774e-06,
      "loss": 1.2478,
      "step": 213
    },
    {
      "epoch": 0.781021897810219,
      "grad_norm": 0.10107421875,
      "learning_rate": 2.1897810218978103e-06,
      "loss": 1.1828,
      "step": 214
    },
    {
      "epoch": 0.7846715328467153,
      "grad_norm": 0.10546875,
      "learning_rate": 2.1532846715328466e-06,
      "loss": 1.2149,
      "step": 215
    },
    {
      "epoch": 0.7883211678832117,
      "grad_norm": 0.1513671875,
      "learning_rate": 2.1167883211678833e-06,
      "loss": 1.2158,
      "step": 216
    },
    {
      "epoch": 0.791970802919708,
      "grad_norm": 0.103515625,
      "learning_rate": 2.08029197080292e-06,
      "loss": 1.2247,
      "step": 217
    },
    {
      "epoch": 0.7956204379562044,
      "grad_norm": 0.1064453125,
      "learning_rate": 2.0437956204379563e-06,
      "loss": 1.2732,
      "step": 218
    },
    {
      "epoch": 0.7992700729927007,
      "grad_norm": 0.11572265625,
      "learning_rate": 2.007299270072993e-06,
      "loss": 1.1993,
      "step": 219
    },
    {
      "epoch": 0.8029197080291971,
      "grad_norm": 0.1142578125,
      "learning_rate": 1.9708029197080293e-06,
      "loss": 1.2262,
      "step": 220
    },
    {
      "epoch": 0.8065693430656934,
      "grad_norm": 0.11865234375,
      "learning_rate": 1.934306569343066e-06,
      "loss": 1.2681,
      "step": 221
    },
    {
      "epoch": 0.8102189781021898,
      "grad_norm": 0.1552734375,
      "learning_rate": 1.8978102189781023e-06,
      "loss": 1.236,
      "step": 222
    },
    {
      "epoch": 0.8138686131386861,
      "grad_norm": 0.10400390625,
      "learning_rate": 1.8613138686131388e-06,
      "loss": 1.2402,
      "step": 223
    },
    {
      "epoch": 0.8175182481751825,
      "grad_norm": 0.111328125,
      "learning_rate": 1.8248175182481753e-06,
      "loss": 1.2562,
      "step": 224
    },
    {
      "epoch": 0.8211678832116789,
      "grad_norm": 0.15625,
      "learning_rate": 1.788321167883212e-06,
      "loss": 1.3285,
      "step": 225
    },
    {
      "epoch": 0.8248175182481752,
      "grad_norm": 0.1025390625,
      "learning_rate": 1.7518248175182485e-06,
      "loss": 1.2635,
      "step": 226
    },
    {
      "epoch": 0.8284671532846716,
      "grad_norm": 0.1103515625,
      "learning_rate": 1.715328467153285e-06,
      "loss": 1.2224,
      "step": 227
    },
    {
      "epoch": 0.8321167883211679,
      "grad_norm": 0.1494140625,
      "learning_rate": 1.6788321167883212e-06,
      "loss": 1.2547,
      "step": 228
    },
    {
      "epoch": 0.8357664233576643,
      "grad_norm": 0.11279296875,
      "learning_rate": 1.6423357664233577e-06,
      "loss": 1.2429,
      "step": 229
    },
    {
      "epoch": 0.8394160583941606,
      "grad_norm": 0.1298828125,
      "learning_rate": 1.6058394160583942e-06,
      "loss": 1.2089,
      "step": 230
    },
    {
      "epoch": 0.843065693430657,
      "grad_norm": 0.181640625,
      "learning_rate": 1.5693430656934307e-06,
      "loss": 1.2798,
      "step": 231
    },
    {
      "epoch": 0.8467153284671532,
      "grad_norm": 0.103515625,
      "learning_rate": 1.5328467153284674e-06,
      "loss": 1.237,
      "step": 232
    },
    {
      "epoch": 0.8503649635036497,
      "grad_norm": 0.1162109375,
      "learning_rate": 1.496350364963504e-06,
      "loss": 1.2712,
      "step": 233
    },
    {
      "epoch": 0.8540145985401459,
      "grad_norm": 0.11328125,
      "learning_rate": 1.4598540145985402e-06,
      "loss": 1.2276,
      "step": 234
    },
    {
      "epoch": 0.8576642335766423,
      "grad_norm": 0.10595703125,
      "learning_rate": 1.4233576642335767e-06,
      "loss": 1.2319,
      "step": 235
    },
    {
      "epoch": 0.8613138686131386,
      "grad_norm": 0.1123046875,
      "learning_rate": 1.3868613138686132e-06,
      "loss": 1.2449,
      "step": 236
    },
    {
      "epoch": 0.864963503649635,
      "grad_norm": 0.1533203125,
      "learning_rate": 1.3503649635036497e-06,
      "loss": 1.2865,
      "step": 237
    },
    {
      "epoch": 0.8686131386861314,
      "grad_norm": 0.1201171875,
      "learning_rate": 1.3138686131386864e-06,
      "loss": 1.2374,
      "step": 238
    },
    {
      "epoch": 0.8722627737226277,
      "grad_norm": 0.1123046875,
      "learning_rate": 1.2773722627737229e-06,
      "loss": 1.2349,
      "step": 239
    },
    {
      "epoch": 0.8759124087591241,
      "grad_norm": 0.1171875,
      "learning_rate": 1.2408759124087592e-06,
      "loss": 1.2213,
      "step": 240
    },
    {
      "epoch": 0.8795620437956204,
      "grad_norm": 0.1328125,
      "learning_rate": 1.2043795620437959e-06,
      "loss": 1.223,
      "step": 241
    },
    {
      "epoch": 0.8832116788321168,
      "grad_norm": 0.10791015625,
      "learning_rate": 1.1678832116788322e-06,
      "loss": 1.2284,
      "step": 242
    },
    {
      "epoch": 0.8868613138686131,
      "grad_norm": 0.1123046875,
      "learning_rate": 1.1313868613138687e-06,
      "loss": 1.231,
      "step": 243
    },
    {
      "epoch": 0.8905109489051095,
      "grad_norm": 0.11767578125,
      "learning_rate": 1.0948905109489052e-06,
      "loss": 1.2126,
      "step": 244
    },
    {
      "epoch": 0.8941605839416058,
      "grad_norm": 0.1767578125,
      "learning_rate": 1.0583941605839416e-06,
      "loss": 1.2471,
      "step": 245
    },
    {
      "epoch": 0.8978102189781022,
      "grad_norm": 0.111328125,
      "learning_rate": 1.0218978102189781e-06,
      "loss": 1.2043,
      "step": 246
    },
    {
      "epoch": 0.9014598540145985,
      "grad_norm": 0.11328125,
      "learning_rate": 9.854014598540146e-07,
      "loss": 1.2382,
      "step": 247
    },
    {
      "epoch": 0.9051094890510949,
      "grad_norm": 0.10986328125,
      "learning_rate": 9.489051094890511e-07,
      "loss": 1.225,
      "step": 248
    },
    {
      "epoch": 0.9087591240875912,
      "grad_norm": 0.1484375,
      "learning_rate": 9.124087591240876e-07,
      "loss": 1.291,
      "step": 249
    },
    {
      "epoch": 0.9124087591240876,
      "grad_norm": 0.126953125,
      "learning_rate": 8.759124087591242e-07,
      "loss": 1.2345,
      "step": 250
    },
    {
      "epoch": 0.916058394160584,
      "grad_norm": 0.1318359375,
      "learning_rate": 8.394160583941606e-07,
      "loss": 1.192,
      "step": 251
    },
    {
      "epoch": 0.9197080291970803,
      "grad_norm": 0.119140625,
      "learning_rate": 8.029197080291971e-07,
      "loss": 1.208,
      "step": 252
    },
    {
      "epoch": 0.9233576642335767,
      "grad_norm": 0.111328125,
      "learning_rate": 7.664233576642337e-07,
      "loss": 1.2376,
      "step": 253
    },
    {
      "epoch": 0.927007299270073,
      "grad_norm": 0.12109375,
      "learning_rate": 7.299270072992701e-07,
      "loss": 1.2049,
      "step": 254
    },
    {
      "epoch": 0.9306569343065694,
      "grad_norm": 0.11474609375,
      "learning_rate": 6.934306569343066e-07,
      "loss": 1.2408,
      "step": 255
    },
    {
      "epoch": 0.9343065693430657,
      "grad_norm": 0.11572265625,
      "learning_rate": 6.569343065693432e-07,
      "loss": 1.2606,
      "step": 256
    },
    {
      "epoch": 0.9379562043795621,
      "grad_norm": 0.13671875,
      "learning_rate": 6.204379562043796e-07,
      "loss": 1.1817,
      "step": 257
    },
    {
      "epoch": 0.9416058394160584,
      "grad_norm": 0.11376953125,
      "learning_rate": 5.839416058394161e-07,
      "loss": 1.235,
      "step": 258
    },
    {
      "epoch": 0.9452554744525548,
      "grad_norm": 0.138671875,
      "learning_rate": 5.474452554744526e-07,
      "loss": 1.2341,
      "step": 259
    },
    {
      "epoch": 0.948905109489051,
      "grad_norm": 0.1162109375,
      "learning_rate": 5.109489051094891e-07,
      "loss": 1.242,
      "step": 260
    },
    {
      "epoch": 0.9525547445255474,
      "grad_norm": 0.111328125,
      "learning_rate": 4.7445255474452557e-07,
      "loss": 1.3081,
      "step": 261
    },
    {
      "epoch": 0.9562043795620438,
      "grad_norm": 0.109375,
      "learning_rate": 4.379562043795621e-07,
      "loss": 1.2496,
      "step": 262
    },
    {
      "epoch": 0.9598540145985401,
      "grad_norm": 0.11962890625,
      "learning_rate": 4.0145985401459856e-07,
      "loss": 1.2588,
      "step": 263
    },
    {
      "epoch": 0.9635036496350365,
      "grad_norm": 0.111328125,
      "learning_rate": 3.6496350364963505e-07,
      "loss": 1.188,
      "step": 264
    },
    {
      "epoch": 0.9671532846715328,
      "grad_norm": 0.119140625,
      "learning_rate": 3.284671532846716e-07,
      "loss": 1.2313,
      "step": 265
    },
    {
      "epoch": 0.9708029197080292,
      "grad_norm": 0.11083984375,
      "learning_rate": 2.9197080291970804e-07,
      "loss": 1.2121,
      "step": 266
    },
    {
      "epoch": 0.9744525547445255,
      "grad_norm": 0.1494140625,
      "learning_rate": 2.5547445255474454e-07,
      "loss": 1.238,
      "step": 267
    },
    {
      "epoch": 0.9781021897810219,
      "grad_norm": 0.1494140625,
      "learning_rate": 2.1897810218978106e-07,
      "loss": 1.2519,
      "step": 268
    },
    {
      "epoch": 0.9817518248175182,
      "grad_norm": 0.11279296875,
      "learning_rate": 1.8248175182481753e-07,
      "loss": 1.2372,
      "step": 269
    },
    {
      "epoch": 0.9854014598540146,
      "grad_norm": 0.10791015625,
      "learning_rate": 1.4598540145985402e-07,
      "loss": 1.2464,
      "step": 270
    },
    {
      "epoch": 0.9890510948905109,
      "grad_norm": 0.115234375,
      "learning_rate": 1.0948905109489053e-07,
      "loss": 1.2105,
      "step": 271
    },
    {
      "epoch": 0.9927007299270073,
      "grad_norm": 0.11376953125,
      "learning_rate": 7.299270072992701e-08,
      "loss": 1.227,
      "step": 272
    },
    {
      "epoch": 0.9963503649635036,
      "grad_norm": 0.1103515625,
      "learning_rate": 3.6496350364963505e-08,
      "loss": 1.2786,
      "step": 273
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.12451171875,
      "learning_rate": 0.0,
      "loss": 1.2486,
      "step": 274
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 274,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.482210133542175e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}