{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 0,
  "global_step": 224,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004464285714285714,
      "grad_norm": 0.07861328125,
      "learning_rate": 9.955357142857143e-06,
      "loss": 1.8634,
      "step": 1
    },
    {
      "epoch": 0.008928571428571428,
      "grad_norm": 0.083984375,
      "learning_rate": 9.910714285714288e-06,
      "loss": 1.7968,
      "step": 2
    },
    {
      "epoch": 0.013392857142857142,
      "grad_norm": 0.078125,
      "learning_rate": 9.86607142857143e-06,
      "loss": 1.8905,
      "step": 3
    },
    {
      "epoch": 0.017857142857142856,
      "grad_norm": 0.07958984375,
      "learning_rate": 9.821428571428573e-06,
      "loss": 1.8662,
      "step": 4
    },
    {
      "epoch": 0.022321428571428572,
      "grad_norm": 0.08349609375,
      "learning_rate": 9.776785714285715e-06,
      "loss": 1.7685,
      "step": 5
    },
    {
      "epoch": 0.026785714285714284,
      "grad_norm": 0.08447265625,
      "learning_rate": 9.732142857142858e-06,
      "loss": 1.7888,
      "step": 6
    },
    {
      "epoch": 0.03125,
      "grad_norm": 0.08642578125,
      "learning_rate": 9.6875e-06,
      "loss": 1.8108,
      "step": 7
    },
    {
      "epoch": 0.03571428571428571,
      "grad_norm": 0.09228515625,
      "learning_rate": 9.642857142857144e-06,
      "loss": 1.889,
      "step": 8
    },
    {
      "epoch": 0.04017857142857143,
      "grad_norm": 0.0927734375,
      "learning_rate": 9.598214285714287e-06,
      "loss": 1.789,
      "step": 9
    },
    {
      "epoch": 0.044642857142857144,
      "grad_norm": 0.09228515625,
      "learning_rate": 9.55357142857143e-06,
      "loss": 1.779,
      "step": 10
    },
    {
      "epoch": 0.049107142857142856,
      "grad_norm": 0.10888671875,
      "learning_rate": 9.508928571428572e-06,
      "loss": 1.8476,
      "step": 11
    },
    {
      "epoch": 0.05357142857142857,
      "grad_norm": 0.10400390625,
      "learning_rate": 9.464285714285714e-06,
      "loss": 1.8045,
      "step": 12
    },
    {
      "epoch": 0.05803571428571429,
      "grad_norm": 0.1103515625,
      "learning_rate": 9.419642857142858e-06,
      "loss": 1.8056,
      "step": 13
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.11181640625,
      "learning_rate": 9.375000000000001e-06,
      "loss": 1.7723,
      "step": 14
    },
    {
      "epoch": 0.06696428571428571,
      "grad_norm": 0.1181640625,
      "learning_rate": 9.330357142857143e-06,
      "loss": 1.9299,
      "step": 15
    },
    {
      "epoch": 0.07142857142857142,
      "grad_norm": 0.12109375,
      "learning_rate": 9.285714285714288e-06,
      "loss": 1.8222,
      "step": 16
    },
    {
      "epoch": 0.07589285714285714,
      "grad_norm": 0.12890625,
      "learning_rate": 9.24107142857143e-06,
      "loss": 1.8723,
      "step": 17
    },
    {
      "epoch": 0.08035714285714286,
      "grad_norm": 0.130859375,
      "learning_rate": 9.196428571428571e-06,
      "loss": 1.7227,
      "step": 18
    },
    {
      "epoch": 0.08482142857142858,
      "grad_norm": 0.130859375,
      "learning_rate": 9.151785714285715e-06,
      "loss": 1.8378,
      "step": 19
    },
    {
      "epoch": 0.08928571428571429,
      "grad_norm": 0.13671875,
      "learning_rate": 9.107142857142858e-06,
      "loss": 1.7866,
      "step": 20
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.138671875,
      "learning_rate": 9.0625e-06,
      "loss": 1.8059,
      "step": 21
    },
    {
      "epoch": 0.09821428571428571,
      "grad_norm": 0.14453125,
      "learning_rate": 9.017857142857144e-06,
      "loss": 1.8625,
      "step": 22
    },
    {
      "epoch": 0.10267857142857142,
      "grad_norm": 0.1474609375,
      "learning_rate": 8.973214285714287e-06,
      "loss": 1.7532,
      "step": 23
    },
    {
      "epoch": 0.10714285714285714,
      "grad_norm": 0.146484375,
      "learning_rate": 8.92857142857143e-06,
      "loss": 1.738,
      "step": 24
    },
    {
      "epoch": 0.11160714285714286,
      "grad_norm": 0.158203125,
      "learning_rate": 8.883928571428572e-06,
      "loss": 1.8405,
      "step": 25
    },
    {
      "epoch": 0.11607142857142858,
      "grad_norm": 0.1572265625,
      "learning_rate": 8.839285714285714e-06,
      "loss": 1.7574,
      "step": 26
    },
    {
      "epoch": 0.12053571428571429,
      "grad_norm": 0.1650390625,
      "learning_rate": 8.794642857142858e-06,
      "loss": 1.8509,
      "step": 27
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.166015625,
      "learning_rate": 8.750000000000001e-06,
      "loss": 1.8148,
      "step": 28
    },
    {
      "epoch": 0.12946428571428573,
      "grad_norm": 0.1748046875,
      "learning_rate": 8.705357142857143e-06,
      "loss": 1.831,
      "step": 29
    },
    {
      "epoch": 0.13392857142857142,
      "grad_norm": 0.1630859375,
      "learning_rate": 8.660714285714286e-06,
      "loss": 1.7038,
      "step": 30
    },
    {
      "epoch": 0.13839285714285715,
      "grad_norm": 0.171875,
      "learning_rate": 8.61607142857143e-06,
      "loss": 1.7463,
      "step": 31
    },
    {
      "epoch": 0.14285714285714285,
      "grad_norm": 0.1845703125,
      "learning_rate": 8.571428571428571e-06,
      "loss": 1.8536,
      "step": 32
    },
    {
      "epoch": 0.14732142857142858,
      "grad_norm": 0.1826171875,
      "learning_rate": 8.526785714285715e-06,
      "loss": 1.8093,
      "step": 33
    },
    {
      "epoch": 0.15178571428571427,
      "grad_norm": 0.1953125,
      "learning_rate": 8.482142857142858e-06,
      "loss": 1.8588,
      "step": 34
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.205078125,
      "learning_rate": 8.4375e-06,
      "loss": 1.89,
      "step": 35
    },
    {
      "epoch": 0.16071428571428573,
      "grad_norm": 0.1884765625,
      "learning_rate": 8.392857142857144e-06,
      "loss": 1.7956,
      "step": 36
    },
    {
      "epoch": 0.16517857142857142,
      "grad_norm": 0.1865234375,
      "learning_rate": 8.348214285714287e-06,
      "loss": 1.8347,
      "step": 37
    },
    {
      "epoch": 0.16964285714285715,
      "grad_norm": 0.205078125,
      "learning_rate": 8.30357142857143e-06,
      "loss": 1.853,
      "step": 38
    },
    {
      "epoch": 0.17410714285714285,
      "grad_norm": 0.1865234375,
      "learning_rate": 8.258928571428572e-06,
      "loss": 1.7424,
      "step": 39
    },
    {
      "epoch": 0.17857142857142858,
      "grad_norm": 0.19921875,
      "learning_rate": 8.214285714285714e-06,
      "loss": 1.7234,
      "step": 40
    },
    {
      "epoch": 0.18303571428571427,
      "grad_norm": 0.1953125,
      "learning_rate": 8.169642857142858e-06,
      "loss": 1.7787,
      "step": 41
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.1904296875,
      "learning_rate": 8.125000000000001e-06,
      "loss": 1.685,
      "step": 42
    },
    {
      "epoch": 0.19196428571428573,
      "grad_norm": 0.2060546875,
      "learning_rate": 8.080357142857143e-06,
      "loss": 1.7566,
      "step": 43
    },
    {
      "epoch": 0.19642857142857142,
      "grad_norm": 0.2021484375,
      "learning_rate": 8.035714285714286e-06,
      "loss": 1.7826,
      "step": 44
    },
    {
      "epoch": 0.20089285714285715,
      "grad_norm": 0.1982421875,
      "learning_rate": 7.99107142857143e-06,
      "loss": 1.6607,
      "step": 45
    },
    {
      "epoch": 0.20535714285714285,
      "grad_norm": 0.2216796875,
      "learning_rate": 7.946428571428571e-06,
      "loss": 1.8165,
      "step": 46
    },
    {
      "epoch": 0.20982142857142858,
      "grad_norm": 0.2109375,
      "learning_rate": 7.901785714285715e-06,
      "loss": 1.7829,
      "step": 47
    },
    {
      "epoch": 0.21428571428571427,
      "grad_norm": 0.2060546875,
      "learning_rate": 7.857142857142858e-06,
      "loss": 1.7504,
      "step": 48
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.1962890625,
      "learning_rate": 7.8125e-06,
      "loss": 1.6856,
      "step": 49
    },
    {
      "epoch": 0.22321428571428573,
      "grad_norm": 0.201171875,
      "learning_rate": 7.767857142857144e-06,
      "loss": 1.7685,
      "step": 50
    },
    {
      "epoch": 0.22767857142857142,
      "grad_norm": 0.21484375,
      "learning_rate": 7.723214285714287e-06,
      "loss": 1.8056,
      "step": 51
    },
    {
      "epoch": 0.23214285714285715,
      "grad_norm": 0.193359375,
      "learning_rate": 7.67857142857143e-06,
      "loss": 1.722,
      "step": 52
    },
    {
      "epoch": 0.23660714285714285,
      "grad_norm": 0.203125,
      "learning_rate": 7.633928571428572e-06,
      "loss": 1.6875,
      "step": 53
    },
    {
      "epoch": 0.24107142857142858,
      "grad_norm": 0.2060546875,
      "learning_rate": 7.589285714285714e-06,
      "loss": 1.7098,
      "step": 54
    },
    {
      "epoch": 0.24553571428571427,
      "grad_norm": 0.22265625,
      "learning_rate": 7.544642857142858e-06,
      "loss": 1.7984,
      "step": 55
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.201171875,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.7323,
      "step": 56
    },
    {
      "epoch": 0.2544642857142857,
      "grad_norm": 0.2216796875,
      "learning_rate": 7.4553571428571435e-06,
      "loss": 1.8006,
      "step": 57
    },
    {
      "epoch": 0.25892857142857145,
      "grad_norm": 0.21484375,
      "learning_rate": 7.410714285714287e-06,
      "loss": 1.8127,
      "step": 58
    },
    {
      "epoch": 0.26339285714285715,
      "grad_norm": 0.2060546875,
      "learning_rate": 7.366071428571429e-06,
      "loss": 1.7173,
      "step": 59
    },
    {
      "epoch": 0.26785714285714285,
      "grad_norm": 0.2080078125,
      "learning_rate": 7.321428571428572e-06,
      "loss": 1.6963,
      "step": 60
    },
    {
      "epoch": 0.27232142857142855,
      "grad_norm": 0.205078125,
      "learning_rate": 7.276785714285714e-06,
      "loss": 1.7228,
      "step": 61
    },
    {
      "epoch": 0.2767857142857143,
      "grad_norm": 0.216796875,
      "learning_rate": 7.232142857142858e-06,
      "loss": 1.7273,
      "step": 62
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.228515625,
      "learning_rate": 7.1875e-06,
      "loss": 1.7417,
      "step": 63
    },
    {
      "epoch": 0.2857142857142857,
      "grad_norm": 0.2236328125,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 1.7697,
      "step": 64
    },
    {
      "epoch": 0.29017857142857145,
      "grad_norm": 0.212890625,
      "learning_rate": 7.098214285714287e-06,
      "loss": 1.6588,
      "step": 65
    },
    {
      "epoch": 0.29464285714285715,
      "grad_norm": 0.2021484375,
      "learning_rate": 7.053571428571429e-06,
      "loss": 1.6242,
      "step": 66
    },
    {
      "epoch": 0.29910714285714285,
      "grad_norm": 0.205078125,
      "learning_rate": 7.008928571428572e-06,
      "loss": 1.7073,
      "step": 67
    },
    {
      "epoch": 0.30357142857142855,
      "grad_norm": 0.224609375,
      "learning_rate": 6.964285714285714e-06,
      "loss": 1.7118,
      "step": 68
    },
    {
      "epoch": 0.3080357142857143,
      "grad_norm": 0.2158203125,
      "learning_rate": 6.919642857142858e-06,
      "loss": 1.7471,
      "step": 69
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.2216796875,
      "learning_rate": 6.875e-06,
      "loss": 1.6889,
      "step": 70
    },
    {
      "epoch": 0.3169642857142857,
      "grad_norm": 0.2021484375,
      "learning_rate": 6.830357142857144e-06,
      "loss": 1.6968,
      "step": 71
    },
    {
      "epoch": 0.32142857142857145,
      "grad_norm": 0.2080078125,
      "learning_rate": 6.785714285714287e-06,
      "loss": 1.6208,
      "step": 72
    },
    {
      "epoch": 0.32589285714285715,
      "grad_norm": 0.208984375,
      "learning_rate": 6.7410714285714294e-06,
      "loss": 1.6607,
      "step": 73
    },
    {
      "epoch": 0.33035714285714285,
      "grad_norm": 0.212890625,
      "learning_rate": 6.696428571428571e-06,
      "loss": 1.7338,
      "step": 74
    },
    {
      "epoch": 0.33482142857142855,
      "grad_norm": 0.2119140625,
      "learning_rate": 6.6517857142857144e-06,
      "loss": 1.6519,
      "step": 75
    },
    {
      "epoch": 0.3392857142857143,
      "grad_norm": 0.212890625,
      "learning_rate": 6.607142857142858e-06,
      "loss": 1.6503,
      "step": 76
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.193359375,
      "learning_rate": 6.5625e-06,
      "loss": 1.5916,
      "step": 77
    },
    {
      "epoch": 0.3482142857142857,
      "grad_norm": 0.1953125,
      "learning_rate": 6.517857142857144e-06,
      "loss": 1.658,
      "step": 78
    },
    {
      "epoch": 0.35267857142857145,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.473214285714287e-06,
      "loss": 1.5905,
      "step": 79
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 0.189453125,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 1.7005,
      "step": 80
    },
    {
      "epoch": 0.36160714285714285,
      "grad_norm": 0.193359375,
      "learning_rate": 6.383928571428571e-06,
      "loss": 1.6576,
      "step": 81
    },
    {
      "epoch": 0.36607142857142855,
      "grad_norm": 0.1845703125,
      "learning_rate": 6.3392857142857145e-06,
      "loss": 1.6186,
      "step": 82
    },
    {
      "epoch": 0.3705357142857143,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.294642857142858e-06,
      "loss": 1.6201,
      "step": 83
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.177734375,
      "learning_rate": 6.25e-06,
      "loss": 1.6804,
      "step": 84
    },
    {
      "epoch": 0.3794642857142857,
      "grad_norm": 0.1962890625,
      "learning_rate": 6.205357142857144e-06,
      "loss": 1.6794,
      "step": 85
    },
    {
      "epoch": 0.38392857142857145,
      "grad_norm": 0.1748046875,
      "learning_rate": 6.160714285714286e-06,
      "loss": 1.6431,
      "step": 86
    },
    {
      "epoch": 0.38839285714285715,
      "grad_norm": 0.181640625,
      "learning_rate": 6.1160714285714295e-06,
      "loss": 1.6216,
      "step": 87
    },
    {
      "epoch": 0.39285714285714285,
      "grad_norm": 0.17578125,
      "learning_rate": 6.071428571428571e-06,
      "loss": 1.639,
      "step": 88
    },
    {
      "epoch": 0.39732142857142855,
      "grad_norm": 0.1806640625,
      "learning_rate": 6.0267857142857145e-06,
      "loss": 1.6815,
      "step": 89
    },
    {
      "epoch": 0.4017857142857143,
      "grad_norm": 0.1845703125,
      "learning_rate": 5.982142857142858e-06,
      "loss": 1.6305,
      "step": 90
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.181640625,
      "learning_rate": 5.9375e-06,
      "loss": 1.665,
      "step": 91
    },
    {
      "epoch": 0.4107142857142857,
      "grad_norm": 0.166015625,
      "learning_rate": 5.892857142857144e-06,
      "loss": 1.6523,
      "step": 92
    },
    {
      "epoch": 0.41517857142857145,
      "grad_norm": 0.1875,
      "learning_rate": 5.848214285714286e-06,
      "loss": 1.6499,
      "step": 93
    },
    {
      "epoch": 0.41964285714285715,
      "grad_norm": 0.1943359375,
      "learning_rate": 5.8035714285714295e-06,
      "loss": 1.7261,
      "step": 94
    },
    {
      "epoch": 0.42410714285714285,
      "grad_norm": 0.1640625,
      "learning_rate": 5.758928571428571e-06,
      "loss": 1.5792,
      "step": 95
    },
    {
      "epoch": 0.42857142857142855,
      "grad_norm": 0.1845703125,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 1.7342,
      "step": 96
    },
    {
      "epoch": 0.4330357142857143,
      "grad_norm": 0.1865234375,
      "learning_rate": 5.669642857142858e-06,
      "loss": 1.6746,
      "step": 97
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.16796875,
      "learning_rate": 5.625e-06,
      "loss": 1.5059,
      "step": 98
    },
    {
      "epoch": 0.4419642857142857,
      "grad_norm": 0.1708984375,
      "learning_rate": 5.580357142857144e-06,
      "loss": 1.6661,
      "step": 99
    },
    {
      "epoch": 0.44642857142857145,
      "grad_norm": 0.173828125,
      "learning_rate": 5.535714285714286e-06,
      "loss": 1.6109,
      "step": 100
    },
    {
      "epoch": 0.45089285714285715,
      "grad_norm": 0.171875,
      "learning_rate": 5.4910714285714295e-06,
      "loss": 1.6601,
      "step": 101
    },
    {
      "epoch": 0.45535714285714285,
      "grad_norm": 0.1875,
      "learning_rate": 5.446428571428571e-06,
      "loss": 1.5794,
      "step": 102
    },
    {
      "epoch": 0.45982142857142855,
      "grad_norm": 0.1748046875,
      "learning_rate": 5.4017857142857145e-06,
      "loss": 1.5979,
      "step": 103
    },
    {
      "epoch": 0.4642857142857143,
      "grad_norm": 0.1826171875,
      "learning_rate": 5.357142857142857e-06,
      "loss": 1.6881,
      "step": 104
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.2421875,
      "learning_rate": 5.3125e-06,
      "loss": 1.7961,
      "step": 105
    },
    {
      "epoch": 0.4732142857142857,
      "grad_norm": 0.1806640625,
      "learning_rate": 5.267857142857144e-06,
      "loss": 1.6017,
      "step": 106
    },
    {
      "epoch": 0.47767857142857145,
      "grad_norm": 0.177734375,
      "learning_rate": 5.223214285714286e-06,
      "loss": 1.608,
      "step": 107
    },
    {
      "epoch": 0.48214285714285715,
      "grad_norm": 0.1689453125,
      "learning_rate": 5.1785714285714296e-06,
      "loss": 1.6028,
      "step": 108
    },
    {
      "epoch": 0.48660714285714285,
      "grad_norm": 0.181640625,
      "learning_rate": 5.133928571428571e-06,
      "loss": 1.5744,
      "step": 109
    },
    {
      "epoch": 0.49107142857142855,
      "grad_norm": 0.1650390625,
      "learning_rate": 5.0892857142857146e-06,
      "loss": 1.5429,
      "step": 110
    },
    {
      "epoch": 0.4955357142857143,
      "grad_norm": 0.1845703125,
      "learning_rate": 5.044642857142857e-06,
      "loss": 1.6046,
      "step": 111
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.1787109375,
      "learning_rate": 5e-06,
      "loss": 1.5988,
      "step": 112
    },
    {
      "epoch": 0.5044642857142857,
      "grad_norm": 0.1708984375,
      "learning_rate": 4.955357142857144e-06,
      "loss": 1.6072,
      "step": 113
    },
    {
      "epoch": 0.5089285714285714,
      "grad_norm": 0.1826171875,
      "learning_rate": 4.910714285714286e-06,
      "loss": 1.5146,
      "step": 114
    },
    {
      "epoch": 0.5133928571428571,
      "grad_norm": 0.169921875,
      "learning_rate": 4.866071428571429e-06,
      "loss": 1.5623,
      "step": 115
    },
    {
      "epoch": 0.5178571428571429,
      "grad_norm": 0.185546875,
      "learning_rate": 4.821428571428572e-06,
      "loss": 1.653,
      "step": 116
    },
    {
      "epoch": 0.5223214285714286,
      "grad_norm": 0.1728515625,
      "learning_rate": 4.776785714285715e-06,
      "loss": 1.5832,
      "step": 117
    },
    {
      "epoch": 0.5267857142857143,
      "grad_norm": 0.181640625,
      "learning_rate": 4.732142857142857e-06,
      "loss": 1.6007,
      "step": 118
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.1689453125,
      "learning_rate": 4.6875000000000004e-06,
      "loss": 1.6579,
      "step": 119
    },
    {
      "epoch": 0.5357142857142857,
      "grad_norm": 0.19140625,
      "learning_rate": 4.642857142857144e-06,
      "loss": 1.6938,
      "step": 120
    },
    {
      "epoch": 0.5401785714285714,
      "grad_norm": 0.1708984375,
      "learning_rate": 4.5982142857142854e-06,
      "loss": 1.4944,
      "step": 121
    },
    {
      "epoch": 0.5446428571428571,
      "grad_norm": 0.1591796875,
      "learning_rate": 4.553571428571429e-06,
      "loss": 1.5752,
      "step": 122
    },
    {
      "epoch": 0.5491071428571429,
      "grad_norm": 0.1845703125,
      "learning_rate": 4.508928571428572e-06,
      "loss": 1.5965,
      "step": 123
    },
    {
      "epoch": 0.5535714285714286,
      "grad_norm": 0.166015625,
      "learning_rate": 4.464285714285715e-06,
      "loss": 1.5837,
      "step": 124
    },
    {
      "epoch": 0.5580357142857143,
      "grad_norm": 0.162109375,
      "learning_rate": 4.419642857142857e-06,
      "loss": 1.4774,
      "step": 125
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.1689453125,
      "learning_rate": 4.3750000000000005e-06,
      "loss": 1.6187,
      "step": 126
    },
    {
      "epoch": 0.5669642857142857,
      "grad_norm": 0.1669921875,
      "learning_rate": 4.330357142857143e-06,
      "loss": 1.547,
      "step": 127
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 0.171875,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 1.6384,
      "step": 128
    },
    {
      "epoch": 0.5758928571428571,
      "grad_norm": 0.1865234375,
      "learning_rate": 4.241071428571429e-06,
      "loss": 1.5933,
      "step": 129
    },
    {
      "epoch": 0.5803571428571429,
      "grad_norm": 0.1767578125,
      "learning_rate": 4.196428571428572e-06,
      "loss": 1.576,
      "step": 130
    },
    {
      "epoch": 0.5848214285714286,
      "grad_norm": 0.1689453125,
      "learning_rate": 4.151785714285715e-06,
      "loss": 1.61,
      "step": 131
    },
    {
      "epoch": 0.5892857142857143,
      "grad_norm": 0.171875,
      "learning_rate": 4.107142857142857e-06,
      "loss": 1.5594,
      "step": 132
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.16796875,
      "learning_rate": 4.0625000000000005e-06,
      "loss": 1.5493,
      "step": 133
    },
    {
      "epoch": 0.5982142857142857,
      "grad_norm": 0.1953125,
      "learning_rate": 4.017857142857143e-06,
      "loss": 1.6848,
      "step": 134
    },
    {
      "epoch": 0.6026785714285714,
      "grad_norm": 0.1708984375,
      "learning_rate": 3.9732142857142855e-06,
      "loss": 1.5412,
      "step": 135
    },
    {
      "epoch": 0.6071428571428571,
      "grad_norm": 0.169921875,
      "learning_rate": 3.928571428571429e-06,
      "loss": 1.5168,
      "step": 136
    },
    {
      "epoch": 0.6116071428571429,
      "grad_norm": 0.1669921875,
      "learning_rate": 3.883928571428572e-06,
      "loss": 1.6524,
      "step": 137
    },
    {
      "epoch": 0.6160714285714286,
      "grad_norm": 0.1796875,
      "learning_rate": 3.839285714285715e-06,
      "loss": 1.5703,
      "step": 138
    },
    {
      "epoch": 0.6205357142857143,
      "grad_norm": 0.1845703125,
      "learning_rate": 3.794642857142857e-06,
      "loss": 1.6694,
      "step": 139
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.16796875,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.5454,
      "step": 140
    },
    {
      "epoch": 0.6294642857142857,
      "grad_norm": 0.1572265625,
      "learning_rate": 3.7053571428571434e-06,
      "loss": 1.4843,
      "step": 141
    },
    {
      "epoch": 0.6339285714285714,
      "grad_norm": 0.17578125,
      "learning_rate": 3.660714285714286e-06,
      "loss": 1.5604,
      "step": 142
    },
    {
      "epoch": 0.6383928571428571,
      "grad_norm": 0.1787109375,
      "learning_rate": 3.616071428571429e-06,
      "loss": 1.6404,
      "step": 143
    },
    {
      "epoch": 0.6428571428571429,
      "grad_norm": 0.16796875,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 1.5285,
      "step": 144
    },
    {
      "epoch": 0.6473214285714286,
      "grad_norm": 0.1904296875,
      "learning_rate": 3.5267857142857147e-06,
      "loss": 1.6134,
      "step": 145
    },
    {
      "epoch": 0.6517857142857143,
      "grad_norm": 0.205078125,
      "learning_rate": 3.482142857142857e-06,
      "loss": 1.6608,
      "step": 146
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.1845703125,
      "learning_rate": 3.4375e-06,
      "loss": 1.5724,
      "step": 147
    },
    {
      "epoch": 0.6607142857142857,
      "grad_norm": 0.19140625,
      "learning_rate": 3.3928571428571435e-06,
      "loss": 1.5872,
      "step": 148
    },
    {
      "epoch": 0.6651785714285714,
      "grad_norm": 0.1748046875,
      "learning_rate": 3.3482142857142855e-06,
      "loss": 1.6261,
      "step": 149
    },
    {
      "epoch": 0.6696428571428571,
      "grad_norm": 0.19921875,
      "learning_rate": 3.303571428571429e-06,
      "loss": 1.707,
      "step": 150
    },
    {
      "epoch": 0.6741071428571429,
      "grad_norm": 0.177734375,
      "learning_rate": 3.258928571428572e-06,
      "loss": 1.5649,
      "step": 151
    },
    {
      "epoch": 0.6785714285714286,
      "grad_norm": 0.1796875,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 1.6033,
      "step": 152
    },
    {
      "epoch": 0.6830357142857143,
      "grad_norm": 0.1904296875,
      "learning_rate": 3.1696428571428572e-06,
      "loss": 1.5877,
      "step": 153
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.171875,
      "learning_rate": 3.125e-06,
      "loss": 1.5381,
      "step": 154
    },
    {
      "epoch": 0.6919642857142857,
      "grad_norm": 0.185546875,
      "learning_rate": 3.080357142857143e-06,
      "loss": 1.5903,
      "step": 155
    },
    {
      "epoch": 0.6964285714285714,
      "grad_norm": 0.17578125,
      "learning_rate": 3.0357142857142856e-06,
      "loss": 1.5489,
      "step": 156
    },
    {
      "epoch": 0.7008928571428571,
      "grad_norm": 0.20703125,
      "learning_rate": 2.991071428571429e-06,
      "loss": 1.6671,
      "step": 157
    },
    {
      "epoch": 0.7053571428571429,
      "grad_norm": 0.1865234375,
      "learning_rate": 2.946428571428572e-06,
      "loss": 1.597,
      "step": 158
    },
    {
      "epoch": 0.7098214285714286,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.9017857142857148e-06,
      "loss": 1.6162,
      "step": 159
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.1787109375,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 1.5888,
      "step": 160
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.1806640625,
      "learning_rate": 2.8125e-06,
      "loss": 1.5569,
      "step": 161
    },
    {
      "epoch": 0.7232142857142857,
      "grad_norm": 0.1865234375,
      "learning_rate": 2.767857142857143e-06,
      "loss": 1.5702,
      "step": 162
    },
    {
      "epoch": 0.7276785714285714,
      "grad_norm": 0.1728515625,
      "learning_rate": 2.7232142857142856e-06,
      "loss": 1.5815,
      "step": 163
    },
    {
      "epoch": 0.7321428571428571,
      "grad_norm": 0.1708984375,
      "learning_rate": 2.6785714285714285e-06,
      "loss": 1.5708,
      "step": 164
    },
    {
      "epoch": 0.7366071428571429,
      "grad_norm": 0.177734375,
      "learning_rate": 2.633928571428572e-06,
      "loss": 1.5379,
      "step": 165
    },
    {
      "epoch": 0.7410714285714286,
      "grad_norm": 0.169921875,
      "learning_rate": 2.5892857142857148e-06,
      "loss": 1.5627,
      "step": 166
    },
    {
      "epoch": 0.7455357142857143,
      "grad_norm": 0.1826171875,
      "learning_rate": 2.5446428571428573e-06,
      "loss": 1.5764,
      "step": 167
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.1796875,
      "learning_rate": 2.5e-06,
      "loss": 1.609,
      "step": 168
    },
    {
      "epoch": 0.7544642857142857,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.455357142857143e-06,
      "loss": 1.572,
      "step": 169
    },
    {
      "epoch": 0.7589285714285714,
      "grad_norm": 0.1748046875,
      "learning_rate": 2.410714285714286e-06,
      "loss": 1.5601,
      "step": 170
    },
    {
      "epoch": 0.7633928571428571,
      "grad_norm": 0.1796875,
      "learning_rate": 2.3660714285714285e-06,
      "loss": 1.536,
      "step": 171
    },
    {
      "epoch": 0.7678571428571429,
      "grad_norm": 0.193359375,
      "learning_rate": 2.321428571428572e-06,
      "loss": 1.6065,
      "step": 172
    },
    {
      "epoch": 0.7723214285714286,
      "grad_norm": 0.1787109375,
      "learning_rate": 2.2767857142857144e-06,
      "loss": 1.5732,
      "step": 173
    },
    {
      "epoch": 0.7767857142857143,
      "grad_norm": 0.177734375,
      "learning_rate": 2.2321428571428573e-06,
      "loss": 1.5807,
      "step": 174
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.1787109375,
      "learning_rate": 2.1875000000000002e-06,
      "loss": 1.5583,
      "step": 175
    },
    {
      "epoch": 0.7857142857142857,
      "grad_norm": 0.18359375,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 1.5371,
      "step": 176
    },
    {
      "epoch": 0.7901785714285714,
      "grad_norm": 0.17578125,
      "learning_rate": 2.098214285714286e-06,
      "loss": 1.5702,
      "step": 177
    },
    {
      "epoch": 0.7946428571428571,
      "grad_norm": 0.177734375,
      "learning_rate": 2.0535714285714286e-06,
      "loss": 1.5329,
      "step": 178
    },
    {
      "epoch": 0.7991071428571429,
      "grad_norm": 0.201171875,
      "learning_rate": 2.0089285714285715e-06,
      "loss": 1.5959,
      "step": 179
    },
    {
      "epoch": 0.8035714285714286,
      "grad_norm": 0.1982421875,
      "learning_rate": 1.9642857142857144e-06,
      "loss": 1.644,
      "step": 180
    },
    {
      "epoch": 0.8080357142857143,
      "grad_norm": 0.181640625,
      "learning_rate": 1.9196428571428573e-06,
      "loss": 1.5143,
      "step": 181
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.2158203125,
      "learning_rate": 1.8750000000000003e-06,
      "loss": 1.6218,
      "step": 182
    },
    {
      "epoch": 0.8169642857142857,
      "grad_norm": 0.1962890625,
      "learning_rate": 1.830357142857143e-06,
      "loss": 1.5686,
      "step": 183
    },
    {
      "epoch": 0.8214285714285714,
      "grad_norm": 0.177734375,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 1.5513,
      "step": 184
    },
    {
      "epoch": 0.8258928571428571,
      "grad_norm": 0.193359375,
      "learning_rate": 1.7410714285714286e-06,
      "loss": 1.583,
      "step": 185
    },
    {
      "epoch": 0.8303571428571429,
      "grad_norm": 0.1728515625,
      "learning_rate": 1.6964285714285717e-06,
      "loss": 1.4423,
      "step": 186
    },
    {
      "epoch": 0.8348214285714286,
      "grad_norm": 0.1884765625,
      "learning_rate": 1.6517857142857144e-06,
      "loss": 1.5357,
      "step": 187
    },
    {
      "epoch": 0.8392857142857143,
      "grad_norm": 0.173828125,
      "learning_rate": 1.6071428571428574e-06,
      "loss": 1.5248,
      "step": 188
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.1845703125,
      "learning_rate": 1.5625e-06,
      "loss": 1.5698,
      "step": 189
    },
    {
      "epoch": 0.8482142857142857,
      "grad_norm": 0.2080078125,
      "learning_rate": 1.5178571428571428e-06,
      "loss": 1.6094,
      "step": 190
    },
    {
      "epoch": 0.8526785714285714,
      "grad_norm": 0.169921875,
      "learning_rate": 1.473214285714286e-06,
      "loss": 1.5229,
      "step": 191
    },
    {
      "epoch": 0.8571428571428571,
      "grad_norm": 0.1904296875,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 1.5894,
      "step": 192
    },
    {
      "epoch": 0.8616071428571429,
      "grad_norm": 0.1923828125,
      "learning_rate": 1.3839285714285715e-06,
      "loss": 1.5878,
      "step": 193
    },
    {
      "epoch": 0.8660714285714286,
      "grad_norm": 0.1962890625,
      "learning_rate": 1.3392857142857143e-06,
      "loss": 1.6138,
      "step": 194
    },
    {
      "epoch": 0.8705357142857143,
      "grad_norm": 0.19140625,
      "learning_rate": 1.2946428571428574e-06,
      "loss": 1.6387,
      "step": 195
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.197265625,
      "learning_rate": 1.25e-06,
      "loss": 1.5973,
      "step": 196
    },
    {
      "epoch": 0.8794642857142857,
      "grad_norm": 0.1826171875,
      "learning_rate": 1.205357142857143e-06,
      "loss": 1.5464,
      "step": 197
    },
    {
      "epoch": 0.8839285714285714,
      "grad_norm": 0.1826171875,
      "learning_rate": 1.160714285714286e-06,
      "loss": 1.5198,
      "step": 198
    },
    {
      "epoch": 0.8883928571428571,
      "grad_norm": 0.1826171875,
      "learning_rate": 1.1160714285714287e-06,
      "loss": 1.5961,
      "step": 199
    },
    {
      "epoch": 0.8928571428571429,
      "grad_norm": 0.1708984375,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 1.5354,
      "step": 200
    },
    {
      "epoch": 0.8973214285714286,
      "grad_norm": 0.1806640625,
      "learning_rate": 1.0267857142857143e-06,
      "loss": 1.5531,
      "step": 201
    },
    {
      "epoch": 0.9017857142857143,
      "grad_norm": 0.173828125,
      "learning_rate": 9.821428571428572e-07,
      "loss": 1.5165,
      "step": 202
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.2138671875,
      "learning_rate": 9.375000000000001e-07,
      "loss": 1.6398,
      "step": 203
    },
    {
      "epoch": 0.9107142857142857,
      "grad_norm": 0.1962890625,
      "learning_rate": 8.928571428571429e-07,
      "loss": 1.6169,
      "step": 204
    },
    {
      "epoch": 0.9151785714285714,
      "grad_norm": 0.19140625,
      "learning_rate": 8.482142857142859e-07,
      "loss": 1.6188,
      "step": 205
    },
    {
      "epoch": 0.9196428571428571,
      "grad_norm": 0.197265625,
      "learning_rate": 8.035714285714287e-07,
      "loss": 1.6361,
      "step": 206
    },
    {
      "epoch": 0.9241071428571429,
      "grad_norm": 0.1904296875,
      "learning_rate": 7.589285714285714e-07,
      "loss": 1.5251,
      "step": 207
    },
    {
      "epoch": 0.9285714285714286,
      "grad_norm": 0.1953125,
      "learning_rate": 7.142857142857143e-07,
      "loss": 1.5902,
      "step": 208
    },
    {
      "epoch": 0.9330357142857143,
      "grad_norm": 0.185546875,
      "learning_rate": 6.696428571428571e-07,
      "loss": 1.5533,
      "step": 209
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.169921875,
      "learning_rate": 6.25e-07,
      "loss": 1.5391,
      "step": 210
    },
    {
      "epoch": 0.9419642857142857,
      "grad_norm": 0.1943359375,
      "learning_rate": 5.80357142857143e-07,
      "loss": 1.6581,
      "step": 211
    },
    {
      "epoch": 0.9464285714285714,
      "grad_norm": 0.2021484375,
      "learning_rate": 5.357142857142857e-07,
      "loss": 1.5681,
      "step": 212
    },
    {
      "epoch": 0.9508928571428571,
      "grad_norm": 0.177734375,
      "learning_rate": 4.910714285714286e-07,
      "loss": 1.5103,
      "step": 213
    },
    {
      "epoch": 0.9553571428571429,
      "grad_norm": 0.1943359375,
      "learning_rate": 4.4642857142857147e-07,
      "loss": 1.6047,
      "step": 214
    },
    {
      "epoch": 0.9598214285714286,
      "grad_norm": 0.1845703125,
      "learning_rate": 4.0178571428571434e-07,
      "loss": 1.5797,
      "step": 215
    },
    {
      "epoch": 0.9642857142857143,
      "grad_norm": 0.1806640625,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 1.5648,
      "step": 216
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.16796875,
      "learning_rate": 3.125e-07,
      "loss": 1.4387,
      "step": 217
    },
    {
      "epoch": 0.9732142857142857,
      "grad_norm": 0.1796875,
      "learning_rate": 2.6785714285714284e-07,
      "loss": 1.489,
      "step": 218
    },
    {
      "epoch": 0.9776785714285714,
      "grad_norm": 0.1806640625,
      "learning_rate": 2.2321428571428574e-07,
      "loss": 1.5624,
      "step": 219
    },
    {
      "epoch": 0.9821428571428571,
      "grad_norm": 0.1767578125,
      "learning_rate": 1.7857142857142858e-07,
      "loss": 1.6148,
      "step": 220
    },
    {
      "epoch": 0.9866071428571429,
      "grad_norm": 0.1904296875,
      "learning_rate": 1.3392857142857142e-07,
      "loss": 1.5224,
      "step": 221
    },
    {
      "epoch": 0.9910714285714286,
      "grad_norm": 0.189453125,
      "learning_rate": 8.928571428571429e-08,
      "loss": 1.5589,
      "step": 222
    },
    {
      "epoch": 0.9955357142857143,
      "grad_norm": 0.181640625,
      "learning_rate": 4.4642857142857145e-08,
      "loss": 1.5963,
      "step": 223
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.17578125,
      "learning_rate": 0.0,
      "loss": 1.5271,
      "step": 224
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 224,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 7.132082592588759e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}