{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4576659038901602,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004576659038901602,
      "grad_norm": 0.9081688523292542,
      "learning_rate": 1e-05,
      "loss": 3.2349,
      "step": 1
    },
    {
      "epoch": 0.004576659038901602,
      "eval_loss": 3.429283618927002,
      "eval_runtime": 1.7194,
      "eval_samples_per_second": 427.465,
      "eval_steps_per_second": 13.376,
      "step": 1
    },
    {
      "epoch": 0.009153318077803204,
      "grad_norm": 0.8402438163757324,
      "learning_rate": 2e-05,
      "loss": 3.1381,
      "step": 2
    },
    {
      "epoch": 0.013729977116704805,
      "grad_norm": 0.6128439903259277,
      "learning_rate": 3e-05,
      "loss": 2.588,
      "step": 3
    },
    {
      "epoch": 0.018306636155606407,
      "grad_norm": 1.24959397315979,
      "learning_rate": 4e-05,
      "loss": 3.71,
      "step": 4
    },
    {
      "epoch": 0.02288329519450801,
      "grad_norm": 0.8602967262268066,
      "learning_rate": 5e-05,
      "loss": 2.9945,
      "step": 5
    },
    {
      "epoch": 0.02745995423340961,
      "grad_norm": 0.9247477650642395,
      "learning_rate": 6e-05,
      "loss": 3.1964,
      "step": 6
    },
    {
      "epoch": 0.032036613272311214,
      "grad_norm": 0.7330461740493774,
      "learning_rate": 7e-05,
      "loss": 2.7014,
      "step": 7
    },
    {
      "epoch": 0.036613272311212815,
      "grad_norm": 1.10856294631958,
      "learning_rate": 8e-05,
      "loss": 3.3914,
      "step": 8
    },
    {
      "epoch": 0.041189931350114416,
      "grad_norm": 0.9846471548080444,
      "learning_rate": 9e-05,
      "loss": 3.3053,
      "step": 9
    },
    {
      "epoch": 0.041189931350114416,
      "eval_loss": 3.350799083709717,
      "eval_runtime": 1.71,
      "eval_samples_per_second": 429.823,
      "eval_steps_per_second": 13.45,
      "step": 9
    },
    {
      "epoch": 0.04576659038901602,
      "grad_norm": 1.002035140991211,
      "learning_rate": 0.0001,
      "loss": 3.1809,
      "step": 10
    },
    {
      "epoch": 0.05034324942791762,
      "grad_norm": 0.7084040641784668,
      "learning_rate": 9.99695413509548e-05,
      "loss": 2.8308,
      "step": 11
    },
    {
      "epoch": 0.05491990846681922,
      "grad_norm": 0.7132436037063599,
      "learning_rate": 9.987820251299122e-05,
      "loss": 2.7448,
      "step": 12
    },
    {
      "epoch": 0.059496567505720827,
      "grad_norm": 0.752297043800354,
      "learning_rate": 9.972609476841367e-05,
      "loss": 2.9571,
      "step": 13
    },
    {
      "epoch": 0.06407322654462243,
      "grad_norm": 0.6599478125572205,
      "learning_rate": 9.951340343707852e-05,
      "loss": 2.758,
      "step": 14
    },
    {
      "epoch": 0.06864988558352403,
      "grad_norm": 0.7564786076545715,
      "learning_rate": 9.924038765061042e-05,
      "loss": 2.8704,
      "step": 15
    },
    {
      "epoch": 0.07322654462242563,
      "grad_norm": 0.6060783267021179,
      "learning_rate": 9.890738003669029e-05,
      "loss": 2.5986,
      "step": 16
    },
    {
      "epoch": 0.07780320366132723,
      "grad_norm": 0.7253418564796448,
      "learning_rate": 9.851478631379982e-05,
      "loss": 2.9299,
      "step": 17
    },
    {
      "epoch": 0.08237986270022883,
      "grad_norm": 0.7424249649047852,
      "learning_rate": 9.806308479691595e-05,
      "loss": 2.9652,
      "step": 18
    },
    {
      "epoch": 0.08237986270022883,
      "eval_loss": 3.08270001411438,
      "eval_runtime": 1.7142,
      "eval_samples_per_second": 428.784,
      "eval_steps_per_second": 13.418,
      "step": 18
    },
    {
      "epoch": 0.08695652173913043,
      "grad_norm": 0.736950159072876,
      "learning_rate": 9.755282581475769e-05,
      "loss": 2.6834,
      "step": 19
    },
    {
      "epoch": 0.09153318077803203,
      "grad_norm": 1.1300644874572754,
      "learning_rate": 9.698463103929542e-05,
      "loss": 2.8707,
      "step": 20
    },
    {
      "epoch": 0.09610983981693363,
      "grad_norm": 0.7507166862487793,
      "learning_rate": 9.635919272833938e-05,
      "loss": 2.6435,
      "step": 21
    },
    {
      "epoch": 0.10068649885583524,
      "grad_norm": 0.7586015462875366,
      "learning_rate": 9.567727288213005e-05,
      "loss": 2.8854,
      "step": 22
    },
    {
      "epoch": 0.10526315789473684,
      "grad_norm": 0.8041936755180359,
      "learning_rate": 9.493970231495835e-05,
      "loss": 2.7025,
      "step": 23
    },
    {
      "epoch": 0.10983981693363844,
      "grad_norm": 0.7786939144134521,
      "learning_rate": 9.414737964294636e-05,
      "loss": 2.5894,
      "step": 24
    },
    {
      "epoch": 0.11441647597254005,
      "grad_norm": 0.756406843662262,
      "learning_rate": 9.330127018922194e-05,
      "loss": 2.7152,
      "step": 25
    },
    {
      "epoch": 0.11899313501144165,
      "grad_norm": 0.7628173828125,
      "learning_rate": 9.24024048078213e-05,
      "loss": 2.5045,
      "step": 26
    },
    {
      "epoch": 0.12356979405034325,
      "grad_norm": 0.6269136667251587,
      "learning_rate": 9.145187862775209e-05,
      "loss": 2.0791,
      "step": 27
    },
    {
      "epoch": 0.12356979405034325,
      "eval_loss": 2.844012498855591,
      "eval_runtime": 1.7635,
      "eval_samples_per_second": 416.796,
      "eval_steps_per_second": 13.043,
      "step": 27
    },
    {
      "epoch": 0.12814645308924486,
      "grad_norm": 0.7748256325721741,
      "learning_rate": 9.045084971874738e-05,
      "loss": 2.6767,
      "step": 28
    },
    {
      "epoch": 0.13272311212814644,
      "grad_norm": 0.6947860717773438,
      "learning_rate": 8.940053768033609e-05,
      "loss": 2.238,
      "step": 29
    },
    {
      "epoch": 0.13729977116704806,
      "grad_norm": 0.813069224357605,
      "learning_rate": 8.83022221559489e-05,
      "loss": 2.6538,
      "step": 30
    },
    {
      "epoch": 0.14187643020594964,
      "grad_norm": 0.8186796307563782,
      "learning_rate": 8.715724127386972e-05,
      "loss": 2.7243,
      "step": 31
    },
    {
      "epoch": 0.14645308924485126,
      "grad_norm": 1.082297444343567,
      "learning_rate": 8.596699001693255e-05,
      "loss": 3.2434,
      "step": 32
    },
    {
      "epoch": 0.15102974828375287,
      "grad_norm": 0.6119210124015808,
      "learning_rate": 8.473291852294987e-05,
      "loss": 2.1071,
      "step": 33
    },
    {
      "epoch": 0.15560640732265446,
      "grad_norm": 0.7600036859512329,
      "learning_rate": 8.345653031794292e-05,
      "loss": 2.634,
      "step": 34
    },
    {
      "epoch": 0.16018306636155608,
      "grad_norm": 0.948059618473053,
      "learning_rate": 8.213938048432697e-05,
      "loss": 2.6724,
      "step": 35
    },
    {
      "epoch": 0.16475972540045766,
      "grad_norm": 0.7085687518119812,
      "learning_rate": 8.07830737662829e-05,
      "loss": 2.0363,
      "step": 36
    },
    {
      "epoch": 0.16475972540045766,
      "eval_loss": 2.5804741382598877,
      "eval_runtime": 1.7183,
      "eval_samples_per_second": 427.76,
      "eval_steps_per_second": 13.386,
      "step": 36
    },
    {
      "epoch": 0.16933638443935928,
      "grad_norm": 1.2018749713897705,
      "learning_rate": 7.938926261462366e-05,
      "loss": 2.4838,
      "step": 37
    },
    {
      "epoch": 0.17391304347826086,
      "grad_norm": 0.7303242683410645,
      "learning_rate": 7.795964517353735e-05,
      "loss": 2.0578,
      "step": 38
    },
    {
      "epoch": 0.17848970251716248,
      "grad_norm": 0.7180902361869812,
      "learning_rate": 7.649596321166024e-05,
      "loss": 1.9595,
      "step": 39
    },
    {
      "epoch": 0.18306636155606407,
      "grad_norm": 0.9236326217651367,
      "learning_rate": 7.500000000000001e-05,
      "loss": 2.1227,
      "step": 40
    },
    {
      "epoch": 0.18764302059496568,
      "grad_norm": 0.9261912107467651,
      "learning_rate": 7.347357813929454e-05,
      "loss": 2.1632,
      "step": 41
    },
    {
      "epoch": 0.19221967963386727,
      "grad_norm": 0.718368411064148,
      "learning_rate": 7.191855733945387e-05,
      "loss": 2.2413,
      "step": 42
    },
    {
      "epoch": 0.19679633867276888,
      "grad_norm": 0.9795098900794983,
      "learning_rate": 7.033683215379002e-05,
      "loss": 2.4029,
      "step": 43
    },
    {
      "epoch": 0.20137299771167047,
      "grad_norm": 0.9537961483001709,
      "learning_rate": 6.873032967079561e-05,
      "loss": 2.36,
      "step": 44
    },
    {
      "epoch": 0.20594965675057209,
      "grad_norm": 1.264609694480896,
      "learning_rate": 6.710100716628344e-05,
      "loss": 2.5862,
      "step": 45
    },
    {
      "epoch": 0.20594965675057209,
      "eval_loss": 2.3850297927856445,
      "eval_runtime": 1.7672,
      "eval_samples_per_second": 415.908,
      "eval_steps_per_second": 13.015,
      "step": 45
    },
    {
      "epoch": 0.21052631578947367,
      "grad_norm": 1.0284523963928223,
      "learning_rate": 6.545084971874738e-05,
      "loss": 2.2761,
      "step": 46
    },
    {
      "epoch": 0.2151029748283753,
      "grad_norm": 0.7643907070159912,
      "learning_rate": 6.378186779084995e-05,
      "loss": 1.9263,
      "step": 47
    },
    {
      "epoch": 0.21967963386727687,
      "grad_norm": 1.5164685249328613,
      "learning_rate": 6.209609477998338e-05,
      "loss": 2.2983,
      "step": 48
    },
    {
      "epoch": 0.2242562929061785,
      "grad_norm": 1.341204285621643,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 2.2228,
      "step": 49
    },
    {
      "epoch": 0.2288329519450801,
      "grad_norm": 0.8733509182929993,
      "learning_rate": 5.868240888334653e-05,
      "loss": 2.1533,
      "step": 50
    },
    {
      "epoch": 0.2334096109839817,
      "grad_norm": 0.711515486240387,
      "learning_rate": 5.695865504800327e-05,
      "loss": 1.9892,
      "step": 51
    },
    {
      "epoch": 0.2379862700228833,
      "grad_norm": 0.916093111038208,
      "learning_rate": 5.522642316338268e-05,
      "loss": 2.3216,
      "step": 52
    },
    {
      "epoch": 0.2425629290617849,
      "grad_norm": 0.7034688591957092,
      "learning_rate": 5.348782368720626e-05,
      "loss": 2.1074,
      "step": 53
    },
    {
      "epoch": 0.2471395881006865,
      "grad_norm": 0.948661744594574,
      "learning_rate": 5.174497483512506e-05,
      "loss": 2.0892,
      "step": 54
    },
    {
      "epoch": 0.2471395881006865,
      "eval_loss": 2.2587482929229736,
      "eval_runtime": 1.7266,
      "eval_samples_per_second": 425.701,
      "eval_steps_per_second": 13.321,
      "step": 54
    },
    {
      "epoch": 0.2517162471395881,
      "grad_norm": 1.0642573833465576,
      "learning_rate": 5e-05,
      "loss": 2.3979,
      "step": 55
    },
    {
      "epoch": 0.2562929061784897,
      "grad_norm": 0.9228784441947937,
      "learning_rate": 4.825502516487497e-05,
      "loss": 2.2265,
      "step": 56
    },
    {
      "epoch": 0.2608695652173913,
      "grad_norm": 0.8826066255569458,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 2.067,
      "step": 57
    },
    {
      "epoch": 0.2654462242562929,
      "grad_norm": 0.8606489896774292,
      "learning_rate": 4.477357683661734e-05,
      "loss": 2.353,
      "step": 58
    },
    {
      "epoch": 0.2700228832951945,
      "grad_norm": 0.8859566450119019,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 2.0761,
      "step": 59
    },
    {
      "epoch": 0.2745995423340961,
      "grad_norm": 0.6789842844009399,
      "learning_rate": 4.131759111665349e-05,
      "loss": 1.7809,
      "step": 60
    },
    {
      "epoch": 0.2791762013729977,
      "grad_norm": 0.7706449627876282,
      "learning_rate": 3.960441545911204e-05,
      "loss": 2.0472,
      "step": 61
    },
    {
      "epoch": 0.2837528604118993,
      "grad_norm": 0.5472003221511841,
      "learning_rate": 3.790390522001662e-05,
      "loss": 1.8401,
      "step": 62
    },
    {
      "epoch": 0.28832951945080093,
      "grad_norm": 0.6481713652610779,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 1.9495,
      "step": 63
    },
    {
      "epoch": 0.28832951945080093,
      "eval_loss": 2.1835691928863525,
      "eval_runtime": 1.7697,
      "eval_samples_per_second": 415.328,
      "eval_steps_per_second": 12.997,
      "step": 63
    },
    {
      "epoch": 0.2929061784897025,
      "grad_norm": 0.815365731716156,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 2.0838,
      "step": 64
    },
    {
      "epoch": 0.2974828375286041,
      "grad_norm": 0.9999474883079529,
      "learning_rate": 3.289899283371657e-05,
      "loss": 2.1385,
      "step": 65
    },
    {
      "epoch": 0.30205949656750575,
      "grad_norm": 0.7543627619743347,
      "learning_rate": 3.12696703292044e-05,
      "loss": 2.0732,
      "step": 66
    },
    {
      "epoch": 0.30663615560640733,
      "grad_norm": 0.9413242936134338,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 2.1776,
      "step": 67
    },
    {
      "epoch": 0.3112128146453089,
      "grad_norm": 0.7682427167892456,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 1.9746,
      "step": 68
    },
    {
      "epoch": 0.3157894736842105,
      "grad_norm": 0.7937273979187012,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 1.8489,
      "step": 69
    },
    {
      "epoch": 0.32036613272311215,
      "grad_norm": 0.6542405486106873,
      "learning_rate": 2.500000000000001e-05,
      "loss": 1.9263,
      "step": 70
    },
    {
      "epoch": 0.32494279176201374,
      "grad_norm": 0.9263964295387268,
      "learning_rate": 2.350403678833976e-05,
      "loss": 2.0407,
      "step": 71
    },
    {
      "epoch": 0.3295194508009153,
      "grad_norm": 0.6661720275878906,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 2.0284,
      "step": 72
    },
    {
      "epoch": 0.3295194508009153,
      "eval_loss": 2.147496461868286,
      "eval_runtime": 1.7525,
      "eval_samples_per_second": 419.403,
      "eval_steps_per_second": 13.124,
      "step": 72
    },
    {
      "epoch": 0.3340961098398169,
      "grad_norm": 0.6558099389076233,
      "learning_rate": 2.061073738537635e-05,
      "loss": 2.074,
      "step": 73
    },
    {
      "epoch": 0.33867276887871856,
      "grad_norm": 0.8026097416877747,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 2.0596,
      "step": 74
    },
    {
      "epoch": 0.34324942791762014,
      "grad_norm": 0.6657040119171143,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 2.179,
      "step": 75
    },
    {
      "epoch": 0.34782608695652173,
      "grad_norm": 0.7390857338905334,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 2.2617,
      "step": 76
    },
    {
      "epoch": 0.3524027459954233,
      "grad_norm": 1.0879101753234863,
      "learning_rate": 1.526708147705013e-05,
      "loss": 2.0982,
      "step": 77
    },
    {
      "epoch": 0.35697940503432496,
      "grad_norm": 0.6793462038040161,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 2.0115,
      "step": 78
    },
    {
      "epoch": 0.36155606407322655,
      "grad_norm": 0.8131169080734253,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 2.2675,
      "step": 79
    },
    {
      "epoch": 0.36613272311212813,
      "grad_norm": 0.8220322728157043,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 2.051,
      "step": 80
    },
    {
      "epoch": 0.3707093821510298,
      "grad_norm": 0.7801750898361206,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 2.1081,
      "step": 81
    },
    {
      "epoch": 0.3707093821510298,
      "eval_loss": 2.1289803981781006,
      "eval_runtime": 1.7226,
      "eval_samples_per_second": 426.692,
      "eval_steps_per_second": 13.352,
      "step": 81
    },
    {
      "epoch": 0.37528604118993136,
      "grad_norm": 0.8849589228630066,
      "learning_rate": 9.549150281252633e-06,
      "loss": 2.4293,
      "step": 82
    },
    {
      "epoch": 0.37986270022883295,
      "grad_norm": 0.7399892210960388,
      "learning_rate": 8.548121372247918e-06,
      "loss": 1.9082,
      "step": 83
    },
    {
      "epoch": 0.38443935926773454,
      "grad_norm": 0.7181011438369751,
      "learning_rate": 7.597595192178702e-06,
      "loss": 2.3172,
      "step": 84
    },
    {
      "epoch": 0.3890160183066362,
      "grad_norm": 2.4290409088134766,
      "learning_rate": 6.698729810778065e-06,
      "loss": 2.1894,
      "step": 85
    },
    {
      "epoch": 0.39359267734553777,
      "grad_norm": 0.8129599094390869,
      "learning_rate": 5.852620357053651e-06,
      "loss": 1.8301,
      "step": 86
    },
    {
      "epoch": 0.39816933638443935,
      "grad_norm": 0.7686092853546143,
      "learning_rate": 5.060297685041659e-06,
      "loss": 2.0349,
      "step": 87
    },
    {
      "epoch": 0.40274599542334094,
      "grad_norm": 0.9135408401489258,
      "learning_rate": 4.322727117869951e-06,
      "loss": 2.0956,
      "step": 88
    },
    {
      "epoch": 0.4073226544622426,
      "grad_norm": 0.8295458555221558,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 2.2475,
      "step": 89
    },
    {
      "epoch": 0.41189931350114417,
      "grad_norm": 0.719789981842041,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 2.118,
      "step": 90
    },
    {
      "epoch": 0.41189931350114417,
      "eval_loss": 2.121814489364624,
      "eval_runtime": 1.7661,
      "eval_samples_per_second": 416.172,
      "eval_steps_per_second": 13.023,
      "step": 90
    },
    {
      "epoch": 0.41647597254004576,
      "grad_norm": 1.092185378074646,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 2.0733,
      "step": 91
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 0.7814344763755798,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 1.9932,
      "step": 92
    },
    {
      "epoch": 0.425629290617849,
      "grad_norm": 0.7734173536300659,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 2.0169,
      "step": 93
    },
    {
      "epoch": 0.4302059496567506,
      "grad_norm": 0.8402112126350403,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 2.2629,
      "step": 94
    },
    {
      "epoch": 0.43478260869565216,
      "grad_norm": 0.6102826595306396,
      "learning_rate": 7.596123493895991e-07,
      "loss": 2.0016,
      "step": 95
    },
    {
      "epoch": 0.43935926773455375,
      "grad_norm": 2.0308032035827637,
      "learning_rate": 4.865965629214819e-07,
      "loss": 2.2479,
      "step": 96
    },
    {
      "epoch": 0.4439359267734554,
      "grad_norm": 0.7978582382202148,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 1.9771,
      "step": 97
    },
    {
      "epoch": 0.448512585812357,
      "grad_norm": 1.011678695678711,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 2.1273,
      "step": 98
    },
    {
      "epoch": 0.45308924485125857,
      "grad_norm": 0.7239986658096313,
      "learning_rate": 3.04586490452119e-08,
      "loss": 1.9638,
      "step": 99
    },
    {
      "epoch": 0.45308924485125857,
      "eval_loss": 2.1199450492858887,
      "eval_runtime": 1.7748,
      "eval_samples_per_second": 414.133,
      "eval_steps_per_second": 12.959,
      "step": 99
    },
    {
      "epoch": 0.4576659038901602,
      "grad_norm": 0.9179725646972656,
      "learning_rate": 0.0,
      "loss": 2.132,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8628755979304960.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}