{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 2.9974102848686646,
  "eval_steps": 100,
  "global_step": 1011,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0029596744358120607,
      "grad_norm": 2.681946039199829,
      "learning_rate": 1.9607843137254904e-07,
      "loss": 1.0892,
      "mean_token_accuracy": 0.7134666713588034,
      "step": 1
    },
    {
      "epoch": 0.0059193488716241215,
      "grad_norm": 2.483736515045166,
      "learning_rate": 3.921568627450981e-07,
      "loss": 1.0859,
      "mean_token_accuracy": 0.7130540900903558,
      "step": 2
    },
    {
      "epoch": 0.008879023307436182,
      "grad_norm": 2.5574872493743896,
      "learning_rate": 5.882352941176471e-07,
      "loss": 1.1083,
      "mean_token_accuracy": 0.7057264272951731,
      "step": 3
    },
    {
      "epoch": 0.011838697743248243,
      "grad_norm": 2.592397689819336,
      "learning_rate": 7.843137254901962e-07,
      "loss": 1.1251,
      "mean_token_accuracy": 0.70204062618997,
      "step": 4
    },
    {
      "epoch": 0.014798372179060304,
      "grad_norm": 2.5958452224731445,
      "learning_rate": 9.80392156862745e-07,
      "loss": 1.0616,
      "mean_token_accuracy": 0.7201201840956424,
      "step": 5
    },
    {
      "epoch": 0.017758046614872364,
      "grad_norm": 2.527214765548706,
      "learning_rate": 1.1764705882352942e-06,
      "loss": 1.1498,
      "mean_token_accuracy": 0.6991107921462223,
      "step": 6
    },
    {
      "epoch": 0.020717721050684423,
      "grad_norm": 2.453611135482788,
      "learning_rate": 1.3725490196078434e-06,
      "loss": 1.0692,
      "mean_token_accuracy": 0.7185075890374791,
      "step": 7
    },
    {
      "epoch": 0.023677395486496486,
      "grad_norm": 2.2676663398742676,
      "learning_rate": 1.5686274509803923e-06,
      "loss": 1.1027,
      "mean_token_accuracy": 0.7096105664418749,
      "step": 8
    },
    {
      "epoch": 0.026637069922308545,
      "grad_norm": 2.4191880226135254,
      "learning_rate": 1.7647058823529414e-06,
      "loss": 1.1374,
      "mean_token_accuracy": 0.7004450719322626,
      "step": 9
    },
    {
      "epoch": 0.029596744358120607,
      "grad_norm": 2.2810451984405518,
      "learning_rate": 1.96078431372549e-06,
      "loss": 1.0701,
      "mean_token_accuracy": 0.7192182703502579,
      "step": 10
    },
    {
      "epoch": 0.032556418793932666,
      "grad_norm": 2.047187566757202,
      "learning_rate": 2.1568627450980393e-06,
      "loss": 1.0692,
      "mean_token_accuracy": 0.7168684606703121,
      "step": 11
    },
    {
      "epoch": 0.03551609322974473,
      "grad_norm": 1.9986836910247803,
      "learning_rate": 2.3529411764705885e-06,
      "loss": 1.0591,
      "mean_token_accuracy": 0.7179799919846566,
      "step": 12
    },
    {
      "epoch": 0.03847576766555679,
      "grad_norm": 1.9848605394363403,
      "learning_rate": 2.549019607843137e-06,
      "loss": 1.0592,
      "mean_token_accuracy": 0.7186164399688223,
      "step": 13
    },
    {
      "epoch": 0.04143544210136885,
      "grad_norm": 1.7683581113815308,
      "learning_rate": 2.7450980392156867e-06,
      "loss": 1.0286,
      "mean_token_accuracy": 0.7263637707391479,
      "step": 14
    },
    {
      "epoch": 0.04439511653718091,
      "grad_norm": 1.4327510595321655,
      "learning_rate": 2.9411764705882355e-06,
      "loss": 1.0502,
      "mean_token_accuracy": 0.718260961897349,
      "step": 15
    },
    {
      "epoch": 0.04735479097299297,
      "grad_norm": 1.4091436862945557,
      "learning_rate": 3.1372549019607846e-06,
      "loss": 1.0816,
      "mean_token_accuracy": 0.7076378775080614,
      "step": 16
    },
    {
      "epoch": 0.050314465408805034,
      "grad_norm": 1.3194211721420288,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.0302,
      "mean_token_accuracy": 0.7220054724166985,
      "step": 17
    },
    {
      "epoch": 0.05327413984461709,
      "grad_norm": 1.2913936376571655,
      "learning_rate": 3.529411764705883e-06,
      "loss": 1.0676,
      "mean_token_accuracy": 0.7113759820986945,
      "step": 18
    },
    {
      "epoch": 0.05623381428042915,
      "grad_norm": 1.236266016960144,
      "learning_rate": 3.7254901960784316e-06,
      "loss": 1.0571,
      "mean_token_accuracy": 0.7136546795764988,
      "step": 19
    },
    {
      "epoch": 0.059193488716241215,
      "grad_norm": 1.1931370496749878,
      "learning_rate": 3.92156862745098e-06,
      "loss": 0.9917,
      "mean_token_accuracy": 0.7271706923102303,
      "step": 20
    },
    {
      "epoch": 0.06215316315205328,
      "grad_norm": 1.3087286949157715,
      "learning_rate": 4.11764705882353e-06,
      "loss": 1.0021,
      "mean_token_accuracy": 0.7239365954438801,
      "step": 21
    },
    {
      "epoch": 0.06511283758786533,
      "grad_norm": 1.2562185525894165,
      "learning_rate": 4.313725490196079e-06,
      "loss": 0.983,
      "mean_token_accuracy": 0.7273888578305255,
      "step": 22
    },
    {
      "epoch": 0.0680725120236774,
      "grad_norm": 1.1378827095031738,
      "learning_rate": 4.509803921568628e-06,
      "loss": 0.9578,
      "mean_token_accuracy": 0.7362632636857523,
      "step": 23
    },
    {
      "epoch": 0.07103218645948946,
      "grad_norm": 1.0568324327468872,
      "learning_rate": 4.705882352941177e-06,
      "loss": 0.9564,
      "mean_token_accuracy": 0.7346627849009933,
      "step": 24
    },
    {
      "epoch": 0.07399186089530152,
      "grad_norm": 0.9209612011909485,
      "learning_rate": 4.901960784313726e-06,
      "loss": 0.9808,
      "mean_token_accuracy": 0.7272476674555969,
      "step": 25
    },
    {
      "epoch": 0.07695153533111358,
      "grad_norm": 0.8665790557861328,
      "learning_rate": 5.098039215686274e-06,
      "loss": 1.0003,
      "mean_token_accuracy": 0.7212588502719087,
      "step": 26
    },
    {
      "epoch": 0.07991120976692564,
      "grad_norm": 0.8994502425193787,
      "learning_rate": 5.294117647058824e-06,
      "loss": 0.9476,
      "mean_token_accuracy": 0.7335574894521832,
      "step": 27
    },
    {
      "epoch": 0.0828708842027377,
      "grad_norm": 1.0448633432388306,
      "learning_rate": 5.4901960784313735e-06,
      "loss": 0.9464,
      "mean_token_accuracy": 0.7334208114703,
      "step": 28
    },
    {
      "epoch": 0.08583055863854976,
      "grad_norm": 0.9871032238006592,
      "learning_rate": 5.686274509803922e-06,
      "loss": 0.9505,
      "mean_token_accuracy": 0.732524444705358,
      "step": 29
    },
    {
      "epoch": 0.08879023307436182,
      "grad_norm": 0.9244782328605652,
      "learning_rate": 5.882352941176471e-06,
      "loss": 0.9369,
      "mean_token_accuracy": 0.7377869549204231,
      "step": 30
    },
    {
      "epoch": 0.09174990751017388,
      "grad_norm": 0.8495871424674988,
      "learning_rate": 6.07843137254902e-06,
      "loss": 0.9632,
      "mean_token_accuracy": 0.7259763433334542,
      "step": 31
    },
    {
      "epoch": 0.09470958194598594,
      "grad_norm": 0.730097770690918,
      "learning_rate": 6.274509803921569e-06,
      "loss": 0.8828,
      "mean_token_accuracy": 0.7483362451357691,
      "step": 32
    },
    {
      "epoch": 0.097669256381798,
      "grad_norm": 0.7470875382423401,
      "learning_rate": 6.470588235294119e-06,
      "loss": 0.9185,
      "mean_token_accuracy": 0.7392471457849514,
      "step": 33
    },
    {
      "epoch": 0.10062893081761007,
      "grad_norm": 0.730536162853241,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.8883,
      "mean_token_accuracy": 0.7495266641186222,
      "step": 34
    },
    {
      "epoch": 0.10358860525342212,
      "grad_norm": 0.6699507832527161,
      "learning_rate": 6.862745098039216e-06,
      "loss": 0.857,
      "mean_token_accuracy": 0.7532634065825189,
      "step": 35
    },
    {
      "epoch": 0.10654827968923418,
      "grad_norm": 0.6172248721122742,
      "learning_rate": 7.058823529411766e-06,
      "loss": 0.8762,
      "mean_token_accuracy": 0.749338820444233,
      "step": 36
    },
    {
      "epoch": 0.10950795412504624,
      "grad_norm": 0.6268398761749268,
      "learning_rate": 7.2549019607843145e-06,
      "loss": 0.8679,
      "mean_token_accuracy": 0.7519748968716043,
      "step": 37
    },
    {
      "epoch": 0.1124676285608583,
      "grad_norm": 0.610349178314209,
      "learning_rate": 7.450980392156863e-06,
      "loss": 0.8855,
      "mean_token_accuracy": 0.7472919453079274,
      "step": 38
    },
    {
      "epoch": 0.11542730299667037,
      "grad_norm": 0.604537308216095,
      "learning_rate": 7.647058823529411e-06,
      "loss": 0.8499,
      "mean_token_accuracy": 0.7552782022394232,
      "step": 39
    },
    {
      "epoch": 0.11838697743248243,
      "grad_norm": 0.609111487865448,
      "learning_rate": 7.84313725490196e-06,
      "loss": 0.8822,
      "mean_token_accuracy": 0.746562312628656,
      "step": 40
    },
    {
      "epoch": 0.12134665186829449,
      "grad_norm": 0.5899158716201782,
      "learning_rate": 8.03921568627451e-06,
      "loss": 0.8811,
      "mean_token_accuracy": 0.7473791695126712,
      "step": 41
    },
    {
      "epoch": 0.12430632630410655,
      "grad_norm": 0.6210097670555115,
      "learning_rate": 8.23529411764706e-06,
      "loss": 0.8833,
      "mean_token_accuracy": 0.7444836846534346,
      "step": 42
    },
    {
      "epoch": 0.12726600073991862,
      "grad_norm": 0.600689709186554,
      "learning_rate": 8.43137254901961e-06,
      "loss": 0.8318,
      "mean_token_accuracy": 0.7609372507118015,
      "step": 43
    },
    {
      "epoch": 0.13022567517573067,
      "grad_norm": 0.5491411685943604,
      "learning_rate": 8.627450980392157e-06,
      "loss": 0.8631,
      "mean_token_accuracy": 0.750162132080428,
      "step": 44
    },
    {
      "epoch": 0.13318534961154274,
      "grad_norm": 0.5706349611282349,
      "learning_rate": 8.823529411764707e-06,
      "loss": 0.8782,
      "mean_token_accuracy": 0.7451601161887986,
      "step": 45
    },
    {
      "epoch": 0.1361450240473548,
      "grad_norm": 0.5555650591850281,
      "learning_rate": 9.019607843137256e-06,
      "loss": 0.823,
      "mean_token_accuracy": 0.7618301473100519,
      "step": 46
    },
    {
      "epoch": 0.13910469848316684,
      "grad_norm": 0.5772121548652649,
      "learning_rate": 9.215686274509804e-06,
      "loss": 0.828,
      "mean_token_accuracy": 0.7588256411868824,
      "step": 47
    },
    {
      "epoch": 0.14206437291897892,
      "grad_norm": 0.611781895160675,
      "learning_rate": 9.411764705882354e-06,
      "loss": 0.8425,
      "mean_token_accuracy": 0.7546703623296309,
      "step": 48
    },
    {
      "epoch": 0.14502404735479096,
      "grad_norm": 0.5700849294662476,
      "learning_rate": 9.607843137254903e-06,
      "loss": 0.8695,
      "mean_token_accuracy": 0.7466177841712535,
      "step": 49
    },
    {
      "epoch": 0.14798372179060304,
      "grad_norm": 0.5548747777938843,
      "learning_rate": 9.803921568627451e-06,
      "loss": 0.8548,
      "mean_token_accuracy": 0.7508958491076401,
      "step": 50
    },
    {
      "epoch": 0.1509433962264151,
      "grad_norm": 0.5233455300331116,
      "learning_rate": 1e-05,
      "loss": 0.8778,
      "mean_token_accuracy": 0.7444452874755125,
      "step": 51
    },
    {
      "epoch": 0.15390307066222716,
      "grad_norm": 0.567051112651825,
      "learning_rate": 1.0196078431372549e-05,
      "loss": 0.8213,
      "mean_token_accuracy": 0.7609767092967284,
      "step": 52
    },
    {
      "epoch": 0.1568627450980392,
      "grad_norm": 0.5394188165664673,
      "learning_rate": 1.03921568627451e-05,
      "loss": 0.8661,
      "mean_token_accuracy": 0.7484568076496121,
      "step": 53
    },
    {
      "epoch": 0.1598224195338513,
      "grad_norm": 0.5241853594779968,
      "learning_rate": 1.0588235294117648e-05,
      "loss": 0.8621,
      "mean_token_accuracy": 0.7480956260768654,
      "step": 54
    },
    {
      "epoch": 0.16278209396966334,
      "grad_norm": 0.48302915692329407,
      "learning_rate": 1.0784313725490196e-05,
      "loss": 0.8101,
      "mean_token_accuracy": 0.7638810794013436,
      "step": 55
    },
    {
      "epoch": 0.1657417684054754,
      "grad_norm": 0.5048951506614685,
      "learning_rate": 1.0980392156862747e-05,
      "loss": 0.8164,
      "mean_token_accuracy": 0.7611000331453143,
      "step": 56
    },
    {
      "epoch": 0.16870144284128746,
      "grad_norm": 0.5220761299133301,
      "learning_rate": 1.1176470588235295e-05,
      "loss": 0.8382,
      "mean_token_accuracy": 0.7542881093651161,
      "step": 57
    },
    {
      "epoch": 0.1716611172770995,
      "grad_norm": 0.5163182020187378,
      "learning_rate": 1.1372549019607844e-05,
      "loss": 0.845,
      "mean_token_accuracy": 0.7544678776426703,
      "step": 58
    },
    {
      "epoch": 0.1746207917129116,
      "grad_norm": 0.5414546132087708,
      "learning_rate": 1.1568627450980394e-05,
      "loss": 0.8115,
      "mean_token_accuracy": 0.763602548207208,
      "step": 59
    },
    {
      "epoch": 0.17758046614872364,
      "grad_norm": 0.49731120467185974,
      "learning_rate": 1.1764705882352942e-05,
      "loss": 0.8498,
      "mean_token_accuracy": 0.7513782211298353,
      "step": 60
    },
    {
      "epoch": 0.1805401405845357,
      "grad_norm": 0.48450183868408203,
      "learning_rate": 1.1960784313725491e-05,
      "loss": 0.8112,
      "mean_token_accuracy": 0.760378165872515,
      "step": 61
    },
    {
      "epoch": 0.18349981502034776,
      "grad_norm": 0.5090157985687256,
      "learning_rate": 1.215686274509804e-05,
      "loss": 0.8352,
      "mean_token_accuracy": 0.7544511398898393,
      "step": 62
    },
    {
      "epoch": 0.1864594894561598,
      "grad_norm": 0.5094890594482422,
      "learning_rate": 1.235294117647059e-05,
      "loss": 0.8169,
      "mean_token_accuracy": 0.7596972963469578,
      "step": 63
    },
    {
      "epoch": 0.1894191638919719,
      "grad_norm": 0.5052422881126404,
      "learning_rate": 1.2549019607843138e-05,
      "loss": 0.8397,
      "mean_token_accuracy": 0.7528146247402845,
      "step": 64
    },
    {
      "epoch": 0.19237883832778394,
      "grad_norm": 0.48801887035369873,
      "learning_rate": 1.2745098039215686e-05,
      "loss": 0.7911,
      "mean_token_accuracy": 0.7666436131483815,
      "step": 65
    },
    {
      "epoch": 0.195338512763596,
      "grad_norm": 0.49707359075546265,
      "learning_rate": 1.2941176470588238e-05,
      "loss": 0.8311,
      "mean_token_accuracy": 0.7534919777308312,
      "step": 66
    },
    {
      "epoch": 0.19829818719940806,
      "grad_norm": 0.47678443789482117,
      "learning_rate": 1.3137254901960785e-05,
      "loss": 0.7908,
      "mean_token_accuracy": 0.7675227128959651,
      "step": 67
    },
    {
      "epoch": 0.20125786163522014,
      "grad_norm": 0.5108245611190796,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 0.8136,
      "mean_token_accuracy": 0.7605165307209668,
      "step": 68
    },
    {
      "epoch": 0.20421753607103219,
      "grad_norm": 0.5529371500015259,
      "learning_rate": 1.3529411764705885e-05,
      "loss": 0.8289,
      "mean_token_accuracy": 0.7556330264225892,
      "step": 69
    },
    {
      "epoch": 0.20717721050684423,
      "grad_norm": 0.48820486664772034,
      "learning_rate": 1.3725490196078432e-05,
      "loss": 0.8322,
      "mean_token_accuracy": 0.7555734646050257,
      "step": 70
    },
    {
      "epoch": 0.2101368849426563,
      "grad_norm": 0.4998631775379181,
      "learning_rate": 1.392156862745098e-05,
      "loss": 0.7757,
      "mean_token_accuracy": 0.7707598691626208,
      "step": 71
    },
    {
      "epoch": 0.21309655937846836,
      "grad_norm": 0.5397401452064514,
      "learning_rate": 1.4117647058823532e-05,
      "loss": 0.8136,
      "mean_token_accuracy": 0.7605449945205573,
      "step": 72
    },
    {
      "epoch": 0.21605623381428044,
      "grad_norm": 0.5162031054496765,
      "learning_rate": 1.431372549019608e-05,
      "loss": 0.7805,
      "mean_token_accuracy": 0.7688441270861772,
      "step": 73
    },
    {
      "epoch": 0.21901590825009248,
      "grad_norm": 0.4769732654094696,
      "learning_rate": 1.4509803921568629e-05,
      "loss": 0.8062,
      "mean_token_accuracy": 0.7610474880611428,
      "step": 74
    },
    {
      "epoch": 0.22197558268590456,
      "grad_norm": 0.48078039288520813,
      "learning_rate": 1.4705882352941179e-05,
      "loss": 0.8152,
      "mean_token_accuracy": 0.7588509310402451,
      "step": 75
    },
    {
      "epoch": 0.2249352571217166,
      "grad_norm": 0.48076578974723816,
      "learning_rate": 1.4901960784313726e-05,
      "loss": 0.7886,
      "mean_token_accuracy": 0.7669702001266795,
      "step": 76
    },
    {
      "epoch": 0.22789493155752868,
      "grad_norm": 0.524426281452179,
      "learning_rate": 1.5098039215686276e-05,
      "loss": 0.7958,
      "mean_token_accuracy": 0.7644518143592102,
      "step": 77
    },
    {
      "epoch": 0.23085460599334073,
      "grad_norm": 0.48478269577026367,
      "learning_rate": 1.5294117647058822e-05,
      "loss": 0.822,
      "mean_token_accuracy": 0.7575506383899827,
      "step": 78
    },
    {
      "epoch": 0.23381428042915278,
      "grad_norm": 0.49773070216178894,
      "learning_rate": 1.5490196078431373e-05,
      "loss": 0.8007,
      "mean_token_accuracy": 0.7629923994057785,
      "step": 79
    },
    {
      "epoch": 0.23677395486496486,
      "grad_norm": 0.5387545228004456,
      "learning_rate": 1.568627450980392e-05,
      "loss": 0.8225,
      "mean_token_accuracy": 0.7566505741674857,
      "step": 80
    },
    {
      "epoch": 0.2397336293007769,
      "grad_norm": 0.4855351448059082,
      "learning_rate": 1.5882352941176473e-05,
      "loss": 0.775,
      "mean_token_accuracy": 0.769850506922079,
      "step": 81
    },
    {
      "epoch": 0.24269330373658898,
      "grad_norm": 0.47540611028671265,
      "learning_rate": 1.607843137254902e-05,
      "loss": 0.7937,
      "mean_token_accuracy": 0.7641365526868825,
      "step": 82
    },
    {
      "epoch": 0.24565297817240103,
      "grad_norm": 0.48479974269866943,
      "learning_rate": 1.627450980392157e-05,
      "loss": 0.8315,
      "mean_token_accuracy": 0.7560415146119046,
      "step": 83
    },
    {
      "epoch": 0.2486126526082131,
      "grad_norm": 0.5490248203277588,
      "learning_rate": 1.647058823529412e-05,
      "loss": 0.8276,
      "mean_token_accuracy": 0.7542041203825852,
      "step": 84
    },
    {
      "epoch": 0.25157232704402516,
      "grad_norm": 0.4909403920173645,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 0.8113,
      "mean_token_accuracy": 0.7590975144970054,
      "step": 85
    },
    {
      "epoch": 0.25453200147983723,
      "grad_norm": 0.47584831714630127,
      "learning_rate": 1.686274509803922e-05,
      "loss": 0.764,
      "mean_token_accuracy": 0.7724685847938628,
      "step": 86
    },
    {
      "epoch": 0.25749167591564925,
      "grad_norm": 0.49695855379104614,
      "learning_rate": 1.7058823529411767e-05,
      "loss": 0.7542,
      "mean_token_accuracy": 0.7775013855023025,
      "step": 87
    },
    {
      "epoch": 0.26045135035146133,
      "grad_norm": 0.5099871754646301,
      "learning_rate": 1.7254901960784314e-05,
      "loss": 0.7644,
      "mean_token_accuracy": 0.7725364928369027,
      "step": 88
    },
    {
      "epoch": 0.2634110247872734,
      "grad_norm": 0.5371332764625549,
      "learning_rate": 1.7450980392156866e-05,
      "loss": 0.8248,
      "mean_token_accuracy": 0.7555675225937974,
      "step": 89
    },
    {
      "epoch": 0.2663706992230855,
      "grad_norm": 0.5191521048545837,
      "learning_rate": 1.7647058823529414e-05,
      "loss": 0.8008,
      "mean_token_accuracy": 0.7618285114849587,
      "step": 90
    },
    {
      "epoch": 0.2693303736588975,
      "grad_norm": 0.5234159231185913,
      "learning_rate": 1.7843137254901965e-05,
      "loss": 0.8007,
      "mean_token_accuracy": 0.7619624657540706,
      "step": 91
    },
    {
      "epoch": 0.2722900480947096,
      "grad_norm": 0.5274977087974548,
      "learning_rate": 1.8039215686274513e-05,
      "loss": 0.8176,
      "mean_token_accuracy": 0.7581840756170707,
      "step": 92
    },
    {
      "epoch": 0.27524972253052166,
      "grad_norm": 0.5195613503456116,
      "learning_rate": 1.823529411764706e-05,
      "loss": 0.7421,
      "mean_token_accuracy": 0.7779025499948702,
      "step": 93
    },
    {
      "epoch": 0.2782093969663337,
      "grad_norm": 0.5123000741004944,
      "learning_rate": 1.843137254901961e-05,
      "loss": 0.7924,
      "mean_token_accuracy": 0.7655979691874065,
      "step": 94
    },
    {
      "epoch": 0.28116907140214575,
      "grad_norm": 0.5142971277236938,
      "learning_rate": 1.862745098039216e-05,
      "loss": 0.7904,
      "mean_token_accuracy": 0.7648081417962661,
      "step": 95
    },
    {
      "epoch": 0.28412874583795783,
      "grad_norm": 0.5216192007064819,
      "learning_rate": 1.8823529411764708e-05,
      "loss": 0.7764,
      "mean_token_accuracy": 0.7663588698907876,
      "step": 96
    },
    {
      "epoch": 0.2870884202737699,
      "grad_norm": 0.533979058265686,
      "learning_rate": 1.9019607843137255e-05,
      "loss": 0.8085,
      "mean_token_accuracy": 0.7584315215207101,
      "step": 97
    },
    {
      "epoch": 0.2900480947095819,
      "grad_norm": 0.4970541000366211,
      "learning_rate": 1.9215686274509807e-05,
      "loss": 0.7709,
      "mean_token_accuracy": 0.7712429032432324,
      "step": 98
    },
    {
      "epoch": 0.293007769145394,
      "grad_norm": 0.5441746115684509,
      "learning_rate": 1.9411764705882355e-05,
      "loss": 0.7992,
      "mean_token_accuracy": 0.7626096179397713,
      "step": 99
    },
    {
      "epoch": 0.2959674435812061,
      "grad_norm": 0.5223695635795593,
      "learning_rate": 1.9607843137254903e-05,
      "loss": 0.8004,
      "mean_token_accuracy": 0.7618210772497175,
      "step": 100
    },
    {
      "epoch": 0.2959674435812061,
      "eval_loss": 0.8126489520072937,
      "eval_mean_token_accuracy": 0.7551172949521177,
      "eval_runtime": 24.8878,
      "eval_samples_per_second": 5.183,
      "eval_steps_per_second": 1.326,
      "step": 100
    },
    {
      "epoch": 0.2989271180170181,
      "grad_norm": 0.5140753984451294,
      "learning_rate": 1.9803921568627454e-05,
      "loss": 0.8128,
      "mean_token_accuracy": 0.7589419990451155,
      "step": 101
    },
    {
      "epoch": 0.3018867924528302,
      "grad_norm": 0.5474939942359924,
      "learning_rate": 2e-05,
      "loss": 0.7814,
      "mean_token_accuracy": 0.7675481741705397,
      "step": 102
    },
    {
      "epoch": 0.30484646688864225,
      "grad_norm": 0.5351850390434265,
      "learning_rate": 1.9999940277008807e-05,
      "loss": 0.8039,
      "mean_token_accuracy": 0.7606729614320974,
      "step": 103
    },
    {
      "epoch": 0.30780614132445433,
      "grad_norm": 0.5160948038101196,
      "learning_rate": 1.99997611087486e-05,
      "loss": 0.7853,
      "mean_token_accuracy": 0.7661865778379009,
      "step": 104
    },
    {
      "epoch": 0.31076581576026635,
      "grad_norm": 0.5185216665267944,
      "learning_rate": 1.9999462497359468e-05,
      "loss": 0.7549,
      "mean_token_accuracy": 0.7736576692294679,
      "step": 105
    },
    {
      "epoch": 0.3137254901960784,
      "grad_norm": 0.4885355830192566,
      "learning_rate": 1.9999044446408203e-05,
      "loss": 0.7727,
      "mean_token_accuracy": 0.769001304246102,
      "step": 106
    },
    {
      "epoch": 0.3166851646318905,
      "grad_norm": 0.615883469581604,
      "learning_rate": 1.9998506960888258e-05,
      "loss": 0.7991,
      "mean_token_accuracy": 0.7610468017188765,
      "step": 107
    },
    {
      "epoch": 0.3196448390677026,
      "grad_norm": 0.520724892616272,
      "learning_rate": 1.999785004721968e-05,
      "loss": 0.7932,
      "mean_token_accuracy": 0.7632453023136502,
      "step": 108
    },
    {
      "epoch": 0.3226045135035146,
      "grad_norm": 0.5822110772132874,
      "learning_rate": 1.999707371324904e-05,
      "loss": 0.809,
      "mean_token_accuracy": 0.7592238599169098,
      "step": 109
    },
    {
      "epoch": 0.3255641879393267,
      "grad_norm": 0.5411946177482605,
      "learning_rate": 1.9996177968249336e-05,
      "loss": 0.738,
      "mean_token_accuracy": 0.7779971005622943,
      "step": 110
    },
    {
      "epoch": 0.32852386237513875,
      "grad_norm": 0.5421875715255737,
      "learning_rate": 1.999516282291988e-05,
      "loss": 0.8056,
      "mean_token_accuracy": 0.7613603734181074,
      "step": 111
    },
    {
      "epoch": 0.3314835368109508,
      "grad_norm": 0.5699617266654968,
      "learning_rate": 1.999402828938618e-05,
      "loss": 0.7994,
      "mean_token_accuracy": 0.7613545035512745,
      "step": 112
    },
    {
      "epoch": 0.33444321124676285,
      "grad_norm": 0.5206153988838196,
      "learning_rate": 1.999277438119978e-05,
      "loss": 0.7778,
      "mean_token_accuracy": 0.7683061531083251,
      "step": 113
    },
    {
      "epoch": 0.3374028856825749,
      "grad_norm": 0.5244638323783875,
      "learning_rate": 1.9991401113338103e-05,
      "loss": 0.8023,
      "mean_token_accuracy": 0.7609702591724479,
      "step": 114
    },
    {
      "epoch": 0.340362560118387,
      "grad_norm": 0.5344120860099792,
      "learning_rate": 1.9989908502204295e-05,
      "loss": 0.7793,
      "mean_token_accuracy": 0.7666984560859803,
      "step": 115
    },
    {
      "epoch": 0.343322234554199,
      "grad_norm": 0.505351185798645,
      "learning_rate": 1.9988296565626988e-05,
      "loss": 0.7577,
      "mean_token_accuracy": 0.7727362055103163,
      "step": 116
    },
    {
      "epoch": 0.3462819089900111,
      "grad_norm": 0.5267241597175598,
      "learning_rate": 1.9986565322860117e-05,
      "loss": 0.8223,
      "mean_token_accuracy": 0.7553329490401921,
      "step": 117
    },
    {
      "epoch": 0.3492415834258232,
      "grad_norm": 0.5347175002098083,
      "learning_rate": 1.9984714794582682e-05,
      "loss": 0.8163,
      "mean_token_accuracy": 0.7553841783952017,
      "step": 118
    },
    {
      "epoch": 0.3522012578616352,
      "grad_norm": 0.5740127563476562,
      "learning_rate": 1.99827450028985e-05,
      "loss": 0.7804,
      "mean_token_accuracy": 0.7664757137429672,
      "step": 119
    },
    {
      "epoch": 0.3551609322974473,
      "grad_norm": 0.5313867330551147,
      "learning_rate": 1.9980655971335944e-05,
      "loss": 0.81,
      "mean_token_accuracy": 0.7596098693206174,
      "step": 120
    },
    {
      "epoch": 0.35812060673325935,
      "grad_norm": 0.5177193284034729,
      "learning_rate": 1.9978447724847655e-05,
      "loss": 0.7956,
      "mean_token_accuracy": 0.7617352886178098,
      "step": 121
    },
    {
      "epoch": 0.3610802811690714,
      "grad_norm": 0.564724326133728,
      "learning_rate": 1.9976120289810247e-05,
      "loss": 0.8109,
      "mean_token_accuracy": 0.7577093596124115,
      "step": 122
    },
    {
      "epoch": 0.36403995560488345,
      "grad_norm": 0.539661169052124,
      "learning_rate": 1.9973673694024002e-05,
      "loss": 0.7858,
      "mean_token_accuracy": 0.7645922340526763,
      "step": 123
    },
    {
      "epoch": 0.3669996300406955,
      "grad_norm": 0.5084680318832397,
      "learning_rate": 1.9971107966712518e-05,
      "loss": 0.7463,
      "mean_token_accuracy": 0.7753920713027525,
      "step": 124
    },
    {
      "epoch": 0.3699593044765076,
      "grad_norm": 0.4952844977378845,
      "learning_rate": 1.9968423138522382e-05,
      "loss": 0.7739,
      "mean_token_accuracy": 0.7676340081581494,
      "step": 125
    },
    {
      "epoch": 0.3729189789123196,
      "grad_norm": 0.5472536087036133,
      "learning_rate": 1.996561924152278e-05,
      "loss": 0.8,
      "mean_token_accuracy": 0.7616544988854603,
      "step": 126
    },
    {
      "epoch": 0.3758786533481317,
      "grad_norm": 0.5309717059135437,
      "learning_rate": 1.9962696309205146e-05,
      "loss": 0.7776,
      "mean_token_accuracy": 0.7678901777514975,
      "step": 127
    },
    {
      "epoch": 0.3788383277839438,
      "grad_norm": 0.5029951930046082,
      "learning_rate": 1.995965437648273e-05,
      "loss": 0.7761,
      "mean_token_accuracy": 0.766595985687639,
      "step": 128
    },
    {
      "epoch": 0.38179800221975585,
      "grad_norm": 0.5340363383293152,
      "learning_rate": 1.995649347969019e-05,
      "loss": 0.7457,
      "mean_token_accuracy": 0.7745559370999009,
      "step": 129
    },
    {
      "epoch": 0.38475767665556787,
      "grad_norm": 0.5484894514083862,
      "learning_rate": 1.995321365658317e-05,
      "loss": 0.7997,
      "mean_token_accuracy": 0.7594812381150867,
      "step": 130
    },
    {
      "epoch": 0.38771735109137995,
      "grad_norm": 0.6396868228912354,
      "learning_rate": 1.994981494633784e-05,
      "loss": 0.7976,
      "mean_token_accuracy": 0.7599872025655441,
      "step": 131
    },
    {
      "epoch": 0.390677025527192,
      "grad_norm": 0.5394526124000549,
      "learning_rate": 1.9946297389550433e-05,
      "loss": 0.7993,
      "mean_token_accuracy": 0.7608908088026568,
      "step": 132
    },
    {
      "epoch": 0.39363669996300404,
      "grad_norm": 0.6235033869743347,
      "learning_rate": 1.9942661028236746e-05,
      "loss": 0.787,
      "mean_token_accuracy": 0.7650479719064859,
      "step": 133
    },
    {
      "epoch": 0.3965963743988161,
      "grad_norm": 0.5509399175643921,
      "learning_rate": 1.9938905905831657e-05,
      "loss": 0.7841,
      "mean_token_accuracy": 0.7647842322769413,
      "step": 134
    },
    {
      "epoch": 0.3995560488346282,
      "grad_norm": 0.589085578918457,
      "learning_rate": 1.993503206718859e-05,
      "loss": 0.7701,
      "mean_token_accuracy": 0.7691342710083168,
      "step": 135
    },
    {
      "epoch": 0.4025157232704403,
      "grad_norm": 0.5094689726829529,
      "learning_rate": 1.9931039558578997e-05,
      "loss": 0.755,
      "mean_token_accuracy": 0.773621444740238,
      "step": 136
    },
    {
      "epoch": 0.4054753977062523,
      "grad_norm": 0.5288008451461792,
      "learning_rate": 1.9926928427691788e-05,
      "loss": 0.733,
      "mean_token_accuracy": 0.7798217961404127,
      "step": 137
    },
    {
      "epoch": 0.40843507214206437,
      "grad_norm": 0.5860950350761414,
      "learning_rate": 1.992269872363277e-05,
      "loss": 0.7793,
      "mean_token_accuracy": 0.7671219171893889,
      "step": 138
    },
    {
      "epoch": 0.41139474657787645,
      "grad_norm": 0.5211442708969116,
      "learning_rate": 1.991835049692405e-05,
      "loss": 0.7589,
      "mean_token_accuracy": 0.7712709984233845,
      "step": 139
    },
    {
      "epoch": 0.41435442101368847,
      "grad_norm": 0.6341312527656555,
      "learning_rate": 1.991388379950346e-05,
      "loss": 0.7555,
      "mean_token_accuracy": 0.7726431562687772,
      "step": 140
    },
    {
      "epoch": 0.41731409544950054,
      "grad_norm": 0.5119423866271973,
      "learning_rate": 1.9909298684723905e-05,
      "loss": 0.7696,
      "mean_token_accuracy": 0.7683422766172284,
      "step": 141
    },
    {
      "epoch": 0.4202737698853126,
      "grad_norm": 0.5573475956916809,
      "learning_rate": 1.9904595207352736e-05,
      "loss": 0.7586,
      "mean_token_accuracy": 0.7709694689177727,
      "step": 142
    },
    {
      "epoch": 0.4232334443211247,
      "grad_norm": 0.5152528882026672,
      "learning_rate": 1.9899773423571102e-05,
      "loss": 0.742,
      "mean_token_accuracy": 0.776040556686583,
      "step": 143
    },
    {
      "epoch": 0.4261931187569367,
      "grad_norm": 0.5058140754699707,
      "learning_rate": 1.9894833390973266e-05,
      "loss": 0.8094,
      "mean_token_accuracy": 0.7577251436684603,
      "step": 144
    },
    {
      "epoch": 0.4291527931927488,
      "grad_norm": 0.5282382965087891,
      "learning_rate": 1.9889775168565942e-05,
      "loss": 0.7748,
      "mean_token_accuracy": 0.7683045482642854,
      "step": 145
    },
    {
      "epoch": 0.43211246762856087,
      "grad_norm": 0.6103954315185547,
      "learning_rate": 1.9884598816767563e-05,
      "loss": 0.805,
      "mean_token_accuracy": 0.7593984139774315,
      "step": 146
    },
    {
      "epoch": 0.43507214206437295,
      "grad_norm": 0.530112087726593,
      "learning_rate": 1.987930439740757e-05,
      "loss": 0.7537,
      "mean_token_accuracy": 0.7733501196092509,
      "step": 147
    },
    {
      "epoch": 0.43803181650018497,
      "grad_norm": 0.5501434206962585,
      "learning_rate": 1.9873891973725673e-05,
      "loss": 0.752,
      "mean_token_accuracy": 0.7755143180889366,
      "step": 148
    },
    {
      "epoch": 0.44099149093599704,
      "grad_norm": 0.496888667345047,
      "learning_rate": 1.98683616103711e-05,
      "loss": 0.7624,
      "mean_token_accuracy": 0.7707987778410632,
      "step": 149
    },
    {
      "epoch": 0.4439511653718091,
      "grad_norm": 0.5206103324890137,
      "learning_rate": 1.986271337340182e-05,
      "loss": 0.7754,
      "mean_token_accuracy": 0.7663099883208253,
      "step": 150
    },
    {
      "epoch": 0.44691083980762114,
      "grad_norm": 0.5429675579071045,
      "learning_rate": 1.9856947330283752e-05,
      "loss": 0.7418,
      "mean_token_accuracy": 0.7745724176097732,
      "step": 151
    },
    {
      "epoch": 0.4498705142434332,
      "grad_norm": 0.515471875667572,
      "learning_rate": 1.985106354988997e-05,
      "loss": 0.7517,
      "mean_token_accuracy": 0.7713102457643006,
      "step": 152
    },
    {
      "epoch": 0.4528301886792453,
      "grad_norm": 0.5580022931098938,
      "learning_rate": 1.984506210249986e-05,
      "loss": 0.7372,
      "mean_token_accuracy": 0.7783837879306136,
      "step": 153
    },
    {
      "epoch": 0.45578986311505737,
      "grad_norm": 0.5351727604866028,
      "learning_rate": 1.9838943059798305e-05,
      "loss": 0.7632,
      "mean_token_accuracy": 0.7712246098769842,
      "step": 154
    },
    {
      "epoch": 0.4587495375508694,
      "grad_norm": 0.5970275402069092,
      "learning_rate": 1.9832706494874812e-05,
      "loss": 0.7852,
      "mean_token_accuracy": 0.7650099910061801,
      "step": 155
    },
    {
      "epoch": 0.46170921198668147,
      "grad_norm": 0.535476803779602,
      "learning_rate": 1.982635248222264e-05,
      "loss": 0.8135,
      "mean_token_accuracy": 0.7548096205593479,
      "step": 156
    },
    {
      "epoch": 0.46466888642249354,
      "grad_norm": 0.5446284413337708,
      "learning_rate": 1.9819881097737917e-05,
      "loss": 0.7753,
      "mean_token_accuracy": 0.766597256567756,
      "step": 157
    },
    {
      "epoch": 0.46762856085830556,
      "grad_norm": 0.5779156684875488,
      "learning_rate": 1.9813292418718734e-05,
      "loss": 0.8178,
      "mean_token_accuracy": 0.7556820545263497,
      "step": 158
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": 0.5383659601211548,
      "learning_rate": 1.9806586523864212e-05,
      "loss": 0.7787,
      "mean_token_accuracy": 0.7652851550298655,
      "step": 159
    },
    {
      "epoch": 0.4735479097299297,
      "grad_norm": 0.5274466872215271,
      "learning_rate": 1.9799763493273572e-05,
      "loss": 0.7451,
      "mean_token_accuracy": 0.7758701051335468,
      "step": 160
    },
    {
      "epoch": 0.4765075841657418,
      "grad_norm": 0.5253377556800842,
      "learning_rate": 1.9792823408445173e-05,
      "loss": 0.7794,
      "mean_token_accuracy": 0.7660881601135704,
      "step": 161
    },
    {
      "epoch": 0.4794672586015538,
      "grad_norm": 0.6184384822845459,
      "learning_rate": 1.978576635227554e-05,
      "loss": 0.7705,
      "mean_token_accuracy": 0.7684919526843087,
      "step": 162
    },
    {
      "epoch": 0.4824269330373659,
      "grad_norm": 0.5399531126022339,
      "learning_rate": 1.9778592409058376e-05,
      "loss": 0.7496,
      "mean_token_accuracy": 0.7751951559026848,
      "step": 163
    },
    {
      "epoch": 0.48538660747317797,
      "grad_norm": 0.5651612281799316,
      "learning_rate": 1.9771301664483548e-05,
      "loss": 0.7637,
      "mean_token_accuracy": 0.770090502168717,
      "step": 164
    },
    {
      "epoch": 0.48834628190899,
      "grad_norm": 0.6314195394515991,
      "learning_rate": 1.976389420563607e-05,
      "loss": 0.7634,
      "mean_token_accuracy": 0.7709643457026975,
      "step": 165
    },
    {
      "epoch": 0.49130595634480206,
      "grad_norm": 0.5370025634765625,
      "learning_rate": 1.975637012099507e-05,
      "loss": 0.7467,
      "mean_token_accuracy": 0.7752258048770664,
      "step": 166
    },
    {
      "epoch": 0.49426563078061414,
      "grad_norm": 0.5424651503562927,
      "learning_rate": 1.97487295004327e-05,
      "loss": 0.7933,
      "mean_token_accuracy": 0.760696495825342,
      "step": 167
    },
    {
      "epoch": 0.4972253052164262,
      "grad_norm": 0.5711933970451355,
      "learning_rate": 1.9740972435213114e-05,
      "loss": 0.7928,
      "mean_token_accuracy": 0.761649293131421,
      "step": 168
    },
    {
      "epoch": 0.5001849796522383,
      "grad_norm": 0.5219062566757202,
      "learning_rate": 1.9733099017991342e-05,
      "loss": 0.7861,
      "mean_token_accuracy": 0.7628095190256412,
      "step": 169
    },
    {
      "epoch": 0.5031446540880503,
      "grad_norm": 0.4978106617927551,
      "learning_rate": 1.972510934281218e-05,
      "loss": 0.7631,
      "mean_token_accuracy": 0.7710752711114524,
      "step": 170
    },
    {
      "epoch": 0.5061043285238623,
      "grad_norm": 0.6013402938842773,
      "learning_rate": 1.9717003505109097e-05,
      "loss": 0.7991,
      "mean_token_accuracy": 0.7586557673484216,
      "step": 171
    },
    {
      "epoch": 0.5090640029596745,
      "grad_norm": 0.5215644836425781,
      "learning_rate": 1.9708781601703066e-05,
      "loss": 0.763,
      "mean_token_accuracy": 0.7695876606622123,
      "step": 172
    },
    {
      "epoch": 0.5120236773954865,
      "grad_norm": 0.49007105827331543,
      "learning_rate": 1.9700443730801412e-05,
      "loss": 0.7644,
      "mean_token_accuracy": 0.7701783635410456,
      "step": 173
    },
    {
      "epoch": 0.5149833518312985,
      "grad_norm": 0.5938363075256348,
      "learning_rate": 1.9691989991996663e-05,
      "loss": 0.7643,
      "mean_token_accuracy": 0.7680917186626302,
      "step": 174
    },
    {
      "epoch": 0.5179430262671106,
      "grad_norm": 0.5483390092849731,
      "learning_rate": 1.9683420486265328e-05,
      "loss": 0.7651,
      "mean_token_accuracy": 0.7709870011542461,
      "step": 175
    },
    {
      "epoch": 0.5209027007029227,
      "grad_norm": 0.5027016997337341,
      "learning_rate": 1.967473531596671e-05,
      "loss": 0.7513,
      "mean_token_accuracy": 0.7730452420829894,
      "step": 176
    },
    {
      "epoch": 0.5238623751387348,
      "grad_norm": 0.5310905575752258,
      "learning_rate": 1.966593458484168e-05,
      "loss": 0.7715,
      "mean_token_accuracy": 0.7680981483212205,
      "step": 177
    },
    {
      "epoch": 0.5268220495745468,
      "grad_norm": 0.5523523688316345,
      "learning_rate": 1.9657018398011435e-05,
      "loss": 0.7674,
      "mean_token_accuracy": 0.7684800548855188,
      "step": 178
    },
    {
      "epoch": 0.5297817240103588,
      "grad_norm": 0.5446920394897461,
      "learning_rate": 1.9647986861976246e-05,
      "loss": 0.773,
      "mean_token_accuracy": 0.7688905853900413,
      "step": 179
    },
    {
      "epoch": 0.532741398446171,
      "grad_norm": 0.5408650636672974,
      "learning_rate": 1.9638840084614182e-05,
      "loss": 0.7204,
      "mean_token_accuracy": 0.7827706625253021,
      "step": 180
    },
    {
      "epoch": 0.535701072881983,
      "grad_norm": 0.5880627632141113,
      "learning_rate": 1.9629578175179823e-05,
      "loss": 0.7587,
      "mean_token_accuracy": 0.7718611041296293,
      "step": 181
    },
    {
      "epoch": 0.538660747317795,
      "grad_norm": 0.5494539141654968,
      "learning_rate": 1.9620201244302952e-05,
      "loss": 0.7487,
      "mean_token_accuracy": 0.7745951212558507,
      "step": 182
    },
    {
      "epoch": 0.5416204217536071,
      "grad_norm": 0.5416110754013062,
      "learning_rate": 1.9610709403987248e-05,
      "loss": 0.7583,
      "mean_token_accuracy": 0.7723263702843611,
      "step": 183
    },
    {
      "epoch": 0.5445800961894192,
      "grad_norm": 0.5187686681747437,
      "learning_rate": 1.9601102767608924e-05,
      "loss": 0.7727,
      "mean_token_accuracy": 0.7669931715546834,
      "step": 184
    },
    {
      "epoch": 0.5475397706252312,
      "grad_norm": 0.6072437763214111,
      "learning_rate": 1.95913814499154e-05,
      "loss": 0.7758,
      "mean_token_accuracy": 0.7658226539132729,
      "step": 185
    },
    {
      "epoch": 0.5504994450610433,
      "grad_norm": 0.5267654061317444,
      "learning_rate": 1.95815455670239e-05,
      "loss": 0.7799,
      "mean_token_accuracy": 0.7644383151164792,
      "step": 186
    },
    {
      "epoch": 0.5534591194968553,
      "grad_norm": 0.5116267800331116,
      "learning_rate": 1.9571595236420103e-05,
      "loss": 0.765,
      "mean_token_accuracy": 0.7686784858855072,
      "step": 187
    },
    {
      "epoch": 0.5564187939326674,
      "grad_norm": 0.5083511471748352,
      "learning_rate": 1.9561530576956703e-05,
      "loss": 0.7293,
      "mean_token_accuracy": 0.7782823905710549,
      "step": 188
    },
    {
      "epoch": 0.5593784683684795,
      "grad_norm": 0.5557141900062561,
      "learning_rate": 1.955135170885202e-05,
      "loss": 0.7426,
      "mean_token_accuracy": 0.7763826979033814,
      "step": 189
    },
    {
      "epoch": 0.5623381428042915,
      "grad_norm": 0.5787784457206726,
      "learning_rate": 1.9541058753688538e-05,
      "loss": 0.7484,
      "mean_token_accuracy": 0.7738303017670985,
      "step": 190
    },
    {
      "epoch": 0.5652978172401036,
      "grad_norm": 0.5557724237442017,
      "learning_rate": 1.9530651834411477e-05,
      "loss": 0.7603,
      "mean_token_accuracy": 0.7699144780244102,
      "step": 191
    },
    {
      "epoch": 0.5682574916759157,
      "grad_norm": 0.5540621876716614,
      "learning_rate": 1.95201310753273e-05,
      "loss": 0.7224,
      "mean_token_accuracy": 0.7793132883624135,
      "step": 192
    },
    {
      "epoch": 0.5712171661117277,
      "grad_norm": 0.5053984522819519,
      "learning_rate": 1.9509496602102253e-05,
      "loss": 0.7258,
      "mean_token_accuracy": 0.7800444754491836,
      "step": 193
    },
    {
      "epoch": 0.5741768405475398,
      "grad_norm": 0.49898284673690796,
      "learning_rate": 1.9498748541760845e-05,
      "loss": 0.7396,
      "mean_token_accuracy": 0.7753466916631608,
      "step": 194
    },
    {
      "epoch": 0.5771365149833518,
      "grad_norm": 0.5799064040184021,
      "learning_rate": 1.9487887022684336e-05,
      "loss": 0.7602,
      "mean_token_accuracy": 0.7701053674537776,
      "step": 195
    },
    {
      "epoch": 0.5800961894191639,
      "grad_norm": 0.5606354475021362,
      "learning_rate": 1.947691217460921e-05,
      "loss": 0.7544,
      "mean_token_accuracy": 0.77100937072039,
      "step": 196
    },
    {
      "epoch": 0.583055863854976,
      "grad_norm": 0.4998267590999603,
      "learning_rate": 1.946582412862562e-05,
      "loss": 0.766,
      "mean_token_accuracy": 0.7682667265118656,
      "step": 197
    },
    {
      "epoch": 0.586015538290788,
      "grad_norm": 0.5629295110702515,
      "learning_rate": 1.9454623017175814e-05,
      "loss": 0.7424,
      "mean_token_accuracy": 0.7752050364586516,
      "step": 198
    },
    {
      "epoch": 0.5889752127266,
      "grad_norm": 0.4932561218738556,
      "learning_rate": 1.9443308974052574e-05,
      "loss": 0.7489,
      "mean_token_accuracy": 0.7741070965947788,
      "step": 199
    },
    {
      "epoch": 0.5919348871624122,
      "grad_norm": 0.6265371441841125,
      "learning_rate": 1.9431882134397596e-05,
      "loss": 0.7658,
      "mean_token_accuracy": 0.7681866412889478,
      "step": 200
    },
    {
      "epoch": 0.5919348871624122,
      "eval_loss": 0.778282105922699,
      "eval_mean_token_accuracy": 0.7620499776343601,
      "eval_runtime": 24.5192,
      "eval_samples_per_second": 5.261,
      "eval_steps_per_second": 1.346,
      "step": 200
    },
    {
      "epoch": 0.5948945615982242,
      "grad_norm": 0.5446656346321106,
      "learning_rate": 1.9420342634699893e-05,
      "loss": 0.722,
      "mean_token_accuracy": 0.7810348950987986,
      "step": 201
    },
    {
      "epoch": 0.5978542360340362,
      "grad_norm": 0.5253841876983643,
      "learning_rate": 1.9408690612794146e-05,
      "loss": 0.7758,
      "mean_token_accuracy": 0.7659725997741449,
      "step": 202
    },
    {
      "epoch": 0.6008139104698483,
      "grad_norm": 0.5887268781661987,
      "learning_rate": 1.9396926207859085e-05,
      "loss": 0.7107,
      "mean_token_accuracy": 0.7828422379162261,
      "step": 203
    },
    {
      "epoch": 0.6037735849056604,
      "grad_norm": 0.5546231269836426,
      "learning_rate": 1.9385049560415794e-05,
      "loss": 0.7812,
      "mean_token_accuracy": 0.7646388223607241,
      "step": 204
    },
    {
      "epoch": 0.6067332593414725,
      "grad_norm": 0.5595012307167053,
      "learning_rate": 1.9373060812326053e-05,
      "loss": 0.7368,
      "mean_token_accuracy": 0.7771756648124704,
      "step": 205
    },
    {
      "epoch": 0.6096929337772845,
      "grad_norm": 0.6051347255706787,
      "learning_rate": 1.9360960106790645e-05,
      "loss": 0.7637,
      "mean_token_accuracy": 0.7687831877533422,
      "step": 206
    },
    {
      "epoch": 0.6126526082130965,
      "grad_norm": 0.5045530200004578,
      "learning_rate": 1.9348747588347637e-05,
      "loss": 0.7633,
      "mean_token_accuracy": 0.7716161599834406,
      "step": 207
    },
    {
      "epoch": 0.6156122826489087,
      "grad_norm": 0.5844081044197083,
      "learning_rate": 1.9336423402870655e-05,
      "loss": 0.7634,
      "mean_token_accuracy": 0.7698122225847835,
      "step": 208
    },
    {
      "epoch": 0.6185719570847207,
      "grad_norm": 0.516323983669281,
      "learning_rate": 1.932398769756714e-05,
      "loss": 0.7347,
      "mean_token_accuracy": 0.7758576109605254,
      "step": 209
    },
    {
      "epoch": 0.6215316315205327,
      "grad_norm": 0.6504623293876648,
      "learning_rate": 1.9311440620976597e-05,
      "loss": 0.7375,
      "mean_token_accuracy": 0.7756102635673668,
      "step": 210
    },
    {
      "epoch": 0.6244913059563448,
      "grad_norm": 0.6118385195732117,
      "learning_rate": 1.9298782322968817e-05,
      "loss": 0.7734,
      "mean_token_accuracy": 0.7640280400757476,
      "step": 211
    },
    {
      "epoch": 0.6274509803921569,
      "grad_norm": 0.5381941795349121,
      "learning_rate": 1.9286012954742078e-05,
      "loss": 0.7426,
      "mean_token_accuracy": 0.7750216295859045,
      "step": 212
    },
    {
      "epoch": 0.6304106548279689,
      "grad_norm": 0.6116046905517578,
      "learning_rate": 1.9273132668821363e-05,
      "loss": 0.7894,
      "mean_token_accuracy": 0.7624240258634218,
      "step": 213
    },
    {
      "epoch": 0.633370329263781,
      "grad_norm": 0.5995723009109497,
      "learning_rate": 1.9260141619056507e-05,
      "loss": 0.8063,
      "mean_token_accuracy": 0.7580679708807321,
      "step": 214
    },
    {
      "epoch": 0.636330003699593,
      "grad_norm": 0.6060746312141418,
      "learning_rate": 1.924703996062038e-05,
      "loss": 0.7825,
      "mean_token_accuracy": 0.7644491908483929,
      "step": 215
    },
    {
      "epoch": 0.6392896781354052,
      "grad_norm": 0.4967659115791321,
      "learning_rate": 1.9233827850007028e-05,
      "loss": 0.7419,
      "mean_token_accuracy": 0.7752207223816133,
      "step": 216
    },
    {
      "epoch": 0.6422493525712172,
      "grad_norm": 0.5452144145965576,
      "learning_rate": 1.9220505445029803e-05,
      "loss": 0.7419,
      "mean_token_accuracy": 0.7768822483190798,
      "step": 217
    },
    {
      "epoch": 0.6452090270070292,
      "grad_norm": 0.5308946967124939,
      "learning_rate": 1.9207072904819484e-05,
      "loss": 0.7867,
      "mean_token_accuracy": 0.7616907876516587,
      "step": 218
    },
    {
      "epoch": 0.6481687014428413,
      "grad_norm": 0.5080918669700623,
      "learning_rate": 1.9193530389822364e-05,
      "loss": 0.7551,
      "mean_token_accuracy": 0.7722103161394469,
      "step": 219
    },
    {
      "epoch": 0.6511283758786534,
      "grad_norm": 0.5541013479232788,
      "learning_rate": 1.9179878061798347e-05,
      "loss": 0.7416,
      "mean_token_accuracy": 0.7758964006687687,
      "step": 220
    },
    {
      "epoch": 0.6540880503144654,
      "grad_norm": 0.5555444955825806,
      "learning_rate": 1.9166116083819002e-05,
      "loss": 0.7735,
      "mean_token_accuracy": 0.7667690994886073,
      "step": 221
    },
    {
      "epoch": 0.6570477247502775,
      "grad_norm": 0.5138890743255615,
      "learning_rate": 1.915224462026563e-05,
      "loss": 0.7689,
      "mean_token_accuracy": 0.7680507811975301,
      "step": 222
    },
    {
      "epoch": 0.6600073991860895,
      "grad_norm": 0.5619951486587524,
      "learning_rate": 1.913826383682729e-05,
      "loss": 0.7776,
      "mean_token_accuracy": 0.7642446287241815,
      "step": 223
    },
    {
      "epoch": 0.6629670736219015,
      "grad_norm": 0.49697887897491455,
      "learning_rate": 1.912417390049882e-05,
      "loss": 0.7564,
      "mean_token_accuracy": 0.7708950011889235,
      "step": 224
    },
    {
      "epoch": 0.6659267480577137,
      "grad_norm": 0.5893805027008057,
      "learning_rate": 1.9109974979578852e-05,
      "loss": 0.7347,
      "mean_token_accuracy": 0.7758372095558704,
      "step": 225
    },
    {
      "epoch": 0.6688864224935257,
      "grad_norm": 0.5565352439880371,
      "learning_rate": 1.909566724366779e-05,
      "loss": 0.7619,
      "mean_token_accuracy": 0.76937331341953,
      "step": 226
    },
    {
      "epoch": 0.6718460969293377,
      "grad_norm": 0.581122875213623,
      "learning_rate": 1.9081250863665794e-05,
      "loss": 0.7459,
      "mean_token_accuracy": 0.7744230618996671,
      "step": 227
    },
    {
      "epoch": 0.6748057713651499,
      "grad_norm": 0.6203576326370239,
      "learning_rate": 1.9066726011770725e-05,
      "loss": 0.7403,
      "mean_token_accuracy": 0.7757174096012653,
      "step": 228
    },
    {
      "epoch": 0.6777654458009619,
      "grad_norm": 0.5231543779373169,
      "learning_rate": 1.905209286147611e-05,
      "loss": 0.7291,
      "mean_token_accuracy": 0.7789308093459126,
      "step": 229
    },
    {
      "epoch": 0.680725120236774,
      "grad_norm": 0.5227301120758057,
      "learning_rate": 1.903735158756905e-05,
      "loss": 0.7267,
      "mean_token_accuracy": 0.780063648206095,
      "step": 230
    },
    {
      "epoch": 0.683684794672586,
      "grad_norm": 0.5774472951889038,
      "learning_rate": 1.9022502366128136e-05,
      "loss": 0.7626,
      "mean_token_accuracy": 0.7701068030426402,
      "step": 231
    },
    {
      "epoch": 0.686644469108398,
      "grad_norm": 0.5350067615509033,
      "learning_rate": 1.9007545374521354e-05,
      "loss": 0.7727,
      "mean_token_accuracy": 0.767009637419523,
      "step": 232
    },
    {
      "epoch": 0.6896041435442102,
      "grad_norm": 0.543245792388916,
      "learning_rate": 1.8992480791403957e-05,
      "loss": 0.7258,
      "mean_token_accuracy": 0.7811048484724694,
      "step": 233
    },
    {
      "epoch": 0.6925638179800222,
      "grad_norm": 0.6067213416099548,
      "learning_rate": 1.897730879671634e-05,
      "loss": 0.7454,
      "mean_token_accuracy": 0.7739789538178186,
      "step": 234
    },
    {
      "epoch": 0.6955234924158342,
      "grad_norm": 0.5219905972480774,
      "learning_rate": 1.8962029571681887e-05,
      "loss": 0.7094,
      "mean_token_accuracy": 0.7855872005269757,
      "step": 235
    },
    {
      "epoch": 0.6984831668516464,
      "grad_norm": 0.5807480216026306,
      "learning_rate": 1.8946643298804794e-05,
      "loss": 0.7701,
      "mean_token_accuracy": 0.7658029579586856,
      "step": 236
    },
    {
      "epoch": 0.7014428412874584,
      "grad_norm": 0.4960806965827942,
      "learning_rate": 1.8931150161867917e-05,
      "loss": 0.7285,
      "mean_token_accuracy": 0.7792831489593245,
      "step": 237
    },
    {
      "epoch": 0.7044025157232704,
      "grad_norm": 0.5792670249938965,
      "learning_rate": 1.891555034593055e-05,
      "loss": 0.7467,
      "mean_token_accuracy": 0.7733710687900762,
      "step": 238
    },
    {
      "epoch": 0.7073621901590825,
      "grad_norm": 0.5364589691162109,
      "learning_rate": 1.8899844037326227e-05,
      "loss": 0.7195,
      "mean_token_accuracy": 0.7821820109931461,
      "step": 239
    },
    {
      "epoch": 0.7103218645948945,
      "grad_norm": 0.5596705079078674,
      "learning_rate": 1.8884031423660492e-05,
      "loss": 0.7047,
      "mean_token_accuracy": 0.785649852431446,
      "step": 240
    },
    {
      "epoch": 0.7132815390307066,
      "grad_norm": 0.5741063356399536,
      "learning_rate": 1.8868112693808664e-05,
      "loss": 0.7663,
      "mean_token_accuracy": 0.7678326165991625,
      "step": 241
    },
    {
      "epoch": 0.7162412134665187,
      "grad_norm": 0.516858696937561,
      "learning_rate": 1.8852088037913577e-05,
      "loss": 0.7471,
      "mean_token_accuracy": 0.7746923216355659,
      "step": 242
    },
    {
      "epoch": 0.7192008879023307,
      "grad_norm": 0.5048111081123352,
      "learning_rate": 1.8835957647383304e-05,
      "loss": 0.7023,
      "mean_token_accuracy": 0.7870937976717415,
      "step": 243
    },
    {
      "epoch": 0.7221605623381429,
      "grad_norm": 0.5660455226898193,
      "learning_rate": 1.8819721714888878e-05,
      "loss": 0.7795,
      "mean_token_accuracy": 0.7642331478723334,
      "step": 244
    },
    {
      "epoch": 0.7251202367739549,
      "grad_norm": 0.5211176872253418,
      "learning_rate": 1.8803380434362e-05,
      "loss": 0.7342,
      "mean_token_accuracy": 0.7781391886138683,
      "step": 245
    },
    {
      "epoch": 0.7280799112097669,
      "grad_norm": 0.5142192244529724,
      "learning_rate": 1.878693400099269e-05,
      "loss": 0.7301,
      "mean_token_accuracy": 0.7786941626128209,
      "step": 246
    },
    {
      "epoch": 0.731039585645579,
      "grad_norm": 0.5370232462882996,
      "learning_rate": 1.877038261122699e-05,
      "loss": 0.7593,
      "mean_token_accuracy": 0.771669201717037,
      "step": 247
    },
    {
      "epoch": 0.733999260081391,
      "grad_norm": 0.49543988704681396,
      "learning_rate": 1.87537264627646e-05,
      "loss": 0.7216,
      "mean_token_accuracy": 0.7810789864692633,
      "step": 248
    },
    {
      "epoch": 0.7369589345172031,
      "grad_norm": 0.56675785779953,
      "learning_rate": 1.8736965754556527e-05,
      "loss": 0.7627,
      "mean_token_accuracy": 0.7688760359914193,
      "step": 249
    },
    {
      "epoch": 0.7399186089530152,
      "grad_norm": 0.524047315120697,
      "learning_rate": 1.8720100686802693e-05,
      "loss": 0.7551,
      "mean_token_accuracy": 0.7700947445179971,
      "step": 250
    },
    {
      "epoch": 0.7428782833888272,
      "grad_norm": 0.5166477560997009,
      "learning_rate": 1.8703131460949555e-05,
      "loss": 0.7785,
      "mean_token_accuracy": 0.7636579872205778,
      "step": 251
    },
    {
      "epoch": 0.7458379578246392,
      "grad_norm": 0.5201772451400757,
      "learning_rate": 1.86860582796877e-05,
      "loss": 0.736,
      "mean_token_accuracy": 0.7761137360141643,
      "step": 252
    },
    {
      "epoch": 0.7487976322604514,
      "grad_norm": 0.6423028707504272,
      "learning_rate": 1.866888134694942e-05,
      "loss": 0.7454,
      "mean_token_accuracy": 0.7750494962065552,
      "step": 253
    },
    {
      "epoch": 0.7517573066962634,
      "grad_norm": 0.5888985395431519,
      "learning_rate": 1.865160086790627e-05,
      "loss": 0.7238,
      "mean_token_accuracy": 0.7800915239288521,
      "step": 254
    },
    {
      "epoch": 0.7547169811320755,
      "grad_norm": 0.5778961181640625,
      "learning_rate": 1.8634217048966638e-05,
      "loss": 0.7658,
      "mean_token_accuracy": 0.7687186514339136,
      "step": 255
    },
    {
      "epoch": 0.7576766555678875,
      "grad_norm": 0.5808703303337097,
      "learning_rate": 1.861673009777325e-05,
      "loss": 0.7449,
      "mean_token_accuracy": 0.7729568426414184,
      "step": 256
    },
    {
      "epoch": 0.7606363300036996,
      "grad_norm": 0.5731485486030579,
      "learning_rate": 1.8599140223200716e-05,
      "loss": 0.748,
      "mean_token_accuracy": 0.7729810722706314,
      "step": 257
    },
    {
      "epoch": 0.7635960044395117,
      "grad_norm": 0.5766414403915405,
      "learning_rate": 1.858144763535302e-05,
      "loss": 0.7782,
      "mean_token_accuracy": 0.764375293579256,
      "step": 258
    },
    {
      "epoch": 0.7665556788753237,
      "grad_norm": 0.5422239899635315,
      "learning_rate": 1.8563652545561014e-05,
      "loss": 0.7329,
      "mean_token_accuracy": 0.7776419690528588,
      "step": 259
    },
    {
      "epoch": 0.7695153533111357,
      "grad_norm": 0.5828793048858643,
      "learning_rate": 1.8545755166379898e-05,
      "loss": 0.7186,
      "mean_token_accuracy": 0.7822970814680493,
      "step": 260
    },
    {
      "epoch": 0.7724750277469479,
      "grad_norm": 0.5449491739273071,
      "learning_rate": 1.852775571158668e-05,
      "loss": 0.7711,
      "mean_token_accuracy": 0.7660281761867683,
      "step": 261
    },
    {
      "epoch": 0.7754347021827599,
      "grad_norm": 0.5476288795471191,
      "learning_rate": 1.850965439617761e-05,
      "loss": 0.7404,
      "mean_token_accuracy": 0.7736120045020073,
      "step": 262
    },
    {
      "epoch": 0.7783943766185719,
      "grad_norm": 0.6878018975257874,
      "learning_rate": 1.8491451436365628e-05,
      "loss": 0.7758,
      "mean_token_accuracy": 0.7640672296658151,
      "step": 263
    },
    {
      "epoch": 0.781354051054384,
      "grad_norm": 0.5300653576850891,
      "learning_rate": 1.8473147049577777e-05,
      "loss": 0.7666,
      "mean_token_accuracy": 0.7686153435173708,
      "step": 264
    },
    {
      "epoch": 0.7843137254901961,
      "grad_norm": 0.6327837705612183,
      "learning_rate": 1.8454741454452604e-05,
      "loss": 0.7521,
      "mean_token_accuracy": 0.7717832959346983,
      "step": 265
    },
    {
      "epoch": 0.7872733999260081,
      "grad_norm": 0.5409294366836548,
      "learning_rate": 1.843623487083755e-05,
      "loss": 0.7404,
      "mean_token_accuracy": 0.7766533132408322,
      "step": 266
    },
    {
      "epoch": 0.7902330743618202,
      "grad_norm": 0.5834295749664307,
      "learning_rate": 1.8417627519786317e-05,
      "loss": 0.7592,
      "mean_token_accuracy": 0.7693419786318872,
      "step": 267
    },
    {
      "epoch": 0.7931927487976322,
      "grad_norm": 0.5921277403831482,
      "learning_rate": 1.839891962355624e-05,
      "loss": 0.7162,
      "mean_token_accuracy": 0.7820607013724311,
      "step": 268
    },
    {
      "epoch": 0.7961524232334444,
      "grad_norm": 0.5238744020462036,
      "learning_rate": 1.838011140560562e-05,
      "loss": 0.7565,
      "mean_token_accuracy": 0.770343025952529,
      "step": 269
    },
    {
      "epoch": 0.7991120976692564,
      "grad_norm": 0.5569880604743958,
      "learning_rate": 1.836120309059107e-05,
      "loss": 0.7488,
      "mean_token_accuracy": 0.7728957184836894,
      "step": 270
    },
    {
      "epoch": 0.8020717721050684,
      "grad_norm": 0.5647782683372498,
      "learning_rate": 1.8342194904364815e-05,
      "loss": 0.7135,
      "mean_token_accuracy": 0.7830927354241212,
      "step": 271
    },
    {
      "epoch": 0.8050314465408805,
      "grad_norm": 0.5411779284477234,
      "learning_rate": 1.8323087073971996e-05,
      "loss": 0.7366,
      "mean_token_accuracy": 0.775458202599469,
      "step": 272
    },
    {
      "epoch": 0.8079911209766926,
      "grad_norm": 0.6045868992805481,
      "learning_rate": 1.8303879827647977e-05,
      "loss": 0.7544,
      "mean_token_accuracy": 0.7712791582365803,
      "step": 273
    },
    {
      "epoch": 0.8109507954125046,
      "grad_norm": 0.5784792304039001,
      "learning_rate": 1.8284573394815596e-05,
      "loss": 0.7448,
      "mean_token_accuracy": 0.7737621785267094,
      "step": 274
    },
    {
      "epoch": 0.8139104698483167,
      "grad_norm": 0.5260710120201111,
      "learning_rate": 1.826516800608244e-05,
      "loss": 0.7627,
      "mean_token_accuracy": 0.7694265078345902,
      "step": 275
    },
    {
      "epoch": 0.8168701442841287,
      "grad_norm": 0.5844061374664307,
      "learning_rate": 1.8245663893238075e-05,
      "loss": 0.7653,
      "mean_token_accuracy": 0.7686764548943624,
      "step": 276
    },
    {
      "epoch": 0.8198298187199408,
      "grad_norm": 0.5687382221221924,
      "learning_rate": 1.8226061289251297e-05,
      "loss": 0.7631,
      "mean_token_accuracy": 0.7688321516962094,
      "step": 277
    },
    {
      "epoch": 0.8227894931557529,
      "grad_norm": 0.5046533942222595,
      "learning_rate": 1.8206360428267332e-05,
      "loss": 0.6843,
      "mean_token_accuracy": 0.7910775752871206,
      "step": 278
    },
    {
      "epoch": 0.8257491675915649,
      "grad_norm": 0.6087561249732971,
      "learning_rate": 1.8186561545605055e-05,
      "loss": 0.7596,
      "mean_token_accuracy": 0.7701909103269404,
      "step": 279
    },
    {
      "epoch": 0.8287088420273769,
      "grad_norm": 0.5349226593971252,
      "learning_rate": 1.816666487775416e-05,
      "loss": 0.7453,
      "mean_token_accuracy": 0.7745023453893125,
      "step": 280
    },
    {
      "epoch": 0.8316685164631891,
      "grad_norm": 0.549005389213562,
      "learning_rate": 1.8146670662372353e-05,
      "loss": 0.7424,
      "mean_token_accuracy": 0.7753068407668716,
      "step": 281
    },
    {
      "epoch": 0.8346281908990011,
      "grad_norm": 0.5528567433357239,
      "learning_rate": 1.8126579138282502e-05,
      "loss": 0.7515,
      "mean_token_accuracy": 0.7716154993402936,
      "step": 282
    },
    {
      "epoch": 0.8375878653348132,
      "grad_norm": 0.47966665029525757,
      "learning_rate": 1.8106390545469797e-05,
      "loss": 0.7601,
      "mean_token_accuracy": 0.7702052221245829,
      "step": 283
    },
    {
      "epoch": 0.8405475397706252,
      "grad_norm": 0.5724716186523438,
      "learning_rate": 1.8086105125078858e-05,
      "loss": 0.7332,
      "mean_token_accuracy": 0.7777038447981673,
      "step": 284
    },
    {
      "epoch": 0.8435072142064373,
      "grad_norm": 0.5578106641769409,
      "learning_rate": 1.8065723119410885e-05,
      "loss": 0.7302,
      "mean_token_accuracy": 0.7772090946791604,
      "step": 285
    },
    {
      "epoch": 0.8464668886422494,
      "grad_norm": 0.5442110896110535,
      "learning_rate": 1.804524477192075e-05,
      "loss": 0.7334,
      "mean_token_accuracy": 0.7762476620441784,
      "step": 286
    },
    {
      "epoch": 0.8494265630780614,
      "grad_norm": 0.584141731262207,
      "learning_rate": 1.8024670327214084e-05,
      "loss": 0.7258,
      "mean_token_accuracy": 0.7806851593884065,
      "step": 287
    },
    {
      "epoch": 0.8523862375138734,
      "grad_norm": 0.598616361618042,
      "learning_rate": 1.8004000031044363e-05,
      "loss": 0.7793,
      "mean_token_accuracy": 0.7645610353814324,
      "step": 288
    },
    {
      "epoch": 0.8553459119496856,
      "grad_norm": 0.5531610250473022,
      "learning_rate": 1.798323413030997e-05,
      "loss": 0.7302,
      "mean_token_accuracy": 0.7774894874371842,
      "step": 289
    },
    {
      "epoch": 0.8583055863854976,
      "grad_norm": 0.637056291103363,
      "learning_rate": 1.796237287305125e-05,
      "loss": 0.7319,
      "mean_token_accuracy": 0.776980981509457,
      "step": 290
    },
    {
      "epoch": 0.8612652608213096,
      "grad_norm": 0.526637613773346,
      "learning_rate": 1.7941416508447537e-05,
      "loss": 0.737,
      "mean_token_accuracy": 0.7755365142177981,
      "step": 291
    },
    {
      "epoch": 0.8642249352571217,
      "grad_norm": 0.6117897033691406,
      "learning_rate": 1.792036528681418e-05,
      "loss": 0.7453,
      "mean_token_accuracy": 0.7738772998083994,
      "step": 292
    },
    {
      "epoch": 0.8671846096929338,
      "grad_norm": 0.57455974817276,
      "learning_rate": 1.789921945959958e-05,
      "loss": 0.7293,
      "mean_token_accuracy": 0.7769571821797022,
      "step": 293
    },
    {
      "epoch": 0.8701442841287459,
      "grad_norm": 0.5134701728820801,
      "learning_rate": 1.7877979279382135e-05,
      "loss": 0.7198,
      "mean_token_accuracy": 0.7810807816611623,
      "step": 294
    },
    {
      "epoch": 0.8731039585645579,
      "grad_norm": 0.6354233026504517,
      "learning_rate": 1.7856644999867264e-05,
      "loss": 0.7491,
      "mean_token_accuracy": 0.7724234282097991,
      "step": 295
    },
    {
      "epoch": 0.8760636330003699,
      "grad_norm": 0.4881884753704071,
      "learning_rate": 1.783521687588437e-05,
      "loss": 0.6976,
      "mean_token_accuracy": 0.7884361038620284,
      "step": 296
    },
    {
      "epoch": 0.8790233074361821,
      "grad_norm": 0.6362212300300598,
      "learning_rate": 1.781369516338378e-05,
      "loss": 0.7398,
      "mean_token_accuracy": 0.7755743850683346,
      "step": 297
    },
    {
      "epoch": 0.8819829818719941,
      "grad_norm": 0.5661829710006714,
      "learning_rate": 1.779208011943371e-05,
      "loss": 0.734,
      "mean_token_accuracy": 0.7765507531646713,
      "step": 298
    },
    {
      "epoch": 0.8849426563078061,
      "grad_norm": 0.5010657906532288,
      "learning_rate": 1.777037200221717e-05,
      "loss": 0.7388,
      "mean_token_accuracy": 0.7751515429566093,
      "step": 299
    },
    {
      "epoch": 0.8879023307436182,
      "grad_norm": 0.6076653003692627,
      "learning_rate": 1.77485710710289e-05,
      "loss": 0.729,
      "mean_token_accuracy": 0.7784857584094641,
      "step": 300
    },
    {
      "epoch": 0.8879023307436182,
      "eval_loss": 0.7613943219184875,
      "eval_mean_token_accuracy": 0.7661339070277478,
      "eval_runtime": 24.531,
      "eval_samples_per_second": 5.259,
      "eval_steps_per_second": 1.345,
      "step": 300
    },
    {
      "epoch": 0.8908620051794303,
      "grad_norm": 0.5315244197845459,
      "learning_rate": 1.7726677586272263e-05,
      "loss": 0.7247,
      "mean_token_accuracy": 0.7800706307954832,
      "step": 301
    },
    {
      "epoch": 0.8938216796152423,
      "grad_norm": 0.572488009929657,
      "learning_rate": 1.7704691809456142e-05,
      "loss": 0.7619,
      "mean_token_accuracy": 0.7684274429192071,
      "step": 302
    },
    {
      "epoch": 0.8967813540510544,
      "grad_norm": 0.530282735824585,
      "learning_rate": 1.7682614003191807e-05,
      "loss": 0.7192,
      "mean_token_accuracy": 0.7826426067771499,
      "step": 303
    },
    {
      "epoch": 0.8997410284868664,
      "grad_norm": 0.4633922278881073,
      "learning_rate": 1.766044443118978e-05,
      "loss": 0.7361,
      "mean_token_accuracy": 0.7761481074845271,
      "step": 304
    },
    {
      "epoch": 0.9027007029226785,
      "grad_norm": 0.5290641784667969,
      "learning_rate": 1.76381833582567e-05,
      "loss": 0.7347,
      "mean_token_accuracy": 0.7752220969695607,
      "step": 305
    },
    {
      "epoch": 0.9056603773584906,
      "grad_norm": 0.5756820440292358,
      "learning_rate": 1.761583105029213e-05,
      "loss": 0.7091,
      "mean_token_accuracy": 0.7832374672534335,
      "step": 306
    },
    {
      "epoch": 0.9086200517943026,
      "grad_norm": 0.4851895570755005,
      "learning_rate": 1.7593387774285412e-05,
      "loss": 0.7259,
      "mean_token_accuracy": 0.7790017695040672,
      "step": 307
    },
    {
      "epoch": 0.9115797262301147,
      "grad_norm": 0.5287590026855469,
      "learning_rate": 1.7570853798312462e-05,
      "loss": 0.7234,
      "mean_token_accuracy": 0.7806430154123836,
      "step": 308
    },
    {
      "epoch": 0.9145394006659268,
      "grad_norm": 0.5195660591125488,
      "learning_rate": 1.7548229391532572e-05,
      "loss": 0.6565,
      "mean_token_accuracy": 0.7984747483843323,
      "step": 309
    },
    {
      "epoch": 0.9174990751017388,
      "grad_norm": 0.4991515576839447,
      "learning_rate": 1.7525514824185187e-05,
      "loss": 0.7231,
      "mean_token_accuracy": 0.7803891298617083,
      "step": 310
    },
    {
      "epoch": 0.9204587495375509,
      "grad_norm": 0.4935111701488495,
      "learning_rate": 1.750271036758669e-05,
      "loss": 0.7564,
      "mean_token_accuracy": 0.7712247656704234,
      "step": 311
    },
    {
      "epoch": 0.9234184239733629,
      "grad_norm": 0.5220803618431091,
      "learning_rate": 1.747981629412715e-05,
      "loss": 0.7381,
      "mean_token_accuracy": 0.7754488466026199,
      "step": 312
    },
    {
      "epoch": 0.926378098409175,
      "grad_norm": 0.4899723529815674,
      "learning_rate": 1.7456832877267083e-05,
      "loss": 0.7147,
      "mean_token_accuracy": 0.7830229071000929,
      "step": 313
    },
    {
      "epoch": 0.9293377728449871,
      "grad_norm": 0.48553645610809326,
      "learning_rate": 1.7433760391534166e-05,
      "loss": 0.7249,
      "mean_token_accuracy": 0.7801764351541252,
      "step": 314
    },
    {
      "epoch": 0.9322974472807991,
      "grad_norm": 0.5421589016914368,
      "learning_rate": 1.741059911251997e-05,
      "loss": 0.7398,
      "mean_token_accuracy": 0.7753942151228886,
      "step": 315
    },
    {
      "epoch": 0.9352571217166111,
      "grad_norm": 0.5142074823379517,
      "learning_rate": 1.7387349316876668e-05,
      "loss": 0.7213,
      "mean_token_accuracy": 0.7805064687638097,
      "step": 316
    },
    {
      "epoch": 0.9382167961524233,
      "grad_norm": 0.4945102632045746,
      "learning_rate": 1.7364011282313732e-05,
      "loss": 0.713,
      "mean_token_accuracy": 0.7815959672421611,
      "step": 317
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.509762167930603,
      "learning_rate": 1.7340585287594605e-05,
      "loss": 0.7278,
      "mean_token_accuracy": 0.778527115017442,
      "step": 318
    },
    {
      "epoch": 0.9441361450240473,
      "grad_norm": 0.5061408877372742,
      "learning_rate": 1.731707161253338e-05,
      "loss": 0.7646,
      "mean_token_accuracy": 0.7684516320654873,
      "step": 319
    },
    {
      "epoch": 0.9470958194598594,
      "grad_norm": 0.4812653958797455,
      "learning_rate": 1.7293470537991463e-05,
      "loss": 0.7286,
      "mean_token_accuracy": 0.7783584589981216,
      "step": 320
    },
    {
      "epoch": 0.9500554938956715,
      "grad_norm": 0.5362148284912109,
      "learning_rate": 1.7269782345874204e-05,
      "loss": 0.7029,
      "mean_token_accuracy": 0.785544384259824,
      "step": 321
    },
    {
      "epoch": 0.9530151683314836,
      "grad_norm": 0.5306621193885803,
      "learning_rate": 1.7246007319127547e-05,
      "loss": 0.747,
      "mean_token_accuracy": 0.774057502189317,
      "step": 322
    },
    {
      "epoch": 0.9559748427672956,
      "grad_norm": 0.567263126373291,
      "learning_rate": 1.7222145741734625e-05,
      "loss": 0.7198,
      "mean_token_accuracy": 0.7807379482187227,
      "step": 323
    },
    {
      "epoch": 0.9589345172031076,
      "grad_norm": 0.5175469517707825,
      "learning_rate": 1.7198197898712402e-05,
      "loss": 0.7275,
      "mean_token_accuracy": 0.7786112184337877,
      "step": 324
    },
    {
      "epoch": 0.9618941916389198,
      "grad_norm": 0.5404612421989441,
      "learning_rate": 1.717416407610824e-05,
      "loss": 0.689,
      "mean_token_accuracy": 0.7877453794929681,
      "step": 325
    },
    {
      "epoch": 0.9648538660747318,
      "grad_norm": 0.5193690061569214,
      "learning_rate": 1.7150044560996488e-05,
      "loss": 0.747,
      "mean_token_accuracy": 0.7742212613379238,
      "step": 326
    },
    {
      "epoch": 0.9678135405105438,
      "grad_norm": 0.4946900010108948,
      "learning_rate": 1.7125839641475074e-05,
      "loss": 0.7471,
      "mean_token_accuracy": 0.7747309622069193,
      "step": 327
    },
    {
      "epoch": 0.9707732149463559,
      "grad_norm": 0.48158422112464905,
      "learning_rate": 1.7101549606662025e-05,
      "loss": 0.7588,
      "mean_token_accuracy": 0.7672773960785951,
      "step": 328
    },
    {
      "epoch": 0.973732889382168,
      "grad_norm": 0.49433794617652893,
      "learning_rate": 1.7077174746692054e-05,
      "loss": 0.7086,
      "mean_token_accuracy": 0.7835172366515396,
      "step": 329
    },
    {
      "epoch": 0.97669256381798,
      "grad_norm": 0.529739499092102,
      "learning_rate": 1.7052715352713076e-05,
      "loss": 0.692,
      "mean_token_accuracy": 0.7882518659447058,
      "step": 330
    },
    {
      "epoch": 0.9796522382537921,
      "grad_norm": 0.49609243869781494,
      "learning_rate": 1.7028171716882714e-05,
      "loss": 0.727,
      "mean_token_accuracy": 0.7790673878869031,
      "step": 331
    },
    {
      "epoch": 0.9826119126896041,
      "grad_norm": 0.5060005784034729,
      "learning_rate": 1.7003544132364847e-05,
      "loss": 0.7492,
      "mean_token_accuracy": 0.7722196174397824,
      "step": 332
    },
    {
      "epoch": 0.9855715871254163,
      "grad_norm": 0.5200058817863464,
      "learning_rate": 1.6978832893326074e-05,
      "loss": 0.7274,
      "mean_token_accuracy": 0.7771648765922762,
      "step": 333
    },
    {
      "epoch": 0.9885312615612283,
      "grad_norm": 0.5111742615699768,
      "learning_rate": 1.6954038294932215e-05,
      "loss": 0.727,
      "mean_token_accuracy": 0.7788486720026189,
      "step": 334
    },
    {
      "epoch": 0.9914909359970403,
      "grad_norm": 0.49541163444519043,
      "learning_rate": 1.692916063334479e-05,
      "loss": 0.716,
      "mean_token_accuracy": 0.7805707677819913,
      "step": 335
    },
    {
      "epoch": 0.9944506104328524,
      "grad_norm": 0.5204536318778992,
      "learning_rate": 1.690420020571747e-05,
      "loss": 0.7857,
      "mean_token_accuracy": 0.7611835238050416,
      "step": 336
    },
    {
      "epoch": 0.9974102848686645,
      "grad_norm": 0.49425816535949707,
      "learning_rate": 1.6879157310192537e-05,
      "loss": 0.7237,
      "mean_token_accuracy": 0.7797621176940523,
      "step": 337
    },
    {
      "epoch": 1.002959674435812,
      "grad_norm": 0.9215492010116577,
      "learning_rate": 1.685403224589731e-05,
      "loss": 1.431,
      "mean_token_accuracy": 0.781872374274613,
      "step": 338
    },
    {
      "epoch": 1.005919348871624,
      "grad_norm": 0.4850497841835022,
      "learning_rate": 1.6828825312940594e-05,
      "loss": 0.7123,
      "mean_token_accuracy": 0.7815581594577298,
      "step": 339
    },
    {
      "epoch": 1.0088790233074363,
      "grad_norm": 0.5388746857643127,
      "learning_rate": 1.6803536812409077e-05,
      "loss": 0.6533,
      "mean_token_accuracy": 0.7976729613611061,
      "step": 340
    },
    {
      "epoch": 1.0118386977432483,
      "grad_norm": 0.5414032340049744,
      "learning_rate": 1.6778167046363735e-05,
      "loss": 0.663,
      "mean_token_accuracy": 0.7950990029075803,
      "step": 341
    },
    {
      "epoch": 1.0147983721790603,
      "grad_norm": 0.5482701063156128,
      "learning_rate": 1.675271631783623e-05,
      "loss": 0.6924,
      "mean_token_accuracy": 0.7870997024486296,
      "step": 342
    },
    {
      "epoch": 1.0177580466148723,
      "grad_norm": 0.5530447363853455,
      "learning_rate": 1.672718493082529e-05,
      "loss": 0.6957,
      "mean_token_accuracy": 0.7862520808317638,
      "step": 343
    },
    {
      "epoch": 1.0207177210506844,
      "grad_norm": 0.5601862072944641,
      "learning_rate": 1.6701573190293076e-05,
      "loss": 0.7079,
      "mean_token_accuracy": 0.7811090177290159,
      "step": 344
    },
    {
      "epoch": 1.0236773954864964,
      "grad_norm": 0.5983414649963379,
      "learning_rate": 1.667588140216154e-05,
      "loss": 0.7177,
      "mean_token_accuracy": 0.7782319335787533,
      "step": 345
    },
    {
      "epoch": 1.0266370699223086,
      "grad_norm": 0.5023918747901917,
      "learning_rate": 1.6650109873308763e-05,
      "loss": 0.6742,
      "mean_token_accuracy": 0.7925658601690396,
      "step": 346
    },
    {
      "epoch": 1.0295967443581207,
      "grad_norm": 0.5499829053878784,
      "learning_rate": 1.6624258911565312e-05,
      "loss": 0.6964,
      "mean_token_accuracy": 0.7845868210400818,
      "step": 347
    },
    {
      "epoch": 1.0325564187939327,
      "grad_norm": 0.6044626235961914,
      "learning_rate": 1.6598328825710536e-05,
      "loss": 0.7433,
      "mean_token_accuracy": 0.7716598489636504,
      "step": 348
    },
    {
      "epoch": 1.0355160932297447,
      "grad_norm": 0.5895024538040161,
      "learning_rate": 1.6572319925468892e-05,
      "loss": 0.6851,
      "mean_token_accuracy": 0.7886055642998372,
      "step": 349
    },
    {
      "epoch": 1.0384757676655567,
      "grad_norm": 0.4884833097457886,
      "learning_rate": 1.654623252150624e-05,
      "loss": 0.6874,
      "mean_token_accuracy": 0.7882489689414884,
      "step": 350
    },
    {
      "epoch": 1.0414354421013687,
      "grad_norm": 0.48958876729011536,
      "learning_rate": 1.6520066925426146e-05,
      "loss": 0.6761,
      "mean_token_accuracy": 0.789869173725892,
      "step": 351
    },
    {
      "epoch": 1.044395116537181,
      "grad_norm": 0.5143749713897705,
      "learning_rate": 1.6493823449766137e-05,
      "loss": 0.7002,
      "mean_token_accuracy": 0.7832564985016889,
      "step": 352
    },
    {
      "epoch": 1.047354790972993,
      "grad_norm": 0.5188062191009521,
      "learning_rate": 1.6467502407993995e-05,
      "loss": 0.6785,
      "mean_token_accuracy": 0.7895198082299716,
      "step": 353
    },
    {
      "epoch": 1.050314465408805,
      "grad_norm": 0.5853990316390991,
      "learning_rate": 1.644110411450398e-05,
      "loss": 0.7027,
      "mean_token_accuracy": 0.7840915967094005,
      "step": 354
    },
    {
      "epoch": 1.053274139844617,
      "grad_norm": 0.48951801657676697,
      "learning_rate": 1.6414628884613106e-05,
      "loss": 0.6905,
      "mean_token_accuracy": 0.7872202318165091,
      "step": 355
    },
    {
      "epoch": 1.056233814280429,
      "grad_norm": 0.5374004244804382,
      "learning_rate": 1.6388077034557355e-05,
      "loss": 0.7107,
      "mean_token_accuracy": 0.7806436850766835,
      "step": 356
    },
    {
      "epoch": 1.0591934887162413,
      "grad_norm": 0.49236002564430237,
      "learning_rate": 1.6361448881487913e-05,
      "loss": 0.6762,
      "mean_token_accuracy": 0.7917445809376139,
      "step": 357
    },
    {
      "epoch": 1.0621531631520533,
      "grad_norm": 0.4819602966308594,
      "learning_rate": 1.6334744743467366e-05,
      "loss": 0.6876,
      "mean_token_accuracy": 0.7879321033092377,
      "step": 358
    },
    {
      "epoch": 1.0651128375878653,
      "grad_norm": 0.47309836745262146,
      "learning_rate": 1.6307964939465914e-05,
      "loss": 0.684,
      "mean_token_accuracy": 0.7893314943134146,
      "step": 359
    },
    {
      "epoch": 1.0680725120236774,
      "grad_norm": 0.5006982088088989,
      "learning_rate": 1.628110978935756e-05,
      "loss": 0.6899,
      "mean_token_accuracy": 0.7870876825021131,
      "step": 360
    },
    {
      "epoch": 1.0710321864594894,
      "grad_norm": 0.5221154093742371,
      "learning_rate": 1.625417961391628e-05,
      "loss": 0.6475,
      "mean_token_accuracy": 0.7990545634414727,
      "step": 361
    },
    {
      "epoch": 1.0739918608953016,
      "grad_norm": 0.4775597155094147,
      "learning_rate": 1.62271747348122e-05,
      "loss": 0.6934,
      "mean_token_accuracy": 0.787116997295676,
      "step": 362
    },
    {
      "epoch": 1.0769515353311137,
      "grad_norm": 0.5393570065498352,
      "learning_rate": 1.6200095474607753e-05,
      "loss": 0.6892,
      "mean_token_accuracy": 0.7863585652394626,
      "step": 363
    },
    {
      "epoch": 1.0799112097669257,
      "grad_norm": 0.4533829689025879,
      "learning_rate": 1.6172942156753822e-05,
      "loss": 0.6737,
      "mean_token_accuracy": 0.791843095021805,
      "step": 364
    },
    {
      "epoch": 1.0828708842027377,
      "grad_norm": 0.462872177362442,
      "learning_rate": 1.614571510558588e-05,
      "loss": 0.6741,
      "mean_token_accuracy": 0.7927564512367392,
      "step": 365
    },
    {
      "epoch": 1.0858305586385497,
      "grad_norm": 0.5344141125679016,
      "learning_rate": 1.6118414646320115e-05,
      "loss": 0.678,
      "mean_token_accuracy": 0.7914964738663861,
      "step": 366
    },
    {
      "epoch": 1.0887902330743617,
      "grad_norm": 0.5266002416610718,
      "learning_rate": 1.6091041105049542e-05,
      "loss": 0.6946,
      "mean_token_accuracy": 0.7852726685975778,
      "step": 367
    },
    {
      "epoch": 1.091749907510174,
      "grad_norm": 0.4648328125476837,
      "learning_rate": 1.6063594808740112e-05,
      "loss": 0.6415,
      "mean_token_accuracy": 0.8008673556038499,
      "step": 368
    },
    {
      "epoch": 1.094709581945986,
      "grad_norm": 0.5501207709312439,
      "learning_rate": 1.6036076085226813e-05,
      "loss": 0.7327,
      "mean_token_accuracy": 0.7737077885315848,
      "step": 369
    },
    {
      "epoch": 1.097669256381798,
      "grad_norm": 0.49827733635902405,
      "learning_rate": 1.6008485263209742e-05,
      "loss": 0.6509,
      "mean_token_accuracy": 0.7995274953751699,
      "step": 370
    },
    {
      "epoch": 1.10062893081761,
      "grad_norm": 0.4650176465511322,
      "learning_rate": 1.598082267225018e-05,
      "loss": 0.7112,
      "mean_token_accuracy": 0.7804922990268738,
      "step": 371
    },
    {
      "epoch": 1.103588605253422,
      "grad_norm": 0.5303501486778259,
      "learning_rate": 1.595308864276666e-05,
      "loss": 0.7211,
      "mean_token_accuracy": 0.7776063180667486,
      "step": 372
    },
    {
      "epoch": 1.106548279689234,
      "grad_norm": 0.5931088924407959,
      "learning_rate": 1.592528350603103e-05,
      "loss": 0.6912,
      "mean_token_accuracy": 0.7860275624390939,
      "step": 373
    },
    {
      "epoch": 1.1095079541250463,
      "grad_norm": 0.464376300573349,
      "learning_rate": 1.5897407594164468e-05,
      "loss": 0.6996,
      "mean_token_accuracy": 0.7857896692996122,
      "step": 374
    },
    {
      "epoch": 1.1124676285608583,
      "grad_norm": 0.5060982704162598,
      "learning_rate": 1.586946124013354e-05,
      "loss": 0.6827,
      "mean_token_accuracy": 0.7901175041980462,
      "step": 375
    },
    {
      "epoch": 1.1154273029966704,
      "grad_norm": 0.5316497683525085,
      "learning_rate": 1.5841444777746232e-05,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7995927306906477,
      "step": 376
    },
    {
      "epoch": 1.1183869774324824,
      "grad_norm": 0.5280824303627014,
      "learning_rate": 1.5813358541647915e-05,
      "loss": 0.6821,
      "mean_token_accuracy": 0.7899257721771863,
      "step": 377
    },
    {
      "epoch": 1.1213466518682944,
      "grad_norm": 0.4961848258972168,
      "learning_rate": 1.578520286731741e-05,
      "loss": 0.7106,
      "mean_token_accuracy": 0.7801769327002734,
      "step": 378
    },
    {
      "epoch": 1.1243063263041067,
      "grad_norm": 0.543953001499176,
      "learning_rate": 1.575697809106292e-05,
      "loss": 0.6922,
      "mean_token_accuracy": 0.785628822049384,
      "step": 379
    },
    {
      "epoch": 1.1272660007399187,
      "grad_norm": 0.5489509105682373,
      "learning_rate": 1.5728684550018066e-05,
      "loss": 0.6936,
      "mean_token_accuracy": 0.7861259742540445,
      "step": 380
    },
    {
      "epoch": 1.1302256751757307,
      "grad_norm": 0.48247000575065613,
      "learning_rate": 1.570032258213783e-05,
      "loss": 0.702,
      "mean_token_accuracy": 0.781727569386528,
      "step": 381
    },
    {
      "epoch": 1.1331853496115427,
      "grad_norm": 0.5495713949203491,
      "learning_rate": 1.5671892526194515e-05,
      "loss": 0.6792,
      "mean_token_accuracy": 0.7919662989910665,
      "step": 382
    },
    {
      "epoch": 1.1361450240473547,
      "grad_norm": 0.4841765761375427,
      "learning_rate": 1.564339472177373e-05,
      "loss": 0.6693,
      "mean_token_accuracy": 0.7934251880120227,
      "step": 383
    },
    {
      "epoch": 1.1391046984831668,
      "grad_norm": 0.5036046504974365,
      "learning_rate": 1.561482950927029e-05,
      "loss": 0.7035,
      "mean_token_accuracy": 0.7822988951176773,
      "step": 384
    },
    {
      "epoch": 1.142064372918979,
      "grad_norm": 0.550046443939209,
      "learning_rate": 1.5586197229884185e-05,
      "loss": 0.6558,
      "mean_token_accuracy": 0.797441361172838,
      "step": 385
    },
    {
      "epoch": 1.145024047354791,
      "grad_norm": 0.5752468705177307,
      "learning_rate": 1.5557498225616488e-05,
      "loss": 0.7081,
      "mean_token_accuracy": 0.7824781572463329,
      "step": 386
    },
    {
      "epoch": 1.147983721790603,
      "grad_norm": 0.4782570004463196,
      "learning_rate": 1.5528732839265272e-05,
      "loss": 0.7,
      "mean_token_accuracy": 0.7834877131177364,
      "step": 387
    },
    {
      "epoch": 1.150943396226415,
      "grad_norm": 0.5209779739379883,
      "learning_rate": 1.549990141442153e-05,
      "loss": 0.6823,
      "mean_token_accuracy": 0.7903034725828352,
      "step": 388
    },
    {
      "epoch": 1.153903070662227,
      "grad_norm": 0.510071337223053,
      "learning_rate": 1.5471004295465034e-05,
      "loss": 0.7337,
      "mean_token_accuracy": 0.7748414033827098,
      "step": 389
    },
    {
      "epoch": 1.156862745098039,
      "grad_norm": 0.5067256689071655,
      "learning_rate": 1.5442041827560274e-05,
      "loss": 0.6945,
      "mean_token_accuracy": 0.7857010244801683,
      "step": 390
    },
    {
      "epoch": 1.1598224195338513,
      "grad_norm": 0.5134366154670715,
      "learning_rate": 1.5413014356652287e-05,
      "loss": 0.6761,
      "mean_token_accuracy": 0.7901567665550651,
      "step": 391
    },
    {
      "epoch": 1.1627820939696634,
      "grad_norm": 0.49565669894218445,
      "learning_rate": 1.538392222946255e-05,
      "loss": 0.6992,
      "mean_token_accuracy": 0.7850131511442856,
      "step": 392
    },
    {
      "epoch": 1.1657417684054754,
      "grad_norm": 0.4513917565345764,
      "learning_rate": 1.5354765793484834e-05,
      "loss": 0.6779,
      "mean_token_accuracy": 0.7922368459696144,
      "step": 393
    },
    {
      "epoch": 1.1687014428412874,
      "grad_norm": 0.5351982116699219,
      "learning_rate": 1.5325545396981053e-05,
      "loss": 0.6937,
      "mean_token_accuracy": 0.7857501806841758,
      "step": 394
    },
    {
      "epoch": 1.1716611172770994,
      "grad_norm": 0.47825103998184204,
      "learning_rate": 1.5296261388977107e-05,
      "loss": 0.629,
      "mean_token_accuracy": 0.8047603633681424,
      "step": 395
    },
    {
      "epoch": 1.1746207917129117,
      "grad_norm": 0.48426443338394165,
      "learning_rate": 1.52669141192587e-05,
      "loss": 0.7218,
      "mean_token_accuracy": 0.7786340167760629,
      "step": 396
    },
    {
      "epoch": 1.1775804661487237,
      "grad_norm": 0.510691225528717,
      "learning_rate": 1.5237503938367186e-05,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7848220716497867,
      "step": 397
    },
    {
      "epoch": 1.1805401405845357,
      "grad_norm": 0.4977818727493286,
      "learning_rate": 1.5208031197595357e-05,
      "loss": 0.6181,
      "mean_token_accuracy": 0.808352793166422,
      "step": 398
    },
    {
      "epoch": 1.1834998150203477,
      "grad_norm": 0.45590656995773315,
      "learning_rate": 1.5178496248983254e-05,
      "loss": 0.6445,
      "mean_token_accuracy": 0.7992991854336597,
      "step": 399
    },
    {
      "epoch": 1.1864594894561598,
      "grad_norm": 0.5166680812835693,
      "learning_rate": 1.5148899445313983e-05,
      "loss": 0.6391,
      "mean_token_accuracy": 0.8008235442677688,
      "step": 400
    },
    {
      "epoch": 1.1864594894561598,
      "eval_loss": 0.753233015537262,
      "eval_mean_token_accuracy": 0.7678493271850204,
      "eval_runtime": 24.4762,
      "eval_samples_per_second": 5.27,
      "eval_steps_per_second": 1.348,
      "step": 400
    },
    {
      "epoch": 1.189419163891972,
      "grad_norm": 0.4777900278568268,
      "learning_rate": 1.5119241140109466e-05,
      "loss": 0.6447,
      "mean_token_accuracy": 0.8008284367677996,
      "step": 401
    },
    {
      "epoch": 1.192378838327784,
      "grad_norm": 0.4674142301082611,
      "learning_rate": 1.5089521687626243e-05,
      "loss": 0.6426,
      "mean_token_accuracy": 0.8002595216069462,
      "step": 402
    },
    {
      "epoch": 1.195338512763596,
      "grad_norm": 0.5119103789329529,
      "learning_rate": 1.505974144285124e-05,
      "loss": 0.7143,
      "mean_token_accuracy": 0.7807192708136647,
      "step": 403
    },
    {
      "epoch": 1.198298187199408,
      "grad_norm": 0.5238728523254395,
      "learning_rate": 1.5029900761497507e-05,
      "loss": 0.7459,
      "mean_token_accuracy": 0.7719988622051683,
      "step": 404
    },
    {
      "epoch": 1.20125786163522,
      "grad_norm": 0.5216233134269714,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.6977,
      "mean_token_accuracy": 0.7839726890839798,
      "step": 405
    },
    {
      "epoch": 1.204217536071032,
      "grad_norm": 0.509964108467102,
      "learning_rate": 1.4970039515511303e-05,
      "loss": 0.6809,
      "mean_token_accuracy": 0.7893634011753464,
      "step": 406
    },
    {
      "epoch": 1.2071772105068441,
      "grad_norm": 0.5653720498085022,
      "learning_rate": 1.4940019665897363e-05,
      "loss": 0.6897,
      "mean_token_accuracy": 0.7868935096910736,
      "step": 407
    },
    {
      "epoch": 1.2101368849426564,
      "grad_norm": 0.4962683618068695,
      "learning_rate": 1.4909940809733223e-05,
      "loss": 0.7354,
      "mean_token_accuracy": 0.7726758488051101,
      "step": 408
    },
    {
      "epoch": 1.2130965593784684,
      "grad_norm": 0.5176084637641907,
      "learning_rate": 1.4879803306298736e-05,
      "loss": 0.6964,
      "mean_token_accuracy": 0.7838358295177021,
      "step": 409
    },
    {
      "epoch": 1.2160562338142804,
      "grad_norm": 0.513697624206543,
      "learning_rate": 1.4849607515574276e-05,
      "loss": 0.6492,
      "mean_token_accuracy": 0.799568203590832,
      "step": 410
    },
    {
      "epoch": 1.2190159082500924,
      "grad_norm": 0.4567902684211731,
      "learning_rate": 1.4819353798236427e-05,
      "loss": 0.6991,
      "mean_token_accuracy": 0.7838256081866393,
      "step": 411
    },
    {
      "epoch": 1.2219755826859044,
      "grad_norm": 0.5139224529266357,
      "learning_rate": 1.4789042515653687e-05,
      "loss": 0.6946,
      "mean_token_accuracy": 0.7852177162018236,
      "step": 412
    },
    {
      "epoch": 1.2249352571217167,
      "grad_norm": 0.5555658936500549,
      "learning_rate": 1.4758674029882152e-05,
      "loss": 0.6539,
      "mean_token_accuracy": 0.7970551349204403,
      "step": 413
    },
    {
      "epoch": 1.2278949315575287,
      "grad_norm": 0.4890614449977875,
      "learning_rate": 1.4728248703661183e-05,
      "loss": 0.695,
      "mean_token_accuracy": 0.7845206023697728,
      "step": 414
    },
    {
      "epoch": 1.2308546059933407,
      "grad_norm": 0.47974392771720886,
      "learning_rate": 1.4697766900409076e-05,
      "loss": 0.669,
      "mean_token_accuracy": 0.7929167835356624,
      "step": 415
    },
    {
      "epoch": 1.2338142804291528,
      "grad_norm": 0.5015913248062134,
      "learning_rate": 1.466722898421873e-05,
      "loss": 0.7009,
      "mean_token_accuracy": 0.7827139356082893,
      "step": 416
    },
    {
      "epoch": 1.2367739548649648,
      "grad_norm": 0.49240073561668396,
      "learning_rate": 1.4636635319853274e-05,
      "loss": 0.6685,
      "mean_token_accuracy": 0.792534979177688,
      "step": 417
    },
    {
      "epoch": 1.239733629300777,
      "grad_norm": 0.48550987243652344,
      "learning_rate": 1.4605986272741748e-05,
      "loss": 0.6908,
      "mean_token_accuracy": 0.7868828026774352,
      "step": 418
    },
    {
      "epoch": 1.242693303736589,
      "grad_norm": 0.47983378171920776,
      "learning_rate": 1.4575282208974704e-05,
      "loss": 0.6831,
      "mean_token_accuracy": 0.7891199345178915,
      "step": 419
    },
    {
      "epoch": 1.245652978172401,
      "grad_norm": 0.49261724948883057,
      "learning_rate": 1.4544523495299843e-05,
      "loss": 0.6831,
      "mean_token_accuracy": 0.7881435108832517,
      "step": 420
    },
    {
      "epoch": 1.248612652608213,
      "grad_norm": 0.47099459171295166,
      "learning_rate": 1.4513710499117648e-05,
      "loss": 0.6307,
      "mean_token_accuracy": 0.8053076982273811,
      "step": 421
    },
    {
      "epoch": 1.251572327044025,
      "grad_norm": 0.4534473121166229,
      "learning_rate": 1.4482843588476976e-05,
      "loss": 0.6953,
      "mean_token_accuracy": 0.7836745290375378,
      "step": 422
    },
    {
      "epoch": 1.2545320014798373,
      "grad_norm": 0.4827975630760193,
      "learning_rate": 1.445192313207067e-05,
      "loss": 0.6769,
      "mean_token_accuracy": 0.7917014445996506,
      "step": 423
    },
    {
      "epoch": 1.2574916759156491,
      "grad_norm": 0.48446017503738403,
      "learning_rate": 1.4420949499231172e-05,
      "loss": 0.6811,
      "mean_token_accuracy": 0.7885621949952477,
      "step": 424
    },
    {
      "epoch": 1.2604513503514614,
      "grad_norm": 0.46176275610923767,
      "learning_rate": 1.4389923059926064e-05,
      "loss": 0.6715,
      "mean_token_accuracy": 0.7921377530314322,
      "step": 425
    },
    {
      "epoch": 1.2634110247872734,
      "grad_norm": 0.4933745265007019,
      "learning_rate": 1.4358844184753713e-05,
      "loss": 0.6516,
      "mean_token_accuracy": 0.7976899559939264,
      "step": 426
    },
    {
      "epoch": 1.2663706992230854,
      "grad_norm": 0.4907665252685547,
      "learning_rate": 1.432771324493879e-05,
      "loss": 0.675,
      "mean_token_accuracy": 0.7905862204832549,
      "step": 427
    },
    {
      "epoch": 1.2693303736588974,
      "grad_norm": 0.4861429035663605,
      "learning_rate": 1.4296530612327864e-05,
      "loss": 0.7044,
      "mean_token_accuracy": 0.782618434308195,
      "step": 428
    },
    {
      "epoch": 1.2722900480947095,
      "grad_norm": 0.44409534335136414,
      "learning_rate": 1.4265296659384956e-05,
      "loss": 0.702,
      "mean_token_accuracy": 0.7835227926569839,
      "step": 429
    },
    {
      "epoch": 1.2752497225305217,
      "grad_norm": 0.47325289249420166,
      "learning_rate": 1.4234011759187084e-05,
      "loss": 0.6907,
      "mean_token_accuracy": 0.7883719669584818,
      "step": 430
    },
    {
      "epoch": 1.2782093969663337,
      "grad_norm": 0.4296591281890869,
      "learning_rate": 1.4202676285419811e-05,
      "loss": 0.6445,
      "mean_token_accuracy": 0.799964374790151,
      "step": 431
    },
    {
      "epoch": 1.2811690714021458,
      "grad_norm": 0.4680195152759552,
      "learning_rate": 1.4171290612372781e-05,
      "loss": 0.6913,
      "mean_token_accuracy": 0.7865936068853461,
      "step": 432
    },
    {
      "epoch": 1.2841287458379578,
      "grad_norm": 0.47732165455818176,
      "learning_rate": 1.4139855114935253e-05,
      "loss": 0.665,
      "mean_token_accuracy": 0.795472867454343,
      "step": 433
    },
    {
      "epoch": 1.2870884202737698,
      "grad_norm": 0.44656407833099365,
      "learning_rate": 1.410837016859161e-05,
      "loss": 0.6747,
      "mean_token_accuracy": 0.790485626527416,
      "step": 434
    },
    {
      "epoch": 1.290048094709582,
      "grad_norm": 0.4626164734363556,
      "learning_rate": 1.4076836149416889e-05,
      "loss": 0.6591,
      "mean_token_accuracy": 0.7963842598244837,
      "step": 435
    },
    {
      "epoch": 1.293007769145394,
      "grad_norm": 0.4850873053073883,
      "learning_rate": 1.4045253434072278e-05,
      "loss": 0.7126,
      "mean_token_accuracy": 0.7804075548829805,
      "step": 436
    },
    {
      "epoch": 1.295967443581206,
      "grad_norm": 0.4946662187576294,
      "learning_rate": 1.4013622399800628e-05,
      "loss": 0.7237,
      "mean_token_accuracy": 0.777694595209445,
      "step": 437
    },
    {
      "epoch": 1.298927118017018,
      "grad_norm": 0.515221893787384,
      "learning_rate": 1.3981943424421932e-05,
      "loss": 0.6982,
      "mean_token_accuracy": 0.784025918890703,
      "step": 438
    },
    {
      "epoch": 1.3018867924528301,
      "grad_norm": 0.4743560552597046,
      "learning_rate": 1.3950216886328818e-05,
      "loss": 0.698,
      "mean_token_accuracy": 0.7843463257420568,
      "step": 439
    },
    {
      "epoch": 1.3048464668886424,
      "grad_norm": 0.47368329763412476,
      "learning_rate": 1.3918443164482048e-05,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7865385891914267,
      "step": 440
    },
    {
      "epoch": 1.3078061413244544,
      "grad_norm": 0.4459000825881958,
      "learning_rate": 1.3886622638405953e-05,
      "loss": 0.6955,
      "mean_token_accuracy": 0.7852747333942596,
      "step": 441
    },
    {
      "epoch": 1.3107658157602664,
      "grad_norm": 0.47365012764930725,
      "learning_rate": 1.3854755688183941e-05,
      "loss": 0.7227,
      "mean_token_accuracy": 0.7778711159999969,
      "step": 442
    },
    {
      "epoch": 1.3137254901960784,
      "grad_norm": 0.46061503887176514,
      "learning_rate": 1.3822842694453923e-05,
      "loss": 0.6885,
      "mean_token_accuracy": 0.7876893449725652,
      "step": 443
    },
    {
      "epoch": 1.3166851646318904,
      "grad_norm": 0.4780057370662689,
      "learning_rate": 1.3790884038403796e-05,
      "loss": 0.6911,
      "mean_token_accuracy": 0.7863533950002012,
      "step": 444
    },
    {
      "epoch": 1.3196448390677027,
      "grad_norm": 0.48519885540008545,
      "learning_rate": 1.375888010176686e-05,
      "loss": 0.6666,
      "mean_token_accuracy": 0.7935298420501086,
      "step": 445
    },
    {
      "epoch": 1.3226045135035145,
      "grad_norm": 0.4679955840110779,
      "learning_rate": 1.3726831266817278e-05,
      "loss": 0.6885,
      "mean_token_accuracy": 0.7879594429456447,
      "step": 446
    },
    {
      "epoch": 1.3255641879393267,
      "grad_norm": 0.4626809060573578,
      "learning_rate": 1.3694737916365517e-05,
      "loss": 0.7021,
      "mean_token_accuracy": 0.7828708121314737,
      "step": 447
    },
    {
      "epoch": 1.3285238623751388,
      "grad_norm": 0.45779362320899963,
      "learning_rate": 1.3662600433753746e-05,
      "loss": 0.6896,
      "mean_token_accuracy": 0.7876785995413643,
      "step": 448
    },
    {
      "epoch": 1.3314835368109508,
      "grad_norm": 0.4595906436443329,
      "learning_rate": 1.3630419202851287e-05,
      "loss": 0.6979,
      "mean_token_accuracy": 0.7838014568334657,
      "step": 449
    },
    {
      "epoch": 1.3344432112467628,
      "grad_norm": 0.4679829776287079,
      "learning_rate": 1.3598194608050011e-05,
      "loss": 0.7047,
      "mean_token_accuracy": 0.7832954223966397,
      "step": 450
    },
    {
      "epoch": 1.3374028856825748,
      "grad_norm": 0.49509483575820923,
      "learning_rate": 1.3565927034259757e-05,
      "loss": 0.6956,
      "mean_token_accuracy": 0.7861987291079401,
      "step": 451
    },
    {
      "epoch": 1.340362560118387,
      "grad_norm": 0.47606754302978516,
      "learning_rate": 1.3533616866903736e-05,
      "loss": 0.6774,
      "mean_token_accuracy": 0.7900551101111528,
      "step": 452
    },
    {
      "epoch": 1.343322234554199,
      "grad_norm": 0.44316449761390686,
      "learning_rate": 1.3501264491913909e-05,
      "loss": 0.7,
      "mean_token_accuracy": 0.7830548189627489,
      "step": 453
    },
    {
      "epoch": 1.346281908990011,
      "grad_norm": 0.499174028635025,
      "learning_rate": 1.3468870295726399e-05,
      "loss": 0.7203,
      "mean_token_accuracy": 0.7776105610712533,
      "step": 454
    },
    {
      "epoch": 1.3492415834258231,
      "grad_norm": 0.43882501125335693,
      "learning_rate": 1.3436434665276865e-05,
      "loss": 0.6745,
      "mean_token_accuracy": 0.7913862306577221,
      "step": 455
    },
    {
      "epoch": 1.3522012578616351,
      "grad_norm": 0.49250712990760803,
      "learning_rate": 1.3403957987995884e-05,
      "loss": 0.68,
      "mean_token_accuracy": 0.7894371521316413,
      "step": 456
    },
    {
      "epoch": 1.3551609322974474,
      "grad_norm": 0.46765249967575073,
      "learning_rate": 1.3371440651804313e-05,
      "loss": 0.7066,
      "mean_token_accuracy": 0.7817244510128959,
      "step": 457
    },
    {
      "epoch": 1.3581206067332594,
      "grad_norm": 0.46519362926483154,
      "learning_rate": 1.3338883045108674e-05,
      "loss": 0.6852,
      "mean_token_accuracy": 0.7875893561938507,
      "step": 458
    },
    {
      "epoch": 1.3610802811690714,
      "grad_norm": 0.5211879014968872,
      "learning_rate": 1.3306285556796494e-05,
      "loss": 0.6873,
      "mean_token_accuracy": 0.7886326578047633,
      "step": 459
    },
    {
      "epoch": 1.3640399556048834,
      "grad_norm": 0.4436584413051605,
      "learning_rate": 1.327364857623168e-05,
      "loss": 0.7006,
      "mean_token_accuracy": 0.7844141672519914,
      "step": 460
    },
    {
      "epoch": 1.3669996300406955,
      "grad_norm": 0.49897250533103943,
      "learning_rate": 1.3240972493249846e-05,
      "loss": 0.6907,
      "mean_token_accuracy": 0.7872768784393989,
      "step": 461
    },
    {
      "epoch": 1.3699593044765077,
      "grad_norm": 0.44192755222320557,
      "learning_rate": 1.3208257698153677e-05,
      "loss": 0.7179,
      "mean_token_accuracy": 0.7772223223597873,
      "step": 462
    },
    {
      "epoch": 1.3729189789123195,
      "grad_norm": 0.48224934935569763,
      "learning_rate": 1.3175504581708261e-05,
      "loss": 0.6884,
      "mean_token_accuracy": 0.7876441851387866,
      "step": 463
    },
    {
      "epoch": 1.3758786533481318,
      "grad_norm": 0.44167572259902954,
      "learning_rate": 1.3142713535136413e-05,
      "loss": 0.6964,
      "mean_token_accuracy": 0.7840998538649302,
      "step": 464
    },
    {
      "epoch": 1.3788383277839438,
      "grad_norm": 0.5188360214233398,
      "learning_rate": 1.3109884950114007e-05,
      "loss": 0.6979,
      "mean_token_accuracy": 0.7830517429111471,
      "step": 465
    },
    {
      "epoch": 1.3817980022197558,
      "grad_norm": 0.4949224293231964,
      "learning_rate": 1.3077019218765306e-05,
      "loss": 0.6686,
      "mean_token_accuracy": 0.7925575804293147,
      "step": 466
    },
    {
      "epoch": 1.3847576766555678,
      "grad_norm": 0.4614505171775818,
      "learning_rate": 1.3044116733658261e-05,
      "loss": 0.6745,
      "mean_token_accuracy": 0.7904813977673216,
      "step": 467
    },
    {
      "epoch": 1.3877173510913798,
      "grad_norm": 0.47585147619247437,
      "learning_rate": 1.3011177887799846e-05,
      "loss": 0.6596,
      "mean_token_accuracy": 0.7969142283708234,
      "step": 468
    },
    {
      "epoch": 1.390677025527192,
      "grad_norm": 0.4733677804470062,
      "learning_rate": 1.2978203074631335e-05,
      "loss": 0.6837,
      "mean_token_accuracy": 0.7885936546719822,
      "step": 469
    },
    {
      "epoch": 1.393636699963004,
      "grad_norm": 0.47128206491470337,
      "learning_rate": 1.2945192688023625e-05,
      "loss": 0.7228,
      "mean_token_accuracy": 0.777582654281462,
      "step": 470
    },
    {
      "epoch": 1.3965963743988161,
      "grad_norm": 0.5573126077651978,
      "learning_rate": 1.2912147122272523e-05,
      "loss": 0.692,
      "mean_token_accuracy": 0.7851007004118511,
      "step": 471
    },
    {
      "epoch": 1.3995560488346281,
      "grad_norm": 0.5249556303024292,
      "learning_rate": 1.287906677209403e-05,
      "loss": 0.666,
      "mean_token_accuracy": 0.7935855307222649,
      "step": 472
    },
    {
      "epoch": 1.4025157232704402,
      "grad_norm": 0.5098072290420532,
      "learning_rate": 1.2845952032619651e-05,
      "loss": 0.7169,
      "mean_token_accuracy": 0.78048614348136,
      "step": 473
    },
    {
      "epoch": 1.4054753977062524,
      "grad_norm": 0.5147253274917603,
      "learning_rate": 1.2812803299391629e-05,
      "loss": 0.7285,
      "mean_token_accuracy": 0.775834970458234,
      "step": 474
    },
    {
      "epoch": 1.4084350721420644,
      "grad_norm": 0.529493510723114,
      "learning_rate": 1.2779620968358276e-05,
      "loss": 0.6582,
      "mean_token_accuracy": 0.7956748329946638,
      "step": 475
    },
    {
      "epoch": 1.4113947465778764,
      "grad_norm": 0.5070955753326416,
      "learning_rate": 1.2746405435869198e-05,
      "loss": 0.6674,
      "mean_token_accuracy": 0.7915634181103908,
      "step": 476
    },
    {
      "epoch": 1.4143544210136885,
      "grad_norm": 0.5139186978340149,
      "learning_rate": 1.271315709867059e-05,
      "loss": 0.7037,
      "mean_token_accuracy": 0.7825460416635028,
      "step": 477
    },
    {
      "epoch": 1.4173140954495005,
      "grad_norm": 0.5307909250259399,
      "learning_rate": 1.2679876353900482e-05,
      "loss": 0.7082,
      "mean_token_accuracy": 0.7814352090483259,
      "step": 478
    },
    {
      "epoch": 1.4202737698853127,
      "grad_norm": 0.4850543737411499,
      "learning_rate": 1.2646563599083997e-05,
      "loss": 0.724,
      "mean_token_accuracy": 0.7763536423746681,
      "step": 479
    },
    {
      "epoch": 1.4232334443211248,
      "grad_norm": 0.5001718997955322,
      "learning_rate": 1.2613219232128608e-05,
      "loss": 0.6629,
      "mean_token_accuracy": 0.7942459104666942,
      "step": 480
    },
    {
      "epoch": 1.4261931187569368,
      "grad_norm": 0.5056073069572449,
      "learning_rate": 1.2579843651319382e-05,
      "loss": 0.7331,
      "mean_token_accuracy": 0.7724445151223609,
      "step": 481
    },
    {
      "epoch": 1.4291527931927488,
      "grad_norm": 0.5267237424850464,
      "learning_rate": 1.2546437255314223e-05,
      "loss": 0.6659,
      "mean_token_accuracy": 0.7943264511441203,
      "step": 482
    },
    {
      "epoch": 1.4321124676285608,
      "grad_norm": 0.4923066794872284,
      "learning_rate": 1.2513000443139112e-05,
      "loss": 0.693,
      "mean_token_accuracy": 0.7847285183122921,
      "step": 483
    },
    {
      "epoch": 1.435072142064373,
      "grad_norm": 0.4452427327632904,
      "learning_rate": 1.2479533614183334e-05,
      "loss": 0.6783,
      "mean_token_accuracy": 0.790767397651227,
      "step": 484
    },
    {
      "epoch": 1.4380318165001849,
      "grad_norm": 0.4807162582874298,
      "learning_rate": 1.2446037168194716e-05,
      "loss": 0.6951,
      "mean_token_accuracy": 0.7842417519133703,
      "step": 485
    },
    {
      "epoch": 1.440991490935997,
      "grad_norm": 0.4858757257461548,
      "learning_rate": 1.2412511505274845e-05,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7962518182176112,
      "step": 486
    },
    {
      "epoch": 1.4439511653718091,
      "grad_norm": 0.4663830101490021,
      "learning_rate": 1.23789570258743e-05,
      "loss": 0.6951,
      "mean_token_accuracy": 0.7839527031401198,
      "step": 487
    },
    {
      "epoch": 1.4469108398076211,
      "grad_norm": 0.4759344160556793,
      "learning_rate": 1.2345374130787855e-05,
      "loss": 0.6925,
      "mean_token_accuracy": 0.7861855601757001,
      "step": 488
    },
    {
      "epoch": 1.4498705142434332,
      "grad_norm": 0.44426658749580383,
      "learning_rate": 1.23117632211497e-05,
      "loss": 0.6561,
      "mean_token_accuracy": 0.7964251152169285,
      "step": 489
    },
    {
      "epoch": 1.4528301886792452,
      "grad_norm": 0.4644084870815277,
      "learning_rate": 1.2278124698428643e-05,
      "loss": 0.6848,
      "mean_token_accuracy": 0.7871725512533235,
      "step": 490
    },
    {
      "epoch": 1.4557898631150574,
      "grad_norm": 0.43534740805625916,
      "learning_rate": 1.2244458964423328e-05,
      "loss": 0.6952,
      "mean_token_accuracy": 0.7838933476240588,
      "step": 491
    },
    {
      "epoch": 1.4587495375508694,
      "grad_norm": 0.4578785300254822,
      "learning_rate": 1.221076642125742e-05,
      "loss": 0.6912,
      "mean_token_accuracy": 0.7867050710099383,
      "step": 492
    },
    {
      "epoch": 1.4617092119866815,
      "grad_norm": 0.46426481008529663,
      "learning_rate": 1.2177047471374808e-05,
      "loss": 0.6679,
      "mean_token_accuracy": 0.793821778161506,
      "step": 493
    },
    {
      "epoch": 1.4646688864224935,
      "grad_norm": 0.4668942391872406,
      "learning_rate": 1.214330251753481e-05,
      "loss": 0.6788,
      "mean_token_accuracy": 0.7911113494359255,
      "step": 494
    },
    {
      "epoch": 1.4676285608583055,
      "grad_norm": 0.4524623155593872,
      "learning_rate": 1.2109531962807333e-05,
      "loss": 0.657,
      "mean_token_accuracy": 0.7968866396266425,
      "step": 495
    },
    {
      "epoch": 1.4705882352941178,
      "grad_norm": 0.4540092945098877,
      "learning_rate": 1.207573621056809e-05,
      "loss": 0.6779,
      "mean_token_accuracy": 0.79133374474269,
      "step": 496
    },
    {
      "epoch": 1.4735479097299298,
      "grad_norm": 0.4721427857875824,
      "learning_rate": 1.2041915664493763e-05,
      "loss": 0.7114,
      "mean_token_accuracy": 0.7811596412077128,
      "step": 497
    },
    {
      "epoch": 1.4765075841657418,
      "grad_norm": 0.45745474100112915,
      "learning_rate": 1.2008070728557186e-05,
      "loss": 0.6946,
      "mean_token_accuracy": 0.7835979713892247,
      "step": 498
    },
    {
      "epoch": 1.4794672586015538,
      "grad_norm": 0.45184969902038574,
      "learning_rate": 1.1974201807022525e-05,
      "loss": 0.6594,
      "mean_token_accuracy": 0.7954918143409643,
      "step": 499
    },
    {
      "epoch": 1.4824269330373658,
      "grad_norm": 0.43299737572669983,
      "learning_rate": 1.1940309304440434e-05,
      "loss": 0.655,
      "mean_token_accuracy": 0.7961995893943149,
      "step": 500
    },
    {
      "epoch": 1.4824269330373658,
      "eval_loss": 0.7452248930931091,
      "eval_mean_token_accuracy": 0.7696687843740262,
      "eval_runtime": 24.4738,
      "eval_samples_per_second": 5.271,
      "eval_steps_per_second": 1.348,
      "step": 500
    },
    {
      "epoch": 1.485386607473178,
      "grad_norm": 0.4329541325569153,
      "learning_rate": 1.1906393625643244e-05,
      "loss": 0.6908,
      "mean_token_accuracy": 0.787461052002391,
      "step": 501
    },
    {
      "epoch": 1.4883462819089899,
      "grad_norm": 0.44818833470344543,
      "learning_rate": 1.1872455175740111e-05,
      "loss": 0.7038,
      "mean_token_accuracy": 0.7827824467497245,
      "step": 502
    },
    {
      "epoch": 1.4913059563448021,
      "grad_norm": 0.4627722501754761,
      "learning_rate": 1.1838494360112185e-05,
      "loss": 0.6831,
      "mean_token_accuracy": 0.7892276650561758,
      "step": 503
    },
    {
      "epoch": 1.4942656307806141,
      "grad_norm": 0.43506646156311035,
      "learning_rate": 1.1804511584407763e-05,
      "loss": 0.6469,
      "mean_token_accuracy": 0.7984073599583249,
      "step": 504
    },
    {
      "epoch": 1.4972253052164262,
      "grad_norm": 0.4514705538749695,
      "learning_rate": 1.1770507254537454e-05,
      "loss": 0.6567,
      "mean_token_accuracy": 0.797555451493693,
      "step": 505
    },
    {
      "epoch": 1.5001849796522384,
      "grad_norm": 0.4718611538410187,
      "learning_rate": 1.1736481776669307e-05,
      "loss": 0.6666,
      "mean_token_accuracy": 0.7937825386926253,
      "step": 506
    },
    {
      "epoch": 1.5031446540880502,
      "grad_norm": 0.4598422646522522,
      "learning_rate": 1.1702435557223988e-05,
      "loss": 0.7341,
      "mean_token_accuracy": 0.7725688345230695,
      "step": 507
    },
    {
      "epoch": 1.5061043285238624,
      "grad_norm": 0.4759341776371002,
      "learning_rate": 1.1668369002869912e-05,
      "loss": 0.696,
      "mean_token_accuracy": 0.7833280751891905,
      "step": 508
    },
    {
      "epoch": 1.5090640029596745,
      "grad_norm": 0.4857986867427826,
      "learning_rate": 1.1634282520518382e-05,
      "loss": 0.6843,
      "mean_token_accuracy": 0.7878627921931918,
      "step": 509
    },
    {
      "epoch": 1.5120236773954865,
      "grad_norm": 0.4445328414440155,
      "learning_rate": 1.1600176517318742e-05,
      "loss": 0.7016,
      "mean_token_accuracy": 0.7835290374274105,
      "step": 510
    },
    {
      "epoch": 1.5149833518312985,
      "grad_norm": 0.4201406240463257,
      "learning_rate": 1.1566051400653486e-05,
      "loss": 0.6892,
      "mean_token_accuracy": 0.7880382009320334,
      "step": 511
    },
    {
      "epoch": 1.5179430262671105,
      "grad_norm": 0.4451057016849518,
      "learning_rate": 1.153190757813343e-05,
      "loss": 0.6661,
      "mean_token_accuracy": 0.7936041312626415,
      "step": 512
    },
    {
      "epoch": 1.5209027007029228,
      "grad_norm": 0.45407670736312866,
      "learning_rate": 1.1497745457592817e-05,
      "loss": 0.6938,
      "mean_token_accuracy": 0.7862274252159144,
      "step": 513
    },
    {
      "epoch": 1.5238623751387348,
      "grad_norm": 0.48065322637557983,
      "learning_rate": 1.1463565447084446e-05,
      "loss": 0.6711,
      "mean_token_accuracy": 0.7922199519518627,
      "step": 514
    },
    {
      "epoch": 1.5268220495745468,
      "grad_norm": 0.4554750323295593,
      "learning_rate": 1.142936795487482e-05,
      "loss": 0.7031,
      "mean_token_accuracy": 0.7841927897620309,
      "step": 515
    },
    {
      "epoch": 1.5297817240103588,
      "grad_norm": 0.47003987431526184,
      "learning_rate": 1.1395153389439232e-05,
      "loss": 0.6801,
      "mean_token_accuracy": 0.7887132537245702,
      "step": 516
    },
    {
      "epoch": 1.5327413984461709,
      "grad_norm": 0.49194058775901794,
      "learning_rate": 1.1360922159456929e-05,
      "loss": 0.6516,
      "mean_token_accuracy": 0.7972093170337653,
      "step": 517
    },
    {
      "epoch": 1.535701072881983,
      "grad_norm": 0.4363403618335724,
      "learning_rate": 1.1326674673806195e-05,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7994255155742641,
      "step": 518
    },
    {
      "epoch": 1.538660747317795,
      "grad_norm": 0.4633619487285614,
      "learning_rate": 1.129241134155949e-05,
      "loss": 0.7226,
      "mean_token_accuracy": 0.7772127285568272,
      "step": 519
    },
    {
      "epoch": 1.5416204217536071,
      "grad_norm": 0.505766749382019,
      "learning_rate": 1.1258132571978555e-05,
      "loss": 0.6866,
      "mean_token_accuracy": 0.7866910068023953,
      "step": 520
    },
    {
      "epoch": 1.5445800961894192,
      "grad_norm": 0.4622265696525574,
      "learning_rate": 1.1223838774509515e-05,
      "loss": 0.6794,
      "mean_token_accuracy": 0.7894488197184882,
      "step": 521
    },
    {
      "epoch": 1.5475397706252312,
      "grad_norm": 0.46530911326408386,
      "learning_rate": 1.1189530358778005e-05,
      "loss": 0.6714,
      "mean_token_accuracy": 0.7917336528774738,
      "step": 522
    },
    {
      "epoch": 1.5504994450610434,
      "grad_norm": 0.48770585656166077,
      "learning_rate": 1.1155207734584264e-05,
      "loss": 0.655,
      "mean_token_accuracy": 0.7967736177779107,
      "step": 523
    },
    {
      "epoch": 1.5534591194968552,
      "grad_norm": 0.4736506938934326,
      "learning_rate": 1.1120871311898254e-05,
      "loss": 0.6626,
      "mean_token_accuracy": 0.7948987812297952,
      "step": 524
    },
    {
      "epoch": 1.5564187939326675,
      "grad_norm": 0.4388614594936371,
      "learning_rate": 1.1086521500854746e-05,
      "loss": 0.6743,
      "mean_token_accuracy": 0.7901189868530583,
      "step": 525
    },
    {
      "epoch": 1.5593784683684795,
      "grad_norm": 0.42465701699256897,
      "learning_rate": 1.1052158711748435e-05,
      "loss": 0.6424,
      "mean_token_accuracy": 0.8002322656672612,
      "step": 526
    },
    {
      "epoch": 1.5623381428042915,
      "grad_norm": 0.444394052028656,
      "learning_rate": 1.1017783355029027e-05,
      "loss": 0.6968,
      "mean_token_accuracy": 0.7853953263510778,
      "step": 527
    },
    {
      "epoch": 1.5652978172401038,
      "grad_norm": 0.4599439799785614,
      "learning_rate": 1.0983395841296349e-05,
      "loss": 0.7023,
      "mean_token_accuracy": 0.783582448885906,
      "step": 528
    },
    {
      "epoch": 1.5682574916759155,
      "grad_norm": 0.4538317918777466,
      "learning_rate": 1.0948996581295437e-05,
      "loss": 0.6708,
      "mean_token_accuracy": 0.7920199562156756,
      "step": 529
    },
    {
      "epoch": 1.5712171661117278,
      "grad_norm": 0.5204719305038452,
      "learning_rate": 1.0914585985911632e-05,
      "loss": 0.7194,
      "mean_token_accuracy": 0.7800594247957305,
      "step": 530
    },
    {
      "epoch": 1.5741768405475398,
      "grad_norm": 0.4342687129974365,
      "learning_rate": 1.0880164466165675e-05,
      "loss": 0.6803,
      "mean_token_accuracy": 0.7888814345475649,
      "step": 531
    },
    {
      "epoch": 1.5771365149833518,
      "grad_norm": 0.47061675786972046,
      "learning_rate": 1.084573243320878e-05,
      "loss": 0.6997,
      "mean_token_accuracy": 0.7845215145727062,
      "step": 532
    },
    {
      "epoch": 1.5800961894191639,
      "grad_norm": 0.48753833770751953,
      "learning_rate": 1.0811290298317755e-05,
      "loss": 0.6963,
      "mean_token_accuracy": 0.7853895351084046,
      "step": 533
    },
    {
      "epoch": 1.5830558638549759,
      "grad_norm": 0.4486468732357025,
      "learning_rate": 1.0776838472890065e-05,
      "loss": 0.6616,
      "mean_token_accuracy": 0.7946923291350155,
      "step": 534
    },
    {
      "epoch": 1.5860155382907881,
      "grad_norm": 0.46315282583236694,
      "learning_rate": 1.0742377368438915e-05,
      "loss": 0.6653,
      "mean_token_accuracy": 0.7937742045003314,
      "step": 535
    },
    {
      "epoch": 1.5889752127266,
      "grad_norm": 0.43467020988464355,
      "learning_rate": 1.0707907396588362e-05,
      "loss": 0.675,
      "mean_token_accuracy": 0.7911407237837417,
      "step": 536
    },
    {
      "epoch": 1.5919348871624122,
      "grad_norm": 0.47853776812553406,
      "learning_rate": 1.0673428969068365e-05,
      "loss": 0.6694,
      "mean_token_accuracy": 0.7934067804791232,
      "step": 537
    },
    {
      "epoch": 1.5948945615982242,
      "grad_norm": 0.4569770395755768,
      "learning_rate": 1.063894249770989e-05,
      "loss": 0.7149,
      "mean_token_accuracy": 0.7789215590955586,
      "step": 538
    },
    {
      "epoch": 1.5978542360340362,
      "grad_norm": 0.48249223828315735,
      "learning_rate": 1.0604448394439983e-05,
      "loss": 0.6881,
      "mean_token_accuracy": 0.7885556262821241,
      "step": 539
    },
    {
      "epoch": 1.6008139104698484,
      "grad_norm": 0.44117307662963867,
      "learning_rate": 1.0569947071276847e-05,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7905948947059994,
      "step": 540
    },
    {
      "epoch": 1.6037735849056602,
      "grad_norm": 0.4791225492954254,
      "learning_rate": 1.053543894032493e-05,
      "loss": 0.6486,
      "mean_token_accuracy": 0.7984527785084713,
      "step": 541
    },
    {
      "epoch": 1.6067332593414725,
      "grad_norm": 0.4592903256416321,
      "learning_rate": 1.0500924413769988e-05,
      "loss": 0.7029,
      "mean_token_accuracy": 0.7816764343124575,
      "step": 542
    },
    {
      "epoch": 1.6096929337772845,
      "grad_norm": 0.4603089988231659,
      "learning_rate": 1.0466403903874176e-05,
      "loss": 0.6692,
      "mean_token_accuracy": 0.7920168861161754,
      "step": 543
    },
    {
      "epoch": 1.6126526082130965,
      "grad_norm": 0.4877552092075348,
      "learning_rate": 1.0431877822971118e-05,
      "loss": 0.7264,
      "mean_token_accuracy": 0.7763762310950634,
      "step": 544
    },
    {
      "epoch": 1.6156122826489088,
      "grad_norm": 0.4495700001716614,
      "learning_rate": 1.0397346583460972e-05,
      "loss": 0.6748,
      "mean_token_accuracy": 0.790038916470125,
      "step": 545
    },
    {
      "epoch": 1.6185719570847206,
      "grad_norm": 0.4363431930541992,
      "learning_rate": 1.0362810597805526e-05,
      "loss": 0.7176,
      "mean_token_accuracy": 0.7804455873720191,
      "step": 546
    },
    {
      "epoch": 1.6215316315205328,
      "grad_norm": 0.4593956470489502,
      "learning_rate": 1.0328270278523256e-05,
      "loss": 0.692,
      "mean_token_accuracy": 0.7868243000254014,
      "step": 547
    },
    {
      "epoch": 1.6244913059563448,
      "grad_norm": 0.4650803506374359,
      "learning_rate": 1.0293726038184393e-05,
      "loss": 0.6667,
      "mean_token_accuracy": 0.7932379645110449,
      "step": 548
    },
    {
      "epoch": 1.6274509803921569,
      "grad_norm": 0.4343462288379669,
      "learning_rate": 1.0259178289406011e-05,
      "loss": 0.6828,
      "mean_token_accuracy": 0.7873501273107357,
      "step": 549
    },
    {
      "epoch": 1.6304106548279689,
      "grad_norm": 0.485445499420166,
      "learning_rate": 1.022462744484709e-05,
      "loss": 0.6757,
      "mean_token_accuracy": 0.790149107536362,
      "step": 550
    },
    {
      "epoch": 1.633370329263781,
      "grad_norm": 0.4408370852470398,
      "learning_rate": 1.019007391720359e-05,
      "loss": 0.6423,
      "mean_token_accuracy": 0.8007969798780114,
      "step": 551
    },
    {
      "epoch": 1.6363300036995931,
      "grad_norm": 0.48014140129089355,
      "learning_rate": 1.0155518119203511e-05,
      "loss": 0.6485,
      "mean_token_accuracy": 0.798990145407414,
      "step": 552
    },
    {
      "epoch": 1.6392896781354052,
      "grad_norm": 0.43950581550598145,
      "learning_rate": 1.0120960463601977e-05,
      "loss": 0.6884,
      "mean_token_accuracy": 0.7868133995463237,
      "step": 553
    },
    {
      "epoch": 1.6422493525712172,
      "grad_norm": 0.4777732789516449,
      "learning_rate": 1.0086401363176306e-05,
      "loss": 0.7016,
      "mean_token_accuracy": 0.7829182684226537,
      "step": 554
    },
    {
      "epoch": 1.6452090270070292,
      "grad_norm": 0.4738129675388336,
      "learning_rate": 1.0051841230721065e-05,
      "loss": 0.7025,
      "mean_token_accuracy": 0.7833107058164892,
      "step": 555
    },
    {
      "epoch": 1.6481687014428412,
      "grad_norm": 0.49576374888420105,
      "learning_rate": 1.0017280479043148e-05,
      "loss": 0.6832,
      "mean_token_accuracy": 0.7878164823186655,
      "step": 556
    },
    {
      "epoch": 1.6511283758786535,
      "grad_norm": 0.4482108950614929,
      "learning_rate": 9.982719520956856e-06,
      "loss": 0.6935,
      "mean_token_accuracy": 0.7859008840989987,
      "step": 557
    },
    {
      "epoch": 1.6540880503144653,
      "grad_norm": 0.4530676603317261,
      "learning_rate": 9.948158769278939e-06,
      "loss": 0.6496,
      "mean_token_accuracy": 0.7975575400059007,
      "step": 558
    },
    {
      "epoch": 1.6570477247502775,
      "grad_norm": 0.4506595730781555,
      "learning_rate": 9.913598636823694e-06,
      "loss": 0.6711,
      "mean_token_accuracy": 0.7920525949216152,
      "step": 559
    },
    {
      "epoch": 1.6600073991860895,
      "grad_norm": 0.492118775844574,
      "learning_rate": 9.879039536398023e-06,
      "loss": 0.6663,
      "mean_token_accuracy": 0.7926239117866946,
      "step": 560
    },
    {
      "epoch": 1.6629670736219015,
      "grad_norm": 0.4334714114665985,
      "learning_rate": 9.844481880796492e-06,
      "loss": 0.6685,
      "mean_token_accuracy": 0.7934195520197277,
      "step": 561
    },
    {
      "epoch": 1.6659267480577138,
      "grad_norm": 0.43926241993904114,
      "learning_rate": 9.809926082796415e-06,
      "loss": 0.668,
      "mean_token_accuracy": 0.7921636930110467,
      "step": 562
    },
    {
      "epoch": 1.6688864224935256,
      "grad_norm": 0.46381375193595886,
      "learning_rate": 9.775372555152912e-06,
      "loss": 0.7106,
      "mean_token_accuracy": 0.7814721603110977,
      "step": 563
    },
    {
      "epoch": 1.6718460969293378,
      "grad_norm": 0.4584568738937378,
      "learning_rate": 9.740821710593989e-06,
      "loss": 0.6723,
      "mean_token_accuracy": 0.7927753026753256,
      "step": 564
    },
    {
      "epoch": 1.6748057713651499,
      "grad_norm": 0.46233710646629333,
      "learning_rate": 9.70627396181561e-06,
      "loss": 0.6979,
      "mean_token_accuracy": 0.7847842845307743,
      "step": 565
    },
    {
      "epoch": 1.6777654458009619,
      "grad_norm": 0.4692407548427582,
      "learning_rate": 9.671729721476747e-06,
      "loss": 0.6779,
      "mean_token_accuracy": 0.7904914247805244,
      "step": 566
    },
    {
      "epoch": 1.6807251202367741,
      "grad_norm": 0.45148906111717224,
      "learning_rate": 9.637189402194477e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.794561469534099,
      "step": 567
    },
    {
      "epoch": 1.683684794672586,
      "grad_norm": 0.4668971002101898,
      "learning_rate": 9.602653416539031e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.7957992597890263,
      "step": 568
    },
    {
      "epoch": 1.6866444691083982,
      "grad_norm": 0.4657999575138092,
      "learning_rate": 9.568122177028884e-06,
      "loss": 0.6793,
      "mean_token_accuracy": 0.7895593260251141,
      "step": 569
    },
    {
      "epoch": 1.6896041435442102,
      "grad_norm": 0.45058828592300415,
      "learning_rate": 9.533596096125826e-06,
      "loss": 0.6982,
      "mean_token_accuracy": 0.7837857085184711,
      "step": 570
    },
    {
      "epoch": 1.6925638179800222,
      "grad_norm": 0.5159661769866943,
      "learning_rate": 9.499075586230014e-06,
      "loss": 0.7278,
      "mean_token_accuracy": 0.7758815945577252,
      "step": 571
    },
    {
      "epoch": 1.6955234924158342,
      "grad_norm": 0.4985567629337311,
      "learning_rate": 9.464561059675073e-06,
      "loss": 0.6815,
      "mean_token_accuracy": 0.789947097130735,
      "step": 572
    },
    {
      "epoch": 1.6984831668516462,
      "grad_norm": 0.4985766112804413,
      "learning_rate": 9.430052928723153e-06,
      "loss": 0.6689,
      "mean_token_accuracy": 0.7914537628745669,
      "step": 573
    },
    {
      "epoch": 1.7014428412874585,
      "grad_norm": 0.44924196600914,
      "learning_rate": 9.395551605560018e-06,
      "loss": 0.654,
      "mean_token_accuracy": 0.7949039622131476,
      "step": 574
    },
    {
      "epoch": 1.7044025157232703,
      "grad_norm": 0.4486066997051239,
      "learning_rate": 9.361057502290112e-06,
      "loss": 0.6689,
      "mean_token_accuracy": 0.7932129938757272,
      "step": 575
    },
    {
      "epoch": 1.7073621901590825,
      "grad_norm": 0.5298429131507874,
      "learning_rate": 9.326571030931636e-06,
      "loss": 0.6797,
      "mean_token_accuracy": 0.7899495064143103,
      "step": 576
    },
    {
      "epoch": 1.7103218645948945,
      "grad_norm": 0.4834374189376831,
      "learning_rate": 9.292092603411642e-06,
      "loss": 0.6856,
      "mean_token_accuracy": 0.7874172906006217,
      "step": 577
    },
    {
      "epoch": 1.7132815390307066,
      "grad_norm": 0.4545672833919525,
      "learning_rate": 9.257622631561085e-06,
      "loss": 0.6793,
      "mean_token_accuracy": 0.7896850742245419,
      "step": 578
    },
    {
      "epoch": 1.7162412134665188,
      "grad_norm": 0.49482157826423645,
      "learning_rate": 9.223161527109938e-06,
      "loss": 0.7249,
      "mean_token_accuracy": 0.7754079872839525,
      "step": 579
    },
    {
      "epoch": 1.7192008879023306,
      "grad_norm": 0.47407853603363037,
      "learning_rate": 9.188709701682246e-06,
      "loss": 0.6793,
      "mean_token_accuracy": 0.7890331281672109,
      "step": 580
    },
    {
      "epoch": 1.7221605623381429,
      "grad_norm": 0.496600478887558,
      "learning_rate": 9.154267566791224e-06,
      "loss": 0.6745,
      "mean_token_accuracy": 0.7916224036955456,
      "step": 581
    },
    {
      "epoch": 1.7251202367739549,
      "grad_norm": 0.447837233543396,
      "learning_rate": 9.119835533834332e-06,
      "loss": 0.6443,
      "mean_token_accuracy": 0.8001154358817507,
      "step": 582
    },
    {
      "epoch": 1.728079911209767,
      "grad_norm": 0.4290511906147003,
      "learning_rate": 9.085414014088368e-06,
      "loss": 0.7033,
      "mean_token_accuracy": 0.7838360657347012,
      "step": 583
    },
    {
      "epoch": 1.7310395856455791,
      "grad_norm": 0.4949333369731903,
      "learning_rate": 9.051003418704566e-06,
      "loss": 0.6797,
      "mean_token_accuracy": 0.7891070494649397,
      "step": 584
    },
    {
      "epoch": 1.733999260081391,
      "grad_norm": 0.47587254643440247,
      "learning_rate": 9.016604158703654e-06,
      "loss": 0.6047,
      "mean_token_accuracy": 0.8115938183485798,
      "step": 585
    },
    {
      "epoch": 1.7369589345172032,
      "grad_norm": 0.4586060643196106,
      "learning_rate": 8.982216644970978e-06,
      "loss": 0.7073,
      "mean_token_accuracy": 0.7814491686139491,
      "step": 586
    },
    {
      "epoch": 1.7399186089530152,
      "grad_norm": 0.4535180628299713,
      "learning_rate": 8.947841288251568e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7899806831449463,
      "step": 587
    },
    {
      "epoch": 1.7428782833888272,
      "grad_norm": 0.4698368012905121,
      "learning_rate": 8.913478499145255e-06,
      "loss": 0.6992,
      "mean_token_accuracy": 0.7847534234645677,
      "step": 588
    },
    {
      "epoch": 1.7458379578246392,
      "grad_norm": 0.4965501129627228,
      "learning_rate": 8.879128688101749e-06,
      "loss": 0.73,
      "mean_token_accuracy": 0.7749135427241792,
      "step": 589
    },
    {
      "epoch": 1.7487976322604513,
      "grad_norm": 0.42426785826683044,
      "learning_rate": 8.844792265415738e-06,
      "loss": 0.6691,
      "mean_token_accuracy": 0.7934521695906798,
      "step": 590
    },
    {
      "epoch": 1.7517573066962635,
      "grad_norm": 0.4164229929447174,
      "learning_rate": 8.810469641222001e-06,
      "loss": 0.6792,
      "mean_token_accuracy": 0.7893430794759394,
      "step": 591
    },
    {
      "epoch": 1.7547169811320755,
      "grad_norm": 0.4406238794326782,
      "learning_rate": 8.776161225490488e-06,
      "loss": 0.6774,
      "mean_token_accuracy": 0.7888743256018739,
      "step": 592
    },
    {
      "epoch": 1.7576766555678875,
      "grad_norm": 0.4821741282939911,
      "learning_rate": 8.741867428021447e-06,
      "loss": 0.7028,
      "mean_token_accuracy": 0.782003973548151,
      "step": 593
    },
    {
      "epoch": 1.7606363300036996,
      "grad_norm": 0.41678085923194885,
      "learning_rate": 8.707588658440511e-06,
      "loss": 0.6673,
      "mean_token_accuracy": 0.792060705641046,
      "step": 594
    },
    {
      "epoch": 1.7635960044395116,
      "grad_norm": 0.4335281252861023,
      "learning_rate": 8.673325326193806e-06,
      "loss": 0.6799,
      "mean_token_accuracy": 0.7913004243427386,
      "step": 595
    },
    {
      "epoch": 1.7665556788753238,
      "grad_norm": 0.46854230761528015,
      "learning_rate": 8.639077840543078e-06,
      "loss": 0.6939,
      "mean_token_accuracy": 0.784777034055922,
      "step": 596
    },
    {
      "epoch": 1.7695153533111356,
      "grad_norm": 0.4286266267299652,
      "learning_rate": 8.604846610560771e-06,
      "loss": 0.682,
      "mean_token_accuracy": 0.7879420465198175,
      "step": 597
    },
    {
      "epoch": 1.7724750277469479,
      "grad_norm": 0.4346145689487457,
      "learning_rate": 8.570632045125185e-06,
      "loss": 0.6722,
      "mean_token_accuracy": 0.7908459643173444,
      "step": 598
    },
    {
      "epoch": 1.77543470218276,
      "grad_norm": 0.47212105989456177,
      "learning_rate": 8.536434552915555e-06,
      "loss": 0.6758,
      "mean_token_accuracy": 0.7914862427903648,
      "step": 599
    },
    {
      "epoch": 1.778394376618572,
      "grad_norm": 0.45980679988861084,
      "learning_rate": 8.502254542407186e-06,
      "loss": 0.6988,
      "mean_token_accuracy": 0.7817833351753944,
      "step": 600
    },
    {
      "epoch": 1.778394376618572,
      "eval_loss": 0.739486575126648,
      "eval_mean_token_accuracy": 0.7714524950010826,
      "eval_runtime": 24.4731,
      "eval_samples_per_second": 5.271,
      "eval_steps_per_second": 1.348,
      "step": 600
    },
    {
      "epoch": 1.7813540510543842,
      "grad_norm": 0.4924312233924866,
      "learning_rate": 8.468092421866575e-06,
      "loss": 0.6954,
      "mean_token_accuracy": 0.7859722749641744,
      "step": 601
    },
    {
      "epoch": 1.784313725490196,
      "grad_norm": 0.4518575966358185,
      "learning_rate": 8.433948599346516e-06,
      "loss": 0.6719,
      "mean_token_accuracy": 0.7915203880270405,
      "step": 602
    },
    {
      "epoch": 1.7872733999260082,
      "grad_norm": 0.41159677505493164,
      "learning_rate": 8.399823482681263e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.7925289623050378,
      "step": 603
    },
    {
      "epoch": 1.7902330743618202,
      "grad_norm": 0.4749601483345032,
      "learning_rate": 8.36571747948162e-06,
      "loss": 0.651,
      "mean_token_accuracy": 0.7971818401347246,
      "step": 604
    },
    {
      "epoch": 1.7931927487976322,
      "grad_norm": 0.4616299271583557,
      "learning_rate": 8.331630997130091e-06,
      "loss": 0.6387,
      "mean_token_accuracy": 0.801418446439762,
      "step": 605
    },
    {
      "epoch": 1.7961524232334445,
      "grad_norm": 0.4717465341091156,
      "learning_rate": 8.297564442776014e-06,
      "loss": 0.7002,
      "mean_token_accuracy": 0.7815816907542203,
      "step": 606
    },
    {
      "epoch": 1.7991120976692563,
      "grad_norm": 0.45160382986068726,
      "learning_rate": 8.263518223330698e-06,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7934779098419342,
      "step": 607
    },
    {
      "epoch": 1.8020717721050685,
      "grad_norm": 0.5111809372901917,
      "learning_rate": 8.229492745462551e-06,
      "loss": 0.6734,
      "mean_token_accuracy": 0.7910897600390507,
      "step": 608
    },
    {
      "epoch": 1.8050314465408805,
      "grad_norm": 0.4546574652194977,
      "learning_rate": 8.195488415592238e-06,
      "loss": 0.6832,
      "mean_token_accuracy": 0.7884104161267849,
      "step": 609
    },
    {
      "epoch": 1.8079911209766926,
      "grad_norm": 0.48915475606918335,
      "learning_rate": 8.161505639887818e-06,
      "loss": 0.6865,
      "mean_token_accuracy": 0.7868375134510748,
      "step": 610
    },
    {
      "epoch": 1.8109507954125046,
      "grad_norm": 0.45673686265945435,
      "learning_rate": 8.12754482425989e-06,
      "loss": 0.6531,
      "mean_token_accuracy": 0.7978940928567595,
      "step": 611
    },
    {
      "epoch": 1.8139104698483166,
      "grad_norm": 0.46595895290374756,
      "learning_rate": 8.09360637435676e-06,
      "loss": 0.6763,
      "mean_token_accuracy": 0.7900004127541489,
      "step": 612
    },
    {
      "epoch": 1.8168701442841289,
      "grad_norm": 0.4639073312282562,
      "learning_rate": 8.05969069555957e-06,
      "loss": 0.7068,
      "mean_token_accuracy": 0.7818326911340046,
      "step": 613
    },
    {
      "epoch": 1.8198298187199407,
      "grad_norm": 0.48692357540130615,
      "learning_rate": 8.025798192977482e-06,
      "loss": 0.6724,
      "mean_token_accuracy": 0.7902419271935022,
      "step": 614
    },
    {
      "epoch": 1.822789493155753,
      "grad_norm": 0.4192976653575897,
      "learning_rate": 7.991929271442817e-06,
      "loss": 0.694,
      "mean_token_accuracy": 0.7842421058017395,
      "step": 615
    },
    {
      "epoch": 1.825749167591565,
      "grad_norm": 0.4323351979255676,
      "learning_rate": 7.958084335506239e-06,
      "loss": 0.6633,
      "mean_token_accuracy": 0.7939339540476142,
      "step": 616
    },
    {
      "epoch": 1.828708842027377,
      "grad_norm": 0.5116434097290039,
      "learning_rate": 7.924263789431913e-06,
      "loss": 0.7177,
      "mean_token_accuracy": 0.7774093907152634,
      "step": 617
    },
    {
      "epoch": 1.8316685164631892,
      "grad_norm": 0.47101178765296936,
      "learning_rate": 7.89046803719267e-06,
      "loss": 0.6311,
      "mean_token_accuracy": 0.8026902561156782,
      "step": 618
    },
    {
      "epoch": 1.834628190899001,
      "grad_norm": 0.4334461987018585,
      "learning_rate": 7.856697482465195e-06,
      "loss": 0.7056,
      "mean_token_accuracy": 0.7813049117276861,
      "step": 619
    },
    {
      "epoch": 1.8375878653348132,
      "grad_norm": 0.44044068455696106,
      "learning_rate": 7.822952528625192e-06,
      "loss": 0.6706,
      "mean_token_accuracy": 0.7911052218155908,
      "step": 620
    },
    {
      "epoch": 1.8405475397706252,
      "grad_norm": 0.43130719661712646,
      "learning_rate": 7.789233578742583e-06,
      "loss": 0.6868,
      "mean_token_accuracy": 0.7883987501012448,
      "step": 621
    },
    {
      "epoch": 1.8435072142064373,
      "grad_norm": 0.464912086725235,
      "learning_rate": 7.755541035576677e-06,
      "loss": 0.6966,
      "mean_token_accuracy": 0.784260520058606,
      "step": 622
    },
    {
      "epoch": 1.8464668886422495,
      "grad_norm": 0.47342586517333984,
      "learning_rate": 7.721875301571359e-06,
      "loss": 0.6862,
      "mean_token_accuracy": 0.7896494653236235,
      "step": 623
    },
    {
      "epoch": 1.8494265630780613,
      "grad_norm": 0.4514820873737335,
      "learning_rate": 7.688236778850307e-06,
      "loss": 0.6702,
      "mean_token_accuracy": 0.7906542847766748,
      "step": 624
    },
    {
      "epoch": 1.8523862375138735,
      "grad_norm": 0.4382912218570709,
      "learning_rate": 7.654625869212147e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.7971948655223885,
      "step": 625
    },
    {
      "epoch": 1.8553459119496856,
      "grad_norm": 0.4642338156700134,
      "learning_rate": 7.621042974125701e-06,
      "loss": 0.7042,
      "mean_token_accuracy": 0.7810776086801536,
      "step": 626
    },
    {
      "epoch": 1.8583055863854976,
      "grad_norm": 0.43844854831695557,
      "learning_rate": 7.587488494725157e-06,
      "loss": 0.7134,
      "mean_token_accuracy": 0.7782961208172144,
      "step": 627
    },
    {
      "epoch": 1.8612652608213096,
      "grad_norm": 0.44983789324760437,
      "learning_rate": 7.553962831805291e-06,
      "loss": 0.6928,
      "mean_token_accuracy": 0.7847411304512161,
      "step": 628
    },
    {
      "epoch": 1.8642249352571216,
      "grad_norm": 0.464546799659729,
      "learning_rate": 7.520466385816672e-06,
      "loss": 0.6848,
      "mean_token_accuracy": 0.7877457152823937,
      "step": 629
    },
    {
      "epoch": 1.8671846096929339,
      "grad_norm": 0.4500563442707062,
      "learning_rate": 7.48699955686089e-06,
      "loss": 0.7043,
      "mean_token_accuracy": 0.7810525873603867,
      "step": 630
    },
    {
      "epoch": 1.870144284128746,
      "grad_norm": 0.4776234030723572,
      "learning_rate": 7.453562744685779e-06,
      "loss": 0.6491,
      "mean_token_accuracy": 0.7980624835148542,
      "step": 631
    },
    {
      "epoch": 1.873103958564558,
      "grad_norm": 0.42935752868652344,
      "learning_rate": 7.420156348680621e-06,
      "loss": 0.7015,
      "mean_token_accuracy": 0.7841032229720888,
      "step": 632
    },
    {
      "epoch": 1.87606363300037,
      "grad_norm": 0.45095863938331604,
      "learning_rate": 7.3867807678713965e-06,
      "loss": 0.6695,
      "mean_token_accuracy": 0.792214351462561,
      "step": 633
    },
    {
      "epoch": 1.879023307436182,
      "grad_norm": 0.4426802694797516,
      "learning_rate": 7.353436400916006e-06,
      "loss": 0.7231,
      "mean_token_accuracy": 0.7759461148659138,
      "step": 634
    },
    {
      "epoch": 1.8819829818719942,
      "grad_norm": 0.4576883316040039,
      "learning_rate": 7.32012364609952e-06,
      "loss": 0.6891,
      "mean_token_accuracy": 0.787467563016268,
      "step": 635
    },
    {
      "epoch": 1.884942656307806,
      "grad_norm": 0.47537630796432495,
      "learning_rate": 7.286842901329413e-06,
      "loss": 0.6737,
      "mean_token_accuracy": 0.7898305381622779,
      "step": 636
    },
    {
      "epoch": 1.8879023307436182,
      "grad_norm": 0.47071340680122375,
      "learning_rate": 7.253594564130804e-06,
      "loss": 0.6314,
      "mean_token_accuracy": 0.8024436031530167,
      "step": 637
    },
    {
      "epoch": 1.8908620051794303,
      "grad_norm": 0.42745083570480347,
      "learning_rate": 7.22037903164173e-06,
      "loss": 0.6648,
      "mean_token_accuracy": 0.7939708774130151,
      "step": 638
    },
    {
      "epoch": 1.8938216796152423,
      "grad_norm": 0.45386022329330444,
      "learning_rate": 7.187196700608373e-06,
      "loss": 0.7055,
      "mean_token_accuracy": 0.7818898164861657,
      "step": 639
    },
    {
      "epoch": 1.8967813540510545,
      "grad_norm": 0.5082824230194092,
      "learning_rate": 7.154047967380353e-06,
      "loss": 0.6797,
      "mean_token_accuracy": 0.7885593754013774,
      "step": 640
    },
    {
      "epoch": 1.8997410284868663,
      "grad_norm": 0.42250484228134155,
      "learning_rate": 7.120933227905971e-06,
      "loss": 0.6822,
      "mean_token_accuracy": 0.7885130074722346,
      "step": 641
    },
    {
      "epoch": 1.9027007029226786,
      "grad_norm": 0.45145198702812195,
      "learning_rate": 7.0878528777274814e-06,
      "loss": 0.7101,
      "mean_token_accuracy": 0.7797410127092863,
      "step": 642
    },
    {
      "epoch": 1.9056603773584906,
      "grad_norm": 0.4663936495780945,
      "learning_rate": 7.05480731197638e-06,
      "loss": 0.6638,
      "mean_token_accuracy": 0.7952863824537968,
      "step": 643
    },
    {
      "epoch": 1.9086200517943026,
      "grad_norm": 0.4832487106323242,
      "learning_rate": 7.021796925368667e-06,
      "loss": 0.6901,
      "mean_token_accuracy": 0.7859927796689913,
      "step": 644
    },
    {
      "epoch": 1.9115797262301149,
      "grad_norm": 0.4796106219291687,
      "learning_rate": 6.988822112200157e-06,
      "loss": 0.699,
      "mean_token_accuracy": 0.7833292076466405,
      "step": 645
    },
    {
      "epoch": 1.9145394006659266,
      "grad_norm": 0.4601701498031616,
      "learning_rate": 6.955883266341741e-06,
      "loss": 0.6911,
      "mean_token_accuracy": 0.7855269916498042,
      "step": 646
    },
    {
      "epoch": 1.917499075101739,
      "grad_norm": 0.4631184935569763,
      "learning_rate": 6.9229807812346985e-06,
      "loss": 0.6938,
      "mean_token_accuracy": 0.7854820719902068,
      "step": 647
    },
    {
      "epoch": 1.920458749537551,
      "grad_norm": 0.46688076853752136,
      "learning_rate": 6.890115049885995e-06,
      "loss": 0.6873,
      "mean_token_accuracy": 0.7866998790722634,
      "step": 648
    },
    {
      "epoch": 1.923418423973363,
      "grad_norm": 0.4536078870296478,
      "learning_rate": 6.85728646486359e-06,
      "loss": 0.6795,
      "mean_token_accuracy": 0.7877265813082034,
      "step": 649
    },
    {
      "epoch": 1.926378098409175,
      "grad_norm": 0.4446280896663666,
      "learning_rate": 6.824495418291741e-06,
      "loss": 0.6618,
      "mean_token_accuracy": 0.793360405089406,
      "step": 650
    },
    {
      "epoch": 1.929337772844987,
      "grad_norm": 0.4624863564968109,
      "learning_rate": 6.791742301846325e-06,
      "loss": 0.6943,
      "mean_token_accuracy": 0.7851390097369664,
      "step": 651
    },
    {
      "epoch": 1.9322974472807992,
      "grad_norm": 0.46851369738578796,
      "learning_rate": 6.759027506750159e-06,
      "loss": 0.6973,
      "mean_token_accuracy": 0.7825239711607613,
      "step": 652
    },
    {
      "epoch": 1.935257121716611,
      "grad_norm": 0.45422789454460144,
      "learning_rate": 6.726351423768323e-06,
      "loss": 0.7049,
      "mean_token_accuracy": 0.7834841114161091,
      "step": 653
    },
    {
      "epoch": 1.9382167961524233,
      "grad_norm": 0.4513411521911621,
      "learning_rate": 6.693714443203507e-06,
      "loss": 0.674,
      "mean_token_accuracy": 0.7905625791946234,
      "step": 654
    },
    {
      "epoch": 1.9411764705882353,
      "grad_norm": 0.44000759720802307,
      "learning_rate": 6.661116954891329e-06,
      "loss": 0.6889,
      "mean_token_accuracy": 0.7876442391621598,
      "step": 655
    },
    {
      "epoch": 1.9441361450240473,
      "grad_norm": 0.4787219166755676,
      "learning_rate": 6.62855934819569e-06,
      "loss": 0.7072,
      "mean_token_accuracy": 0.779945015719257,
      "step": 656
    },
    {
      "epoch": 1.9470958194598595,
      "grad_norm": 0.42401981353759766,
      "learning_rate": 6.59604201200412e-06,
      "loss": 0.6773,
      "mean_token_accuracy": 0.7896623125899848,
      "step": 657
    },
    {
      "epoch": 1.9500554938956713,
      "grad_norm": 0.5051243305206299,
      "learning_rate": 6.563565334723134e-06,
      "loss": 0.6973,
      "mean_token_accuracy": 0.7849915232879509,
      "step": 658
    },
    {
      "epoch": 1.9530151683314836,
      "grad_norm": 0.4501940608024597,
      "learning_rate": 6.5311297042736046e-06,
      "loss": 0.7169,
      "mean_token_accuracy": 0.7793906916939676,
      "step": 659
    },
    {
      "epoch": 1.9559748427672956,
      "grad_norm": 0.4441750645637512,
      "learning_rate": 6.498735508086094e-06,
      "loss": 0.6299,
      "mean_token_accuracy": 0.80293781287729,
      "step": 660
    },
    {
      "epoch": 1.9589345172031076,
      "grad_norm": 0.4581814706325531,
      "learning_rate": 6.466383133096268e-06,
      "loss": 0.696,
      "mean_token_accuracy": 0.7832016518779903,
      "step": 661
    },
    {
      "epoch": 1.9618941916389199,
      "grad_norm": 0.4844694137573242,
      "learning_rate": 6.4340729657402424e-06,
      "loss": 0.6553,
      "mean_token_accuracy": 0.79566224863039,
      "step": 662
    },
    {
      "epoch": 1.9648538660747317,
      "grad_norm": 0.47741377353668213,
      "learning_rate": 6.40180539194999e-06,
      "loss": 0.7005,
      "mean_token_accuracy": 0.7834191013265248,
      "step": 663
    },
    {
      "epoch": 1.967813540510544,
      "grad_norm": 0.4623546600341797,
      "learning_rate": 6.3695807971487175e-06,
      "loss": 0.6739,
      "mean_token_accuracy": 0.7908099908248746,
      "step": 664
    },
    {
      "epoch": 1.970773214946356,
      "grad_norm": 0.44196298718452454,
      "learning_rate": 6.337399566246257e-06,
      "loss": 0.6887,
      "mean_token_accuracy": 0.7867410372609397,
      "step": 665
    },
    {
      "epoch": 1.973732889382168,
      "grad_norm": 0.44744858145713806,
      "learning_rate": 6.305262083634488e-06,
      "loss": 0.6947,
      "mean_token_accuracy": 0.7849319629950706,
      "step": 666
    },
    {
      "epoch": 1.97669256381798,
      "grad_norm": 0.48888614773750305,
      "learning_rate": 6.2731687331827214e-06,
      "loss": 0.6935,
      "mean_token_accuracy": 0.7852305896900613,
      "step": 667
    },
    {
      "epoch": 1.979652238253792,
      "grad_norm": 0.548868715763092,
      "learning_rate": 6.2411198982331435e-06,
      "loss": 0.6583,
      "mean_token_accuracy": 0.7950044402077763,
      "step": 668
    },
    {
      "epoch": 1.9826119126896042,
      "grad_norm": 0.44247865676879883,
      "learning_rate": 6.209115961596208e-06,
      "loss": 0.6963,
      "mean_token_accuracy": 0.7844457961563795,
      "step": 669
    },
    {
      "epoch": 1.9855715871254163,
      "grad_norm": 0.4636320471763611,
      "learning_rate": 6.177157305546077e-06,
      "loss": 0.6912,
      "mean_token_accuracy": 0.7862634185033074,
      "step": 670
    },
    {
      "epoch": 1.9885312615612283,
      "grad_norm": 0.4413374066352844,
      "learning_rate": 6.145244311816063e-06,
      "loss": 0.6814,
      "mean_token_accuracy": 0.787695055467721,
      "step": 671
    },
    {
      "epoch": 1.9914909359970403,
      "grad_norm": 0.45312613248825073,
      "learning_rate": 6.113377361594048e-06,
      "loss": 0.6754,
      "mean_token_accuracy": 0.7900683076107496,
      "step": 672
    },
    {
      "epoch": 1.9944506104328523,
      "grad_norm": 0.4501809775829315,
      "learning_rate": 6.081556835517955e-06,
      "loss": 0.6822,
      "mean_token_accuracy": 0.788871206473793,
      "step": 673
    },
    {
      "epoch": 1.9974102848686646,
      "grad_norm": 0.45863819122314453,
      "learning_rate": 6.049783113671184e-06,
      "loss": 0.6751,
      "mean_token_accuracy": 0.7895972815620605,
      "step": 674
    },
    {
      "epoch": 2.0029596744358122,
      "grad_norm": 0.7237296104431152,
      "learning_rate": 6.018056575578075e-06,
      "loss": 1.3777,
      "mean_token_accuracy": 0.7904976583626417,
      "step": 675
    },
    {
      "epoch": 2.005919348871624,
      "grad_norm": 0.4619278311729431,
      "learning_rate": 5.986377600199371e-06,
      "loss": 0.6827,
      "mean_token_accuracy": 0.7859173509620443,
      "step": 676
    },
    {
      "epoch": 2.0088790233074363,
      "grad_norm": 0.4588172435760498,
      "learning_rate": 5.9547465659277215e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7935102380543758,
      "step": 677
    },
    {
      "epoch": 2.011838697743248,
      "grad_norm": 0.4326033890247345,
      "learning_rate": 5.923163850583114e-06,
      "loss": 0.6169,
      "mean_token_accuracy": 0.8052656884361966,
      "step": 678
    },
    {
      "epoch": 2.0147983721790603,
      "grad_norm": 0.4270947277545929,
      "learning_rate": 5.891629831408392e-06,
      "loss": 0.6675,
      "mean_token_accuracy": 0.7923289976402469,
      "step": 679
    },
    {
      "epoch": 2.0177580466148726,
      "grad_norm": 0.42200711369514465,
      "learning_rate": 5.8601448850647515e-06,
      "loss": 0.7139,
      "mean_token_accuracy": 0.7767213966992985,
      "step": 680
    },
    {
      "epoch": 2.0207177210506844,
      "grad_norm": 0.4401227831840515,
      "learning_rate": 5.828709387627219e-06,
      "loss": 0.6296,
      "mean_token_accuracy": 0.8034322271999133,
      "step": 681
    },
    {
      "epoch": 2.0236773954864966,
      "grad_norm": 0.4614053964614868,
      "learning_rate": 5.797323714580192e-06,
      "loss": 0.6402,
      "mean_token_accuracy": 0.7988319450662181,
      "step": 682
    },
    {
      "epoch": 2.0266370699223084,
      "grad_norm": 0.4590739905834198,
      "learning_rate": 5.7659882408129204e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.79529094328691,
      "step": 683
    },
    {
      "epoch": 2.0295967443581207,
      "grad_norm": 0.4543253481388092,
      "learning_rate": 5.7347033406150494e-06,
      "loss": 0.6733,
      "mean_token_accuracy": 0.7890264127897217,
      "step": 684
    },
    {
      "epoch": 2.0325564187939325,
      "grad_norm": 0.4582739770412445,
      "learning_rate": 5.703469387672138e-06,
      "loss": 0.6056,
      "mean_token_accuracy": 0.8107667655932651,
      "step": 685
    },
    {
      "epoch": 2.0355160932297447,
      "grad_norm": 0.42348945140838623,
      "learning_rate": 5.672286755061212e-06,
      "loss": 0.6377,
      "mean_token_accuracy": 0.799343160525926,
      "step": 686
    },
    {
      "epoch": 2.038475767665557,
      "grad_norm": 0.4367158114910126,
      "learning_rate": 5.64115581524629e-06,
      "loss": 0.6456,
      "mean_token_accuracy": 0.7978098111032584,
      "step": 687
    },
    {
      "epoch": 2.0414354421013687,
      "grad_norm": 0.4166472852230072,
      "learning_rate": 5.610076940073939e-06,
      "loss": 0.64,
      "mean_token_accuracy": 0.7996033627487545,
      "step": 688
    },
    {
      "epoch": 2.044395116537181,
      "grad_norm": 0.4349493980407715,
      "learning_rate": 5.579050500768837e-06,
      "loss": 0.6247,
      "mean_token_accuracy": 0.8040890019359421,
      "step": 689
    },
    {
      "epoch": 2.0473547909729928,
      "grad_norm": 0.43666020035743713,
      "learning_rate": 5.548076867929331e-06,
      "loss": 0.6499,
      "mean_token_accuracy": 0.7959618095761632,
      "step": 690
    },
    {
      "epoch": 2.050314465408805,
      "grad_norm": 0.4168229401111603,
      "learning_rate": 5.517156411523026e-06,
      "loss": 0.6207,
      "mean_token_accuracy": 0.8063047096858116,
      "step": 691
    },
    {
      "epoch": 2.0532741398446173,
      "grad_norm": 0.4426259398460388,
      "learning_rate": 5.486289500882355e-06,
      "loss": 0.6437,
      "mean_token_accuracy": 0.7976666538912617,
      "step": 692
    },
    {
      "epoch": 2.056233814280429,
      "grad_norm": 0.47709882259368896,
      "learning_rate": 5.455476504700161e-06,
      "loss": 0.6354,
      "mean_token_accuracy": 0.8001667386857992,
      "step": 693
    },
    {
      "epoch": 2.0591934887162413,
      "grad_norm": 0.4387308359146118,
      "learning_rate": 5.424717791025302e-06,
      "loss": 0.6093,
      "mean_token_accuracy": 0.8074188099768709,
      "step": 694
    },
    {
      "epoch": 2.062153163152053,
      "grad_norm": 0.42804378271102905,
      "learning_rate": 5.3940137272582534e-06,
      "loss": 0.6621,
      "mean_token_accuracy": 0.7942881189608123,
      "step": 695
    },
    {
      "epoch": 2.0651128375878653,
      "grad_norm": 0.4197988510131836,
      "learning_rate": 5.3633646801467255e-06,
      "loss": 0.6272,
      "mean_token_accuracy": 0.8035603820307122,
      "step": 696
    },
    {
      "epoch": 2.0680725120236776,
      "grad_norm": 0.4130113422870636,
      "learning_rate": 5.332771015781275e-06,
      "loss": 0.6318,
      "mean_token_accuracy": 0.8026469316916442,
      "step": 697
    },
    {
      "epoch": 2.0710321864594894,
      "grad_norm": 0.4477401077747345,
      "learning_rate": 5.302233099590928e-06,
      "loss": 0.6202,
      "mean_token_accuracy": 0.8051835840765896,
      "step": 698
    },
    {
      "epoch": 2.0739918608953016,
      "grad_norm": 0.4212632477283478,
      "learning_rate": 5.271751296338823e-06,
      "loss": 0.6454,
      "mean_token_accuracy": 0.7975187090662971,
      "step": 699
    },
    {
      "epoch": 2.0769515353311134,
      "grad_norm": 0.43481898307800293,
      "learning_rate": 5.241325970117851e-06,
      "loss": 0.6298,
      "mean_token_accuracy": 0.8037347054797938,
      "step": 700
    },
    {
      "epoch": 2.0769515353311134,
      "eval_loss": 0.7401972413063049,
      "eval_mean_token_accuracy": 0.7715796790522826,
      "eval_runtime": 24.8345,
      "eval_samples_per_second": 5.194,
      "eval_steps_per_second": 1.329,
      "step": 700
    },
    {
      "epoch": 2.0799112097669257,
      "grad_norm": 0.42328760027885437,
      "learning_rate": 5.210957484346314e-06,
      "loss": 0.5797,
      "mean_token_accuracy": 0.8171162575964448,
      "step": 701
    },
    {
      "epoch": 2.0828708842027375,
      "grad_norm": 0.40636351704597473,
      "learning_rate": 5.1806462017635775e-06,
      "loss": 0.6444,
      "mean_token_accuracy": 0.7976044651105583,
      "step": 702
    },
    {
      "epoch": 2.0858305586385497,
      "grad_norm": 0.4619290232658386,
      "learning_rate": 5.150392484425728e-06,
      "loss": 0.6432,
      "mean_token_accuracy": 0.7998582873056539,
      "step": 703
    },
    {
      "epoch": 2.088790233074362,
      "grad_norm": 0.42781201004981995,
      "learning_rate": 5.120196693701267e-06,
      "loss": 0.6447,
      "mean_token_accuracy": 0.7980342866377519,
      "step": 704
    },
    {
      "epoch": 2.0917499075101738,
      "grad_norm": 0.435585081577301,
      "learning_rate": 5.090059190266779e-06,
      "loss": 0.6703,
      "mean_token_accuracy": 0.7898306031291672,
      "step": 705
    },
    {
      "epoch": 2.094709581945986,
      "grad_norm": 0.42848485708236694,
      "learning_rate": 5.059980334102637e-06,
      "loss": 0.6399,
      "mean_token_accuracy": 0.8012392387851905,
      "step": 706
    },
    {
      "epoch": 2.097669256381798,
      "grad_norm": 0.44752803444862366,
      "learning_rate": 5.0299604844886985e-06,
      "loss": 0.6444,
      "mean_token_accuracy": 0.7983052126079367,
      "step": 707
    },
    {
      "epoch": 2.10062893081761,
      "grad_norm": 0.41624656319618225,
      "learning_rate": 5.000000000000003e-06,
      "loss": 0.6564,
      "mean_token_accuracy": 0.7942197264250628,
      "step": 708
    },
    {
      "epoch": 2.1035886052534223,
      "grad_norm": 0.4133838415145874,
      "learning_rate": 4.970099238502494e-06,
      "loss": 0.6516,
      "mean_token_accuracy": 0.7961836172559192,
      "step": 709
    },
    {
      "epoch": 2.106548279689234,
      "grad_norm": 0.4188925325870514,
      "learning_rate": 4.940258557148765e-06,
      "loss": 0.6703,
      "mean_token_accuracy": 0.7904122765338784,
      "step": 710
    },
    {
      "epoch": 2.1095079541250463,
      "grad_norm": 0.4261308014392853,
      "learning_rate": 4.910478312373757e-06,
      "loss": 0.6172,
      "mean_token_accuracy": 0.8066983237111479,
      "step": 711
    },
    {
      "epoch": 2.112467628560858,
      "grad_norm": 0.40434494614601135,
      "learning_rate": 4.8807588598905364e-06,
      "loss": 0.6482,
      "mean_token_accuracy": 0.7977588880511752,
      "step": 712
    },
    {
      "epoch": 2.1154273029966704,
      "grad_norm": 0.4250684380531311,
      "learning_rate": 4.8511005546860214e-06,
      "loss": 0.6495,
      "mean_token_accuracy": 0.7967420913450249,
      "step": 713
    },
    {
      "epoch": 2.1183869774324826,
      "grad_norm": 0.4167192280292511,
      "learning_rate": 4.821503751016746e-06,
      "loss": 0.6226,
      "mean_token_accuracy": 0.8038675074568771,
      "step": 714
    },
    {
      "epoch": 2.1213466518682944,
      "grad_norm": 0.4020220637321472,
      "learning_rate": 4.791968802404648e-06,
      "loss": 0.639,
      "mean_token_accuracy": 0.8002841240121322,
      "step": 715
    },
    {
      "epoch": 2.1243063263041067,
      "grad_norm": 0.41898688673973083,
      "learning_rate": 4.762496061632814e-06,
      "loss": 0.5961,
      "mean_token_accuracy": 0.8106809432630374,
      "step": 716
    },
    {
      "epoch": 2.1272660007399185,
      "grad_norm": 0.4082755446434021,
      "learning_rate": 4.733085880741301e-06,
      "loss": 0.6836,
      "mean_token_accuracy": 0.7858357226121178,
      "step": 717
    },
    {
      "epoch": 2.1302256751757307,
      "grad_norm": 0.4276457130908966,
      "learning_rate": 4.703738611022899e-06,
      "loss": 0.6561,
      "mean_token_accuracy": 0.7956159537823245,
      "step": 718
    },
    {
      "epoch": 2.133185349611543,
      "grad_norm": 0.42158472537994385,
      "learning_rate": 4.674454603018949e-06,
      "loss": 0.6147,
      "mean_token_accuracy": 0.8079100447436781,
      "step": 719
    },
    {
      "epoch": 2.1361450240473547,
      "grad_norm": 0.4250597357749939,
      "learning_rate": 4.645234206515171e-06,
      "loss": 0.6386,
      "mean_token_accuracy": 0.8010068266815492,
      "step": 720
    },
    {
      "epoch": 2.139104698483167,
      "grad_norm": 0.4138052463531494,
      "learning_rate": 4.616077770537453e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.804220202437573,
      "step": 721
    },
    {
      "epoch": 2.1420643729189788,
      "grad_norm": 0.4031846523284912,
      "learning_rate": 4.586985643347716e-06,
      "loss": 0.6353,
      "mean_token_accuracy": 0.7999556744979773,
      "step": 722
    },
    {
      "epoch": 2.145024047354791,
      "grad_norm": 0.4207233190536499,
      "learning_rate": 4.557958172439726e-06,
      "loss": 0.6519,
      "mean_token_accuracy": 0.795605835154003,
      "step": 723
    },
    {
      "epoch": 2.1479837217906033,
      "grad_norm": 0.4172452390193939,
      "learning_rate": 4.5289957045349655e-06,
      "loss": 0.6214,
      "mean_token_accuracy": 0.8051871043336377,
      "step": 724
    },
    {
      "epoch": 2.150943396226415,
      "grad_norm": 0.4109727442264557,
      "learning_rate": 4.500098585578475e-06,
      "loss": 0.62,
      "mean_token_accuracy": 0.8044500506016459,
      "step": 725
    },
    {
      "epoch": 2.1539030706622273,
      "grad_norm": 0.4343760907649994,
      "learning_rate": 4.471267160734731e-06,
      "loss": 0.6539,
      "mean_token_accuracy": 0.7939436976287444,
      "step": 726
    },
    {
      "epoch": 2.156862745098039,
      "grad_norm": 0.4174571931362152,
      "learning_rate": 4.4425017743835155e-06,
      "loss": 0.6371,
      "mean_token_accuracy": 0.8005225952205913,
      "step": 727
    },
    {
      "epoch": 2.1598224195338513,
      "grad_norm": 0.38494619727134705,
      "learning_rate": 4.413802770115816e-06,
      "loss": 0.6524,
      "mean_token_accuracy": 0.7961488383409648,
      "step": 728
    },
    {
      "epoch": 2.162782093969663,
      "grad_norm": 0.41858088970184326,
      "learning_rate": 4.385170490729712e-06,
      "loss": 0.6421,
      "mean_token_accuracy": 0.7982196911670912,
      "step": 729
    },
    {
      "epoch": 2.1657417684054754,
      "grad_norm": 0.45224249362945557,
      "learning_rate": 4.356605278226274e-06,
      "loss": 0.6639,
      "mean_token_accuracy": 0.7918000336006263,
      "step": 730
    },
    {
      "epoch": 2.1687014428412876,
      "grad_norm": 0.43538355827331543,
      "learning_rate": 4.328107473805487e-06,
      "loss": 0.6383,
      "mean_token_accuracy": 0.800484981130683,
      "step": 731
    },
    {
      "epoch": 2.1716611172770994,
      "grad_norm": 0.3976902365684509,
      "learning_rate": 4.299677417862174e-06,
      "loss": 0.6556,
      "mean_token_accuracy": 0.7932561264782982,
      "step": 732
    },
    {
      "epoch": 2.1746207917129117,
      "grad_norm": 0.44118574261665344,
      "learning_rate": 4.2713154499819345e-06,
      "loss": 0.6636,
      "mean_token_accuracy": 0.7921884608817545,
      "step": 733
    },
    {
      "epoch": 2.1775804661487235,
      "grad_norm": 0.4160580635070801,
      "learning_rate": 4.243021908937083e-06,
      "loss": 0.6136,
      "mean_token_accuracy": 0.8078645092004564,
      "step": 734
    },
    {
      "epoch": 2.1805401405845357,
      "grad_norm": 0.4081907272338867,
      "learning_rate": 4.214797132682597e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8104744103732681,
      "step": 735
    },
    {
      "epoch": 2.183499815020348,
      "grad_norm": 0.4466439187526703,
      "learning_rate": 4.186641458352088e-06,
      "loss": 0.6713,
      "mean_token_accuracy": 0.7900975226524254,
      "step": 736
    },
    {
      "epoch": 2.1864594894561598,
      "grad_norm": 0.4527799189090729,
      "learning_rate": 4.158555222253772e-06,
      "loss": 0.6744,
      "mean_token_accuracy": 0.7901550404552812,
      "step": 737
    },
    {
      "epoch": 2.189419163891972,
      "grad_norm": 0.4166731536388397,
      "learning_rate": 4.130538759866457e-06,
      "loss": 0.6523,
      "mean_token_accuracy": 0.795872875107717,
      "step": 738
    },
    {
      "epoch": 2.192378838327784,
      "grad_norm": 0.4434090852737427,
      "learning_rate": 4.102592405835536e-06,
      "loss": 0.6366,
      "mean_token_accuracy": 0.8006169174890402,
      "step": 739
    },
    {
      "epoch": 2.195338512763596,
      "grad_norm": 0.4182213842868805,
      "learning_rate": 4.074716493968976e-06,
      "loss": 0.6193,
      "mean_token_accuracy": 0.8064642927723187,
      "step": 740
    },
    {
      "epoch": 2.1982981871994083,
      "grad_norm": 0.4401805102825165,
      "learning_rate": 4.046911357233343e-06,
      "loss": 0.5899,
      "mean_token_accuracy": 0.8129922266946384,
      "step": 741
    },
    {
      "epoch": 2.20125786163522,
      "grad_norm": 0.4129815697669983,
      "learning_rate": 4.019177327749822e-06,
      "loss": 0.6164,
      "mean_token_accuracy": 0.8067027474840832,
      "step": 742
    },
    {
      "epoch": 2.2042175360710323,
      "grad_norm": 0.414181649684906,
      "learning_rate": 3.991514736790259e-06,
      "loss": 0.6572,
      "mean_token_accuracy": 0.7943868846552696,
      "step": 743
    },
    {
      "epoch": 2.207177210506844,
      "grad_norm": 0.41192206740379333,
      "learning_rate": 3.9639239147731865e-06,
      "loss": 0.6105,
      "mean_token_accuracy": 0.8081474157714055,
      "step": 744
    },
    {
      "epoch": 2.2101368849426564,
      "grad_norm": 0.4337133765220642,
      "learning_rate": 3.936405191259891e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7979063248420304,
      "step": 745
    },
    {
      "epoch": 2.213096559378468,
      "grad_norm": 0.42786547541618347,
      "learning_rate": 3.908958894950465e-06,
      "loss": 0.6611,
      "mean_token_accuracy": 0.7936699913649292,
      "step": 746
    },
    {
      "epoch": 2.2160562338142804,
      "grad_norm": 0.45288723707199097,
      "learning_rate": 3.881585353679891e-06,
      "loss": 0.6648,
      "mean_token_accuracy": 0.7914008191748386,
      "step": 747
    },
    {
      "epoch": 2.2190159082500927,
      "grad_norm": 0.45666372776031494,
      "learning_rate": 3.854284894414122e-06,
      "loss": 0.6291,
      "mean_token_accuracy": 0.8025700241416271,
      "step": 748
    },
    {
      "epoch": 2.2219755826859044,
      "grad_norm": 0.41519424319267273,
      "learning_rate": 3.827057843246181e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.8051112931321951,
      "step": 749
    },
    {
      "epoch": 2.2249352571217167,
      "grad_norm": 0.42094844579696655,
      "learning_rate": 3.799904525392251e-06,
      "loss": 0.6083,
      "mean_token_accuracy": 0.8084426362380992,
      "step": 750
    },
    {
      "epoch": 2.2278949315575285,
      "grad_norm": 0.41918104887008667,
      "learning_rate": 3.7728252651878018e-06,
      "loss": 0.6584,
      "mean_token_accuracy": 0.7924028935909405,
      "step": 751
    },
    {
      "epoch": 2.2308546059933407,
      "grad_norm": 0.43053704500198364,
      "learning_rate": 3.745820386083724e-06,
      "loss": 0.6675,
      "mean_token_accuracy": 0.7899391245102569,
      "step": 752
    },
    {
      "epoch": 2.233814280429153,
      "grad_norm": 0.433442085981369,
      "learning_rate": 3.718890210642442e-06,
      "loss": 0.6606,
      "mean_token_accuracy": 0.7937032510168863,
      "step": 753
    },
    {
      "epoch": 2.2367739548649648,
      "grad_norm": 0.4508717358112335,
      "learning_rate": 3.6920350605340883e-06,
      "loss": 0.6266,
      "mean_token_accuracy": 0.8043645426941337,
      "step": 754
    },
    {
      "epoch": 2.239733629300777,
      "grad_norm": 0.4047711491584778,
      "learning_rate": 3.6652552565326382e-06,
      "loss": 0.6681,
      "mean_token_accuracy": 0.7906295543184187,
      "step": 755
    },
    {
      "epoch": 2.242693303736589,
      "grad_norm": 0.4291645586490631,
      "learning_rate": 3.638551118512089e-06,
      "loss": 0.6562,
      "mean_token_accuracy": 0.7943759677554681,
      "step": 756
    },
    {
      "epoch": 2.245652978172401,
      "grad_norm": 0.46543434262275696,
      "learning_rate": 3.611922965442648e-06,
      "loss": 0.6955,
      "mean_token_accuracy": 0.7842147288330679,
      "step": 757
    },
    {
      "epoch": 2.2486126526082133,
      "grad_norm": 0.44530779123306274,
      "learning_rate": 3.5853711153868962e-06,
      "loss": 0.6443,
      "mean_token_accuracy": 0.7977429200467334,
      "step": 758
    },
    {
      "epoch": 2.251572327044025,
      "grad_norm": 0.4391216039657593,
      "learning_rate": 3.558895885496023e-06,
      "loss": 0.6551,
      "mean_token_accuracy": 0.7939586840706503,
      "step": 759
    },
    {
      "epoch": 2.2545320014798373,
      "grad_norm": 0.42412394285202026,
      "learning_rate": 3.53249759200601e-06,
      "loss": 0.6217,
      "mean_token_accuracy": 0.8050196332982708,
      "step": 760
    },
    {
      "epoch": 2.257491675915649,
      "grad_norm": 0.42387112975120544,
      "learning_rate": 3.506176550233863e-06,
      "loss": 0.6572,
      "mean_token_accuracy": 0.794313531964468,
      "step": 761
    },
    {
      "epoch": 2.2604513503514614,
      "grad_norm": 0.434893399477005,
      "learning_rate": 3.479933074573858e-06,
      "loss": 0.6855,
      "mean_token_accuracy": 0.7879362757907509,
      "step": 762
    },
    {
      "epoch": 2.263411024787273,
      "grad_norm": 0.4247857928276062,
      "learning_rate": 3.453767478493761e-06,
      "loss": 0.644,
      "mean_token_accuracy": 0.7982682262279043,
      "step": 763
    },
    {
      "epoch": 2.2663706992230854,
      "grad_norm": 0.42670580744743347,
      "learning_rate": 3.4276800745311135e-06,
      "loss": 0.6195,
      "mean_token_accuracy": 0.8050541199962113,
      "step": 764
    },
    {
      "epoch": 2.2693303736588977,
      "grad_norm": 0.3888881504535675,
      "learning_rate": 3.401671174289469e-06,
      "loss": 0.6515,
      "mean_token_accuracy": 0.7958488753426484,
      "step": 765
    },
    {
      "epoch": 2.2722900480947095,
      "grad_norm": 0.41099730134010315,
      "learning_rate": 3.37574108843469e-06,
      "loss": 0.6781,
      "mean_token_accuracy": 0.7891008767600376,
      "step": 766
    },
    {
      "epoch": 2.2752497225305217,
      "grad_norm": 0.41824233531951904,
      "learning_rate": 3.3498901266912397e-06,
      "loss": 0.6085,
      "mean_token_accuracy": 0.8082267427244683,
      "step": 767
    },
    {
      "epoch": 2.2782093969663335,
      "grad_norm": 0.4144093692302704,
      "learning_rate": 3.3241185978384636e-06,
      "loss": 0.6699,
      "mean_token_accuracy": 0.7909267478796423,
      "step": 768
    },
    {
      "epoch": 2.2811690714021458,
      "grad_norm": 0.42413535714149475,
      "learning_rate": 3.2984268097069284e-06,
      "loss": 0.6339,
      "mean_token_accuracy": 0.801065864295844,
      "step": 769
    },
    {
      "epoch": 2.284128745837958,
      "grad_norm": 0.39951691031455994,
      "learning_rate": 3.2728150691747117e-06,
      "loss": 0.6411,
      "mean_token_accuracy": 0.7983959606160835,
      "step": 770
    },
    {
      "epoch": 2.28708842027377,
      "grad_norm": 0.41182059049606323,
      "learning_rate": 3.2472836821637744e-06,
      "loss": 0.6281,
      "mean_token_accuracy": 0.802523700960331,
      "step": 771
    },
    {
      "epoch": 2.290048094709582,
      "grad_norm": 0.4084027409553528,
      "learning_rate": 3.22183295363627e-06,
      "loss": 0.6265,
      "mean_token_accuracy": 0.802413599215893,
      "step": 772
    },
    {
      "epoch": 2.293007769145394,
      "grad_norm": 0.4154830574989319,
      "learning_rate": 3.196463187590929e-06,
      "loss": 0.649,
      "mean_token_accuracy": 0.796869447336104,
      "step": 773
    },
    {
      "epoch": 2.295967443581206,
      "grad_norm": 0.4043501019477844,
      "learning_rate": 3.1711746870594083e-06,
      "loss": 0.6287,
      "mean_token_accuracy": 0.8030152586126692,
      "step": 774
    },
    {
      "epoch": 2.2989271180170183,
      "grad_norm": 0.4156252443790436,
      "learning_rate": 3.145967754102691e-06,
      "loss": 0.6372,
      "mean_token_accuracy": 0.8003738520892887,
      "step": 775
    },
    {
      "epoch": 2.30188679245283,
      "grad_norm": 0.4200536012649536,
      "learning_rate": 3.1208426898074685e-06,
      "loss": 0.671,
      "mean_token_accuracy": 0.7902292574180307,
      "step": 776
    },
    {
      "epoch": 2.3048464668886424,
      "grad_norm": 0.41020068526268005,
      "learning_rate": 3.0957997942825337e-06,
      "loss": 0.6371,
      "mean_token_accuracy": 0.7996246095334629,
      "step": 777
    },
    {
      "epoch": 2.307806141324454,
      "grad_norm": 0.419129341840744,
      "learning_rate": 3.070839366655215e-06,
      "loss": 0.6468,
      "mean_token_accuracy": 0.7962623324512614,
      "step": 778
    },
    {
      "epoch": 2.3107658157602664,
      "grad_norm": 0.4240724444389343,
      "learning_rate": 3.045961705067787e-06,
      "loss": 0.659,
      "mean_token_accuracy": 0.7953217981209549,
      "step": 779
    },
    {
      "epoch": 2.313725490196078,
      "grad_norm": 0.4143866002559662,
      "learning_rate": 3.021167106673928e-06,
      "loss": 0.6424,
      "mean_token_accuracy": 0.7982811964276817,
      "step": 780
    },
    {
      "epoch": 2.3166851646318904,
      "grad_norm": 0.3981107175350189,
      "learning_rate": 2.996455867635155e-06,
      "loss": 0.6607,
      "mean_token_accuracy": 0.791508945971797,
      "step": 781
    },
    {
      "epoch": 2.3196448390677027,
      "grad_norm": 0.4162614345550537,
      "learning_rate": 2.9718282831172885e-06,
      "loss": 0.6504,
      "mean_token_accuracy": 0.7963113772717785,
      "step": 782
    },
    {
      "epoch": 2.3226045135035145,
      "grad_norm": 0.4027155637741089,
      "learning_rate": 2.94728464728693e-06,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8109574738019254,
      "step": 783
    },
    {
      "epoch": 2.3255641879393267,
      "grad_norm": 0.3899628520011902,
      "learning_rate": 2.922825253307947e-06,
      "loss": 0.6574,
      "mean_token_accuracy": 0.7928772726976023,
      "step": 784
    },
    {
      "epoch": 2.328523862375139,
      "grad_norm": 0.40858355164527893,
      "learning_rate": 2.898450393337977e-06,
      "loss": 0.6746,
      "mean_token_accuracy": 0.7888906732688429,
      "step": 785
    },
    {
      "epoch": 2.3314835368109508,
      "grad_norm": 0.41953524947166443,
      "learning_rate": 2.8741603585249312e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.7996593220237972,
      "step": 786
    },
    {
      "epoch": 2.334443211246763,
      "grad_norm": 0.4106321334838867,
      "learning_rate": 2.8499554390035144e-06,
      "loss": 0.6483,
      "mean_token_accuracy": 0.7961187957538525,
      "step": 787
    },
    {
      "epoch": 2.337402885682575,
      "grad_norm": 0.3997010886669159,
      "learning_rate": 2.8258359238917665e-06,
      "loss": 0.6245,
      "mean_token_accuracy": 0.8050718498453701,
      "step": 788
    },
    {
      "epoch": 2.340362560118387,
      "grad_norm": 0.409584105014801,
      "learning_rate": 2.8018021012875994e-06,
      "loss": 0.6017,
      "mean_token_accuracy": 0.8123756950624281,
      "step": 789
    },
    {
      "epoch": 2.343322234554199,
      "grad_norm": 0.40811508893966675,
      "learning_rate": 2.7778542582653746e-06,
      "loss": 0.6084,
      "mean_token_accuracy": 0.8097888468215142,
      "step": 790
    },
    {
      "epoch": 2.346281908990011,
      "grad_norm": 0.38959836959838867,
      "learning_rate": 2.753992680872457e-06,
      "loss": 0.6062,
      "mean_token_accuracy": 0.8108852376474688,
      "step": 791
    },
    {
      "epoch": 2.3492415834258233,
      "grad_norm": 0.3957045376300812,
      "learning_rate": 2.7302176541257984e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.8015920238869745,
      "step": 792
    },
    {
      "epoch": 2.352201257861635,
      "grad_norm": 0.40360507369041443,
      "learning_rate": 2.7065294620085425e-06,
      "loss": 0.648,
      "mean_token_accuracy": 0.7971657427741622,
      "step": 793
    },
    {
      "epoch": 2.3551609322974474,
      "grad_norm": 0.45460647344589233,
      "learning_rate": 2.6829283874666236e-06,
      "loss": 0.6445,
      "mean_token_accuracy": 0.7987224105203672,
      "step": 794
    },
    {
      "epoch": 2.358120606733259,
      "grad_norm": 0.39461758732795715,
      "learning_rate": 2.6594147124053983e-06,
      "loss": 0.6515,
      "mean_token_accuracy": 0.796149561930855,
      "step": 795
    },
    {
      "epoch": 2.3610802811690714,
      "grad_norm": 0.41954609751701355,
      "learning_rate": 2.635988717686272e-06,
      "loss": 0.6246,
      "mean_token_accuracy": 0.8032149733919829,
      "step": 796
    },
    {
      "epoch": 2.3640399556048832,
      "grad_norm": 0.40406131744384766,
      "learning_rate": 2.6126506831233343e-06,
      "loss": 0.6231,
      "mean_token_accuracy": 0.8041168200702946,
      "step": 797
    },
    {
      "epoch": 2.3669996300406955,
      "grad_norm": 0.3953285217285156,
      "learning_rate": 2.5894008874800323e-06,
      "loss": 0.6069,
      "mean_token_accuracy": 0.8095464392825367,
      "step": 798
    },
    {
      "epoch": 2.3699593044765077,
      "grad_norm": 0.39232245087623596,
      "learning_rate": 2.5662396084658383e-06,
      "loss": 0.6887,
      "mean_token_accuracy": 0.7847626079340336,
      "step": 799
    },
    {
      "epoch": 2.3729189789123195,
      "grad_norm": 0.4201255440711975,
      "learning_rate": 2.543167122732918e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.8017334424766583,
      "step": 800
    },
    {
      "epoch": 2.3729189789123195,
      "eval_loss": 0.7381730079650879,
      "eval_mean_token_accuracy": 0.7720131224354058,
      "eval_runtime": 24.485,
      "eval_samples_per_second": 5.269,
      "eval_steps_per_second": 1.348,
      "step": 800
    },
    {
      "epoch": 2.3758786533481318,
      "grad_norm": 0.41799813508987427,
      "learning_rate": 2.5201837058728506e-06,
      "loss": 0.6426,
      "mean_token_accuracy": 0.7981351114043707,
      "step": 801
    },
    {
      "epoch": 2.378838327783944,
      "grad_norm": 0.4000183939933777,
      "learning_rate": 2.4972896324133143e-06,
      "loss": 0.6408,
      "mean_token_accuracy": 0.8005246267043143,
      "step": 802
    },
    {
      "epoch": 2.381798002219756,
      "grad_norm": 0.3985981345176697,
      "learning_rate": 2.474485175814816e-06,
      "loss": 0.6419,
      "mean_token_accuracy": 0.8006590768326411,
      "step": 803
    },
    {
      "epoch": 2.384757676655568,
      "grad_norm": 0.39996403455734253,
      "learning_rate": 2.451770608467432e-06,
      "loss": 0.6556,
      "mean_token_accuracy": 0.7937097877818717,
      "step": 804
    },
    {
      "epoch": 2.38771735109138,
      "grad_norm": 0.40971750020980835,
      "learning_rate": 2.429146201687538e-06,
      "loss": 0.6544,
      "mean_token_accuracy": 0.7955813996484105,
      "step": 805
    },
    {
      "epoch": 2.390677025527192,
      "grad_norm": 0.4214819669723511,
      "learning_rate": 2.4066122257145898e-06,
      "loss": 0.6192,
      "mean_token_accuracy": 0.8044043910369116,
      "step": 806
    },
    {
      "epoch": 2.393636699963004,
      "grad_norm": 0.3935949206352234,
      "learning_rate": 2.3841689497078746e-06,
      "loss": 0.6616,
      "mean_token_accuracy": 0.7930927722183864,
      "step": 807
    },
    {
      "epoch": 2.396596374398816,
      "grad_norm": 0.4110560715198517,
      "learning_rate": 2.361816641743303e-06,
      "loss": 0.6589,
      "mean_token_accuracy": 0.7933747994521603,
      "step": 808
    },
    {
      "epoch": 2.3995560488346284,
      "grad_norm": 0.40695828199386597,
      "learning_rate": 2.339555568810221e-06,
      "loss": 0.6654,
      "mean_token_accuracy": 0.79236514420736,
      "step": 809
    },
    {
      "epoch": 2.40251572327044,
      "grad_norm": 0.4188994765281677,
      "learning_rate": 2.317385996808195e-06,
      "loss": 0.6401,
      "mean_token_accuracy": 0.7978658874862038,
      "step": 810
    },
    {
      "epoch": 2.4054753977062524,
      "grad_norm": 0.4050770699977875,
      "learning_rate": 2.295308190543859e-06,
      "loss": 0.6565,
      "mean_token_accuracy": 0.793120003753917,
      "step": 811
    },
    {
      "epoch": 2.408435072142064,
      "grad_norm": 0.4208693206310272,
      "learning_rate": 2.2733224137277366e-06,
      "loss": 0.6625,
      "mean_token_accuracy": 0.7924009490317484,
      "step": 812
    },
    {
      "epoch": 2.4113947465778764,
      "grad_norm": 0.41889867186546326,
      "learning_rate": 2.251428928971102e-06,
      "loss": 0.6421,
      "mean_token_accuracy": 0.7987856486295601,
      "step": 813
    },
    {
      "epoch": 2.4143544210136882,
      "grad_norm": 0.3941342532634735,
      "learning_rate": 2.229627997782834e-06,
      "loss": 0.6522,
      "mean_token_accuracy": 0.7969981541204149,
      "step": 814
    },
    {
      "epoch": 2.4173140954495005,
      "grad_norm": 0.4085904061794281,
      "learning_rate": 2.2079198805662917e-06,
      "loss": 0.636,
      "mean_token_accuracy": 0.8006980355838276,
      "step": 815
    },
    {
      "epoch": 2.4202737698853127,
      "grad_norm": 0.39825567603111267,
      "learning_rate": 2.186304836616221e-06,
      "loss": 0.6447,
      "mean_token_accuracy": 0.7977600103702366,
      "step": 816
    },
    {
      "epoch": 2.4232334443211245,
      "grad_norm": 0.40731707215309143,
      "learning_rate": 2.1647831241156304e-06,
      "loss": 0.6504,
      "mean_token_accuracy": 0.7959071538531968,
      "step": 817
    },
    {
      "epoch": 2.4261931187569368,
      "grad_norm": 0.406483918428421,
      "learning_rate": 2.1433550001327376e-06,
      "loss": 0.6639,
      "mean_token_accuracy": 0.7929632102578547,
      "step": 818
    },
    {
      "epoch": 2.429152793192749,
      "grad_norm": 0.40205124020576477,
      "learning_rate": 2.122020720617869e-06,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7925995018559459,
      "step": 819
    },
    {
      "epoch": 2.432112467628561,
      "grad_norm": 0.39821526408195496,
      "learning_rate": 2.1007805404004247e-06,
      "loss": 0.6125,
      "mean_token_accuracy": 0.8074528559405126,
      "step": 820
    },
    {
      "epoch": 2.435072142064373,
      "grad_norm": 0.41154807806015015,
      "learning_rate": 2.0796347131858187e-06,
      "loss": 0.5924,
      "mean_token_accuracy": 0.8134260585147182,
      "step": 821
    },
    {
      "epoch": 2.438031816500185,
      "grad_norm": 0.4058592617511749,
      "learning_rate": 2.058583491552465e-06,
      "loss": 0.6446,
      "mean_token_accuracy": 0.7976544788468782,
      "step": 822
    },
    {
      "epoch": 2.440991490935997,
      "grad_norm": 0.4115375280380249,
      "learning_rate": 2.037627126948751e-06,
      "loss": 0.6486,
      "mean_token_accuracy": 0.7961866171753605,
      "step": 823
    },
    {
      "epoch": 2.443951165371809,
      "grad_norm": 0.4094432592391968,
      "learning_rate": 2.0167658696900317e-06,
      "loss": 0.6498,
      "mean_token_accuracy": 0.7974890015343987,
      "step": 824
    },
    {
      "epoch": 2.446910839807621,
      "grad_norm": 0.4136302173137665,
      "learning_rate": 1.9959999689556407e-06,
      "loss": 0.6508,
      "mean_token_accuracy": 0.7969356095942468,
      "step": 825
    },
    {
      "epoch": 2.4498705142434334,
      "grad_norm": 0.3964935839176178,
      "learning_rate": 1.9753296727859195e-06,
      "loss": 0.6422,
      "mean_token_accuracy": 0.7975552703681513,
      "step": 826
    },
    {
      "epoch": 2.452830188679245,
      "grad_norm": 0.3923938572406769,
      "learning_rate": 1.9547552280792528e-06,
      "loss": 0.6644,
      "mean_token_accuracy": 0.7923696593805352,
      "step": 827
    },
    {
      "epoch": 2.4557898631150574,
      "grad_norm": 0.40744659304618835,
      "learning_rate": 1.9342768805891176e-06,
      "loss": 0.6185,
      "mean_token_accuracy": 0.805182835348635,
      "step": 828
    },
    {
      "epoch": 2.4587495375508692,
      "grad_norm": 0.3996569812297821,
      "learning_rate": 1.9138948749211473e-06,
      "loss": 0.6885,
      "mean_token_accuracy": 0.7846693968735795,
      "step": 829
    },
    {
      "epoch": 2.4617092119866815,
      "grad_norm": 0.41256505250930786,
      "learning_rate": 1.8936094545302098e-06,
      "loss": 0.633,
      "mean_token_accuracy": 0.80203945172239,
      "step": 830
    },
    {
      "epoch": 2.4646688864224937,
      "grad_norm": 0.40780341625213623,
      "learning_rate": 1.8734208617174986e-06,
      "loss": 0.6233,
      "mean_token_accuracy": 0.8031928870956203,
      "step": 831
    },
    {
      "epoch": 2.4676285608583055,
      "grad_norm": 0.40084558725357056,
      "learning_rate": 1.8533293376276473e-06,
      "loss": 0.6645,
      "mean_token_accuracy": 0.7910519113431395,
      "step": 832
    },
    {
      "epoch": 2.4705882352941178,
      "grad_norm": 0.39891085028648376,
      "learning_rate": 1.8333351222458407e-06,
      "loss": 0.6457,
      "mean_token_accuracy": 0.7975340656719943,
      "step": 833
    },
    {
      "epoch": 2.4735479097299296,
      "grad_norm": 0.39134928584098816,
      "learning_rate": 1.813438454394948e-06,
      "loss": 0.666,
      "mean_token_accuracy": 0.7898439445031347,
      "step": 834
    },
    {
      "epoch": 2.476507584165742,
      "grad_norm": 0.41572368144989014,
      "learning_rate": 1.7936395717326705e-06,
      "loss": 0.6414,
      "mean_token_accuracy": 0.7995425811392918,
      "step": 835
    },
    {
      "epoch": 2.479467258601554,
      "grad_norm": 0.40483906865119934,
      "learning_rate": 1.773938710748706e-06,
      "loss": 0.662,
      "mean_token_accuracy": 0.7923949344399477,
      "step": 836
    },
    {
      "epoch": 2.482426933037366,
      "grad_norm": 0.40634220838546753,
      "learning_rate": 1.7543361067619269e-06,
      "loss": 0.615,
      "mean_token_accuracy": 0.806526275556733,
      "step": 837
    },
    {
      "epoch": 2.485386607473178,
      "grad_norm": 0.4077673852443695,
      "learning_rate": 1.734831993917564e-06,
      "loss": 0.6328,
      "mean_token_accuracy": 0.802378745198797,
      "step": 838
    },
    {
      "epoch": 2.48834628190899,
      "grad_norm": 0.39237353205680847,
      "learning_rate": 1.715426605184407e-06,
      "loss": 0.6155,
      "mean_token_accuracy": 0.8060445709769514,
      "step": 839
    },
    {
      "epoch": 2.491305956344802,
      "grad_norm": 0.4081886112689972,
      "learning_rate": 1.6961201723520248e-06,
      "loss": 0.6144,
      "mean_token_accuracy": 0.8065054898817852,
      "step": 840
    },
    {
      "epoch": 2.494265630780614,
      "grad_norm": 0.4004494547843933,
      "learning_rate": 1.676912926028007e-06,
      "loss": 0.6055,
      "mean_token_accuracy": 0.809148562640221,
      "step": 841
    },
    {
      "epoch": 2.497225305216426,
      "grad_norm": 0.4009197950363159,
      "learning_rate": 1.6578050956351887e-06,
      "loss": 0.6238,
      "mean_token_accuracy": 0.8049418801942305,
      "step": 842
    },
    {
      "epoch": 2.5001849796522384,
      "grad_norm": 0.3991737365722656,
      "learning_rate": 1.6387969094089318e-06,
      "loss": 0.6176,
      "mean_token_accuracy": 0.8066388869046413,
      "step": 843
    },
    {
      "epoch": 2.50314465408805,
      "grad_norm": 0.4157380163669586,
      "learning_rate": 1.619888594394382e-06,
      "loss": 0.6469,
      "mean_token_accuracy": 0.7967652752528133,
      "step": 844
    },
    {
      "epoch": 2.5061043285238624,
      "grad_norm": 0.41072478890419006,
      "learning_rate": 1.6010803764437633e-06,
      "loss": 0.6285,
      "mean_token_accuracy": 0.8027356011802552,
      "step": 845
    },
    {
      "epoch": 2.5090640029596747,
      "grad_norm": 0.38374269008636475,
      "learning_rate": 1.5823724802136863e-06,
      "loss": 0.6655,
      "mean_token_accuracy": 0.7921055036509936,
      "step": 846
    },
    {
      "epoch": 2.5120236773954865,
      "grad_norm": 0.3918653130531311,
      "learning_rate": 1.5637651291624522e-06,
      "loss": 0.6541,
      "mean_token_accuracy": 0.7957731421640813,
      "step": 847
    },
    {
      "epoch": 2.5149833518312983,
      "grad_norm": 0.4183335602283478,
      "learning_rate": 1.545258545547398e-06,
      "loss": 0.6808,
      "mean_token_accuracy": 0.7860103025645604,
      "step": 848
    },
    {
      "epoch": 2.5179430262671105,
      "grad_norm": 0.40748029947280884,
      "learning_rate": 1.5268529504222262e-06,
      "loss": 0.6476,
      "mean_token_accuracy": 0.7958813429391195,
      "step": 849
    },
    {
      "epoch": 2.5209027007029228,
      "grad_norm": 0.4112967550754547,
      "learning_rate": 1.5085485636343755e-06,
      "loss": 0.6305,
      "mean_token_accuracy": 0.8016536067152452,
      "step": 850
    },
    {
      "epoch": 2.5238623751387346,
      "grad_norm": 0.40055161714553833,
      "learning_rate": 1.4903456038223941e-06,
      "loss": 0.6374,
      "mean_token_accuracy": 0.799591641647149,
      "step": 851
    },
    {
      "epoch": 2.526822049574547,
      "grad_norm": 0.39930155873298645,
      "learning_rate": 1.4722442884133214e-06,
      "loss": 0.5796,
      "mean_token_accuracy": 0.8175529008877027,
      "step": 852
    },
    {
      "epoch": 2.529781724010359,
      "grad_norm": 0.3882523477077484,
      "learning_rate": 1.4542448336201021e-06,
      "loss": 0.646,
      "mean_token_accuracy": 0.7965177087401804,
      "step": 853
    },
    {
      "epoch": 2.532741398446171,
      "grad_norm": 0.4089968502521515,
      "learning_rate": 1.4363474544389876e-06,
      "loss": 0.6288,
      "mean_token_accuracy": 0.8025391764757291,
      "step": 854
    },
    {
      "epoch": 2.535701072881983,
      "grad_norm": 0.39754486083984375,
      "learning_rate": 1.4185523646469822e-06,
      "loss": 0.6461,
      "mean_token_accuracy": 0.7974458592055889,
      "step": 855
    },
    {
      "epoch": 2.538660747317795,
      "grad_norm": 0.429750919342041,
      "learning_rate": 1.4008597767992872e-06,
      "loss": 0.6118,
      "mean_token_accuracy": 0.8093011527301119,
      "step": 856
    },
    {
      "epoch": 2.541620421753607,
      "grad_norm": 0.38371750712394714,
      "learning_rate": 1.3832699022267516e-06,
      "loss": 0.6399,
      "mean_token_accuracy": 0.7980772590627099,
      "step": 857
    },
    {
      "epoch": 2.544580096189419,
      "grad_norm": 0.41115689277648926,
      "learning_rate": 1.3657829510333653e-06,
      "loss": 0.6633,
      "mean_token_accuracy": 0.7933955020310409,
      "step": 858
    },
    {
      "epoch": 2.547539770625231,
      "grad_norm": 0.406768262386322,
      "learning_rate": 1.3483991320937307e-06,
      "loss": 0.6368,
      "mean_token_accuracy": 0.8023250526600325,
      "step": 859
    },
    {
      "epoch": 2.5504994450610434,
      "grad_norm": 0.4091865122318268,
      "learning_rate": 1.3311186530505838e-06,
      "loss": 0.6189,
      "mean_token_accuracy": 0.8061198976192254,
      "step": 860
    },
    {
      "epoch": 2.5534591194968552,
      "grad_norm": 0.385766863822937,
      "learning_rate": 1.313941720312303e-06,
      "loss": 0.6262,
      "mean_token_accuracy": 0.8026254886335932,
      "step": 861
    },
    {
      "epoch": 2.5564187939326675,
      "grad_norm": 0.403012216091156,
      "learning_rate": 1.2968685390504465e-06,
      "loss": 0.622,
      "mean_token_accuracy": 0.8041227440695632,
      "step": 862
    },
    {
      "epoch": 2.5593784683684797,
      "grad_norm": 0.3971555829048157,
      "learning_rate": 1.2798993131973093e-06,
      "loss": 0.6745,
      "mean_token_accuracy": 0.7896582637305288,
      "step": 863
    },
    {
      "epoch": 2.5623381428042915,
      "grad_norm": 0.40315189957618713,
      "learning_rate": 1.263034245443473e-06,
      "loss": 0.6563,
      "mean_token_accuracy": 0.7948344293273772,
      "step": 864
    },
    {
      "epoch": 2.5652978172401038,
      "grad_norm": 0.40858373045921326,
      "learning_rate": 1.2462735372353996e-06,
      "loss": 0.6228,
      "mean_token_accuracy": 0.8045441140339781,
      "step": 865
    },
    {
      "epoch": 2.5682574916759155,
      "grad_norm": 0.3969631493091583,
      "learning_rate": 1.2296173887730122e-06,
      "loss": 0.6345,
      "mean_token_accuracy": 0.8022942568625994,
      "step": 866
    },
    {
      "epoch": 2.571217166111728,
      "grad_norm": 0.39615315198898315,
      "learning_rate": 1.2130659990073146e-06,
      "loss": 0.6356,
      "mean_token_accuracy": 0.7998559942550404,
      "step": 867
    },
    {
      "epoch": 2.5741768405475396,
      "grad_norm": 0.38922396302223206,
      "learning_rate": 1.196619565638003e-06,
      "loss": 0.6286,
      "mean_token_accuracy": 0.8018824489890675,
      "step": 868
    },
    {
      "epoch": 2.577136514983352,
      "grad_norm": 0.4000704288482666,
      "learning_rate": 1.1802782851111206e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.7989303050191064,
      "step": 869
    },
    {
      "epoch": 2.580096189419164,
      "grad_norm": 0.39476409554481506,
      "learning_rate": 1.1640423526166987e-06,
      "loss": 0.6445,
      "mean_token_accuracy": 0.797418578107648,
      "step": 870
    },
    {
      "epoch": 2.583055863854976,
      "grad_norm": 0.39660996198654175,
      "learning_rate": 1.1479119620864277e-06,
      "loss": 0.6575,
      "mean_token_accuracy": 0.795806747653712,
      "step": 871
    },
    {
      "epoch": 2.586015538290788,
      "grad_norm": 0.41734716296195984,
      "learning_rate": 1.1318873061913405e-06,
      "loss": 0.5882,
      "mean_token_accuracy": 0.8143113885996807,
      "step": 872
    },
    {
      "epoch": 2.5889752127266,
      "grad_norm": 0.3729105293750763,
      "learning_rate": 1.1159685763395113e-06,
      "loss": 0.64,
      "mean_token_accuracy": 0.7987188883545505,
      "step": 873
    },
    {
      "epoch": 2.591934887162412,
      "grad_norm": 0.3946407437324524,
      "learning_rate": 1.1001559626737757e-06,
      "loss": 0.6418,
      "mean_token_accuracy": 0.798503030470437,
      "step": 874
    },
    {
      "epoch": 2.594894561598224,
      "grad_norm": 0.4132760763168335,
      "learning_rate": 1.0844496540694515e-06,
      "loss": 0.6267,
      "mean_token_accuracy": 0.8039569693853369,
      "step": 875
    },
    {
      "epoch": 2.597854236034036,
      "grad_norm": 0.40759339928627014,
      "learning_rate": 1.0688498381320855e-06,
      "loss": 0.6318,
      "mean_token_accuracy": 0.8012822502344166,
      "step": 876
    },
    {
      "epoch": 2.6008139104698484,
      "grad_norm": 0.41799381375312805,
      "learning_rate": 1.0533567011952094e-06,
      "loss": 0.6464,
      "mean_token_accuracy": 0.7964816550323018,
      "step": 877
    },
    {
      "epoch": 2.6037735849056602,
      "grad_norm": 0.4257717430591583,
      "learning_rate": 1.037970428318118e-06,
      "loss": 0.6841,
      "mean_token_accuracy": 0.7837483957536826,
      "step": 878
    },
    {
      "epoch": 2.6067332593414725,
      "grad_norm": 0.4087117314338684,
      "learning_rate": 1.022691203283661e-06,
      "loss": 0.6507,
      "mean_token_accuracy": 0.7950712747355096,
      "step": 879
    },
    {
      "epoch": 2.6096929337772847,
      "grad_norm": 0.41945111751556396,
      "learning_rate": 1.0075192085960451e-06,
      "loss": 0.6678,
      "mean_token_accuracy": 0.7909589594797406,
      "step": 880
    },
    {
      "epoch": 2.6126526082130965,
      "grad_norm": 0.398735374212265,
      "learning_rate": 9.924546254786493e-07,
      "loss": 0.6316,
      "mean_token_accuracy": 0.8018926205701773,
      "step": 881
    },
    {
      "epoch": 2.6156122826489088,
      "grad_norm": 0.406318724155426,
      "learning_rate": 9.77497633871868e-07,
      "loss": 0.6054,
      "mean_token_accuracy": 0.8093279590843514,
      "step": 882
    },
    {
      "epoch": 2.6185719570847206,
      "grad_norm": 0.3851606845855713,
      "learning_rate": 9.62648412430951e-07,
      "loss": 0.6791,
      "mean_token_accuracy": 0.7881774140441217,
      "step": 883
    },
    {
      "epoch": 2.621531631520533,
      "grad_norm": 0.4061947762966156,
      "learning_rate": 9.479071385238892e-07,
      "loss": 0.6212,
      "mean_token_accuracy": 0.8042670614990748,
      "step": 884
    },
    {
      "epoch": 2.6244913059563446,
      "grad_norm": 0.39614221453666687,
      "learning_rate": 9.332739882292752e-07,
      "loss": 0.6296,
      "mean_token_accuracy": 0.8017565837535566,
      "step": 885
    },
    {
      "epoch": 2.627450980392157,
      "grad_norm": 0.3858533501625061,
      "learning_rate": 9.187491363342094e-07,
      "loss": 0.5922,
      "mean_token_accuracy": 0.8143832301495489,
      "step": 886
    },
    {
      "epoch": 2.630410654827969,
      "grad_norm": 0.39614781737327576,
      "learning_rate": 9.043327563322113e-07,
      "loss": 0.6387,
      "mean_token_accuracy": 0.799956339899957,
      "step": 887
    },
    {
      "epoch": 2.633370329263781,
      "grad_norm": 0.38962864875793457,
      "learning_rate": 8.900250204211513e-07,
      "loss": 0.626,
      "mean_token_accuracy": 0.8054223234361488,
      "step": 888
    },
    {
      "epoch": 2.636330003699593,
      "grad_norm": 0.38743823766708374,
      "learning_rate": 8.758260995011825e-07,
      "loss": 0.6249,
      "mean_token_accuracy": 0.8041963208824743,
      "step": 889
    },
    {
      "epoch": 2.6392896781354054,
      "grad_norm": 0.38722845911979675,
      "learning_rate": 8.617361631727139e-07,
      "loss": 0.637,
      "mean_token_accuracy": 0.7999073170969193,
      "step": 890
    },
    {
      "epoch": 2.642249352571217,
      "grad_norm": 0.38422495126724243,
      "learning_rate": 8.477553797343729e-07,
      "loss": 0.5932,
      "mean_token_accuracy": 0.8125740456037845,
      "step": 891
    },
    {
      "epoch": 2.645209027007029,
      "grad_norm": 0.3883955180644989,
      "learning_rate": 8.338839161809997e-07,
      "loss": 0.6259,
      "mean_token_accuracy": 0.8034302437405634,
      "step": 892
    },
    {
      "epoch": 2.648168701442841,
      "grad_norm": 0.413769394159317,
      "learning_rate": 8.201219382016556e-07,
      "loss": 0.6425,
      "mean_token_accuracy": 0.7988244713424745,
      "step": 893
    },
    {
      "epoch": 2.6511283758786535,
      "grad_norm": 0.3942348062992096,
      "learning_rate": 8.06469610177636e-07,
      "loss": 0.6366,
      "mean_token_accuracy": 0.800066869045331,
      "step": 894
    },
    {
      "epoch": 2.6540880503144653,
      "grad_norm": 0.3790660500526428,
      "learning_rate": 7.92927095180518e-07,
      "loss": 0.6505,
      "mean_token_accuracy": 0.795845314542134,
      "step": 895
    },
    {
      "epoch": 2.6570477247502775,
      "grad_norm": 0.42260193824768066,
      "learning_rate": 7.794945549701993e-07,
      "loss": 0.6085,
      "mean_token_accuracy": 0.8089679902729355,
      "step": 896
    },
    {
      "epoch": 2.6600073991860897,
      "grad_norm": 0.37863457202911377,
      "learning_rate": 7.661721499929753e-07,
      "loss": 0.608,
      "mean_token_accuracy": 0.8079819508856279,
      "step": 897
    },
    {
      "epoch": 2.6629670736219015,
      "grad_norm": 0.4104274809360504,
      "learning_rate": 7.529600393796232e-07,
      "loss": 0.6343,
      "mean_token_accuracy": 0.8013414635641989,
      "step": 898
    },
    {
      "epoch": 2.665926748057714,
      "grad_norm": 0.4015280604362488,
      "learning_rate": 7.398583809434944e-07,
      "loss": 0.6194,
      "mean_token_accuracy": 0.8067789013401996,
      "step": 899
    },
    {
      "epoch": 2.6688864224935256,
      "grad_norm": 0.3843616247177124,
      "learning_rate": 7.268673311786378e-07,
      "loss": 0.655,
      "mean_token_accuracy": 0.7944493186314524,
      "step": 900
    },
    {
      "epoch": 2.6688864224935256,
      "eval_loss": 0.737091064453125,
      "eval_mean_token_accuracy": 0.7722201670436681,
      "eval_runtime": 24.4823,
      "eval_samples_per_second": 5.269,
      "eval_steps_per_second": 1.348,
      "step": 900
    },
    {
      "epoch": 2.671846096929338,
      "grad_norm": 0.40167438983917236,
      "learning_rate": 7.1398704525792e-07,
      "loss": 0.6665,
      "mean_token_accuracy": 0.7904682922183952,
      "step": 901
    },
    {
      "epoch": 2.6748057713651496,
      "grad_norm": 0.4117159843444824,
      "learning_rate": 7.012176770311863e-07,
      "loss": 0.6622,
      "mean_token_accuracy": 0.7920689961190451,
      "step": 902
    },
    {
      "epoch": 2.677765445800962,
      "grad_norm": 0.39613744616508484,
      "learning_rate": 6.885593790234057e-07,
      "loss": 0.6376,
      "mean_token_accuracy": 0.799410845334018,
      "step": 903
    },
    {
      "epoch": 2.680725120236774,
      "grad_norm": 0.38793283700942993,
      "learning_rate": 6.760123024328624e-07,
      "loss": 0.6141,
      "mean_token_accuracy": 0.8077387547151241,
      "step": 904
    },
    {
      "epoch": 2.683684794672586,
      "grad_norm": 0.38844698667526245,
      "learning_rate": 6.635765971293484e-07,
      "loss": 0.6559,
      "mean_token_accuracy": 0.794430430660069,
      "step": 905
    },
    {
      "epoch": 2.686644469108398,
      "grad_norm": 0.3850746154785156,
      "learning_rate": 6.512524116523633e-07,
      "loss": 0.627,
      "mean_token_accuracy": 0.8037230062591546,
      "step": 906
    },
    {
      "epoch": 2.6896041435442104,
      "grad_norm": 0.3915550708770752,
      "learning_rate": 6.390398932093555e-07,
      "loss": 0.6077,
      "mean_token_accuracy": 0.8080517778457975,
      "step": 907
    },
    {
      "epoch": 2.692563817980022,
      "grad_norm": 0.37720099091529846,
      "learning_rate": 6.269391876739494e-07,
      "loss": 0.6301,
      "mean_token_accuracy": 0.8039389719388176,
      "step": 908
    },
    {
      "epoch": 2.695523492415834,
      "grad_norm": 0.3923218250274658,
      "learning_rate": 6.149504395842087e-07,
      "loss": 0.6148,
      "mean_token_accuracy": 0.8082143968389491,
      "step": 909
    },
    {
      "epoch": 2.6984831668516462,
      "grad_norm": 0.39484548568725586,
      "learning_rate": 6.030737921409169e-07,
      "loss": 0.6583,
      "mean_token_accuracy": 0.7938795460478842,
      "step": 910
    },
    {
      "epoch": 2.7014428412874585,
      "grad_norm": 0.40009021759033203,
      "learning_rate": 5.913093872058528e-07,
      "loss": 0.6608,
      "mean_token_accuracy": 0.793614022788515,
      "step": 911
    },
    {
      "epoch": 2.7044025157232703,
      "grad_norm": 0.40624064207077026,
      "learning_rate": 5.796573653001091e-07,
      "loss": 0.6335,
      "mean_token_accuracy": 0.8018102965988579,
      "step": 912
    },
    {
      "epoch": 2.7073621901590825,
      "grad_norm": 0.4008027911186218,
      "learning_rate": 5.681178656024055e-07,
      "loss": 0.6626,
      "mean_token_accuracy": 0.7932069577957652,
      "step": 913
    },
    {
      "epoch": 2.7103218645948948,
      "grad_norm": 0.40246814489364624,
      "learning_rate": 5.56691025947429e-07,
      "loss": 0.6378,
      "mean_token_accuracy": 0.800000261371183,
      "step": 914
    },
    {
      "epoch": 2.7132815390307066,
      "grad_norm": 0.37238821387290955,
      "learning_rate": 5.453769828241872e-07,
      "loss": 0.6268,
      "mean_token_accuracy": 0.8024412909252127,
      "step": 915
    },
    {
      "epoch": 2.716241213466519,
      "grad_norm": 0.39563846588134766,
      "learning_rate": 5.341758713743828e-07,
      "loss": 0.6596,
      "mean_token_accuracy": 0.7931748591712275,
      "step": 916
    },
    {
      "epoch": 2.7192008879023306,
      "grad_norm": 0.3933393061161041,
      "learning_rate": 5.230878253907911e-07,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7995262716287037,
      "step": 917
    },
    {
      "epoch": 2.722160562338143,
      "grad_norm": 0.3950590193271637,
      "learning_rate": 5.121129773156663e-07,
      "loss": 0.6771,
      "mean_token_accuracy": 0.7878128871617898,
      "step": 918
    },
    {
      "epoch": 2.7251202367739547,
      "grad_norm": 0.41165900230407715,
      "learning_rate": 5.012514582391592e-07,
      "loss": 0.6194,
      "mean_token_accuracy": 0.805260790188586,
      "step": 919
    },
    {
      "epoch": 2.728079911209767,
      "grad_norm": 0.3828143775463104,
      "learning_rate": 4.905033978977492e-07,
      "loss": 0.6285,
      "mean_token_accuracy": 0.8036274550004541,
      "step": 920
    },
    {
      "epoch": 2.731039585645579,
      "grad_norm": 0.3781799077987671,
      "learning_rate": 4.798689246727006e-07,
      "loss": 0.6143,
      "mean_token_accuracy": 0.8072609168484571,
      "step": 921
    },
    {
      "epoch": 2.733999260081391,
      "grad_norm": 0.3903900682926178,
      "learning_rate": 4.693481655885257e-07,
      "loss": 0.6698,
      "mean_token_accuracy": 0.7922049787058092,
      "step": 922
    },
    {
      "epoch": 2.736958934517203,
      "grad_norm": 0.3956415355205536,
      "learning_rate": 4.58941246311464e-07,
      "loss": 0.6301,
      "mean_token_accuracy": 0.8028085591716645,
      "step": 923
    },
    {
      "epoch": 2.7399186089530154,
      "grad_norm": 0.3861734867095947,
      "learning_rate": 4.4864829114798394e-07,
      "loss": 0.6371,
      "mean_token_accuracy": 0.8004312278302195,
      "step": 924
    },
    {
      "epoch": 2.742878283388827,
      "grad_norm": 0.3868809640407562,
      "learning_rate": 4.384694230432984e-07,
      "loss": 0.5952,
      "mean_token_accuracy": 0.8138450723816196,
      "step": 925
    },
    {
      "epoch": 2.745837957824639,
      "grad_norm": 0.3856772780418396,
      "learning_rate": 4.2840476357989825e-07,
      "loss": 0.611,
      "mean_token_accuracy": 0.80796215409744,
      "step": 926
    },
    {
      "epoch": 2.7487976322604513,
      "grad_norm": 0.404486745595932,
      "learning_rate": 4.184544329761009e-07,
      "loss": 0.6209,
      "mean_token_accuracy": 0.8057150436844314,
      "step": 927
    },
    {
      "epoch": 2.7517573066962635,
      "grad_norm": 0.3897272050380707,
      "learning_rate": 4.0861855008460403e-07,
      "loss": 0.6327,
      "mean_token_accuracy": 0.8016584740172387,
      "step": 928
    },
    {
      "epoch": 2.7547169811320753,
      "grad_norm": 0.3906909227371216,
      "learning_rate": 3.988972323910778e-07,
      "loss": 0.6181,
      "mean_token_accuracy": 0.805539043349179,
      "step": 929
    },
    {
      "epoch": 2.7576766555678875,
      "grad_norm": 0.38629284501075745,
      "learning_rate": 3.8929059601275463e-07,
      "loss": 0.6256,
      "mean_token_accuracy": 0.8029286474181538,
      "step": 930
    },
    {
      "epoch": 2.7606363300037,
      "grad_norm": 0.4061240255832672,
      "learning_rate": 3.797987556970495e-07,
      "loss": 0.6719,
      "mean_token_accuracy": 0.7906059984731508,
      "step": 931
    },
    {
      "epoch": 2.7635960044395116,
      "grad_norm": 0.40067771077156067,
      "learning_rate": 3.7042182482018074e-07,
      "loss": 0.6271,
      "mean_token_accuracy": 0.8041936678142166,
      "step": 932
    },
    {
      "epoch": 2.766555678875324,
      "grad_norm": 0.3809727132320404,
      "learning_rate": 3.611599153858214e-07,
      "loss": 0.6769,
      "mean_token_accuracy": 0.7875104091416671,
      "step": 933
    },
    {
      "epoch": 2.7695153533111356,
      "grad_norm": 0.40350061655044556,
      "learning_rate": 3.520131380237546e-07,
      "loss": 0.6647,
      "mean_token_accuracy": 0.7917032324367623,
      "step": 934
    },
    {
      "epoch": 2.772475027746948,
      "grad_norm": 0.4117463529109955,
      "learning_rate": 3.429816019885657e-07,
      "loss": 0.6811,
      "mean_token_accuracy": 0.787343757534307,
      "step": 935
    },
    {
      "epoch": 2.7754347021827597,
      "grad_norm": 0.3994939923286438,
      "learning_rate": 3.3406541515832e-07,
      "loss": 0.6786,
      "mean_token_accuracy": 0.7861266133562229,
      "step": 936
    },
    {
      "epoch": 2.778394376618572,
      "grad_norm": 0.39691928029060364,
      "learning_rate": 3.252646840332918e-07,
      "loss": 0.6468,
      "mean_token_accuracy": 0.7971869583236945,
      "step": 937
    },
    {
      "epoch": 2.781354051054384,
      "grad_norm": 0.37808868288993835,
      "learning_rate": 3.16579513734675e-07,
      "loss": 0.6259,
      "mean_token_accuracy": 0.8036837288252531,
      "step": 938
    },
    {
      "epoch": 2.784313725490196,
      "grad_norm": 0.38705241680145264,
      "learning_rate": 3.080100080033388e-07,
      "loss": 0.622,
      "mean_token_accuracy": 0.8054349345477914,
      "step": 939
    },
    {
      "epoch": 2.787273399926008,
      "grad_norm": 0.37049245834350586,
      "learning_rate": 2.995562691985898e-07,
      "loss": 0.6281,
      "mean_token_accuracy": 0.802922693455199,
      "step": 940
    },
    {
      "epoch": 2.7902330743618204,
      "grad_norm": 0.4022907316684723,
      "learning_rate": 2.9121839829693857e-07,
      "loss": 0.6193,
      "mean_token_accuracy": 0.8052185953687516,
      "step": 941
    },
    {
      "epoch": 2.7931927487976322,
      "grad_norm": 0.40110448002815247,
      "learning_rate": 2.829964948909048e-07,
      "loss": 0.6233,
      "mean_token_accuracy": 0.8038183781558145,
      "step": 942
    },
    {
      "epoch": 2.7961524232334445,
      "grad_norm": 0.3919583857059479,
      "learning_rate": 2.748906571878207e-07,
      "loss": 0.6603,
      "mean_token_accuracy": 0.7946063609111435,
      "step": 943
    },
    {
      "epoch": 2.7991120976692563,
      "grad_norm": 0.39748555421829224,
      "learning_rate": 2.6690098200866097e-07,
      "loss": 0.6416,
      "mean_token_accuracy": 0.7996132256535484,
      "step": 944
    },
    {
      "epoch": 2.8020717721050685,
      "grad_norm": 0.40067169070243835,
      "learning_rate": 2.5902756478688674e-07,
      "loss": 0.6431,
      "mean_token_accuracy": 0.7986862031085916,
      "step": 945
    },
    {
      "epoch": 2.8050314465408803,
      "grad_norm": 0.3947811722755432,
      "learning_rate": 2.5127049956730207e-07,
      "loss": 0.6424,
      "mean_token_accuracy": 0.797873089467536,
      "step": 946
    },
    {
      "epoch": 2.8079911209766926,
      "grad_norm": 0.38122984766960144,
      "learning_rate": 2.436298790049363e-07,
      "loss": 0.6656,
      "mean_token_accuracy": 0.7921808444907809,
      "step": 947
    },
    {
      "epoch": 2.810950795412505,
      "grad_norm": 0.3970412611961365,
      "learning_rate": 2.3610579436392999e-07,
      "loss": 0.6454,
      "mean_token_accuracy": 0.798217491279841,
      "step": 948
    },
    {
      "epoch": 2.8139104698483166,
      "grad_norm": 0.39274781942367554,
      "learning_rate": 2.2869833551645293e-07,
      "loss": 0.6462,
      "mean_token_accuracy": 0.7971693406963306,
      "step": 949
    },
    {
      "epoch": 2.816870144284129,
      "grad_norm": 0.38875052332878113,
      "learning_rate": 2.2140759094162468e-07,
      "loss": 0.6447,
      "mean_token_accuracy": 0.7977855648395308,
      "step": 950
    },
    {
      "epoch": 2.8198298187199407,
      "grad_norm": 0.39083102345466614,
      "learning_rate": 2.1423364772445886e-07,
      "loss": 0.6233,
      "mean_token_accuracy": 0.8038262482281366,
      "step": 951
    },
    {
      "epoch": 2.822789493155753,
      "grad_norm": 0.3867531716823578,
      "learning_rate": 2.071765915548274e-07,
      "loss": 0.6872,
      "mean_token_accuracy": 0.7856023656322098,
      "step": 952
    },
    {
      "epoch": 2.8257491675915647,
      "grad_norm": 0.39589664340019226,
      "learning_rate": 2.002365067264289e-07,
      "loss": 0.6737,
      "mean_token_accuracy": 0.7887226540574725,
      "step": 953
    },
    {
      "epoch": 2.828708842027377,
      "grad_norm": 0.41389018297195435,
      "learning_rate": 1.9341347613579086e-07,
      "loss": 0.6184,
      "mean_token_accuracy": 0.8065408919751612,
      "step": 954
    },
    {
      "epoch": 2.831668516463189,
      "grad_norm": 0.4138829708099365,
      "learning_rate": 1.867075812812691e-07,
      "loss": 0.6391,
      "mean_token_accuracy": 0.8007256177269018,
      "step": 955
    },
    {
      "epoch": 2.834628190899001,
      "grad_norm": 0.384776771068573,
      "learning_rate": 1.8011890226208527e-07,
      "loss": 0.613,
      "mean_token_accuracy": 0.8072664965020259,
      "step": 956
    },
    {
      "epoch": 2.837587865334813,
      "grad_norm": 0.37912535667419434,
      "learning_rate": 1.7364751777736334e-07,
      "loss": 0.6509,
      "mean_token_accuracy": 0.7937373916975208,
      "step": 957
    },
    {
      "epoch": 2.8405475397706255,
      "grad_norm": 0.39359596371650696,
      "learning_rate": 1.6729350512519006e-07,
      "loss": 0.6386,
      "mean_token_accuracy": 0.8000337051550754,
      "step": 958
    },
    {
      "epoch": 2.8435072142064373,
      "grad_norm": 0.3822968602180481,
      "learning_rate": 1.6105694020169594e-07,
      "loss": 0.6322,
      "mean_token_accuracy": 0.8005505544311058,
      "step": 959
    },
    {
      "epoch": 2.8464668886422495,
      "grad_norm": 0.376174658536911,
      "learning_rate": 1.5493789750014032e-07,
      "loss": 0.6178,
      "mean_token_accuracy": 0.8039858290743149,
      "step": 960
    },
    {
      "epoch": 2.8494265630780613,
      "grad_norm": 0.388172447681427,
      "learning_rate": 1.489364501100332e-07,
      "loss": 0.6551,
      "mean_token_accuracy": 0.7960565577797374,
      "step": 961
    },
    {
      "epoch": 2.8523862375138735,
      "grad_norm": 0.3901033103466034,
      "learning_rate": 1.430526697162482e-07,
      "loss": 0.645,
      "mean_token_accuracy": 0.7975772604806072,
      "step": 962
    },
    {
      "epoch": 2.8553459119496853,
      "grad_norm": 0.3848772943019867,
      "learning_rate": 1.3728662659818205e-07,
      "loss": 0.6037,
      "mean_token_accuracy": 0.8107080863727026,
      "step": 963
    },
    {
      "epoch": 2.8583055863854976,
      "grad_norm": 0.38093602657318115,
      "learning_rate": 1.3163838962890196e-07,
      "loss": 0.6602,
      "mean_token_accuracy": 0.7919608208568516,
      "step": 964
    },
    {
      "epoch": 2.86126526082131,
      "grad_norm": 0.3964565396308899,
      "learning_rate": 1.2610802627432972e-07,
      "loss": 0.6427,
      "mean_token_accuracy": 0.798779575468243,
      "step": 965
    },
    {
      "epoch": 2.8642249352571216,
      "grad_norm": 0.41397061944007874,
      "learning_rate": 1.206956025924333e-07,
      "loss": 0.6266,
      "mean_token_accuracy": 0.8023839610262327,
      "step": 966
    },
    {
      "epoch": 2.867184609692934,
      "grad_norm": 0.3790512681007385,
      "learning_rate": 1.1540118323243866e-07,
      "loss": 0.5703,
      "mean_token_accuracy": 0.8205281597109083,
      "step": 967
    },
    {
      "epoch": 2.870144284128746,
      "grad_norm": 0.3819893002510071,
      "learning_rate": 1.1022483143405705e-07,
      "loss": 0.6072,
      "mean_token_accuracy": 0.8105382446606855,
      "step": 968
    },
    {
      "epoch": 2.873103958564558,
      "grad_norm": 0.38210329413414,
      "learning_rate": 1.0516660902673448e-07,
      "loss": 0.6473,
      "mean_token_accuracy": 0.7979098356765058,
      "step": 969
    },
    {
      "epoch": 2.8760636330003697,
      "grad_norm": 0.3830581307411194,
      "learning_rate": 1.0022657642890232e-07,
      "loss": 0.6233,
      "mean_token_accuracy": 0.8037948333368617,
      "step": 970
    },
    {
      "epoch": 2.879023307436182,
      "grad_norm": 0.39410918951034546,
      "learning_rate": 9.540479264726676e-08,
      "loss": 0.6517,
      "mean_token_accuracy": 0.7945131404435056,
      "step": 971
    },
    {
      "epoch": 2.881982981871994,
      "grad_norm": 0.38177594542503357,
      "learning_rate": 9.070131527609604e-08,
      "loss": 0.6083,
      "mean_token_accuracy": 0.8094474921741853,
      "step": 972
    },
    {
      "epoch": 2.884942656307806,
      "grad_norm": 0.3808548152446747,
      "learning_rate": 8.61162004965388e-08,
      "loss": 0.6347,
      "mean_token_accuracy": 0.8012875105708535,
      "step": 973
    },
    {
      "epoch": 2.8879023307436182,
      "grad_norm": 0.4010704755783081,
      "learning_rate": 8.16495030759501e-08,
      "loss": 0.67,
      "mean_token_accuracy": 0.7904797064838223,
      "step": 974
    },
    {
      "epoch": 2.8908620051794305,
      "grad_norm": 0.3918650448322296,
      "learning_rate": 7.730127636723539e-08,
      "loss": 0.6005,
      "mean_token_accuracy": 0.8118496389421752,
      "step": 975
    },
    {
      "epoch": 2.8938216796152423,
      "grad_norm": 0.3898662030696869,
      "learning_rate": 7.307157230821426e-08,
      "loss": 0.6453,
      "mean_token_accuracy": 0.7980052666038159,
      "step": 976
    },
    {
      "epoch": 2.8967813540510545,
      "grad_norm": 0.39199164509773254,
      "learning_rate": 6.896044142100433e-08,
      "loss": 0.6576,
      "mean_token_accuracy": 0.7941206706838407,
      "step": 977
    },
    {
      "epoch": 2.8997410284868663,
      "grad_norm": 0.40657898783683777,
      "learning_rate": 6.496793281141056e-08,
      "loss": 0.6771,
      "mean_token_accuracy": 0.7881219963995537,
      "step": 978
    },
    {
      "epoch": 2.9027007029226786,
      "grad_norm": 0.3844878673553467,
      "learning_rate": 6.109409416834689e-08,
      "loss": 0.6412,
      "mean_token_accuracy": 0.7994358237487954,
      "step": 979
    },
    {
      "epoch": 2.9056603773584904,
      "grad_norm": 0.396533340215683,
      "learning_rate": 5.7338971763256646e-08,
      "loss": 0.6225,
      "mean_token_accuracy": 0.8051790813619156,
      "step": 980
    },
    {
      "epoch": 2.9086200517943026,
      "grad_norm": 0.3754301369190216,
      "learning_rate": 5.37026104495697e-08,
      "loss": 0.6305,
      "mean_token_accuracy": 0.8030408479316886,
      "step": 981
    },
    {
      "epoch": 2.911579726230115,
      "grad_norm": 0.40677276253700256,
      "learning_rate": 5.0185053662161756e-08,
      "loss": 0.6322,
      "mean_token_accuracy": 0.8007158859109983,
      "step": 982
    },
    {
      "epoch": 2.9145394006659266,
      "grad_norm": 0.3934902250766754,
      "learning_rate": 4.678634341683252e-08,
      "loss": 0.6222,
      "mean_token_accuracy": 0.804753444318889,
      "step": 983
    },
    {
      "epoch": 2.917499075101739,
      "grad_norm": 0.3706609904766083,
      "learning_rate": 4.350652030981395e-08,
      "loss": 0.6447,
      "mean_token_accuracy": 0.7980685126294768,
      "step": 984
    },
    {
      "epoch": 2.920458749537551,
      "grad_norm": 0.39183953404426575,
      "learning_rate": 4.0345623517273894e-08,
      "loss": 0.6267,
      "mean_token_accuracy": 0.8036114839333938,
      "step": 985
    },
    {
      "epoch": 2.923418423973363,
      "grad_norm": 0.3982419967651367,
      "learning_rate": 3.7303690794854296e-08,
      "loss": 0.7065,
      "mean_token_accuracy": 0.7786746050545399,
      "step": 986
    },
    {
      "epoch": 2.9263780984091747,
      "grad_norm": 0.4075382649898529,
      "learning_rate": 3.438075847721933e-08,
      "loss": 0.585,
      "mean_token_accuracy": 0.8150346535603673,
      "step": 987
    },
    {
      "epoch": 2.929337772844987,
      "grad_norm": 0.3877173662185669,
      "learning_rate": 3.157686147762129e-08,
      "loss": 0.6477,
      "mean_token_accuracy": 0.7976473361920864,
      "step": 988
    },
    {
      "epoch": 2.932297447280799,
      "grad_norm": 0.38589945435523987,
      "learning_rate": 2.8892033287484245e-08,
      "loss": 0.664,
      "mean_token_accuracy": 0.79294201748894,
      "step": 989
    },
    {
      "epoch": 2.935257121716611,
      "grad_norm": 0.38838937878608704,
      "learning_rate": 2.6326305976001054e-08,
      "loss": 0.6019,
      "mean_token_accuracy": 0.8104530195130828,
      "step": 990
    },
    {
      "epoch": 2.9382167961524233,
      "grad_norm": 0.3857711851596832,
      "learning_rate": 2.3879710189753657e-08,
      "loss": 0.6397,
      "mean_token_accuracy": 0.798951730040894,
      "step": 991
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 0.38144826889038086,
      "learning_rate": 2.1552275152346702e-08,
      "loss": 0.637,
      "mean_token_accuracy": 0.8008487203446606,
      "step": 992
    },
    {
      "epoch": 2.9441361450240473,
      "grad_norm": 0.39223143458366394,
      "learning_rate": 1.9344028664056715e-08,
      "loss": 0.6031,
      "mean_token_accuracy": 0.8099199822731445,
      "step": 993
    },
    {
      "epoch": 2.9470958194598595,
      "grad_norm": 0.40251073241233826,
      "learning_rate": 1.7254997101500137e-08,
      "loss": 0.62,
      "mean_token_accuracy": 0.8063151660778272,
      "step": 994
    },
    {
      "epoch": 2.9500554938956713,
      "grad_norm": 0.39291098713874817,
      "learning_rate": 1.528520541731915e-08,
      "loss": 0.6079,
      "mean_token_accuracy": 0.8091930978495294,
      "step": 995
    },
    {
      "epoch": 2.9530151683314836,
      "grad_norm": 0.3827592432498932,
      "learning_rate": 1.3434677139885222e-08,
      "loss": 0.6533,
      "mean_token_accuracy": 0.7946187338585824,
      "step": 996
    },
    {
      "epoch": 2.9559748427672954,
      "grad_norm": 0.37337788939476013,
      "learning_rate": 1.170343437301491e-08,
      "loss": 0.646,
      "mean_token_accuracy": 0.7960541011916046,
      "step": 997
    },
    {
      "epoch": 2.9589345172031076,
      "grad_norm": 0.39986652135849,
      "learning_rate": 1.0091497795706728e-08,
      "loss": 0.6393,
      "mean_token_accuracy": 0.7991646202099173,
      "step": 998
    },
    {
      "epoch": 2.96189419163892,
      "grad_norm": 0.3993469774723053,
      "learning_rate": 8.59888666189579e-09,
      "loss": 0.6753,
      "mean_token_accuracy": 0.7898335911094181,
      "step": 999
    },
    {
      "epoch": 2.9648538660747317,
      "grad_norm": 0.40232738852500916,
      "learning_rate": 7.225618800222878e-09,
      "loss": 0.6607,
      "mean_token_accuracy": 0.7922276751171351,
      "step": 1000
    },
    {
      "epoch": 2.9648538660747317,
      "eval_loss": 0.7369399070739746,
      "eval_mean_token_accuracy": 0.7721513551540902,
      "eval_runtime": 24.4981,
      "eval_samples_per_second": 5.266,
      "eval_steps_per_second": 1.347,
      "step": 1000
    },
    {
      "epoch": 2.967813540510544,
      "grad_norm": 0.3906041085720062,
      "learning_rate": 5.971710613821291e-09,
      "loss": 0.6733,
      "mean_token_accuracy": 0.7893573225919971,
      "step": 1001
    },
    {
      "epoch": 2.970773214946356,
      "grad_norm": 0.39397749304771423,
      "learning_rate": 4.837177080119215e-09,
      "loss": 0.6217,
      "mean_token_accuracy": 0.8034013413614648,
      "step": 1002
    },
    {
      "epoch": 2.973732889382168,
      "grad_norm": 0.3905346691608429,
      "learning_rate": 3.8220317506654226e-09,
      "loss": 0.6531,
      "mean_token_accuracy": 0.795008107180572,
      "step": 1003
    },
    {
      "epoch": 2.9766925638179798,
      "grad_norm": 0.3973424732685089,
      "learning_rate": 2.9262867509605164e-09,
      "loss": 0.6395,
      "mean_token_accuracy": 0.7991790842606037,
      "step": 1004
    },
    {
      "epoch": 2.979652238253792,
      "grad_norm": 0.3992668092250824,
      "learning_rate": 2.149952780321485e-09,
      "loss": 0.6643,
      "mean_token_accuracy": 0.7913003021486229,
      "step": 1005
    },
    {
      "epoch": 2.9826119126896042,
      "grad_norm": 0.4035053253173828,
      "learning_rate": 1.4930391117451427e-09,
      "loss": 0.6354,
      "mean_token_accuracy": 0.7998262221333795,
      "step": 1006
    },
    {
      "epoch": 2.985571587125416,
      "grad_norm": 0.4096769690513611,
      "learning_rate": 9.555535917993297e-10,
      "loss": 0.6961,
      "mean_token_accuracy": 0.7825063025724978,
      "step": 1007
    },
    {
      "epoch": 2.9885312615612283,
      "grad_norm": 0.41353654861450195,
      "learning_rate": 5.375026405352035e-10,
      "loss": 0.6249,
      "mean_token_accuracy": 0.8038925258126584,
      "step": 1008
    },
    {
      "epoch": 2.9914909359970405,
      "grad_norm": 0.3798801898956299,
      "learning_rate": 2.388912514017516e-10,
      "loss": 0.6626,
      "mean_token_accuracy": 0.793458732875717,
      "step": 1009
    },
    {
      "epoch": 2.9944506104328523,
      "grad_norm": 0.39510512351989746,
      "learning_rate": 5.972299119250124e-11,
      "loss": 0.5891,
      "mean_token_accuracy": 0.8136845518054924,
      "step": 1010
    },
    {
      "epoch": 2.9974102848686646,
      "grad_norm": 0.40476804971694946,
      "learning_rate": 0.0,
      "loss": 0.6628,
      "mean_token_accuracy": 0.7925300203396853,
      "step": 1011
    },
    {
      "epoch": 2.9974102848686646,
      "step": 1011,
      "total_flos": 230593791000576.0,
      "train_loss": 0.7078155129410982,
      "train_runtime": 41256.6124,
      "train_samples_per_second": 1.572,
      "train_steps_per_second": 0.025
    }
  ],
  "logging_steps": 1,
  "max_steps": 1011,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 230593791000576.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}