diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,8220 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9974102848686646,
+  "eval_steps": 100,
+  "global_step": 1011,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0029596744358120607,
+      "grad_norm": 2.681946039199829,
+      "learning_rate": 1.9607843137254904e-07,
+      "loss": 1.0892,
+      "mean_token_accuracy": 0.7134666713588034,
+      "step": 1
+    },
+    {
+      "epoch": 0.0059193488716241215,
+      "grad_norm": 2.483736515045166,
+      "learning_rate": 3.921568627450981e-07,
+      "loss": 1.0859,
+      "mean_token_accuracy": 0.7130540900903558,
+      "step": 2
+    },
+    {
+      "epoch": 0.008879023307436182,
+      "grad_norm": 2.5574872493743896,
+      "learning_rate": 5.882352941176471e-07,
+      "loss": 1.1083,
+      "mean_token_accuracy": 0.7057264272951731,
+      "step": 3
+    },
+    {
+      "epoch": 0.011838697743248243,
+      "grad_norm": 2.592397689819336,
+      "learning_rate": 7.843137254901962e-07,
+      "loss": 1.1251,
+      "mean_token_accuracy": 0.70204062618997,
+      "step": 4
+    },
+    {
+      "epoch": 0.014798372179060304,
+      "grad_norm": 2.5958452224731445,
+      "learning_rate": 9.80392156862745e-07,
+      "loss": 1.0616,
+      "mean_token_accuracy": 0.7201201840956424,
+      "step": 5
+    },
+    {
+      "epoch": 0.017758046614872364,
+      "grad_norm": 2.527214765548706,
+      "learning_rate": 1.1764705882352942e-06,
+      "loss": 1.1498,
+      "mean_token_accuracy": 0.6991107921462223,
+      "step": 6
+    },
+    {
+      "epoch": 0.020717721050684423,
+      "grad_norm": 2.453611135482788,
+      "learning_rate": 1.3725490196078434e-06,
+      "loss": 1.0692,
+      "mean_token_accuracy": 0.7185075890374791,
+      "step": 7
+    },
+    {
+      "epoch": 0.023677395486496486,
+      "grad_norm": 2.2676663398742676,
+      "learning_rate": 1.5686274509803923e-06,
+      "loss": 1.1027,
+      "mean_token_accuracy": 0.7096105664418749,
+      "step": 8
+    },
+    {
+      "epoch": 0.026637069922308545,
+      "grad_norm": 2.4191880226135254,
+      "learning_rate": 1.7647058823529414e-06,
+      "loss": 1.1374,
+      "mean_token_accuracy": 0.7004450719322626,
+      "step": 9
+    },
+    {
+      "epoch": 0.029596744358120607,
+      "grad_norm": 2.2810451984405518,
+      "learning_rate": 1.96078431372549e-06,
+      "loss": 1.0701,
+      "mean_token_accuracy": 0.7192182703502579,
+      "step": 10
+    },
+    {
+      "epoch": 0.032556418793932666,
+      "grad_norm": 2.047187566757202,
+      "learning_rate": 2.1568627450980393e-06,
+      "loss": 1.0692,
+      "mean_token_accuracy": 0.7168684606703121,
+      "step": 11
+    },
+    {
+      "epoch": 0.03551609322974473,
+      "grad_norm": 1.9986836910247803,
+      "learning_rate": 2.3529411764705885e-06,
+      "loss": 1.0591,
+      "mean_token_accuracy": 0.7179799919846566,
+      "step": 12
+    },
+    {
+      "epoch": 0.03847576766555679,
+      "grad_norm": 1.9848605394363403,
+      "learning_rate": 2.549019607843137e-06,
+      "loss": 1.0592,
+      "mean_token_accuracy": 0.7186164399688223,
+      "step": 13
+    },
+    {
+      "epoch": 0.04143544210136885,
+      "grad_norm": 1.7683581113815308,
+      "learning_rate": 2.7450980392156867e-06,
+      "loss": 1.0286,
+      "mean_token_accuracy": 0.7263637707391479,
+      "step": 14
+    },
+    {
+      "epoch": 0.04439511653718091,
+      "grad_norm": 1.4327510595321655,
+      "learning_rate": 2.9411764705882355e-06,
+      "loss": 1.0502,
+      "mean_token_accuracy": 0.718260961897349,
+      "step": 15
+    },
+    {
+      "epoch": 0.04735479097299297,
+      "grad_norm": 1.4091436862945557,
+      "learning_rate": 3.1372549019607846e-06,
+      "loss": 1.0816,
+      "mean_token_accuracy": 0.7076378775080614,
+      "step": 16
+    },
+    {
+      "epoch": 0.050314465408805034,
+      "grad_norm": 1.3194211721420288,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.0302,
+      "mean_token_accuracy": 0.7220054724166985,
+      "step": 17
+    },
+    {
+      "epoch": 0.05327413984461709,
+      "grad_norm": 1.2913936376571655,
+      "learning_rate": 3.529411764705883e-06,
+      "loss": 1.0676,
+      "mean_token_accuracy": 0.7113759820986945,
+      "step": 18
+    },
+    {
+      "epoch": 0.05623381428042915,
+      "grad_norm": 1.236266016960144,
+      "learning_rate": 3.7254901960784316e-06,
+      "loss": 1.0571,
+      "mean_token_accuracy": 0.7136546795764988,
+      "step": 19
+    },
+    {
+      "epoch": 0.059193488716241215,
+      "grad_norm": 1.1931370496749878,
+      "learning_rate": 3.92156862745098e-06,
+      "loss": 0.9917,
+      "mean_token_accuracy": 0.7271706923102303,
+      "step": 20
+    },
+    {
+      "epoch": 0.06215316315205328,
+      "grad_norm": 1.3087286949157715,
+      "learning_rate": 4.11764705882353e-06,
+      "loss": 1.0021,
+      "mean_token_accuracy": 0.7239365954438801,
+      "step": 21
+    },
+    {
+      "epoch": 0.06511283758786533,
+      "grad_norm": 1.2562185525894165,
+      "learning_rate": 4.313725490196079e-06,
+      "loss": 0.983,
+      "mean_token_accuracy": 0.7273888578305255,
+      "step": 22
+    },
+    {
+      "epoch": 0.0680725120236774,
+      "grad_norm": 1.1378827095031738,
+      "learning_rate": 4.509803921568628e-06,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.7362632636857523,
+      "step": 23
+    },
+    {
+      "epoch": 0.07103218645948946,
+      "grad_norm": 1.0568324327468872,
+      "learning_rate": 4.705882352941177e-06,
+      "loss": 0.9564,
+      "mean_token_accuracy": 0.7346627849009933,
+      "step": 24
+    },
+    {
+      "epoch": 0.07399186089530152,
+      "grad_norm": 0.9209612011909485,
+      "learning_rate": 4.901960784313726e-06,
+      "loss": 0.9808,
+      "mean_token_accuracy": 0.7272476674555969,
+      "step": 25
+    },
+    {
+      "epoch": 0.07695153533111358,
+      "grad_norm": 0.8665790557861328,
+      "learning_rate": 5.098039215686274e-06,
+      "loss": 1.0003,
+      "mean_token_accuracy": 0.7212588502719087,
+      "step": 26
+    },
+    {
+      "epoch": 0.07991120976692564,
+      "grad_norm": 0.8994502425193787,
+      "learning_rate": 5.294117647058824e-06,
+      "loss": 0.9476,
+      "mean_token_accuracy": 0.7335574894521832,
+      "step": 27
+    },
+    {
+      "epoch": 0.0828708842027377,
+      "grad_norm": 1.0448633432388306,
+      "learning_rate": 5.4901960784313735e-06,
+      "loss": 0.9464,
+      "mean_token_accuracy": 0.7334208114703,
+      "step": 28
+    },
+    {
+      "epoch": 0.08583055863854976,
+      "grad_norm": 0.9871032238006592,
+      "learning_rate": 5.686274509803922e-06,
+      "loss": 0.9505,
+      "mean_token_accuracy": 0.732524444705358,
+      "step": 29
+    },
+    {
+      "epoch": 0.08879023307436182,
+      "grad_norm": 0.9244782328605652,
+      "learning_rate": 5.882352941176471e-06,
+      "loss": 0.9369,
+      "mean_token_accuracy": 0.7377869549204231,
+      "step": 30
+    },
+    {
+      "epoch": 0.09174990751017388,
+      "grad_norm": 0.8495871424674988,
+      "learning_rate": 6.07843137254902e-06,
+      "loss": 0.9632,
+      "mean_token_accuracy": 0.7259763433334542,
+      "step": 31
+    },
+    {
+      "epoch": 0.09470958194598594,
+      "grad_norm": 0.730097770690918,
+      "learning_rate": 6.274509803921569e-06,
+      "loss": 0.8828,
+      "mean_token_accuracy": 0.7483362451357691,
+      "step": 32
+    },
+    {
+      "epoch": 0.097669256381798,
+      "grad_norm": 0.7470875382423401,
+      "learning_rate": 6.470588235294119e-06,
+      "loss": 0.9185,
+      "mean_token_accuracy": 0.7392471457849514,
+      "step": 33
+    },
+    {
+      "epoch": 0.10062893081761007,
+      "grad_norm": 0.730536162853241,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.8883,
+      "mean_token_accuracy": 0.7495266641186222,
+      "step": 34
+    },
+    {
+      "epoch": 0.10358860525342212,
+      "grad_norm": 0.6699507832527161,
+      "learning_rate": 6.862745098039216e-06,
+      "loss": 0.857,
+      "mean_token_accuracy": 0.7532634065825189,
+      "step": 35
+    },
+    {
+      "epoch": 0.10654827968923418,
+      "grad_norm": 0.6172248721122742,
+      "learning_rate": 7.058823529411766e-06,
+      "loss": 0.8762,
+      "mean_token_accuracy": 0.749338820444233,
+      "step": 36
+    },
+    {
+      "epoch": 0.10950795412504624,
+      "grad_norm": 0.6268398761749268,
+      "learning_rate": 7.2549019607843145e-06,
+      "loss": 0.8679,
+      "mean_token_accuracy": 0.7519748968716043,
+      "step": 37
+    },
+    {
+      "epoch": 0.1124676285608583,
+      "grad_norm": 0.610349178314209,
+      "learning_rate": 7.450980392156863e-06,
+      "loss": 0.8855,
+      "mean_token_accuracy": 0.7472919453079274,
+      "step": 38
+    },
+    {
+      "epoch": 0.11542730299667037,
+      "grad_norm": 0.604537308216095,
+      "learning_rate": 7.647058823529411e-06,
+      "loss": 0.8499,
+      "mean_token_accuracy": 0.7552782022394232,
+      "step": 39
+    },
+    {
+      "epoch": 0.11838697743248243,
+      "grad_norm": 0.609111487865448,
+      "learning_rate": 7.84313725490196e-06,
+      "loss": 0.8822,
+      "mean_token_accuracy": 0.746562312628656,
+      "step": 40
+    },
+    {
+      "epoch": 0.12134665186829449,
+      "grad_norm": 0.5899158716201782,
+      "learning_rate": 8.03921568627451e-06,
+      "loss": 0.8811,
+      "mean_token_accuracy": 0.7473791695126712,
+      "step": 41
+    },
+    {
+      "epoch": 0.12430632630410655,
+      "grad_norm": 0.6210097670555115,
+      "learning_rate": 8.23529411764706e-06,
+      "loss": 0.8833,
+      "mean_token_accuracy": 0.7444836846534346,
+      "step": 42
+    },
+    {
+      "epoch": 0.12726600073991862,
+      "grad_norm": 0.600689709186554,
+      "learning_rate": 8.43137254901961e-06,
+      "loss": 0.8318,
+      "mean_token_accuracy": 0.7609372507118015,
+      "step": 43
+    },
+    {
+      "epoch": 0.13022567517573067,
+      "grad_norm": 0.5491411685943604,
+      "learning_rate": 8.627450980392157e-06,
+      "loss": 0.8631,
+      "mean_token_accuracy": 0.750162132080428,
+      "step": 44
+    },
+    {
+      "epoch": 0.13318534961154274,
+      "grad_norm": 0.5706349611282349,
+      "learning_rate": 8.823529411764707e-06,
+      "loss": 0.8782,
+      "mean_token_accuracy": 0.7451601161887986,
+      "step": 45
+    },
+    {
+      "epoch": 0.1361450240473548,
+      "grad_norm": 0.5555650591850281,
+      "learning_rate": 9.019607843137256e-06,
+      "loss": 0.823,
+      "mean_token_accuracy": 0.7618301473100519,
+      "step": 46
+    },
+    {
+      "epoch": 0.13910469848316684,
+      "grad_norm": 0.5772121548652649,
+      "learning_rate": 9.215686274509804e-06,
+      "loss": 0.828,
+      "mean_token_accuracy": 0.7588256411868824,
+      "step": 47
+    },
+    {
+      "epoch": 0.14206437291897892,
+      "grad_norm": 0.611781895160675,
+      "learning_rate": 9.411764705882354e-06,
+      "loss": 0.8425,
+      "mean_token_accuracy": 0.7546703623296309,
+      "step": 48
+    },
+    {
+      "epoch": 0.14502404735479096,
+      "grad_norm": 0.5700849294662476,
+      "learning_rate": 9.607843137254903e-06,
+      "loss": 0.8695,
+      "mean_token_accuracy": 0.7466177841712535,
+      "step": 49
+    },
+    {
+      "epoch": 0.14798372179060304,
+      "grad_norm": 0.5548747777938843,
+      "learning_rate": 9.803921568627451e-06,
+      "loss": 0.8548,
+      "mean_token_accuracy": 0.7508958491076401,
+      "step": 50
+    },
+    {
+      "epoch": 0.1509433962264151,
+      "grad_norm": 0.5233455300331116,
+      "learning_rate": 1e-05,
+      "loss": 0.8778,
+      "mean_token_accuracy": 0.7444452874755125,
+      "step": 51
+    },
+    {
+      "epoch": 0.15390307066222716,
+      "grad_norm": 0.567051112651825,
+      "learning_rate": 1.0196078431372549e-05,
+      "loss": 0.8213,
+      "mean_token_accuracy": 0.7609767092967284,
+      "step": 52
+    },
+    {
+      "epoch": 0.1568627450980392,
+      "grad_norm": 0.5394188165664673,
+      "learning_rate": 1.03921568627451e-05,
+      "loss": 0.8661,
+      "mean_token_accuracy": 0.7484568076496121,
+      "step": 53
+    },
+    {
+      "epoch": 0.1598224195338513,
+      "grad_norm": 0.5241853594779968,
+      "learning_rate": 1.0588235294117648e-05,
+      "loss": 0.8621,
+      "mean_token_accuracy": 0.7480956260768654,
+      "step": 54
+    },
+    {
+      "epoch": 0.16278209396966334,
+      "grad_norm": 0.48302915692329407,
+      "learning_rate": 1.0784313725490196e-05,
+      "loss": 0.8101,
+      "mean_token_accuracy": 0.7638810794013436,
+      "step": 55
+    },
+    {
+      "epoch": 0.1657417684054754,
+      "grad_norm": 0.5048951506614685,
+      "learning_rate": 1.0980392156862747e-05,
+      "loss": 0.8164,
+      "mean_token_accuracy": 0.7611000331453143,
+      "step": 56
+    },
+    {
+      "epoch": 0.16870144284128746,
+      "grad_norm": 0.5220761299133301,
+      "learning_rate": 1.1176470588235295e-05,
+      "loss": 0.8382,
+      "mean_token_accuracy": 0.7542881093651161,
+      "step": 57
+    },
+    {
+      "epoch": 0.1716611172770995,
+      "grad_norm": 0.5163182020187378,
+      "learning_rate": 1.1372549019607844e-05,
+      "loss": 0.845,
+      "mean_token_accuracy": 0.7544678776426703,
+      "step": 58
+    },
+    {
+      "epoch": 0.1746207917129116,
+      "grad_norm": 0.5414546132087708,
+      "learning_rate": 1.1568627450980394e-05,
+      "loss": 0.8115,
+      "mean_token_accuracy": 0.763602548207208,
+      "step": 59
+    },
+    {
+      "epoch": 0.17758046614872364,
+      "grad_norm": 0.49731120467185974,
+      "learning_rate": 1.1764705882352942e-05,
+      "loss": 0.8498,
+      "mean_token_accuracy": 0.7513782211298353,
+      "step": 60
+    },
+    {
+      "epoch": 0.1805401405845357,
+      "grad_norm": 0.48450183868408203,
+      "learning_rate": 1.1960784313725491e-05,
+      "loss": 0.8112,
+      "mean_token_accuracy": 0.760378165872515,
+      "step": 61
+    },
+    {
+      "epoch": 0.18349981502034776,
+      "grad_norm": 0.5090157985687256,
+      "learning_rate": 1.215686274509804e-05,
+      "loss": 0.8352,
+      "mean_token_accuracy": 0.7544511398898393,
+      "step": 62
+    },
+    {
+      "epoch": 0.1864594894561598,
+      "grad_norm": 0.5094890594482422,
+      "learning_rate": 1.235294117647059e-05,
+      "loss": 0.8169,
+      "mean_token_accuracy": 0.7596972963469578,
+      "step": 63
+    },
+    {
+      "epoch": 0.1894191638919719,
+      "grad_norm": 0.5052422881126404,
+      "learning_rate": 1.2549019607843138e-05,
+      "loss": 0.8397,
+      "mean_token_accuracy": 0.7528146247402845,
+      "step": 64
+    },
+    {
+      "epoch": 0.19237883832778394,
+      "grad_norm": 0.48801887035369873,
+      "learning_rate": 1.2745098039215686e-05,
+      "loss": 0.7911,
+      "mean_token_accuracy": 0.7666436131483815,
+      "step": 65
+    },
+    {
+      "epoch": 0.195338512763596,
+      "grad_norm": 0.49707359075546265,
+      "learning_rate": 1.2941176470588238e-05,
+      "loss": 0.8311,
+      "mean_token_accuracy": 0.7534919777308312,
+      "step": 66
+    },
+    {
+      "epoch": 0.19829818719940806,
+      "grad_norm": 0.47678443789482117,
+      "learning_rate": 1.3137254901960785e-05,
+      "loss": 0.7908,
+      "mean_token_accuracy": 0.7675227128959651,
+      "step": 67
+    },
+    {
+      "epoch": 0.20125786163522014,
+      "grad_norm": 0.5108245611190796,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.8136,
+      "mean_token_accuracy": 0.7605165307209668,
+      "step": 68
+    },
+    {
+      "epoch": 0.20421753607103219,
+      "grad_norm": 0.5529371500015259,
+      "learning_rate": 1.3529411764705885e-05,
+      "loss": 0.8289,
+      "mean_token_accuracy": 0.7556330264225892,
+      "step": 69
+    },
+    {
+      "epoch": 0.20717721050684423,
+      "grad_norm": 0.48820486664772034,
+      "learning_rate": 1.3725490196078432e-05,
+      "loss": 0.8322,
+      "mean_token_accuracy": 0.7555734646050257,
+      "step": 70
+    },
+    {
+      "epoch": 0.2101368849426563,
+      "grad_norm": 0.4998631775379181,
+      "learning_rate": 1.392156862745098e-05,
+      "loss": 0.7757,
+      "mean_token_accuracy": 0.7707598691626208,
+      "step": 71
+    },
+    {
+      "epoch": 0.21309655937846836,
+      "grad_norm": 0.5397401452064514,
+      "learning_rate": 1.4117647058823532e-05,
+      "loss": 0.8136,
+      "mean_token_accuracy": 0.7605449945205573,
+      "step": 72
+    },
+    {
+      "epoch": 0.21605623381428044,
+      "grad_norm": 0.5162031054496765,
+      "learning_rate": 1.431372549019608e-05,
+      "loss": 0.7805,
+      "mean_token_accuracy": 0.7688441270861772,
+      "step": 73
+    },
+    {
+      "epoch": 0.21901590825009248,
+      "grad_norm": 0.4769732654094696,
+      "learning_rate": 1.4509803921568629e-05,
+      "loss": 0.8062,
+      "mean_token_accuracy": 0.7610474880611428,
+      "step": 74
+    },
+    {
+      "epoch": 0.22197558268590456,
+      "grad_norm": 0.48078039288520813,
+      "learning_rate": 1.4705882352941179e-05,
+      "loss": 0.8152,
+      "mean_token_accuracy": 0.7588509310402451,
+      "step": 75
+    },
+    {
+      "epoch": 0.2249352571217166,
+      "grad_norm": 0.48076578974723816,
+      "learning_rate": 1.4901960784313726e-05,
+      "loss": 0.7886,
+      "mean_token_accuracy": 0.7669702001266795,
+      "step": 76
+    },
+    {
+      "epoch": 0.22789493155752868,
+      "grad_norm": 0.524426281452179,
+      "learning_rate": 1.5098039215686276e-05,
+      "loss": 0.7958,
+      "mean_token_accuracy": 0.7644518143592102,
+      "step": 77
+    },
+    {
+      "epoch": 0.23085460599334073,
+      "grad_norm": 0.48478269577026367,
+      "learning_rate": 1.5294117647058822e-05,
+      "loss": 0.822,
+      "mean_token_accuracy": 0.7575506383899827,
+      "step": 78
+    },
+    {
+      "epoch": 0.23381428042915278,
+      "grad_norm": 0.49773070216178894,
+      "learning_rate": 1.5490196078431373e-05,
+      "loss": 0.8007,
+      "mean_token_accuracy": 0.7629923994057785,
+      "step": 79
+    },
+    {
+      "epoch": 0.23677395486496486,
+      "grad_norm": 0.5387545228004456,
+      "learning_rate": 1.568627450980392e-05,
+      "loss": 0.8225,
+      "mean_token_accuracy": 0.7566505741674857,
+      "step": 80
+    },
+    {
+      "epoch": 0.2397336293007769,
+      "grad_norm": 0.4855351448059082,
+      "learning_rate": 1.5882352941176473e-05,
+      "loss": 0.775,
+      "mean_token_accuracy": 0.769850506922079,
+      "step": 81
+    },
+    {
+      "epoch": 0.24269330373658898,
+      "grad_norm": 0.47540611028671265,
+      "learning_rate": 1.607843137254902e-05,
+      "loss": 0.7937,
+      "mean_token_accuracy": 0.7641365526868825,
+      "step": 82
+    },
+    {
+      "epoch": 0.24565297817240103,
+      "grad_norm": 0.48479974269866943,
+      "learning_rate": 1.627450980392157e-05,
+      "loss": 0.8315,
+      "mean_token_accuracy": 0.7560415146119046,
+      "step": 83
+    },
+    {
+      "epoch": 0.2486126526082131,
+      "grad_norm": 0.5490248203277588,
+      "learning_rate": 1.647058823529412e-05,
+      "loss": 0.8276,
+      "mean_token_accuracy": 0.7542041203825852,
+      "step": 84
+    },
+    {
+      "epoch": 0.25157232704402516,
+      "grad_norm": 0.4909403920173645,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.8113,
+      "mean_token_accuracy": 0.7590975144970054,
+      "step": 85
+    },
+    {
+      "epoch": 0.25453200147983723,
+      "grad_norm": 0.47584831714630127,
+      "learning_rate": 1.686274509803922e-05,
+      "loss": 0.764,
+      "mean_token_accuracy": 0.7724685847938628,
+      "step": 86
+    },
+    {
+      "epoch": 0.25749167591564925,
+      "grad_norm": 0.49695855379104614,
+      "learning_rate": 1.7058823529411767e-05,
+      "loss": 0.7542,
+      "mean_token_accuracy": 0.7775013855023025,
+      "step": 87
+    },
+    {
+      "epoch": 0.26045135035146133,
+      "grad_norm": 0.5099871754646301,
+      "learning_rate": 1.7254901960784314e-05,
+      "loss": 0.7644,
+      "mean_token_accuracy": 0.7725364928369027,
+      "step": 88
+    },
+    {
+      "epoch": 0.2634110247872734,
+      "grad_norm": 0.5371332764625549,
+      "learning_rate": 1.7450980392156866e-05,
+      "loss": 0.8248,
+      "mean_token_accuracy": 0.7555675225937974,
+      "step": 89
+    },
+    {
+      "epoch": 0.2663706992230855,
+      "grad_norm": 0.5191521048545837,
+      "learning_rate": 1.7647058823529414e-05,
+      "loss": 0.8008,
+      "mean_token_accuracy": 0.7618285114849587,
+      "step": 90
+    },
+    {
+      "epoch": 0.2693303736588975,
+      "grad_norm": 0.5234159231185913,
+      "learning_rate": 1.7843137254901965e-05,
+      "loss": 0.8007,
+      "mean_token_accuracy": 0.7619624657540706,
+      "step": 91
+    },
+    {
+      "epoch": 0.2722900480947096,
+      "grad_norm": 0.5274977087974548,
+      "learning_rate": 1.8039215686274513e-05,
+      "loss": 0.8176,
+      "mean_token_accuracy": 0.7581840756170707,
+      "step": 92
+    },
+    {
+      "epoch": 0.27524972253052166,
+      "grad_norm": 0.5195613503456116,
+      "learning_rate": 1.823529411764706e-05,
+      "loss": 0.7421,
+      "mean_token_accuracy": 0.7779025499948702,
+      "step": 93
+    },
+    {
+      "epoch": 0.2782093969663337,
+      "grad_norm": 0.5123000741004944,
+      "learning_rate": 1.843137254901961e-05,
+      "loss": 0.7924,
+      "mean_token_accuracy": 0.7655979691874065,
+      "step": 94
+    },
+    {
+      "epoch": 0.28116907140214575,
+      "grad_norm": 0.5142971277236938,
+      "learning_rate": 1.862745098039216e-05,
+      "loss": 0.7904,
+      "mean_token_accuracy": 0.7648081417962661,
+      "step": 95
+    },
+    {
+      "epoch": 0.28412874583795783,
+      "grad_norm": 0.5216192007064819,
+      "learning_rate": 1.8823529411764708e-05,
+      "loss": 0.7764,
+      "mean_token_accuracy": 0.7663588698907876,
+      "step": 96
+    },
+    {
+      "epoch": 0.2870884202737699,
+      "grad_norm": 0.533979058265686,
+      "learning_rate": 1.9019607843137255e-05,
+      "loss": 0.8085,
+      "mean_token_accuracy": 0.7584315215207101,
+      "step": 97
+    },
+    {
+      "epoch": 0.2900480947095819,
+      "grad_norm": 0.4970541000366211,
+      "learning_rate": 1.9215686274509807e-05,
+      "loss": 0.7709,
+      "mean_token_accuracy": 0.7712429032432324,
+      "step": 98
+    },
+    {
+      "epoch": 0.293007769145394,
+      "grad_norm": 0.5441746115684509,
+      "learning_rate": 1.9411764705882355e-05,
+      "loss": 0.7992,
+      "mean_token_accuracy": 0.7626096179397713,
+      "step": 99
+    },
+    {
+      "epoch": 0.2959674435812061,
+      "grad_norm": 0.5223695635795593,
+      "learning_rate": 1.9607843137254903e-05,
+      "loss": 0.8004,
+      "mean_token_accuracy": 0.7618210772497175,
+      "step": 100
+    },
+    {
+      "epoch": 0.2959674435812061,
+      "eval_loss": 0.8126489520072937,
+      "eval_mean_token_accuracy": 0.7551172949521177,
+      "eval_runtime": 24.8878,
+      "eval_samples_per_second": 5.183,
+      "eval_steps_per_second": 1.326,
+      "step": 100
+    },
+    {
+      "epoch": 0.2989271180170181,
+      "grad_norm": 0.5140753984451294,
+      "learning_rate": 1.9803921568627454e-05,
+      "loss": 0.8128,
+      "mean_token_accuracy": 0.7589419990451155,
+      "step": 101
+    },
+    {
+      "epoch": 0.3018867924528302,
+      "grad_norm": 0.5474939942359924,
+      "learning_rate": 2e-05,
+      "loss": 0.7814,
+      "mean_token_accuracy": 0.7675481741705397,
+      "step": 102
+    },
+    {
+      "epoch": 0.30484646688864225,
+      "grad_norm": 0.5351850390434265,
+      "learning_rate": 1.9999940277008807e-05,
+      "loss": 0.8039,
+      "mean_token_accuracy": 0.7606729614320974,
+      "step": 103
+    },
+    {
+      "epoch": 0.30780614132445433,
+      "grad_norm": 0.5160948038101196,
+      "learning_rate": 1.99997611087486e-05,
+      "loss": 0.7853,
+      "mean_token_accuracy": 0.7661865778379009,
+      "step": 104
+    },
+    {
+      "epoch": 0.31076581576026635,
+      "grad_norm": 0.5185216665267944,
+      "learning_rate": 1.9999462497359468e-05,
+      "loss": 0.7549,
+      "mean_token_accuracy": 0.7736576692294679,
+      "step": 105
+    },
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 0.4885355830192566,
+      "learning_rate": 1.9999044446408203e-05,
+      "loss": 0.7727,
+      "mean_token_accuracy": 0.769001304246102,
+      "step": 106
+    },
+    {
+      "epoch": 0.3166851646318905,
+      "grad_norm": 0.615883469581604,
+      "learning_rate": 1.9998506960888258e-05,
+      "loss": 0.7991,
+      "mean_token_accuracy": 0.7610468017188765,
+      "step": 107
+    },
+    {
+      "epoch": 0.3196448390677026,
+      "grad_norm": 0.520724892616272,
+      "learning_rate": 1.999785004721968e-05,
+      "loss": 0.7932,
+      "mean_token_accuracy": 0.7632453023136502,
+      "step": 108
+    },
+    {
+      "epoch": 0.3226045135035146,
+      "grad_norm": 0.5822110772132874,
+      "learning_rate": 1.999707371324904e-05,
+      "loss": 0.809,
+      "mean_token_accuracy": 0.7592238599169098,
+      "step": 109
+    },
+    {
+      "epoch": 0.3255641879393267,
+      "grad_norm": 0.5411946177482605,
+      "learning_rate": 1.9996177968249336e-05,
+      "loss": 0.738,
+      "mean_token_accuracy": 0.7779971005622943,
+      "step": 110
+    },
+    {
+      "epoch": 0.32852386237513875,
+      "grad_norm": 0.5421875715255737,
+      "learning_rate": 1.999516282291988e-05,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.7613603734181074,
+      "step": 111
+    },
+    {
+      "epoch": 0.3314835368109508,
+      "grad_norm": 0.5699617266654968,
+      "learning_rate": 1.999402828938618e-05,
+      "loss": 0.7994,
+      "mean_token_accuracy": 0.7613545035512745,
+      "step": 112
+    },
+    {
+      "epoch": 0.33444321124676285,
+      "grad_norm": 0.5206153988838196,
+      "learning_rate": 1.999277438119978e-05,
+      "loss": 0.7778,
+      "mean_token_accuracy": 0.7683061531083251,
+      "step": 113
+    },
+    {
+      "epoch": 0.3374028856825749,
+      "grad_norm": 0.5244638323783875,
+      "learning_rate": 1.9991401113338103e-05,
+      "loss": 0.8023,
+      "mean_token_accuracy": 0.7609702591724479,
+      "step": 114
+    },
+    {
+      "epoch": 0.340362560118387,
+      "grad_norm": 0.5344120860099792,
+      "learning_rate": 1.9989908502204295e-05,
+      "loss": 0.7793,
+      "mean_token_accuracy": 0.7666984560859803,
+      "step": 115
+    },
+    {
+      "epoch": 0.343322234554199,
+      "grad_norm": 0.505351185798645,
+      "learning_rate": 1.9988296565626988e-05,
+      "loss": 0.7577,
+      "mean_token_accuracy": 0.7727362055103163,
+      "step": 116
+    },
+    {
+      "epoch": 0.3462819089900111,
+      "grad_norm": 0.5267241597175598,
+      "learning_rate": 1.9986565322860117e-05,
+      "loss": 0.8223,
+      "mean_token_accuracy": 0.7553329490401921,
+      "step": 117
+    },
+    {
+      "epoch": 0.3492415834258232,
+      "grad_norm": 0.5347175002098083,
+      "learning_rate": 1.9984714794582682e-05,
+      "loss": 0.8163,
+      "mean_token_accuracy": 0.7553841783952017,
+      "step": 118
+    },
+    {
+      "epoch": 0.3522012578616352,
+      "grad_norm": 0.5740127563476562,
+      "learning_rate": 1.99827450028985e-05,
+      "loss": 0.7804,
+      "mean_token_accuracy": 0.7664757137429672,
+      "step": 119
+    },
+    {
+      "epoch": 0.3551609322974473,
+      "grad_norm": 0.5313867330551147,
+      "learning_rate": 1.9980655971335944e-05,
+      "loss": 0.81,
+      "mean_token_accuracy": 0.7596098693206174,
+      "step": 120
+    },
+    {
+      "epoch": 0.35812060673325935,
+      "grad_norm": 0.5177193284034729,
+      "learning_rate": 1.9978447724847655e-05,
+      "loss": 0.7956,
+      "mean_token_accuracy": 0.7617352886178098,
+      "step": 121
+    },
+    {
+      "epoch": 0.3610802811690714,
+      "grad_norm": 0.564724326133728,
+      "learning_rate": 1.9976120289810247e-05,
+      "loss": 0.8109,
+      "mean_token_accuracy": 0.7577093596124115,
+      "step": 122
+    },
+    {
+      "epoch": 0.36403995560488345,
+      "grad_norm": 0.539661169052124,
+      "learning_rate": 1.9973673694024002e-05,
+      "loss": 0.7858,
+      "mean_token_accuracy": 0.7645922340526763,
+      "step": 123
+    },
+    {
+      "epoch": 0.3669996300406955,
+      "grad_norm": 0.5084680318832397,
+      "learning_rate": 1.9971107966712518e-05,
+      "loss": 0.7463,
+      "mean_token_accuracy": 0.7753920713027525,
+      "step": 124
+    },
+    {
+      "epoch": 0.3699593044765076,
+      "grad_norm": 0.4952844977378845,
+      "learning_rate": 1.9968423138522382e-05,
+      "loss": 0.7739,
+      "mean_token_accuracy": 0.7676340081581494,
+      "step": 125
+    },
+    {
+      "epoch": 0.3729189789123196,
+      "grad_norm": 0.5472536087036133,
+      "learning_rate": 1.996561924152278e-05,
+      "loss": 0.8,
+      "mean_token_accuracy": 0.7616544988854603,
+      "step": 126
+    },
+    {
+      "epoch": 0.3758786533481317,
+      "grad_norm": 0.5309717059135437,
+      "learning_rate": 1.9962696309205146e-05,
+      "loss": 0.7776,
+      "mean_token_accuracy": 0.7678901777514975,
+      "step": 127
+    },
+    {
+      "epoch": 0.3788383277839438,
+      "grad_norm": 0.5029951930046082,
+      "learning_rate": 1.995965437648273e-05,
+      "loss": 0.7761,
+      "mean_token_accuracy": 0.766595985687639,
+      "step": 128
+    },
+    {
+      "epoch": 0.38179800221975585,
+      "grad_norm": 0.5340363383293152,
+      "learning_rate": 1.995649347969019e-05,
+      "loss": 0.7457,
+      "mean_token_accuracy": 0.7745559370999009,
+      "step": 129
+    },
+    {
+      "epoch": 0.38475767665556787,
+      "grad_norm": 0.5484894514083862,
+      "learning_rate": 1.995321365658317e-05,
+      "loss": 0.7997,
+      "mean_token_accuracy": 0.7594812381150867,
+      "step": 130
+    },
+    {
+      "epoch": 0.38771735109137995,
+      "grad_norm": 0.6396868228912354,
+      "learning_rate": 1.994981494633784e-05,
+      "loss": 0.7976,
+      "mean_token_accuracy": 0.7599872025655441,
+      "step": 131
+    },
+    {
+      "epoch": 0.390677025527192,
+      "grad_norm": 0.5394526124000549,
+      "learning_rate": 1.9946297389550433e-05,
+      "loss": 0.7993,
+      "mean_token_accuracy": 0.7608908088026568,
+      "step": 132
+    },
+    {
+      "epoch": 0.39363669996300404,
+      "grad_norm": 0.6235033869743347,
+      "learning_rate": 1.9942661028236746e-05,
+      "loss": 0.787,
+      "mean_token_accuracy": 0.7650479719064859,
+      "step": 133
+    },
+    {
+      "epoch": 0.3965963743988161,
+      "grad_norm": 0.5509399175643921,
+      "learning_rate": 1.9938905905831657e-05,
+      "loss": 0.7841,
+      "mean_token_accuracy": 0.7647842322769413,
+      "step": 134
+    },
+    {
+      "epoch": 0.3995560488346282,
+      "grad_norm": 0.589085578918457,
+      "learning_rate": 1.993503206718859e-05,
+      "loss": 0.7701,
+      "mean_token_accuracy": 0.7691342710083168,
+      "step": 135
+    },
+    {
+      "epoch": 0.4025157232704403,
+      "grad_norm": 0.5094689726829529,
+      "learning_rate": 1.9931039558578997e-05,
+      "loss": 0.755,
+      "mean_token_accuracy": 0.773621444740238,
+      "step": 136
+    },
+    {
+      "epoch": 0.4054753977062523,
+      "grad_norm": 0.5288008451461792,
+      "learning_rate": 1.9926928427691788e-05,
+      "loss": 0.733,
+      "mean_token_accuracy": 0.7798217961404127,
+      "step": 137
+    },
+    {
+      "epoch": 0.40843507214206437,
+      "grad_norm": 0.5860950350761414,
+      "learning_rate": 1.992269872363277e-05,
+      "loss": 0.7793,
+      "mean_token_accuracy": 0.7671219171893889,
+      "step": 138
+    },
+    {
+      "epoch": 0.41139474657787645,
+      "grad_norm": 0.5211442708969116,
+      "learning_rate": 1.991835049692405e-05,
+      "loss": 0.7589,
+      "mean_token_accuracy": 0.7712709984233845,
+      "step": 139
+    },
+    {
+      "epoch": 0.41435442101368847,
+      "grad_norm": 0.6341312527656555,
+      "learning_rate": 1.991388379950346e-05,
+      "loss": 0.7555,
+      "mean_token_accuracy": 0.7726431562687772,
+      "step": 140
+    },
+    {
+      "epoch": 0.41731409544950054,
+      "grad_norm": 0.5119423866271973,
+      "learning_rate": 1.9909298684723905e-05,
+      "loss": 0.7696,
+      "mean_token_accuracy": 0.7683422766172284,
+      "step": 141
+    },
+    {
+      "epoch": 0.4202737698853126,
+      "grad_norm": 0.5573475956916809,
+      "learning_rate": 1.9904595207352736e-05,
+      "loss": 0.7586,
+      "mean_token_accuracy": 0.7709694689177727,
+      "step": 142
+    },
+    {
+      "epoch": 0.4232334443211247,
+      "grad_norm": 0.5152528882026672,
+      "learning_rate": 1.9899773423571102e-05,
+      "loss": 0.742,
+      "mean_token_accuracy": 0.776040556686583,
+      "step": 143
+    },
+    {
+      "epoch": 0.4261931187569367,
+      "grad_norm": 0.5058140754699707,
+      "learning_rate": 1.9894833390973266e-05,
+      "loss": 0.8094,
+      "mean_token_accuracy": 0.7577251436684603,
+      "step": 144
+    },
+    {
+      "epoch": 0.4291527931927488,
+      "grad_norm": 0.5282382965087891,
+      "learning_rate": 1.9889775168565942e-05,
+      "loss": 0.7748,
+      "mean_token_accuracy": 0.7683045482642854,
+      "step": 145
+    },
+    {
+      "epoch": 0.43211246762856087,
+      "grad_norm": 0.6103954315185547,
+      "learning_rate": 1.9884598816767563e-05,
+      "loss": 0.805,
+      "mean_token_accuracy": 0.7593984139774315,
+      "step": 146
+    },
+    {
+      "epoch": 0.43507214206437295,
+      "grad_norm": 0.530112087726593,
+      "learning_rate": 1.987930439740757e-05,
+      "loss": 0.7537,
+      "mean_token_accuracy": 0.7733501196092509,
+      "step": 147
+    },
+    {
+      "epoch": 0.43803181650018497,
+      "grad_norm": 0.5501434206962585,
+      "learning_rate": 1.9873891973725673e-05,
+      "loss": 0.752,
+      "mean_token_accuracy": 0.7755143180889366,
+      "step": 148
+    },
+    {
+      "epoch": 0.44099149093599704,
+      "grad_norm": 0.496888667345047,
+      "learning_rate": 1.98683616103711e-05,
+      "loss": 0.7624,
+      "mean_token_accuracy": 0.7707987778410632,
+      "step": 149
+    },
+    {
+      "epoch": 0.4439511653718091,
+      "grad_norm": 0.5206103324890137,
+      "learning_rate": 1.986271337340182e-05,
+      "loss": 0.7754,
+      "mean_token_accuracy": 0.7663099883208253,
+      "step": 150
+    },
+    {
+      "epoch": 0.44691083980762114,
+      "grad_norm": 0.5429675579071045,
+      "learning_rate": 1.9856947330283752e-05,
+      "loss": 0.7418,
+      "mean_token_accuracy": 0.7745724176097732,
+      "step": 151
+    },
+    {
+      "epoch": 0.4498705142434332,
+      "grad_norm": 0.515471875667572,
+      "learning_rate": 1.985106354988997e-05,
+      "loss": 0.7517,
+      "mean_token_accuracy": 0.7713102457643006,
+      "step": 152
+    },
+    {
+      "epoch": 0.4528301886792453,
+      "grad_norm": 0.5580022931098938,
+      "learning_rate": 1.984506210249986e-05,
+      "loss": 0.7372,
+      "mean_token_accuracy": 0.7783837879306136,
+      "step": 153
+    },
+    {
+      "epoch": 0.45578986311505737,
+      "grad_norm": 0.5351727604866028,
+      "learning_rate": 1.9838943059798305e-05,
+      "loss": 0.7632,
+      "mean_token_accuracy": 0.7712246098769842,
+      "step": 154
+    },
+    {
+      "epoch": 0.4587495375508694,
+      "grad_norm": 0.5970275402069092,
+      "learning_rate": 1.9832706494874812e-05,
+      "loss": 0.7852,
+      "mean_token_accuracy": 0.7650099910061801,
+      "step": 155
+    },
+    {
+      "epoch": 0.46170921198668147,
+      "grad_norm": 0.535476803779602,
+      "learning_rate": 1.982635248222264e-05,
+      "loss": 0.8135,
+      "mean_token_accuracy": 0.7548096205593479,
+      "step": 156
+    },
+    {
+      "epoch": 0.46466888642249354,
+      "grad_norm": 0.5446284413337708,
+      "learning_rate": 1.9819881097737917e-05,
+      "loss": 0.7753,
+      "mean_token_accuracy": 0.766597256567756,
+      "step": 157
+    },
+    {
+      "epoch": 0.46762856085830556,
+      "grad_norm": 0.5779156684875488,
+      "learning_rate": 1.9813292418718734e-05,
+      "loss": 0.8178,
+      "mean_token_accuracy": 0.7556820545263497,
+      "step": 158
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.5383659601211548,
+      "learning_rate": 1.9806586523864212e-05,
+      "loss": 0.7787,
+      "mean_token_accuracy": 0.7652851550298655,
+      "step": 159
+    },
+    {
+      "epoch": 0.4735479097299297,
+      "grad_norm": 0.5274466872215271,
+      "learning_rate": 1.9799763493273572e-05,
+      "loss": 0.7451,
+      "mean_token_accuracy": 0.7758701051335468,
+      "step": 160
+    },
+    {
+      "epoch": 0.4765075841657418,
+      "grad_norm": 0.5253377556800842,
+      "learning_rate": 1.9792823408445173e-05,
+      "loss": 0.7794,
+      "mean_token_accuracy": 0.7660881601135704,
+      "step": 161
+    },
+    {
+      "epoch": 0.4794672586015538,
+      "grad_norm": 0.6184384822845459,
+      "learning_rate": 1.978576635227554e-05,
+      "loss": 0.7705,
+      "mean_token_accuracy": 0.7684919526843087,
+      "step": 162
+    },
+    {
+      "epoch": 0.4824269330373659,
+      "grad_norm": 0.5399531126022339,
+      "learning_rate": 1.9778592409058376e-05,
+      "loss": 0.7496,
+      "mean_token_accuracy": 0.7751951559026848,
+      "step": 163
+    },
+    {
+      "epoch": 0.48538660747317797,
+      "grad_norm": 0.5651612281799316,
+      "learning_rate": 1.9771301664483548e-05,
+      "loss": 0.7637,
+      "mean_token_accuracy": 0.770090502168717,
+      "step": 164
+    },
+    {
+      "epoch": 0.48834628190899,
+      "grad_norm": 0.6314195394515991,
+      "learning_rate": 1.976389420563607e-05,
+      "loss": 0.7634,
+      "mean_token_accuracy": 0.7709643457026975,
+      "step": 165
+    },
+    {
+      "epoch": 0.49130595634480206,
+      "grad_norm": 0.5370025634765625,
+      "learning_rate": 1.975637012099507e-05,
+      "loss": 0.7467,
+      "mean_token_accuracy": 0.7752258048770664,
+      "step": 166
+    },
+    {
+      "epoch": 0.49426563078061414,
+      "grad_norm": 0.5424651503562927,
+      "learning_rate": 1.97487295004327e-05,
+      "loss": 0.7933,
+      "mean_token_accuracy": 0.760696495825342,
+      "step": 167
+    },
+    {
+      "epoch": 0.4972253052164262,
+      "grad_norm": 0.5711933970451355,
+      "learning_rate": 1.9740972435213114e-05,
+      "loss": 0.7928,
+      "mean_token_accuracy": 0.761649293131421,
+      "step": 168
+    },
+    {
+      "epoch": 0.5001849796522383,
+      "grad_norm": 0.5219062566757202,
+      "learning_rate": 1.9733099017991342e-05,
+      "loss": 0.7861,
+      "mean_token_accuracy": 0.7628095190256412,
+      "step": 169
+    },
+    {
+      "epoch": 0.5031446540880503,
+      "grad_norm": 0.4978106617927551,
+      "learning_rate": 1.972510934281218e-05,
+      "loss": 0.7631,
+      "mean_token_accuracy": 0.7710752711114524,
+      "step": 170
+    },
+    {
+      "epoch": 0.5061043285238623,
+      "grad_norm": 0.6013402938842773,
+      "learning_rate": 1.9717003505109097e-05,
+      "loss": 0.7991,
+      "mean_token_accuracy": 0.7586557673484216,
+      "step": 171
+    },
+    {
+      "epoch": 0.5090640029596745,
+      "grad_norm": 0.5215644836425781,
+      "learning_rate": 1.9708781601703066e-05,
+      "loss": 0.763,
+      "mean_token_accuracy": 0.7695876606622123,
+      "step": 172
+    },
+    {
+      "epoch": 0.5120236773954865,
+      "grad_norm": 0.49007105827331543,
+      "learning_rate": 1.9700443730801412e-05,
+      "loss": 0.7644,
+      "mean_token_accuracy": 0.7701783635410456,
+      "step": 173
+    },
+    {
+      "epoch": 0.5149833518312985,
+      "grad_norm": 0.5938363075256348,
+      "learning_rate": 1.9691989991996663e-05,
+      "loss": 0.7643,
+      "mean_token_accuracy": 0.7680917186626302,
+      "step": 174
+    },
+    {
+      "epoch": 0.5179430262671106,
+      "grad_norm": 0.5483390092849731,
+      "learning_rate": 1.9683420486265328e-05,
+      "loss": 0.7651,
+      "mean_token_accuracy": 0.7709870011542461,
+      "step": 175
+    },
+    {
+      "epoch": 0.5209027007029227,
+      "grad_norm": 0.5027016997337341,
+      "learning_rate": 1.967473531596671e-05,
+      "loss": 0.7513,
+      "mean_token_accuracy": 0.7730452420829894,
+      "step": 176
+    },
+    {
+      "epoch": 0.5238623751387348,
+      "grad_norm": 0.5310905575752258,
+      "learning_rate": 1.966593458484168e-05,
+      "loss": 0.7715,
+      "mean_token_accuracy": 0.7680981483212205,
+      "step": 177
+    },
+    {
+      "epoch": 0.5268220495745468,
+      "grad_norm": 0.5523523688316345,
+      "learning_rate": 1.9657018398011435e-05,
+      "loss": 0.7674,
+      "mean_token_accuracy": 0.7684800548855188,
+      "step": 178
+    },
+    {
+      "epoch": 0.5297817240103588,
+      "grad_norm": 0.5446920394897461,
+      "learning_rate": 1.9647986861976246e-05,
+      "loss": 0.773,
+      "mean_token_accuracy": 0.7688905853900413,
+      "step": 179
+    },
+    {
+      "epoch": 0.532741398446171,
+      "grad_norm": 0.5408650636672974,
+      "learning_rate": 1.9638840084614182e-05,
+      "loss": 0.7204,
+      "mean_token_accuracy": 0.7827706625253021,
+      "step": 180
+    },
+    {
+      "epoch": 0.535701072881983,
+      "grad_norm": 0.5880627632141113,
+      "learning_rate": 1.9629578175179823e-05,
+      "loss": 0.7587,
+      "mean_token_accuracy": 0.7718611041296293,
+      "step": 181
+    },
+    {
+      "epoch": 0.538660747317795,
+      "grad_norm": 0.5494539141654968,
+      "learning_rate": 1.9620201244302952e-05,
+      "loss": 0.7487,
+      "mean_token_accuracy": 0.7745951212558507,
+      "step": 182
+    },
+    {
+      "epoch": 0.5416204217536071,
+      "grad_norm": 0.5416110754013062,
+      "learning_rate": 1.9610709403987248e-05,
+      "loss": 0.7583,
+      "mean_token_accuracy": 0.7723263702843611,
+      "step": 183
+    },
+    {
+      "epoch": 0.5445800961894192,
+      "grad_norm": 0.5187686681747437,
+      "learning_rate": 1.9601102767608924e-05,
+      "loss": 0.7727,
+      "mean_token_accuracy": 0.7669931715546834,
+      "step": 184
+    },
+    {
+      "epoch": 0.5475397706252312,
+      "grad_norm": 0.6072437763214111,
+      "learning_rate": 1.95913814499154e-05,
+      "loss": 0.7758,
+      "mean_token_accuracy": 0.7658226539132729,
+      "step": 185
+    },
+    {
+      "epoch": 0.5504994450610433,
+      "grad_norm": 0.5267654061317444,
+      "learning_rate": 1.95815455670239e-05,
+      "loss": 0.7799,
+      "mean_token_accuracy": 0.7644383151164792,
+      "step": 186
+    },
+    {
+      "epoch": 0.5534591194968553,
+      "grad_norm": 0.5116267800331116,
+      "learning_rate": 1.9571595236420103e-05,
+      "loss": 0.765,
+      "mean_token_accuracy": 0.7686784858855072,
+      "step": 187
+    },
+    {
+      "epoch": 0.5564187939326674,
+      "grad_norm": 0.5083511471748352,
+      "learning_rate": 1.9561530576956703e-05,
+      "loss": 0.7293,
+      "mean_token_accuracy": 0.7782823905710549,
+      "step": 188
+    },
+    {
+      "epoch": 0.5593784683684795,
+      "grad_norm": 0.5557141900062561,
+      "learning_rate": 1.955135170885202e-05,
+      "loss": 0.7426,
+      "mean_token_accuracy": 0.7763826979033814,
+      "step": 189
+    },
+    {
+      "epoch": 0.5623381428042915,
+      "grad_norm": 0.5787784457206726,
+      "learning_rate": 1.9541058753688538e-05,
+      "loss": 0.7484,
+      "mean_token_accuracy": 0.7738303017670985,
+      "step": 190
+    },
+    {
+      "epoch": 0.5652978172401036,
+      "grad_norm": 0.5557724237442017,
+      "learning_rate": 1.9530651834411477e-05,
+      "loss": 0.7603,
+      "mean_token_accuracy": 0.7699144780244102,
+      "step": 191
+    },
+    {
+      "epoch": 0.5682574916759157,
+      "grad_norm": 0.5540621876716614,
+      "learning_rate": 1.95201310753273e-05,
+      "loss": 0.7224,
+      "mean_token_accuracy": 0.7793132883624135,
+      "step": 192
+    },
+    {
+      "epoch": 0.5712171661117277,
+      "grad_norm": 0.5053984522819519,
+      "learning_rate": 1.9509496602102253e-05,
+      "loss": 0.7258,
+      "mean_token_accuracy": 0.7800444754491836,
+      "step": 193
+    },
+    {
+      "epoch": 0.5741768405475398,
+      "grad_norm": 0.49898284673690796,
+      "learning_rate": 1.9498748541760845e-05,
+      "loss": 0.7396,
+      "mean_token_accuracy": 0.7753466916631608,
+      "step": 194
+    },
+    {
+      "epoch": 0.5771365149833518,
+      "grad_norm": 0.5799064040184021,
+      "learning_rate": 1.9487887022684336e-05,
+      "loss": 0.7602,
+      "mean_token_accuracy": 0.7701053674537776,
+      "step": 195
+    },
+    {
+      "epoch": 0.5800961894191639,
+      "grad_norm": 0.5606354475021362,
+      "learning_rate": 1.947691217460921e-05,
+      "loss": 0.7544,
+      "mean_token_accuracy": 0.77100937072039,
+      "step": 196
+    },
+    {
+      "epoch": 0.583055863854976,
+      "grad_norm": 0.4998267590999603,
+      "learning_rate": 1.946582412862562e-05,
+      "loss": 0.766,
+      "mean_token_accuracy": 0.7682667265118656,
+      "step": 197
+    },
+    {
+      "epoch": 0.586015538290788,
+      "grad_norm": 0.5629295110702515,
+      "learning_rate": 1.9454623017175814e-05,
+      "loss": 0.7424,
+      "mean_token_accuracy": 0.7752050364586516,
+      "step": 198
+    },
+    {
+      "epoch": 0.5889752127266,
+      "grad_norm": 0.4932561218738556,
+      "learning_rate": 1.9443308974052574e-05,
+      "loss": 0.7489,
+      "mean_token_accuracy": 0.7741070965947788,
+      "step": 199
+    },
+    {
+      "epoch": 0.5919348871624122,
+      "grad_norm": 0.6265371441841125,
+      "learning_rate": 1.9431882134397596e-05,
+      "loss": 0.7658,
+      "mean_token_accuracy": 0.7681866412889478,
+      "step": 200
+    },
+    {
+      "epoch": 0.5919348871624122,
+      "eval_loss": 0.778282105922699,
+      "eval_mean_token_accuracy": 0.7620499776343601,
+      "eval_runtime": 24.5192,
+      "eval_samples_per_second": 5.261,
+      "eval_steps_per_second": 1.346,
+      "step": 200
+    },
+    {
+      "epoch": 0.5948945615982242,
+      "grad_norm": 0.5446656346321106,
+      "learning_rate": 1.9420342634699893e-05,
+      "loss": 0.722,
+      "mean_token_accuracy": 0.7810348950987986,
+      "step": 201
+    },
+    {
+      "epoch": 0.5978542360340362,
+      "grad_norm": 0.5253841876983643,
+      "learning_rate": 1.9408690612794146e-05,
+      "loss": 0.7758,
+      "mean_token_accuracy": 0.7659725997741449,
+      "step": 202
+    },
+    {
+      "epoch": 0.6008139104698483,
+      "grad_norm": 0.5887268781661987,
+      "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.7107,
+      "mean_token_accuracy": 0.7828422379162261,
+      "step": 203
+    },
+    {
+      "epoch": 0.6037735849056604,
+      "grad_norm": 0.5546231269836426,
+      "learning_rate": 1.9385049560415794e-05,
+      "loss": 0.7812,
+      "mean_token_accuracy": 0.7646388223607241,
+      "step": 204
+    },
+    {
+      "epoch": 0.6067332593414725,
+      "grad_norm": 0.5595012307167053,
+      "learning_rate": 1.9373060812326053e-05,
+      "loss": 0.7368,
+      "mean_token_accuracy": 0.7771756648124704,
+      "step": 205
+    },
+    {
+      "epoch": 0.6096929337772845,
+      "grad_norm": 0.6051347255706787,
+      "learning_rate": 1.9360960106790645e-05,
+      "loss": 0.7637,
+      "mean_token_accuracy": 0.7687831877533422,
+      "step": 206
+    },
+    {
+      "epoch": 0.6126526082130965,
+      "grad_norm": 0.5045530200004578,
+      "learning_rate": 1.9348747588347637e-05,
+      "loss": 0.7633,
+      "mean_token_accuracy": 0.7716161599834406,
+      "step": 207
+    },
+    {
+      "epoch": 0.6156122826489087,
+      "grad_norm": 0.5844081044197083,
+      "learning_rate": 1.9336423402870655e-05,
+      "loss": 0.7634,
+      "mean_token_accuracy": 0.7698122225847835,
+      "step": 208
+    },
+    {
+      "epoch": 0.6185719570847207,
+      "grad_norm": 0.516323983669281,
+      "learning_rate": 1.932398769756714e-05,
+      "loss": 0.7347,
+      "mean_token_accuracy": 0.7758576109605254,
+      "step": 209
+    },
+    {
+      "epoch": 0.6215316315205327,
+      "grad_norm": 0.6504623293876648,
+      "learning_rate": 1.9311440620976597e-05,
+      "loss": 0.7375,
+      "mean_token_accuracy": 0.7756102635673668,
+      "step": 210
+    },
+    {
+      "epoch": 0.6244913059563448,
+      "grad_norm": 0.6118385195732117,
+      "learning_rate": 1.9298782322968817e-05,
+      "loss": 0.7734,
+      "mean_token_accuracy": 0.7640280400757476,
+      "step": 211
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 0.5381941795349121,
+      "learning_rate": 1.9286012954742078e-05,
+      "loss": 0.7426,
+      "mean_token_accuracy": 0.7750216295859045,
+      "step": 212
+    },
+    {
+      "epoch": 0.6304106548279689,
+      "grad_norm": 0.6116046905517578,
+      "learning_rate": 1.9273132668821363e-05,
+      "loss": 0.7894,
+      "mean_token_accuracy": 0.7624240258634218,
+      "step": 213
+    },
+    {
+      "epoch": 0.633370329263781,
+      "grad_norm": 0.5995723009109497,
+      "learning_rate": 1.9260141619056507e-05,
+      "loss": 0.8063,
+      "mean_token_accuracy": 0.7580679708807321,
+      "step": 214
+    },
+    {
+      "epoch": 0.636330003699593,
+      "grad_norm": 0.6060746312141418,
+      "learning_rate": 1.924703996062038e-05,
+      "loss": 0.7825,
+      "mean_token_accuracy": 0.7644491908483929,
+      "step": 215
+    },
+    {
+      "epoch": 0.6392896781354052,
+      "grad_norm": 0.4967659115791321,
+      "learning_rate": 1.9233827850007028e-05,
+      "loss": 0.7419,
+      "mean_token_accuracy": 0.7752207223816133,
+      "step": 216
+    },
+    {
+      "epoch": 0.6422493525712172,
+      "grad_norm": 0.5452144145965576,
+      "learning_rate": 1.9220505445029803e-05,
+      "loss": 0.7419,
+      "mean_token_accuracy": 0.7768822483190798,
+      "step": 217
+    },
+    {
+      "epoch": 0.6452090270070292,
+      "grad_norm": 0.5308946967124939,
+      "learning_rate": 1.9207072904819484e-05,
+      "loss": 0.7867,
+      "mean_token_accuracy": 0.7616907876516587,
+      "step": 218
+    },
+    {
+      "epoch": 0.6481687014428413,
+      "grad_norm": 0.5080918669700623,
+      "learning_rate": 1.9193530389822364e-05,
+      "loss": 0.7551,
+      "mean_token_accuracy": 0.7722103161394469,
+      "step": 219
+    },
+    {
+      "epoch": 0.6511283758786534,
+      "grad_norm": 0.5541013479232788,
+      "learning_rate": 1.9179878061798347e-05,
+      "loss": 0.7416,
+      "mean_token_accuracy": 0.7758964006687687,
+      "step": 220
+    },
+    {
+      "epoch": 0.6540880503144654,
+      "grad_norm": 0.5555444955825806,
+      "learning_rate": 1.9166116083819002e-05,
+      "loss": 0.7735,
+      "mean_token_accuracy": 0.7667690994886073,
+      "step": 221
+    },
+    {
+      "epoch": 0.6570477247502775,
+      "grad_norm": 0.5138890743255615,
+      "learning_rate": 1.915224462026563e-05,
+      "loss": 0.7689,
+      "mean_token_accuracy": 0.7680507811975301,
+      "step": 222
+    },
+    {
+      "epoch": 0.6600073991860895,
+      "grad_norm": 0.5619951486587524,
+      "learning_rate": 1.913826383682729e-05,
+      "loss": 0.7776,
+      "mean_token_accuracy": 0.7642446287241815,
+      "step": 223
+    },
+    {
+      "epoch": 0.6629670736219015,
+      "grad_norm": 0.49697887897491455,
+      "learning_rate": 1.912417390049882e-05,
+      "loss": 0.7564,
+      "mean_token_accuracy": 0.7708950011889235,
+      "step": 224
+    },
+    {
+      "epoch": 0.6659267480577137,
+      "grad_norm": 0.5893805027008057,
+      "learning_rate": 1.9109974979578852e-05,
+      "loss": 0.7347,
+      "mean_token_accuracy": 0.7758372095558704,
+      "step": 225
+    },
+    {
+      "epoch": 0.6688864224935257,
+      "grad_norm": 0.5565352439880371,
+      "learning_rate": 1.909566724366779e-05,
+      "loss": 0.7619,
+      "mean_token_accuracy": 0.76937331341953,
+      "step": 226
+    },
+    {
+      "epoch": 0.6718460969293377,
+      "grad_norm": 0.581122875213623,
+      "learning_rate": 1.9081250863665794e-05,
+      "loss": 0.7459,
+      "mean_token_accuracy": 0.7744230618996671,
+      "step": 227
+    },
+    {
+      "epoch": 0.6748057713651499,
+      "grad_norm": 0.6203576326370239,
+      "learning_rate": 1.9066726011770725e-05,
+      "loss": 0.7403,
+      "mean_token_accuracy": 0.7757174096012653,
+      "step": 228
+    },
+    {
+      "epoch": 0.6777654458009619,
+      "grad_norm": 0.5231543779373169,
+      "learning_rate": 1.905209286147611e-05,
+      "loss": 0.7291,
+      "mean_token_accuracy": 0.7789308093459126,
+      "step": 229
+    },
+    {
+      "epoch": 0.680725120236774,
+      "grad_norm": 0.5227301120758057,
+      "learning_rate": 1.903735158756905e-05,
+      "loss": 0.7267,
+      "mean_token_accuracy": 0.780063648206095,
+      "step": 230
+    },
+    {
+      "epoch": 0.683684794672586,
+      "grad_norm": 0.5774472951889038,
+      "learning_rate": 1.9022502366128136e-05,
+      "loss": 0.7626,
+      "mean_token_accuracy": 0.7701068030426402,
+      "step": 231
+    },
+    {
+      "epoch": 0.686644469108398,
+      "grad_norm": 0.5350067615509033,
+      "learning_rate": 1.9007545374521354e-05,
+      "loss": 0.7727,
+      "mean_token_accuracy": 0.767009637419523,
+      "step": 232
+    },
+    {
+      "epoch": 0.6896041435442102,
+      "grad_norm": 0.543245792388916,
+      "learning_rate": 1.8992480791403957e-05,
+      "loss": 0.7258,
+      "mean_token_accuracy": 0.7811048484724694,
+      "step": 233
+    },
+    {
+      "epoch": 0.6925638179800222,
+      "grad_norm": 0.6067213416099548,
+      "learning_rate": 1.897730879671634e-05,
+      "loss": 0.7454,
+      "mean_token_accuracy": 0.7739789538178186,
+      "step": 234
+    },
+    {
+      "epoch": 0.6955234924158342,
+      "grad_norm": 0.5219905972480774,
+      "learning_rate": 1.8962029571681887e-05,
+      "loss": 0.7094,
+      "mean_token_accuracy": 0.7855872005269757,
+      "step": 235
+    },
+    {
+      "epoch": 0.6984831668516464,
+      "grad_norm": 0.5807480216026306,
+      "learning_rate": 1.8946643298804794e-05,
+      "loss": 0.7701,
+      "mean_token_accuracy": 0.7658029579586856,
+      "step": 236
+    },
+    {
+      "epoch": 0.7014428412874584,
+      "grad_norm": 0.4960806965827942,
+      "learning_rate": 1.8931150161867917e-05,
+      "loss": 0.7285,
+      "mean_token_accuracy": 0.7792831489593245,
+      "step": 237
+    },
+    {
+      "epoch": 0.7044025157232704,
+      "grad_norm": 0.5792670249938965,
+      "learning_rate": 1.891555034593055e-05,
+      "loss": 0.7467,
+      "mean_token_accuracy": 0.7733710687900762,
+      "step": 238
+    },
+    {
+      "epoch": 0.7073621901590825,
+      "grad_norm": 0.5364589691162109,
+      "learning_rate": 1.8899844037326227e-05,
+      "loss": 0.7195,
+      "mean_token_accuracy": 0.7821820109931461,
+      "step": 239
+    },
+    {
+      "epoch": 0.7103218645948945,
+      "grad_norm": 0.5596705079078674,
+      "learning_rate": 1.8884031423660492e-05,
+      "loss": 0.7047,
+      "mean_token_accuracy": 0.785649852431446,
+      "step": 240
+    },
+    {
+      "epoch": 0.7132815390307066,
+      "grad_norm": 0.5741063356399536,
+      "learning_rate": 1.8868112693808664e-05,
+      "loss": 0.7663,
+      "mean_token_accuracy": 0.7678326165991625,
+      "step": 241
+    },
+    {
+      "epoch": 0.7162412134665187,
+      "grad_norm": 0.516858696937561,
+      "learning_rate": 1.8852088037913577e-05,
+      "loss": 0.7471,
+      "mean_token_accuracy": 0.7746923216355659,
+      "step": 242
+    },
+    {
+      "epoch": 0.7192008879023307,
+      "grad_norm": 0.5048111081123352,
+      "learning_rate": 1.8835957647383304e-05,
+      "loss": 0.7023,
+      "mean_token_accuracy": 0.7870937976717415,
+      "step": 243
+    },
+    {
+      "epoch": 0.7221605623381429,
+      "grad_norm": 0.5660455226898193,
+      "learning_rate": 1.8819721714888878e-05,
+      "loss": 0.7795,
+      "mean_token_accuracy": 0.7642331478723334,
+      "step": 244
+    },
+    {
+      "epoch": 0.7251202367739549,
+      "grad_norm": 0.5211176872253418,
+      "learning_rate": 1.8803380434362e-05,
+      "loss": 0.7342,
+      "mean_token_accuracy": 0.7781391886138683,
+      "step": 245
+    },
+    {
+      "epoch": 0.7280799112097669,
+      "grad_norm": 0.5142192244529724,
+      "learning_rate": 1.878693400099269e-05,
+      "loss": 0.7301,
+      "mean_token_accuracy": 0.7786941626128209,
+      "step": 246
+    },
+    {
+      "epoch": 0.731039585645579,
+      "grad_norm": 0.5370232462882996,
+      "learning_rate": 1.877038261122699e-05,
+      "loss": 0.7593,
+      "mean_token_accuracy": 0.771669201717037,
+      "step": 247
+    },
+    {
+      "epoch": 0.733999260081391,
+      "grad_norm": 0.49543988704681396,
+      "learning_rate": 1.87537264627646e-05,
+      "loss": 0.7216,
+      "mean_token_accuracy": 0.7810789864692633,
+      "step": 248
+    },
+    {
+      "epoch": 0.7369589345172031,
+      "grad_norm": 0.56675785779953,
+      "learning_rate": 1.8736965754556527e-05,
+      "loss": 0.7627,
+      "mean_token_accuracy": 0.7688760359914193,
+      "step": 249
+    },
+    {
+      "epoch": 0.7399186089530152,
+      "grad_norm": 0.524047315120697,
+      "learning_rate": 1.8720100686802693e-05,
+      "loss": 0.7551,
+      "mean_token_accuracy": 0.7700947445179971,
+      "step": 250
+    },
+    {
+      "epoch": 0.7428782833888272,
+      "grad_norm": 0.5166477560997009,
+      "learning_rate": 1.8703131460949555e-05,
+      "loss": 0.7785,
+      "mean_token_accuracy": 0.7636579872205778,
+      "step": 251
+    },
+    {
+      "epoch": 0.7458379578246392,
+      "grad_norm": 0.5201772451400757,
+      "learning_rate": 1.86860582796877e-05,
+      "loss": 0.736,
+      "mean_token_accuracy": 0.7761137360141643,
+      "step": 252
+    },
+    {
+      "epoch": 0.7487976322604514,
+      "grad_norm": 0.6423028707504272,
+      "learning_rate": 1.866888134694942e-05,
+      "loss": 0.7454,
+      "mean_token_accuracy": 0.7750494962065552,
+      "step": 253
+    },
+    {
+      "epoch": 0.7517573066962634,
+      "grad_norm": 0.5888985395431519,
+      "learning_rate": 1.865160086790627e-05,
+      "loss": 0.7238,
+      "mean_token_accuracy": 0.7800915239288521,
+      "step": 254
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 0.5778961181640625,
+      "learning_rate": 1.8634217048966638e-05,
+      "loss": 0.7658,
+      "mean_token_accuracy": 0.7687186514339136,
+      "step": 255
+    },
+    {
+      "epoch": 0.7576766555678875,
+      "grad_norm": 0.5808703303337097,
+      "learning_rate": 1.861673009777325e-05,
+      "loss": 0.7449,
+      "mean_token_accuracy": 0.7729568426414184,
+      "step": 256
+    },
+    {
+      "epoch": 0.7606363300036996,
+      "grad_norm": 0.5731485486030579,
+      "learning_rate": 1.8599140223200716e-05,
+      "loss": 0.748,
+      "mean_token_accuracy": 0.7729810722706314,
+      "step": 257
+    },
+    {
+      "epoch": 0.7635960044395117,
+      "grad_norm": 0.5766414403915405,
+      "learning_rate": 1.858144763535302e-05,
+      "loss": 0.7782,
+      "mean_token_accuracy": 0.764375293579256,
+      "step": 258
+    },
+    {
+      "epoch": 0.7665556788753237,
+      "grad_norm": 0.5422239899635315,
+      "learning_rate": 1.8563652545561014e-05,
+      "loss": 0.7329,
+      "mean_token_accuracy": 0.7776419690528588,
+      "step": 259
+    },
+    {
+      "epoch": 0.7695153533111357,
+      "grad_norm": 0.5828793048858643,
+      "learning_rate": 1.8545755166379898e-05,
+      "loss": 0.7186,
+      "mean_token_accuracy": 0.7822970814680493,
+      "step": 260
+    },
+    {
+      "epoch": 0.7724750277469479,
+      "grad_norm": 0.5449491739273071,
+      "learning_rate": 1.852775571158668e-05,
+      "loss": 0.7711,
+      "mean_token_accuracy": 0.7660281761867683,
+      "step": 261
+    },
+    {
+      "epoch": 0.7754347021827599,
+      "grad_norm": 0.5476288795471191,
+      "learning_rate": 1.850965439617761e-05,
+      "loss": 0.7404,
+      "mean_token_accuracy": 0.7736120045020073,
+      "step": 262
+    },
+    {
+      "epoch": 0.7783943766185719,
+      "grad_norm": 0.6878018975257874,
+      "learning_rate": 1.8491451436365628e-05,
+      "loss": 0.7758,
+      "mean_token_accuracy": 0.7640672296658151,
+      "step": 263
+    },
+    {
+      "epoch": 0.781354051054384,
+      "grad_norm": 0.5300653576850891,
+      "learning_rate": 1.8473147049577777e-05,
+      "loss": 0.7666,
+      "mean_token_accuracy": 0.7686153435173708,
+      "step": 264
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.6327837705612183,
+      "learning_rate": 1.8454741454452604e-05,
+      "loss": 0.7521,
+      "mean_token_accuracy": 0.7717832959346983,
+      "step": 265
+    },
+    {
+      "epoch": 0.7872733999260081,
+      "grad_norm": 0.5409294366836548,
+      "learning_rate": 1.843623487083755e-05,
+      "loss": 0.7404,
+      "mean_token_accuracy": 0.7766533132408322,
+      "step": 266
+    },
+    {
+      "epoch": 0.7902330743618202,
+      "grad_norm": 0.5834295749664307,
+      "learning_rate": 1.8417627519786317e-05,
+      "loss": 0.7592,
+      "mean_token_accuracy": 0.7693419786318872,
+      "step": 267
+    },
+    {
+      "epoch": 0.7931927487976322,
+      "grad_norm": 0.5921277403831482,
+      "learning_rate": 1.839891962355624e-05,
+      "loss": 0.7162,
+      "mean_token_accuracy": 0.7820607013724311,
+      "step": 268
+    },
+    {
+      "epoch": 0.7961524232334444,
+      "grad_norm": 0.5238744020462036,
+      "learning_rate": 1.838011140560562e-05,
+      "loss": 0.7565,
+      "mean_token_accuracy": 0.770343025952529,
+      "step": 269
+    },
+    {
+      "epoch": 0.7991120976692564,
+      "grad_norm": 0.5569880604743958,
+      "learning_rate": 1.836120309059107e-05,
+      "loss": 0.7488,
+      "mean_token_accuracy": 0.7728957184836894,
+      "step": 270
+    },
+    {
+      "epoch": 0.8020717721050684,
+      "grad_norm": 0.5647782683372498,
+      "learning_rate": 1.8342194904364815e-05,
+      "loss": 0.7135,
+      "mean_token_accuracy": 0.7830927354241212,
+      "step": 271
+    },
+    {
+      "epoch": 0.8050314465408805,
+      "grad_norm": 0.5411779284477234,
+      "learning_rate": 1.8323087073971996e-05,
+      "loss": 0.7366,
+      "mean_token_accuracy": 0.775458202599469,
+      "step": 272
+    },
+    {
+      "epoch": 0.8079911209766926,
+      "grad_norm": 0.6045868992805481,
+      "learning_rate": 1.8303879827647977e-05,
+      "loss": 0.7544,
+      "mean_token_accuracy": 0.7712791582365803,
+      "step": 273
+    },
+    {
+      "epoch": 0.8109507954125046,
+      "grad_norm": 0.5784792304039001,
+      "learning_rate": 1.8284573394815596e-05,
+      "loss": 0.7448,
+      "mean_token_accuracy": 0.7737621785267094,
+      "step": 274
+    },
+    {
+      "epoch": 0.8139104698483167,
+      "grad_norm": 0.5260710120201111,
+      "learning_rate": 1.826516800608244e-05,
+      "loss": 0.7627,
+      "mean_token_accuracy": 0.7694265078345902,
+      "step": 275
+    },
+    {
+      "epoch": 0.8168701442841287,
+      "grad_norm": 0.5844061374664307,
+      "learning_rate": 1.8245663893238075e-05,
+      "loss": 0.7653,
+      "mean_token_accuracy": 0.7686764548943624,
+      "step": 276
+    },
+    {
+      "epoch": 0.8198298187199408,
+      "grad_norm": 0.5687382221221924,
+      "learning_rate": 1.8226061289251297e-05,
+      "loss": 0.7631,
+      "mean_token_accuracy": 0.7688321516962094,
+      "step": 277
+    },
+    {
+      "epoch": 0.8227894931557529,
+      "grad_norm": 0.5046533942222595,
+      "learning_rate": 1.8206360428267332e-05,
+      "loss": 0.6843,
+      "mean_token_accuracy": 0.7910775752871206,
+      "step": 278
+    },
+    {
+      "epoch": 0.8257491675915649,
+      "grad_norm": 0.6087561249732971,
+      "learning_rate": 1.8186561545605055e-05,
+      "loss": 0.7596,
+      "mean_token_accuracy": 0.7701909103269404,
+      "step": 279
+    },
+    {
+      "epoch": 0.8287088420273769,
+      "grad_norm": 0.5349226593971252,
+      "learning_rate": 1.816666487775416e-05,
+      "loss": 0.7453,
+      "mean_token_accuracy": 0.7745023453893125,
+      "step": 280
+    },
+    {
+      "epoch": 0.8316685164631891,
+      "grad_norm": 0.549005389213562,
+      "learning_rate": 1.8146670662372353e-05,
+      "loss": 0.7424,
+      "mean_token_accuracy": 0.7753068407668716,
+      "step": 281
+    },
+    {
+      "epoch": 0.8346281908990011,
+      "grad_norm": 0.5528567433357239,
+      "learning_rate": 1.8126579138282502e-05,
+      "loss": 0.7515,
+      "mean_token_accuracy": 0.7716154993402936,
+      "step": 282
+    },
+    {
+      "epoch": 0.8375878653348132,
+      "grad_norm": 0.47966665029525757,
+      "learning_rate": 1.8106390545469797e-05,
+      "loss": 0.7601,
+      "mean_token_accuracy": 0.7702052221245829,
+      "step": 283
+    },
+    {
+      "epoch": 0.8405475397706252,
+      "grad_norm": 0.5724716186523438,
+      "learning_rate": 1.8086105125078858e-05,
+      "loss": 0.7332,
+      "mean_token_accuracy": 0.7777038447981673,
+      "step": 284
+    },
+    {
+      "epoch": 0.8435072142064373,
+      "grad_norm": 0.5578106641769409,
+      "learning_rate": 1.8065723119410885e-05,
+      "loss": 0.7302,
+      "mean_token_accuracy": 0.7772090946791604,
+      "step": 285
+    },
+    {
+      "epoch": 0.8464668886422494,
+      "grad_norm": 0.5442110896110535,
+      "learning_rate": 1.804524477192075e-05,
+      "loss": 0.7334,
+      "mean_token_accuracy": 0.7762476620441784,
+      "step": 286
+    },
+    {
+      "epoch": 0.8494265630780614,
+      "grad_norm": 0.584141731262207,
+      "learning_rate": 1.8024670327214084e-05,
+      "loss": 0.7258,
+      "mean_token_accuracy": 0.7806851593884065,
+      "step": 287
+    },
+    {
+      "epoch": 0.8523862375138734,
+      "grad_norm": 0.598616361618042,
+      "learning_rate": 1.8004000031044363e-05,
+      "loss": 0.7793,
+      "mean_token_accuracy": 0.7645610353814324,
+      "step": 288
+    },
+    {
+      "epoch": 0.8553459119496856,
+      "grad_norm": 0.5531610250473022,
+      "learning_rate": 1.798323413030997e-05,
+      "loss": 0.7302,
+      "mean_token_accuracy": 0.7774894874371842,
+      "step": 289
+    },
+    {
+      "epoch": 0.8583055863854976,
+      "grad_norm": 0.637056291103363,
+      "learning_rate": 1.796237287305125e-05,
+      "loss": 0.7319,
+      "mean_token_accuracy": 0.776980981509457,
+      "step": 290
+    },
+    {
+      "epoch": 0.8612652608213096,
+      "grad_norm": 0.526637613773346,
+      "learning_rate": 1.7941416508447537e-05,
+      "loss": 0.737,
+      "mean_token_accuracy": 0.7755365142177981,
+      "step": 291
+    },
+    {
+      "epoch": 0.8642249352571217,
+      "grad_norm": 0.6117897033691406,
+      "learning_rate": 1.792036528681418e-05,
+      "loss": 0.7453,
+      "mean_token_accuracy": 0.7738772998083994,
+      "step": 292
+    },
+    {
+      "epoch": 0.8671846096929338,
+      "grad_norm": 0.57455974817276,
+      "learning_rate": 1.789921945959958e-05,
+      "loss": 0.7293,
+      "mean_token_accuracy": 0.7769571821797022,
+      "step": 293
+    },
+    {
+      "epoch": 0.8701442841287459,
+      "grad_norm": 0.5134701728820801,
+      "learning_rate": 1.7877979279382135e-05,
+      "loss": 0.7198,
+      "mean_token_accuracy": 0.7810807816611623,
+      "step": 294
+    },
+    {
+      "epoch": 0.8731039585645579,
+      "grad_norm": 0.6354233026504517,
+      "learning_rate": 1.7856644999867264e-05,
+      "loss": 0.7491,
+      "mean_token_accuracy": 0.7724234282097991,
+      "step": 295
+    },
+    {
+      "epoch": 0.8760636330003699,
+      "grad_norm": 0.4881884753704071,
+      "learning_rate": 1.783521687588437e-05,
+      "loss": 0.6976,
+      "mean_token_accuracy": 0.7884361038620284,
+      "step": 296
+    },
+    {
+      "epoch": 0.8790233074361821,
+      "grad_norm": 0.6362212300300598,
+      "learning_rate": 1.781369516338378e-05,
+      "loss": 0.7398,
+      "mean_token_accuracy": 0.7755743850683346,
+      "step": 297
+    },
+    {
+      "epoch": 0.8819829818719941,
+      "grad_norm": 0.5661829710006714,
+      "learning_rate": 1.779208011943371e-05,
+      "loss": 0.734,
+      "mean_token_accuracy": 0.7765507531646713,
+      "step": 298
+    },
+    {
+      "epoch": 0.8849426563078061,
+      "grad_norm": 0.5010657906532288,
+      "learning_rate": 1.777037200221717e-05,
+      "loss": 0.7388,
+      "mean_token_accuracy": 0.7751515429566093,
+      "step": 299
+    },
+    {
+      "epoch": 0.8879023307436182,
+      "grad_norm": 0.6076653003692627,
+      "learning_rate": 1.77485710710289e-05,
+      "loss": 0.729,
+      "mean_token_accuracy": 0.7784857584094641,
+      "step": 300
+    },
+    {
+      "epoch": 0.8879023307436182,
+      "eval_loss": 0.7613943219184875,
+      "eval_mean_token_accuracy": 0.7661339070277478,
+      "eval_runtime": 24.531,
+      "eval_samples_per_second": 5.259,
+      "eval_steps_per_second": 1.345,
+      "step": 300
+    },
+    {
+      "epoch": 0.8908620051794303,
+      "grad_norm": 0.5315244197845459,
+      "learning_rate": 1.7726677586272263e-05,
+      "loss": 0.7247,
+      "mean_token_accuracy": 0.7800706307954832,
+      "step": 301
+    },
+    {
+      "epoch": 0.8938216796152423,
+      "grad_norm": 0.572488009929657,
+      "learning_rate": 1.7704691809456142e-05,
+      "loss": 0.7619,
+      "mean_token_accuracy": 0.7684274429192071,
+      "step": 302
+    },
+    {
+      "epoch": 0.8967813540510544,
+      "grad_norm": 0.530282735824585,
+      "learning_rate": 1.7682614003191807e-05,
+      "loss": 0.7192,
+      "mean_token_accuracy": 0.7826426067771499,
+      "step": 303
+    },
+    {
+      "epoch": 0.8997410284868664,
+      "grad_norm": 0.4633922278881073,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.7361,
+      "mean_token_accuracy": 0.7761481074845271,
+      "step": 304
+    },
+    {
+      "epoch": 0.9027007029226785,
+      "grad_norm": 0.5290641784667969,
+      "learning_rate": 1.76381833582567e-05,
+      "loss": 0.7347,
+      "mean_token_accuracy": 0.7752220969695607,
+      "step": 305
+    },
+    {
+      "epoch": 0.9056603773584906,
+      "grad_norm": 0.5756820440292358,
+      "learning_rate": 1.761583105029213e-05,
+      "loss": 0.7091,
+      "mean_token_accuracy": 0.7832374672534335,
+      "step": 306
+    },
+    {
+      "epoch": 0.9086200517943026,
+      "grad_norm": 0.4851895570755005,
+      "learning_rate": 1.7593387774285412e-05,
+      "loss": 0.7259,
+      "mean_token_accuracy": 0.7790017695040672,
+      "step": 307
+    },
+    {
+      "epoch": 0.9115797262301147,
+      "grad_norm": 0.5287590026855469,
+      "learning_rate": 1.7570853798312462e-05,
+      "loss": 0.7234,
+      "mean_token_accuracy": 0.7806430154123836,
+      "step": 308
+    },
+    {
+      "epoch": 0.9145394006659268,
+      "grad_norm": 0.5195660591125488,
+      "learning_rate": 1.7548229391532572e-05,
+      "loss": 0.6565,
+      "mean_token_accuracy": 0.7984747483843323,
+      "step": 309
+    },
+    {
+      "epoch": 0.9174990751017388,
+      "grad_norm": 0.4991515576839447,
+      "learning_rate": 1.7525514824185187e-05,
+      "loss": 0.7231,
+      "mean_token_accuracy": 0.7803891298617083,
+      "step": 310
+    },
+    {
+      "epoch": 0.9204587495375509,
+      "grad_norm": 0.4935111701488495,
+      "learning_rate": 1.750271036758669e-05,
+      "loss": 0.7564,
+      "mean_token_accuracy": 0.7712247656704234,
+      "step": 311
+    },
+    {
+      "epoch": 0.9234184239733629,
+      "grad_norm": 0.5220803618431091,
+      "learning_rate": 1.747981629412715e-05,
+      "loss": 0.7381,
+      "mean_token_accuracy": 0.7754488466026199,
+      "step": 312
+    },
+    {
+      "epoch": 0.926378098409175,
+      "grad_norm": 0.4899723529815674,
+      "learning_rate": 1.7456832877267083e-05,
+      "loss": 0.7147,
+      "mean_token_accuracy": 0.7830229071000929,
+      "step": 313
+    },
+    {
+      "epoch": 0.9293377728449871,
+      "grad_norm": 0.48553645610809326,
+      "learning_rate": 1.7433760391534166e-05,
+      "loss": 0.7249,
+      "mean_token_accuracy": 0.7801764351541252,
+      "step": 314
+    },
+    {
+      "epoch": 0.9322974472807991,
+      "grad_norm": 0.5421589016914368,
+      "learning_rate": 1.741059911251997e-05,
+      "loss": 0.7398,
+      "mean_token_accuracy": 0.7753942151228886,
+      "step": 315
+    },
+    {
+      "epoch": 0.9352571217166111,
+      "grad_norm": 0.5142074823379517,
+      "learning_rate": 1.7387349316876668e-05,
+      "loss": 0.7213,
+      "mean_token_accuracy": 0.7805064687638097,
+      "step": 316
+    },
+    {
+      "epoch": 0.9382167961524233,
+      "grad_norm": 0.4945102632045746,
+      "learning_rate": 1.7364011282313732e-05,
+      "loss": 0.713,
+      "mean_token_accuracy": 0.7815959672421611,
+      "step": 317
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 0.509762167930603,
+      "learning_rate": 1.7340585287594605e-05,
+      "loss": 0.7278,
+      "mean_token_accuracy": 0.778527115017442,
+      "step": 318
+    },
+    {
+      "epoch": 0.9441361450240473,
+      "grad_norm": 0.5061408877372742,
+      "learning_rate": 1.731707161253338e-05,
+      "loss": 0.7646,
+      "mean_token_accuracy": 0.7684516320654873,
+      "step": 319
+    },
+    {
+      "epoch": 0.9470958194598594,
+      "grad_norm": 0.4812653958797455,
+      "learning_rate": 1.7293470537991463e-05,
+      "loss": 0.7286,
+      "mean_token_accuracy": 0.7783584589981216,
+      "step": 320
+    },
+    {
+      "epoch": 0.9500554938956715,
+      "grad_norm": 0.5362148284912109,
+      "learning_rate": 1.7269782345874204e-05,
+      "loss": 0.7029,
+      "mean_token_accuracy": 0.785544384259824,
+      "step": 321
+    },
+    {
+      "epoch": 0.9530151683314836,
+      "grad_norm": 0.5306621193885803,
+      "learning_rate": 1.7246007319127547e-05,
+      "loss": 0.747,
+      "mean_token_accuracy": 0.774057502189317,
+      "step": 322
+    },
+    {
+      "epoch": 0.9559748427672956,
+      "grad_norm": 0.567263126373291,
+      "learning_rate": 1.7222145741734625e-05,
+      "loss": 0.7198,
+      "mean_token_accuracy": 0.7807379482187227,
+      "step": 323
+    },
+    {
+      "epoch": 0.9589345172031076,
+      "grad_norm": 0.5175469517707825,
+      "learning_rate": 1.7198197898712402e-05,
+      "loss": 0.7275,
+      "mean_token_accuracy": 0.7786112184337877,
+      "step": 324
+    },
+    {
+      "epoch": 0.9618941916389198,
+      "grad_norm": 0.5404612421989441,
+      "learning_rate": 1.717416407610824e-05,
+      "loss": 0.689,
+      "mean_token_accuracy": 0.7877453794929681,
+      "step": 325
+    },
+    {
+      "epoch": 0.9648538660747318,
+      "grad_norm": 0.5193690061569214,
+      "learning_rate": 1.7150044560996488e-05,
+      "loss": 0.747,
+      "mean_token_accuracy": 0.7742212613379238,
+      "step": 326
+    },
+    {
+      "epoch": 0.9678135405105438,
+      "grad_norm": 0.4946900010108948,
+      "learning_rate": 1.7125839641475074e-05,
+      "loss": 0.7471,
+      "mean_token_accuracy": 0.7747309622069193,
+      "step": 327
+    },
+    {
+      "epoch": 0.9707732149463559,
+      "grad_norm": 0.48158422112464905,
+      "learning_rate": 1.7101549606662025e-05,
+      "loss": 0.7588,
+      "mean_token_accuracy": 0.7672773960785951,
+      "step": 328
+    },
+    {
+      "epoch": 0.973732889382168,
+      "grad_norm": 0.49433794617652893,
+      "learning_rate": 1.7077174746692054e-05,
+      "loss": 0.7086,
+      "mean_token_accuracy": 0.7835172366515396,
+      "step": 329
+    },
+    {
+      "epoch": 0.97669256381798,
+      "grad_norm": 0.529739499092102,
+      "learning_rate": 1.7052715352713076e-05,
+      "loss": 0.692,
+      "mean_token_accuracy": 0.7882518659447058,
+      "step": 330
+    },
+    {
+      "epoch": 0.9796522382537921,
+      "grad_norm": 0.49609243869781494,
+      "learning_rate": 1.7028171716882714e-05,
+      "loss": 0.727,
+      "mean_token_accuracy": 0.7790673878869031,
+      "step": 331
+    },
+    {
+      "epoch": 0.9826119126896041,
+      "grad_norm": 0.5060005784034729,
+      "learning_rate": 1.7003544132364847e-05,
+      "loss": 0.7492,
+      "mean_token_accuracy": 0.7722196174397824,
+      "step": 332
+    },
+    {
+      "epoch": 0.9855715871254163,
+      "grad_norm": 0.5200058817863464,
+      "learning_rate": 1.6978832893326074e-05,
+      "loss": 0.7274,
+      "mean_token_accuracy": 0.7771648765922762,
+      "step": 333
+    },
+    {
+      "epoch": 0.9885312615612283,
+      "grad_norm": 0.5111742615699768,
+      "learning_rate": 1.6954038294932215e-05,
+      "loss": 0.727,
+      "mean_token_accuracy": 0.7788486720026189,
+      "step": 334
+    },
+    {
+      "epoch": 0.9914909359970403,
+      "grad_norm": 0.49541163444519043,
+      "learning_rate": 1.692916063334479e-05,
+      "loss": 0.716,
+      "mean_token_accuracy": 0.7805707677819913,
+      "step": 335
+    },
+    {
+      "epoch": 0.9944506104328524,
+      "grad_norm": 0.5204536318778992,
+      "learning_rate": 1.690420020571747e-05,
+      "loss": 0.7857,
+      "mean_token_accuracy": 0.7611835238050416,
+      "step": 336
+    },
+    {
+      "epoch": 0.9974102848686645,
+      "grad_norm": 0.49425816535949707,
+      "learning_rate": 1.6879157310192537e-05,
+      "loss": 0.7237,
+      "mean_token_accuracy": 0.7797621176940523,
+      "step": 337
+    },
+    {
+      "epoch": 1.002959674435812,
+      "grad_norm": 0.9215492010116577,
+      "learning_rate": 1.685403224589731e-05,
+      "loss": 1.431,
+      "mean_token_accuracy": 0.781872374274613,
+      "step": 338
+    },
+    {
+      "epoch": 1.005919348871624,
+      "grad_norm": 0.4850497841835022,
+      "learning_rate": 1.6828825312940594e-05,
+      "loss": 0.7123,
+      "mean_token_accuracy": 0.7815581594577298,
+      "step": 339
+    },
+    {
+      "epoch": 1.0088790233074363,
+      "grad_norm": 0.5388746857643127,
+      "learning_rate": 1.6803536812409077e-05,
+      "loss": 0.6533,
+      "mean_token_accuracy": 0.7976729613611061,
+      "step": 340
+    },
+    {
+      "epoch": 1.0118386977432483,
+      "grad_norm": 0.5414032340049744,
+      "learning_rate": 1.6778167046363735e-05,
+      "loss": 0.663,
+      "mean_token_accuracy": 0.7950990029075803,
+      "step": 341
+    },
+    {
+      "epoch": 1.0147983721790603,
+      "grad_norm": 0.5482701063156128,
+      "learning_rate": 1.675271631783623e-05,
+      "loss": 0.6924,
+      "mean_token_accuracy": 0.7870997024486296,
+      "step": 342
+    },
+    {
+      "epoch": 1.0177580466148723,
+      "grad_norm": 0.5530447363853455,
+      "learning_rate": 1.672718493082529e-05,
+      "loss": 0.6957,
+      "mean_token_accuracy": 0.7862520808317638,
+      "step": 343
+    },
+    {
+      "epoch": 1.0207177210506844,
+      "grad_norm": 0.5601862072944641,
+      "learning_rate": 1.6701573190293076e-05,
+      "loss": 0.7079,
+      "mean_token_accuracy": 0.7811090177290159,
+      "step": 344
+    },
+    {
+      "epoch": 1.0236773954864964,
+      "grad_norm": 0.5983414649963379,
+      "learning_rate": 1.667588140216154e-05,
+      "loss": 0.7177,
+      "mean_token_accuracy": 0.7782319335787533,
+      "step": 345
+    },
+    {
+      "epoch": 1.0266370699223086,
+      "grad_norm": 0.5023918747901917,
+      "learning_rate": 1.6650109873308763e-05,
+      "loss": 0.6742,
+      "mean_token_accuracy": 0.7925658601690396,
+      "step": 346
+    },
+    {
+      "epoch": 1.0295967443581207,
+      "grad_norm": 0.5499829053878784,
+      "learning_rate": 1.6624258911565312e-05,
+      "loss": 0.6964,
+      "mean_token_accuracy": 0.7845868210400818,
+      "step": 347
+    },
+    {
+      "epoch": 1.0325564187939327,
+      "grad_norm": 0.6044626235961914,
+      "learning_rate": 1.6598328825710536e-05,
+      "loss": 0.7433,
+      "mean_token_accuracy": 0.7716598489636504,
+      "step": 348
+    },
+    {
+      "epoch": 1.0355160932297447,
+      "grad_norm": 0.5895024538040161,
+      "learning_rate": 1.6572319925468892e-05,
+      "loss": 0.6851,
+      "mean_token_accuracy": 0.7886055642998372,
+      "step": 349
+    },
+    {
+      "epoch": 1.0384757676655567,
+      "grad_norm": 0.4884833097457886,
+      "learning_rate": 1.654623252150624e-05,
+      "loss": 0.6874,
+      "mean_token_accuracy": 0.7882489689414884,
+      "step": 350
+    },
+    {
+      "epoch": 1.0414354421013687,
+      "grad_norm": 0.48958876729011536,
+      "learning_rate": 1.6520066925426146e-05,
+      "loss": 0.6761,
+      "mean_token_accuracy": 0.789869173725892,
+      "step": 351
+    },
+    {
+      "epoch": 1.044395116537181,
+      "grad_norm": 0.5143749713897705,
+      "learning_rate": 1.6493823449766137e-05,
+      "loss": 0.7002,
+      "mean_token_accuracy": 0.7832564985016889,
+      "step": 352
+    },
+    {
+      "epoch": 1.047354790972993,
+      "grad_norm": 0.5188062191009521,
+      "learning_rate": 1.6467502407993995e-05,
+      "loss": 0.6785,
+      "mean_token_accuracy": 0.7895198082299716,
+      "step": 353
+    },
+    {
+      "epoch": 1.050314465408805,
+      "grad_norm": 0.5853990316390991,
+      "learning_rate": 1.644110411450398e-05,
+      "loss": 0.7027,
+      "mean_token_accuracy": 0.7840915967094005,
+      "step": 354
+    },
+    {
+      "epoch": 1.053274139844617,
+      "grad_norm": 0.48951801657676697,
+      "learning_rate": 1.6414628884613106e-05,
+      "loss": 0.6905,
+      "mean_token_accuracy": 0.7872202318165091,
+      "step": 355
+    },
+    {
+      "epoch": 1.056233814280429,
+      "grad_norm": 0.5374004244804382,
+      "learning_rate": 1.6388077034557355e-05,
+      "loss": 0.7107,
+      "mean_token_accuracy": 0.7806436850766835,
+      "step": 356
+    },
+    {
+      "epoch": 1.0591934887162413,
+      "grad_norm": 0.49236002564430237,
+      "learning_rate": 1.6361448881487913e-05,
+      "loss": 0.6762,
+      "mean_token_accuracy": 0.7917445809376139,
+      "step": 357
+    },
+    {
+      "epoch": 1.0621531631520533,
+      "grad_norm": 0.4819602966308594,
+      "learning_rate": 1.6334744743467366e-05,
+      "loss": 0.6876,
+      "mean_token_accuracy": 0.7879321033092377,
+      "step": 358
+    },
+    {
+      "epoch": 1.0651128375878653,
+      "grad_norm": 0.47309836745262146,
+      "learning_rate": 1.6307964939465914e-05,
+      "loss": 0.684,
+      "mean_token_accuracy": 0.7893314943134146,
+      "step": 359
+    },
+    {
+      "epoch": 1.0680725120236774,
+      "grad_norm": 0.5006982088088989,
+      "learning_rate": 1.628110978935756e-05,
+      "loss": 0.6899,
+      "mean_token_accuracy": 0.7870876825021131,
+      "step": 360
+    },
+    {
+      "epoch": 1.0710321864594894,
+      "grad_norm": 0.5221154093742371,
+      "learning_rate": 1.625417961391628e-05,
+      "loss": 0.6475,
+      "mean_token_accuracy": 0.7990545634414727,
+      "step": 361
+    },
+    {
+      "epoch": 1.0739918608953016,
+      "grad_norm": 0.4775597155094147,
+      "learning_rate": 1.62271747348122e-05,
+      "loss": 0.6934,
+      "mean_token_accuracy": 0.787116997295676,
+      "step": 362
+    },
+    {
+      "epoch": 1.0769515353311137,
+      "grad_norm": 0.5393570065498352,
+      "learning_rate": 1.6200095474607753e-05,
+      "loss": 0.6892,
+      "mean_token_accuracy": 0.7863585652394626,
+      "step": 363
+    },
+    {
+      "epoch": 1.0799112097669257,
+      "grad_norm": 0.4533829689025879,
+      "learning_rate": 1.6172942156753822e-05,
+      "loss": 0.6737,
+      "mean_token_accuracy": 0.791843095021805,
+      "step": 364
+    },
+    {
+      "epoch": 1.0828708842027377,
+      "grad_norm": 0.462872177362442,
+      "learning_rate": 1.614571510558588e-05,
+      "loss": 0.6741,
+      "mean_token_accuracy": 0.7927564512367392,
+      "step": 365
+    },
+    {
+      "epoch": 1.0858305586385497,
+      "grad_norm": 0.5344141125679016,
+      "learning_rate": 1.6118414646320115e-05,
+      "loss": 0.678,
+      "mean_token_accuracy": 0.7914964738663861,
+      "step": 366
+    },
+    {
+      "epoch": 1.0887902330743617,
+      "grad_norm": 0.5266002416610718,
+      "learning_rate": 1.6091041105049542e-05,
+      "loss": 0.6946,
+      "mean_token_accuracy": 0.7852726685975778,
+      "step": 367
+    },
+    {
+      "epoch": 1.091749907510174,
+      "grad_norm": 0.4648328125476837,
+      "learning_rate": 1.6063594808740112e-05,
+      "loss": 0.6415,
+      "mean_token_accuracy": 0.8008673556038499,
+      "step": 368
+    },
+    {
+      "epoch": 1.094709581945986,
+      "grad_norm": 0.5501207709312439,
+      "learning_rate": 1.6036076085226813e-05,
+      "loss": 0.7327,
+      "mean_token_accuracy": 0.7737077885315848,
+      "step": 369
+    },
+    {
+      "epoch": 1.097669256381798,
+      "grad_norm": 0.49827733635902405,
+      "learning_rate": 1.6008485263209742e-05,
+      "loss": 0.6509,
+      "mean_token_accuracy": 0.7995274953751699,
+      "step": 370
+    },
+    {
+      "epoch": 1.10062893081761,
+      "grad_norm": 0.4650176465511322,
+      "learning_rate": 1.598082267225018e-05,
+      "loss": 0.7112,
+      "mean_token_accuracy": 0.7804922990268738,
+      "step": 371
+    },
+    {
+      "epoch": 1.103588605253422,
+      "grad_norm": 0.5303501486778259,
+      "learning_rate": 1.595308864276666e-05,
+      "loss": 0.7211,
+      "mean_token_accuracy": 0.7776063180667486,
+      "step": 372
+    },
+    {
+      "epoch": 1.106548279689234,
+      "grad_norm": 0.5931088924407959,
+      "learning_rate": 1.592528350603103e-05,
+      "loss": 0.6912,
+      "mean_token_accuracy": 0.7860275624390939,
+      "step": 373
+    },
+    {
+      "epoch": 1.1095079541250463,
+      "grad_norm": 0.464376300573349,
+      "learning_rate": 1.5897407594164468e-05,
+      "loss": 0.6996,
+      "mean_token_accuracy": 0.7857896692996122,
+      "step": 374
+    },
+    {
+      "epoch": 1.1124676285608583,
+      "grad_norm": 0.5060982704162598,
+      "learning_rate": 1.586946124013354e-05,
+      "loss": 0.6827,
+      "mean_token_accuracy": 0.7901175041980462,
+      "step": 375
+    },
+    {
+      "epoch": 1.1154273029966704,
+      "grad_norm": 0.5316497683525085,
+      "learning_rate": 1.5841444777746232e-05,
+      "loss": 0.6454,
+      "mean_token_accuracy": 0.7995927306906477,
+      "step": 376
+    },
+    {
+      "epoch": 1.1183869774324824,
+      "grad_norm": 0.5280824303627014,
+      "learning_rate": 1.5813358541647915e-05,
+      "loss": 0.6821,
+      "mean_token_accuracy": 0.7899257721771863,
+      "step": 377
+    },
+    {
+      "epoch": 1.1213466518682944,
+      "grad_norm": 0.4961848258972168,
+      "learning_rate": 1.578520286731741e-05,
+      "loss": 0.7106,
+      "mean_token_accuracy": 0.7801769327002734,
+      "step": 378
+    },
+    {
+      "epoch": 1.1243063263041067,
+      "grad_norm": 0.543953001499176,
+      "learning_rate": 1.575697809106292e-05,
+      "loss": 0.6922,
+      "mean_token_accuracy": 0.785628822049384,
+      "step": 379
+    },
+    {
+      "epoch": 1.1272660007399187,
+      "grad_norm": 0.5489509105682373,
+      "learning_rate": 1.5728684550018066e-05,
+      "loss": 0.6936,
+      "mean_token_accuracy": 0.7861259742540445,
+      "step": 380
+    },
+    {
+      "epoch": 1.1302256751757307,
+      "grad_norm": 0.48247000575065613,
+      "learning_rate": 1.570032258213783e-05,
+      "loss": 0.702,
+      "mean_token_accuracy": 0.781727569386528,
+      "step": 381
+    },
+    {
+      "epoch": 1.1331853496115427,
+      "grad_norm": 0.5495713949203491,
+      "learning_rate": 1.5671892526194515e-05,
+      "loss": 0.6792,
+      "mean_token_accuracy": 0.7919662989910665,
+      "step": 382
+    },
+    {
+      "epoch": 1.1361450240473547,
+      "grad_norm": 0.4841765761375427,
+      "learning_rate": 1.564339472177373e-05,
+      "loss": 0.6693,
+      "mean_token_accuracy": 0.7934251880120227,
+      "step": 383
+    },
+    {
+      "epoch": 1.1391046984831668,
+      "grad_norm": 0.5036046504974365,
+      "learning_rate": 1.561482950927029e-05,
+      "loss": 0.7035,
+      "mean_token_accuracy": 0.7822988951176773,
+      "step": 384
+    },
+    {
+      "epoch": 1.142064372918979,
+      "grad_norm": 0.550046443939209,
+      "learning_rate": 1.5586197229884185e-05,
+      "loss": 0.6558,
+      "mean_token_accuracy": 0.797441361172838,
+      "step": 385
+    },
+    {
+      "epoch": 1.145024047354791,
+      "grad_norm": 0.5752468705177307,
+      "learning_rate": 1.5557498225616488e-05,
+      "loss": 0.7081,
+      "mean_token_accuracy": 0.7824781572463329,
+      "step": 386
+    },
+    {
+      "epoch": 1.147983721790603,
+      "grad_norm": 0.4782570004463196,
+      "learning_rate": 1.5528732839265272e-05,
+      "loss": 0.7,
+      "mean_token_accuracy": 0.7834877131177364,
+      "step": 387
+    },
+    {
+      "epoch": 1.150943396226415,
+      "grad_norm": 0.5209779739379883,
+      "learning_rate": 1.549990141442153e-05,
+      "loss": 0.6823,
+      "mean_token_accuracy": 0.7903034725828352,
+      "step": 388
+    },
+    {
+      "epoch": 1.153903070662227,
+      "grad_norm": 0.510071337223053,
+      "learning_rate": 1.5471004295465034e-05,
+      "loss": 0.7337,
+      "mean_token_accuracy": 0.7748414033827098,
+      "step": 389
+    },
+    {
+      "epoch": 1.156862745098039,
+      "grad_norm": 0.5067256689071655,
+      "learning_rate": 1.5442041827560274e-05,
+      "loss": 0.6945,
+      "mean_token_accuracy": 0.7857010244801683,
+      "step": 390
+    },
+    {
+      "epoch": 1.1598224195338513,
+      "grad_norm": 0.5134366154670715,
+      "learning_rate": 1.5413014356652287e-05,
+      "loss": 0.6761,
+      "mean_token_accuracy": 0.7901567665550651,
+      "step": 391
+    },
+    {
+      "epoch": 1.1627820939696634,
+      "grad_norm": 0.49565669894218445,
+      "learning_rate": 1.538392222946255e-05,
+      "loss": 0.6992,
+      "mean_token_accuracy": 0.7850131511442856,
+      "step": 392
+    },
+    {
+      "epoch": 1.1657417684054754,
+      "grad_norm": 0.4513917565345764,
+      "learning_rate": 1.5354765793484834e-05,
+      "loss": 0.6779,
+      "mean_token_accuracy": 0.7922368459696144,
+      "step": 393
+    },
+    {
+      "epoch": 1.1687014428412874,
+      "grad_norm": 0.5351982116699219,
+      "learning_rate": 1.5325545396981053e-05,
+      "loss": 0.6937,
+      "mean_token_accuracy": 0.7857501806841758,
+      "step": 394
+    },
+    {
+      "epoch": 1.1716611172770994,
+      "grad_norm": 0.47825103998184204,
+      "learning_rate": 1.5296261388977107e-05,
+      "loss": 0.629,
+      "mean_token_accuracy": 0.8047603633681424,
+      "step": 395
+    },
+    {
+      "epoch": 1.1746207917129117,
+      "grad_norm": 0.48426443338394165,
+      "learning_rate": 1.52669141192587e-05,
+      "loss": 0.7218,
+      "mean_token_accuracy": 0.7786340167760629,
+      "step": 396
+    },
+    {
+      "epoch": 1.1775804661487237,
+      "grad_norm": 0.510691225528717,
+      "learning_rate": 1.5237503938367186e-05,
+      "loss": 0.6961,
+      "mean_token_accuracy": 0.7848220716497867,
+      "step": 397
+    },
+    {
+      "epoch": 1.1805401405845357,
+      "grad_norm": 0.4977818727493286,
+      "learning_rate": 1.5208031197595357e-05,
+      "loss": 0.6181,
+      "mean_token_accuracy": 0.808352793166422,
+      "step": 398
+    },
+    {
+      "epoch": 1.1834998150203477,
+      "grad_norm": 0.45590656995773315,
+      "learning_rate": 1.5178496248983254e-05,
+      "loss": 0.6445,
+      "mean_token_accuracy": 0.7992991854336597,
+      "step": 399
+    },
+    {
+      "epoch": 1.1864594894561598,
+      "grad_norm": 0.5166680812835693,
+      "learning_rate": 1.5148899445313983e-05,
+      "loss": 0.6391,
+      "mean_token_accuracy": 0.8008235442677688,
+      "step": 400
+    },
+    {
+      "epoch": 1.1864594894561598,
+      "eval_loss": 0.753233015537262,
+      "eval_mean_token_accuracy": 0.7678493271850204,
+      "eval_runtime": 24.4762,
+      "eval_samples_per_second": 5.27,
+      "eval_steps_per_second": 1.348,
+      "step": 400
+    },
+    {
+      "epoch": 1.189419163891972,
+      "grad_norm": 0.4777900278568268,
+      "learning_rate": 1.5119241140109466e-05,
+      "loss": 0.6447,
+      "mean_token_accuracy": 0.8008284367677996,
+      "step": 401
+    },
+    {
+      "epoch": 1.192378838327784,
+      "grad_norm": 0.4674142301082611,
+      "learning_rate": 1.5089521687626243e-05,
+      "loss": 0.6426,
+      "mean_token_accuracy": 0.8002595216069462,
+      "step": 402
+    },
+    {
+      "epoch": 1.195338512763596,
+      "grad_norm": 0.5119103789329529,
+      "learning_rate": 1.505974144285124e-05,
+      "loss": 0.7143,
+      "mean_token_accuracy": 0.7807192708136647,
+      "step": 403
+    },
+    {
+      "epoch": 1.198298187199408,
+      "grad_norm": 0.5238728523254395,
+      "learning_rate": 1.5029900761497507e-05,
+      "loss": 0.7459,
+      "mean_token_accuracy": 0.7719988622051683,
+      "step": 404
+    },
+    {
+      "epoch": 1.20125786163522,
+      "grad_norm": 0.5216233134269714,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.6977,
+      "mean_token_accuracy": 0.7839726890839798,
+      "step": 405
+    },
+    {
+      "epoch": 1.204217536071032,
+      "grad_norm": 0.509964108467102,
+      "learning_rate": 1.4970039515511303e-05,
+      "loss": 0.6809,
+      "mean_token_accuracy": 0.7893634011753464,
+      "step": 406
+    },
+    {
+      "epoch": 1.2071772105068441,
+      "grad_norm": 0.5653720498085022,
+      "learning_rate": 1.4940019665897363e-05,
+      "loss": 0.6897,
+      "mean_token_accuracy": 0.7868935096910736,
+      "step": 407
+    },
+    {
+      "epoch": 1.2101368849426564,
+      "grad_norm": 0.4962683618068695,
+      "learning_rate": 1.4909940809733223e-05,
+      "loss": 0.7354,
+      "mean_token_accuracy": 0.7726758488051101,
+      "step": 408
+    },
+    {
+      "epoch": 1.2130965593784684,
+      "grad_norm": 0.5176084637641907,
+      "learning_rate": 1.4879803306298736e-05,
+      "loss": 0.6964,
+      "mean_token_accuracy": 0.7838358295177021,
+      "step": 409
+    },
+    {
+      "epoch": 1.2160562338142804,
+      "grad_norm": 0.513697624206543,
+      "learning_rate": 1.4849607515574276e-05,
+      "loss": 0.6492,
+      "mean_token_accuracy": 0.799568203590832,
+      "step": 410
+    },
+    {
+      "epoch": 1.2190159082500924,
+      "grad_norm": 0.4567902684211731,
+      "learning_rate": 1.4819353798236427e-05,
+      "loss": 0.6991,
+      "mean_token_accuracy": 0.7838256081866393,
+      "step": 411
+    },
+    {
+      "epoch": 1.2219755826859044,
+      "grad_norm": 0.5139224529266357,
+      "learning_rate": 1.4789042515653687e-05,
+      "loss": 0.6946,
+      "mean_token_accuracy": 0.7852177162018236,
+      "step": 412
+    },
+    {
+      "epoch": 1.2249352571217167,
+      "grad_norm": 0.5555658936500549,
+      "learning_rate": 1.4758674029882152e-05,
+      "loss": 0.6539,
+      "mean_token_accuracy": 0.7970551349204403,
+      "step": 413
+    },
+    {
+      "epoch": 1.2278949315575287,
+      "grad_norm": 0.4890614449977875,
+      "learning_rate": 1.4728248703661183e-05,
+      "loss": 0.695,
+      "mean_token_accuracy": 0.7845206023697728,
+      "step": 414
+    },
+    {
+      "epoch": 1.2308546059933407,
+      "grad_norm": 0.47974392771720886,
+      "learning_rate": 1.4697766900409076e-05,
+      "loss": 0.669,
+      "mean_token_accuracy": 0.7929167835356624,
+      "step": 415
+    },
+    {
+      "epoch": 1.2338142804291528,
+      "grad_norm": 0.5015913248062134,
+      "learning_rate": 1.466722898421873e-05,
+      "loss": 0.7009,
+      "mean_token_accuracy": 0.7827139356082893,
+      "step": 416
+    },
+    {
+      "epoch": 1.2367739548649648,
+      "grad_norm": 0.49240073561668396,
+      "learning_rate": 1.4636635319853274e-05,
+      "loss": 0.6685,
+      "mean_token_accuracy": 0.792534979177688,
+      "step": 417
+    },
+    {
+      "epoch": 1.239733629300777,
+      "grad_norm": 0.48550987243652344,
+      "learning_rate": 1.4605986272741748e-05,
+      "loss": 0.6908,
+      "mean_token_accuracy": 0.7868828026774352,
+      "step": 418
+    },
+    {
+      "epoch": 1.242693303736589,
+      "grad_norm": 0.47983378171920776,
+      "learning_rate": 1.4575282208974704e-05,
+      "loss": 0.6831,
+      "mean_token_accuracy": 0.7891199345178915,
+      "step": 419
+    },
+    {
+      "epoch": 1.245652978172401,
+      "grad_norm": 0.49261724948883057,
+      "learning_rate": 1.4544523495299843e-05,
+      "loss": 0.6831,
+      "mean_token_accuracy": 0.7881435108832517,
+      "step": 420
+    },
+    {
+      "epoch": 1.248612652608213,
+      "grad_norm": 0.47099459171295166,
+      "learning_rate": 1.4513710499117648e-05,
+      "loss": 0.6307,
+      "mean_token_accuracy": 0.8053076982273811,
+      "step": 421
+    },
+    {
+      "epoch": 1.251572327044025,
+      "grad_norm": 0.4534473121166229,
+      "learning_rate": 1.4482843588476976e-05,
+      "loss": 0.6953,
+      "mean_token_accuracy": 0.7836745290375378,
+      "step": 422
+    },
+    {
+      "epoch": 1.2545320014798373,
+      "grad_norm": 0.4827975630760193,
+      "learning_rate": 1.445192313207067e-05,
+      "loss": 0.6769,
+      "mean_token_accuracy": 0.7917014445996506,
+      "step": 423
+    },
+    {
+      "epoch": 1.2574916759156491,
+      "grad_norm": 0.48446017503738403,
+      "learning_rate": 1.4420949499231172e-05,
+      "loss": 0.6811,
+      "mean_token_accuracy": 0.7885621949952477,
+      "step": 424
+    },
+    {
+      "epoch": 1.2604513503514614,
+      "grad_norm": 0.46176275610923767,
+      "learning_rate": 1.4389923059926064e-05,
+      "loss": 0.6715,
+      "mean_token_accuracy": 0.7921377530314322,
+      "step": 425
+    },
+    {
+      "epoch": 1.2634110247872734,
+      "grad_norm": 0.4933745265007019,
+      "learning_rate": 1.4358844184753713e-05,
+      "loss": 0.6516,
+      "mean_token_accuracy": 0.7976899559939264,
+      "step": 426
+    },
+    {
+      "epoch": 1.2663706992230854,
+      "grad_norm": 0.4907665252685547,
+      "learning_rate": 1.432771324493879e-05,
+      "loss": 0.675,
+      "mean_token_accuracy": 0.7905862204832549,
+      "step": 427
+    },
+    {
+      "epoch": 1.2693303736588974,
+      "grad_norm": 0.4861429035663605,
+      "learning_rate": 1.4296530612327864e-05,
+      "loss": 0.7044,
+      "mean_token_accuracy": 0.782618434308195,
+      "step": 428
+    },
+    {
+      "epoch": 1.2722900480947095,
+      "grad_norm": 0.44409534335136414,
+      "learning_rate": 1.4265296659384956e-05,
+      "loss": 0.702,
+      "mean_token_accuracy": 0.7835227926569839,
+      "step": 429
+    },
+    {
+      "epoch": 1.2752497225305217,
+      "grad_norm": 0.47325289249420166,
+      "learning_rate": 1.4234011759187084e-05,
+      "loss": 0.6907,
+      "mean_token_accuracy": 0.7883719669584818,
+      "step": 430
+    },
+    {
+      "epoch": 1.2782093969663337,
+      "grad_norm": 0.4296591281890869,
+      "learning_rate": 1.4202676285419811e-05,
+      "loss": 0.6445,
+      "mean_token_accuracy": 0.799964374790151,
+      "step": 431
+    },
+    {
+      "epoch": 1.2811690714021458,
+      "grad_norm": 0.4680195152759552,
+      "learning_rate": 1.4171290612372781e-05,
+      "loss": 0.6913,
+      "mean_token_accuracy": 0.7865936068853461,
+      "step": 432
+    },
+    {
+      "epoch": 1.2841287458379578,
+      "grad_norm": 0.47732165455818176,
+      "learning_rate": 1.4139855114935253e-05,
+      "loss": 0.665,
+      "mean_token_accuracy": 0.795472867454343,
+      "step": 433
+    },
+    {
+      "epoch": 1.2870884202737698,
+      "grad_norm": 0.44656407833099365,
+      "learning_rate": 1.410837016859161e-05,
+      "loss": 0.6747,
+      "mean_token_accuracy": 0.790485626527416,
+      "step": 434
+    },
+    {
+      "epoch": 1.290048094709582,
+      "grad_norm": 0.4626164734363556,
+      "learning_rate": 1.4076836149416889e-05,
+      "loss": 0.6591,
+      "mean_token_accuracy": 0.7963842598244837,
+      "step": 435
+    },
+    {
+      "epoch": 1.293007769145394,
+      "grad_norm": 0.4850873053073883,
+      "learning_rate": 1.4045253434072278e-05,
+      "loss": 0.7126,
+      "mean_token_accuracy": 0.7804075548829805,
+      "step": 436
+    },
+    {
+      "epoch": 1.295967443581206,
+      "grad_norm": 0.4946662187576294,
+      "learning_rate": 1.4013622399800628e-05,
+      "loss": 0.7237,
+      "mean_token_accuracy": 0.777694595209445,
+      "step": 437
+    },
+    {
+      "epoch": 1.298927118017018,
+      "grad_norm": 0.515221893787384,
+      "learning_rate": 1.3981943424421932e-05,
+      "loss": 0.6982,
+      "mean_token_accuracy": 0.784025918890703,
+      "step": 438
+    },
+    {
+      "epoch": 1.3018867924528301,
+      "grad_norm": 0.4743560552597046,
+      "learning_rate": 1.3950216886328818e-05,
+      "loss": 0.698,
+      "mean_token_accuracy": 0.7843463257420568,
+      "step": 439
+    },
+    {
+      "epoch": 1.3048464668886424,
+      "grad_norm": 0.47368329763412476,
+      "learning_rate": 1.3918443164482048e-05,
+      "loss": 0.6961,
+      "mean_token_accuracy": 0.7865385891914267,
+      "step": 440
+    },
+    {
+      "epoch": 1.3078061413244544,
+      "grad_norm": 0.4459000825881958,
+      "learning_rate": 1.3886622638405953e-05,
+      "loss": 0.6955,
+      "mean_token_accuracy": 0.7852747333942596,
+      "step": 441
+    },
+    {
+      "epoch": 1.3107658157602664,
+      "grad_norm": 0.47365012764930725,
+      "learning_rate": 1.3854755688183941e-05,
+      "loss": 0.7227,
+      "mean_token_accuracy": 0.7778711159999969,
+      "step": 442
+    },
+    {
+      "epoch": 1.3137254901960784,
+      "grad_norm": 0.46061503887176514,
+      "learning_rate": 1.3822842694453923e-05,
+      "loss": 0.6885,
+      "mean_token_accuracy": 0.7876893449725652,
+      "step": 443
+    },
+    {
+      "epoch": 1.3166851646318904,
+      "grad_norm": 0.4780057370662689,
+      "learning_rate": 1.3790884038403796e-05,
+      "loss": 0.6911,
+      "mean_token_accuracy": 0.7863533950002012,
+      "step": 444
+    },
+    {
+      "epoch": 1.3196448390677027,
+      "grad_norm": 0.48519885540008545,
+      "learning_rate": 1.375888010176686e-05,
+      "loss": 0.6666,
+      "mean_token_accuracy": 0.7935298420501086,
+      "step": 445
+    },
+    {
+      "epoch": 1.3226045135035145,
+      "grad_norm": 0.4679955840110779,
+      "learning_rate": 1.3726831266817278e-05,
+      "loss": 0.6885,
+      "mean_token_accuracy": 0.7879594429456447,
+      "step": 446
+    },
+    {
+      "epoch": 1.3255641879393267,
+      "grad_norm": 0.4626809060573578,
+      "learning_rate": 1.3694737916365517e-05,
+      "loss": 0.7021,
+      "mean_token_accuracy": 0.7828708121314737,
+      "step": 447
+    },
+    {
+      "epoch": 1.3285238623751388,
+      "grad_norm": 0.45779362320899963,
+      "learning_rate": 1.3662600433753746e-05,
+      "loss": 0.6896,
+      "mean_token_accuracy": 0.7876785995413643,
+      "step": 448
+    },
+    {
+      "epoch": 1.3314835368109508,
+      "grad_norm": 0.4595906436443329,
+      "learning_rate": 1.3630419202851287e-05,
+      "loss": 0.6979,
+      "mean_token_accuracy": 0.7838014568334657,
+      "step": 449
+    },
+    {
+      "epoch": 1.3344432112467628,
+      "grad_norm": 0.4679829776287079,
+      "learning_rate": 1.3598194608050011e-05,
+      "loss": 0.7047,
+      "mean_token_accuracy": 0.7832954223966397,
+      "step": 450
+    },
+    {
+      "epoch": 1.3374028856825748,
+      "grad_norm": 0.49509483575820923,
+      "learning_rate": 1.3565927034259757e-05,
+      "loss": 0.6956,
+      "mean_token_accuracy": 0.7861987291079401,
+      "step": 451
+    },
+    {
+      "epoch": 1.340362560118387,
+      "grad_norm": 0.47606754302978516,
+      "learning_rate": 1.3533616866903736e-05,
+      "loss": 0.6774,
+      "mean_token_accuracy": 0.7900551101111528,
+      "step": 452
+    },
+    {
+      "epoch": 1.343322234554199,
+      "grad_norm": 0.44316449761390686,
+      "learning_rate": 1.3501264491913909e-05,
+      "loss": 0.7,
+      "mean_token_accuracy": 0.7830548189627489,
+      "step": 453
+    },
+    {
+      "epoch": 1.346281908990011,
+      "grad_norm": 0.499174028635025,
+      "learning_rate": 1.3468870295726399e-05,
+      "loss": 0.7203,
+      "mean_token_accuracy": 0.7776105610712533,
+      "step": 454
+    },
+    {
+      "epoch": 1.3492415834258231,
+      "grad_norm": 0.43882501125335693,
+      "learning_rate": 1.3436434665276865e-05,
+      "loss": 0.6745,
+      "mean_token_accuracy": 0.7913862306577221,
+      "step": 455
+    },
+    {
+      "epoch": 1.3522012578616351,
+      "grad_norm": 0.49250712990760803,
+      "learning_rate": 1.3403957987995884e-05,
+      "loss": 0.68,
+      "mean_token_accuracy": 0.7894371521316413,
+      "step": 456
+    },
+    {
+      "epoch": 1.3551609322974474,
+      "grad_norm": 0.46765249967575073,
+      "learning_rate": 1.3371440651804313e-05,
+      "loss": 0.7066,
+      "mean_token_accuracy": 0.7817244510128959,
+      "step": 457
+    },
+    {
+      "epoch": 1.3581206067332594,
+      "grad_norm": 0.46519362926483154,
+      "learning_rate": 1.3338883045108674e-05,
+      "loss": 0.6852,
+      "mean_token_accuracy": 0.7875893561938507,
+      "step": 458
+    },
+    {
+      "epoch": 1.3610802811690714,
+      "grad_norm": 0.5211879014968872,
+      "learning_rate": 1.3306285556796494e-05,
+      "loss": 0.6873,
+      "mean_token_accuracy": 0.7886326578047633,
+      "step": 459
+    },
+    {
+      "epoch": 1.3640399556048834,
+      "grad_norm": 0.4436584413051605,
+      "learning_rate": 1.327364857623168e-05,
+      "loss": 0.7006,
+      "mean_token_accuracy": 0.7844141672519914,
+      "step": 460
+    },
+    {
+      "epoch": 1.3669996300406955,
+      "grad_norm": 0.49897250533103943,
+      "learning_rate": 1.3240972493249846e-05,
+      "loss": 0.6907,
+      "mean_token_accuracy": 0.7872768784393989,
+      "step": 461
+    },
+    {
+      "epoch": 1.3699593044765077,
+      "grad_norm": 0.44192755222320557,
+      "learning_rate": 1.3208257698153677e-05,
+      "loss": 0.7179,
+      "mean_token_accuracy": 0.7772223223597873,
+      "step": 462
+    },
+    {
+      "epoch": 1.3729189789123195,
+      "grad_norm": 0.48224934935569763,
+      "learning_rate": 1.3175504581708261e-05,
+      "loss": 0.6884,
+      "mean_token_accuracy": 0.7876441851387866,
+      "step": 463
+    },
+    {
+      "epoch": 1.3758786533481318,
+      "grad_norm": 0.44167572259902954,
+      "learning_rate": 1.3142713535136413e-05,
+      "loss": 0.6964,
+      "mean_token_accuracy": 0.7840998538649302,
+      "step": 464
+    },
+    {
+      "epoch": 1.3788383277839438,
+      "grad_norm": 0.5188360214233398,
+      "learning_rate": 1.3109884950114007e-05,
+      "loss": 0.6979,
+      "mean_token_accuracy": 0.7830517429111471,
+      "step": 465
+    },
+    {
+      "epoch": 1.3817980022197558,
+      "grad_norm": 0.4949224293231964,
+      "learning_rate": 1.3077019218765306e-05,
+      "loss": 0.6686,
+      "mean_token_accuracy": 0.7925575804293147,
+      "step": 466
+    },
+    {
+      "epoch": 1.3847576766555678,
+      "grad_norm": 0.4614505171775818,
+      "learning_rate": 1.3044116733658261e-05,
+      "loss": 0.6745,
+      "mean_token_accuracy": 0.7904813977673216,
+      "step": 467
+    },
+    {
+      "epoch": 1.3877173510913798,
+      "grad_norm": 0.47585147619247437,
+      "learning_rate": 1.3011177887799846e-05,
+      "loss": 0.6596,
+      "mean_token_accuracy": 0.7969142283708234,
+      "step": 468
+    },
+    {
+      "epoch": 1.390677025527192,
+      "grad_norm": 0.4733677804470062,
+      "learning_rate": 1.2978203074631335e-05,
+      "loss": 0.6837,
+      "mean_token_accuracy": 0.7885936546719822,
+      "step": 469
+    },
+    {
+      "epoch": 1.393636699963004,
+      "grad_norm": 0.47128206491470337,
+      "learning_rate": 1.2945192688023625e-05,
+      "loss": 0.7228,
+      "mean_token_accuracy": 0.777582654281462,
+      "step": 470
+    },
+    {
+      "epoch": 1.3965963743988161,
+      "grad_norm": 0.5573126077651978,
+      "learning_rate": 1.2912147122272523e-05,
+      "loss": 0.692,
+      "mean_token_accuracy": 0.7851007004118511,
+      "step": 471
+    },
+    {
+      "epoch": 1.3995560488346281,
+      "grad_norm": 0.5249556303024292,
+      "learning_rate": 1.287906677209403e-05,
+      "loss": 0.666,
+      "mean_token_accuracy": 0.7935855307222649,
+      "step": 472
+    },
+    {
+      "epoch": 1.4025157232704402,
+      "grad_norm": 0.5098072290420532,
+      "learning_rate": 1.2845952032619651e-05,
+      "loss": 0.7169,
+      "mean_token_accuracy": 0.78048614348136,
+      "step": 473
+    },
+    {
+      "epoch": 1.4054753977062524,
+      "grad_norm": 0.5147253274917603,
+      "learning_rate": 1.2812803299391629e-05,
+      "loss": 0.7285,
+      "mean_token_accuracy": 0.775834970458234,
+      "step": 474
+    },
+    {
+      "epoch": 1.4084350721420644,
+      "grad_norm": 0.529493510723114,
+      "learning_rate": 1.2779620968358276e-05,
+      "loss": 0.6582,
+      "mean_token_accuracy": 0.7956748329946638,
+      "step": 475
+    },
+    {
+      "epoch": 1.4113947465778764,
+      "grad_norm": 0.5070955753326416,
+      "learning_rate": 1.2746405435869198e-05,
+      "loss": 0.6674,
+      "mean_token_accuracy": 0.7915634181103908,
+      "step": 476
+    },
+    {
+      "epoch": 1.4143544210136885,
+      "grad_norm": 0.5139186978340149,
+      "learning_rate": 1.271315709867059e-05,
+      "loss": 0.7037,
+      "mean_token_accuracy": 0.7825460416635028,
+      "step": 477
+    },
+    {
+      "epoch": 1.4173140954495005,
+      "grad_norm": 0.5307909250259399,
+      "learning_rate": 1.2679876353900482e-05,
+      "loss": 0.7082,
+      "mean_token_accuracy": 0.7814352090483259,
+      "step": 478
+    },
+    {
+      "epoch": 1.4202737698853127,
+      "grad_norm": 0.4850543737411499,
+      "learning_rate": 1.2646563599083997e-05,
+      "loss": 0.724,
+      "mean_token_accuracy": 0.7763536423746681,
+      "step": 479
+    },
+    {
+      "epoch": 1.4232334443211248,
+      "grad_norm": 0.5001718997955322,
+      "learning_rate": 1.2613219232128608e-05,
+      "loss": 0.6629,
+      "mean_token_accuracy": 0.7942459104666942,
+      "step": 480
+    },
+    {
+      "epoch": 1.4261931187569368,
+      "grad_norm": 0.5056073069572449,
+      "learning_rate": 1.2579843651319382e-05,
+      "loss": 0.7331,
+      "mean_token_accuracy": 0.7724445151223609,
+      "step": 481
+    },
+    {
+      "epoch": 1.4291527931927488,
+      "grad_norm": 0.5267237424850464,
+      "learning_rate": 1.2546437255314223e-05,
+      "loss": 0.6659,
+      "mean_token_accuracy": 0.7943264511441203,
+      "step": 482
+    },
+    {
+      "epoch": 1.4321124676285608,
+      "grad_norm": 0.4923066794872284,
+      "learning_rate": 1.2513000443139112e-05,
+      "loss": 0.693,
+      "mean_token_accuracy": 0.7847285183122921,
+      "step": 483
+    },
+    {
+      "epoch": 1.435072142064373,
+      "grad_norm": 0.4452427327632904,
+      "learning_rate": 1.2479533614183334e-05,
+      "loss": 0.6783,
+      "mean_token_accuracy": 0.790767397651227,
+      "step": 484
+    },
+    {
+      "epoch": 1.4380318165001849,
+      "grad_norm": 0.4807162582874298,
+      "learning_rate": 1.2446037168194716e-05,
+      "loss": 0.6951,
+      "mean_token_accuracy": 0.7842417519133703,
+      "step": 485
+    },
+    {
+      "epoch": 1.440991490935997,
+      "grad_norm": 0.4858757257461548,
+      "learning_rate": 1.2412511505274845e-05,
+      "loss": 0.6602,
+      "mean_token_accuracy": 0.7962518182176112,
+      "step": 486
+    },
+    {
+      "epoch": 1.4439511653718091,
+      "grad_norm": 0.4663830101490021,
+      "learning_rate": 1.23789570258743e-05,
+      "loss": 0.6951,
+      "mean_token_accuracy": 0.7839527031401198,
+      "step": 487
+    },
+    {
+      "epoch": 1.4469108398076211,
+      "grad_norm": 0.4759344160556793,
+      "learning_rate": 1.2345374130787855e-05,
+      "loss": 0.6925,
+      "mean_token_accuracy": 0.7861855601757001,
+      "step": 488
+    },
+    {
+      "epoch": 1.4498705142434332,
+      "grad_norm": 0.44426658749580383,
+      "learning_rate": 1.23117632211497e-05,
+      "loss": 0.6561,
+      "mean_token_accuracy": 0.7964251152169285,
+      "step": 489
+    },
+    {
+      "epoch": 1.4528301886792452,
+      "grad_norm": 0.4644084870815277,
+      "learning_rate": 1.2278124698428643e-05,
+      "loss": 0.6848,
+      "mean_token_accuracy": 0.7871725512533235,
+      "step": 490
+    },
+    {
+      "epoch": 1.4557898631150574,
+      "grad_norm": 0.43534740805625916,
+      "learning_rate": 1.2244458964423328e-05,
+      "loss": 0.6952,
+      "mean_token_accuracy": 0.7838933476240588,
+      "step": 491
+    },
+    {
+      "epoch": 1.4587495375508694,
+      "grad_norm": 0.4578785300254822,
+      "learning_rate": 1.221076642125742e-05,
+      "loss": 0.6912,
+      "mean_token_accuracy": 0.7867050710099383,
+      "step": 492
+    },
+    {
+      "epoch": 1.4617092119866815,
+      "grad_norm": 0.46426481008529663,
+      "learning_rate": 1.2177047471374808e-05,
+      "loss": 0.6679,
+      "mean_token_accuracy": 0.793821778161506,
+      "step": 493
+    },
+    {
+      "epoch": 1.4646688864224935,
+      "grad_norm": 0.4668942391872406,
+      "learning_rate": 1.214330251753481e-05,
+      "loss": 0.6788,
+      "mean_token_accuracy": 0.7911113494359255,
+      "step": 494
+    },
+    {
+      "epoch": 1.4676285608583055,
+      "grad_norm": 0.4524623155593872,
+      "learning_rate": 1.2109531962807333e-05,
+      "loss": 0.657,
+      "mean_token_accuracy": 0.7968866396266425,
+      "step": 495
+    },
+    {
+      "epoch": 1.4705882352941178,
+      "grad_norm": 0.4540092945098877,
+      "learning_rate": 1.207573621056809e-05,
+      "loss": 0.6779,
+      "mean_token_accuracy": 0.79133374474269,
+      "step": 496
+    },
+    {
+      "epoch": 1.4735479097299298,
+      "grad_norm": 0.4721427857875824,
+      "learning_rate": 1.2041915664493763e-05,
+      "loss": 0.7114,
+      "mean_token_accuracy": 0.7811596412077128,
+      "step": 497
+    },
+    {
+      "epoch": 1.4765075841657418,
+      "grad_norm": 0.45745474100112915,
+      "learning_rate": 1.2008070728557186e-05,
+      "loss": 0.6946,
+      "mean_token_accuracy": 0.7835979713892247,
+      "step": 498
+    },
+    {
+      "epoch": 1.4794672586015538,
+      "grad_norm": 0.45184969902038574,
+      "learning_rate": 1.1974201807022525e-05,
+      "loss": 0.6594,
+      "mean_token_accuracy": 0.7954918143409643,
+      "step": 499
+    },
+    {
+      "epoch": 1.4824269330373658,
+      "grad_norm": 0.43299737572669983,
+      "learning_rate": 1.1940309304440434e-05,
+      "loss": 0.655,
+      "mean_token_accuracy": 0.7961995893943149,
+      "step": 500
+    },
+    {
+      "epoch": 1.4824269330373658,
+      "eval_loss": 0.7452248930931091,
+      "eval_mean_token_accuracy": 0.7696687843740262,
+      "eval_runtime": 24.4738,
+      "eval_samples_per_second": 5.271,
+      "eval_steps_per_second": 1.348,
+      "step": 500
+    },
+    {
+      "epoch": 1.485386607473178,
+      "grad_norm": 0.4329541325569153,
+      "learning_rate": 1.1906393625643244e-05,
+      "loss": 0.6908,
+      "mean_token_accuracy": 0.787461052002391,
+      "step": 501
+    },
+    {
+      "epoch": 1.4883462819089899,
+      "grad_norm": 0.44818833470344543,
+      "learning_rate": 1.1872455175740111e-05,
+      "loss": 0.7038,
+      "mean_token_accuracy": 0.7827824467497245,
+      "step": 502
+    },
+    {
+      "epoch": 1.4913059563448021,
+      "grad_norm": 0.4627722501754761,
+      "learning_rate": 1.1838494360112185e-05,
+      "loss": 0.6831,
+      "mean_token_accuracy": 0.7892276650561758,
+      "step": 503
+    },
+    {
+      "epoch": 1.4942656307806141,
+      "grad_norm": 0.43506646156311035,
+      "learning_rate": 1.1804511584407763e-05,
+      "loss": 0.6469,
+      "mean_token_accuracy": 0.7984073599583249,
+      "step": 504
+    },
+    {
+      "epoch": 1.4972253052164262,
+      "grad_norm": 0.4514705538749695,
+      "learning_rate": 1.1770507254537454e-05,
+      "loss": 0.6567,
+      "mean_token_accuracy": 0.797555451493693,
+      "step": 505
+    },
+    {
+      "epoch": 1.5001849796522384,
+      "grad_norm": 0.4718611538410187,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.6666,
+      "mean_token_accuracy": 0.7937825386926253,
+      "step": 506
+    },
+    {
+      "epoch": 1.5031446540880502,
+      "grad_norm": 0.4598422646522522,
+      "learning_rate": 1.1702435557223988e-05,
+      "loss": 0.7341,
+      "mean_token_accuracy": 0.7725688345230695,
+      "step": 507
+    },
+    {
+      "epoch": 1.5061043285238624,
+      "grad_norm": 0.4759341776371002,
+      "learning_rate": 1.1668369002869912e-05,
+      "loss": 0.696,
+      "mean_token_accuracy": 0.7833280751891905,
+      "step": 508
+    },
+    {
+      "epoch": 1.5090640029596745,
+      "grad_norm": 0.4857986867427826,
+      "learning_rate": 1.1634282520518382e-05,
+      "loss": 0.6843,
+      "mean_token_accuracy": 0.7878627921931918,
+      "step": 509
+    },
+    {
+      "epoch": 1.5120236773954865,
+      "grad_norm": 0.4445328414440155,
+      "learning_rate": 1.1600176517318742e-05,
+      "loss": 0.7016,
+      "mean_token_accuracy": 0.7835290374274105,
+      "step": 510
+    },
+    {
+      "epoch": 1.5149833518312985,
+      "grad_norm": 0.4201406240463257,
+      "learning_rate": 1.1566051400653486e-05,
+      "loss": 0.6892,
+      "mean_token_accuracy": 0.7880382009320334,
+      "step": 511
+    },
+    {
+      "epoch": 1.5179430262671105,
+      "grad_norm": 0.4451057016849518,
+      "learning_rate": 1.153190757813343e-05,
+      "loss": 0.6661,
+      "mean_token_accuracy": 0.7936041312626415,
+      "step": 512
+    },
+    {
+      "epoch": 1.5209027007029228,
+      "grad_norm": 0.45407670736312866,
+      "learning_rate": 1.1497745457592817e-05,
+      "loss": 0.6938,
+      "mean_token_accuracy": 0.7862274252159144,
+      "step": 513
+    },
+    {
+      "epoch": 1.5238623751387348,
+      "grad_norm": 0.48065322637557983,
+      "learning_rate": 1.1463565447084446e-05,
+      "loss": 0.6711,
+      "mean_token_accuracy": 0.7922199519518627,
+      "step": 514
+    },
+    {
+      "epoch": 1.5268220495745468,
+      "grad_norm": 0.4554750323295593,
+      "learning_rate": 1.142936795487482e-05,
+      "loss": 0.7031,
+      "mean_token_accuracy": 0.7841927897620309,
+      "step": 515
+    },
+    {
+      "epoch": 1.5297817240103588,
+      "grad_norm": 0.47003987431526184,
+      "learning_rate": 1.1395153389439232e-05,
+      "loss": 0.6801,
+      "mean_token_accuracy": 0.7887132537245702,
+      "step": 516
+    },
+    {
+      "epoch": 1.5327413984461709,
+      "grad_norm": 0.49194058775901794,
+      "learning_rate": 1.1360922159456929e-05,
+      "loss": 0.6516,
+      "mean_token_accuracy": 0.7972093170337653,
+      "step": 517
+    },
+    {
+      "epoch": 1.535701072881983,
+      "grad_norm": 0.4363403618335724,
+      "learning_rate": 1.1326674673806195e-05,
+      "loss": 0.6454,
+      "mean_token_accuracy": 0.7994255155742641,
+      "step": 518
+    },
+    {
+      "epoch": 1.538660747317795,
+      "grad_norm": 0.4633619487285614,
+      "learning_rate": 1.129241134155949e-05,
+      "loss": 0.7226,
+      "mean_token_accuracy": 0.7772127285568272,
+      "step": 519
+    },
+    {
+      "epoch": 1.5416204217536071,
+      "grad_norm": 0.505766749382019,
+      "learning_rate": 1.1258132571978555e-05,
+      "loss": 0.6866,
+      "mean_token_accuracy": 0.7866910068023953,
+      "step": 520
+    },
+    {
+      "epoch": 1.5445800961894192,
+      "grad_norm": 0.4622265696525574,
+      "learning_rate": 1.1223838774509515e-05,
+      "loss": 0.6794,
+      "mean_token_accuracy": 0.7894488197184882,
+      "step": 521
+    },
+    {
+      "epoch": 1.5475397706252312,
+      "grad_norm": 0.46530911326408386,
+      "learning_rate": 1.1189530358778005e-05,
+      "loss": 0.6714,
+      "mean_token_accuracy": 0.7917336528774738,
+      "step": 522
+    },
+    {
+      "epoch": 1.5504994450610434,
+      "grad_norm": 0.48770585656166077,
+      "learning_rate": 1.1155207734584264e-05,
+      "loss": 0.655,
+      "mean_token_accuracy": 0.7967736177779107,
+      "step": 523
+    },
+    {
+      "epoch": 1.5534591194968552,
+      "grad_norm": 0.4736506938934326,
+      "learning_rate": 1.1120871311898254e-05,
+      "loss": 0.6626,
+      "mean_token_accuracy": 0.7948987812297952,
+      "step": 524
+    },
+    {
+      "epoch": 1.5564187939326675,
+      "grad_norm": 0.4388614594936371,
+      "learning_rate": 1.1086521500854746e-05,
+      "loss": 0.6743,
+      "mean_token_accuracy": 0.7901189868530583,
+      "step": 525
+    },
+    {
+      "epoch": 1.5593784683684795,
+      "grad_norm": 0.42465701699256897,
+      "learning_rate": 1.1052158711748435e-05,
+      "loss": 0.6424,
+      "mean_token_accuracy": 0.8002322656672612,
+      "step": 526
+    },
+    {
+      "epoch": 1.5623381428042915,
+      "grad_norm": 0.444394052028656,
+      "learning_rate": 1.1017783355029027e-05,
+      "loss": 0.6968,
+      "mean_token_accuracy": 0.7853953263510778,
+      "step": 527
+    },
+    {
+      "epoch": 1.5652978172401038,
+      "grad_norm": 0.4599439799785614,
+      "learning_rate": 1.0983395841296349e-05,
+      "loss": 0.7023,
+      "mean_token_accuracy": 0.783582448885906,
+      "step": 528
+    },
+    {
+      "epoch": 1.5682574916759155,
+      "grad_norm": 0.4538317918777466,
+      "learning_rate": 1.0948996581295437e-05,
+      "loss": 0.6708,
+      "mean_token_accuracy": 0.7920199562156756,
+      "step": 529
+    },
+    {
+      "epoch": 1.5712171661117278,
+      "grad_norm": 0.5204719305038452,
+      "learning_rate": 1.0914585985911632e-05,
+      "loss": 0.7194,
+      "mean_token_accuracy": 0.7800594247957305,
+      "step": 530
+    },
+    {
+      "epoch": 1.5741768405475398,
+      "grad_norm": 0.4342687129974365,
+      "learning_rate": 1.0880164466165675e-05,
+      "loss": 0.6803,
+      "mean_token_accuracy": 0.7888814345475649,
+      "step": 531
+    },
+    {
+      "epoch": 1.5771365149833518,
+      "grad_norm": 0.47061675786972046,
+      "learning_rate": 1.084573243320878e-05,
+      "loss": 0.6997,
+      "mean_token_accuracy": 0.7845215145727062,
+      "step": 532
+    },
+    {
+      "epoch": 1.5800961894191639,
+      "grad_norm": 0.48753833770751953,
+      "learning_rate": 1.0811290298317755e-05,
+      "loss": 0.6963,
+      "mean_token_accuracy": 0.7853895351084046,
+      "step": 533
+    },
+    {
+      "epoch": 1.5830558638549759,
+      "grad_norm": 0.4486468732357025,
+      "learning_rate": 1.0776838472890065e-05,
+      "loss": 0.6616,
+      "mean_token_accuracy": 0.7946923291350155,
+      "step": 534
+    },
+    {
+      "epoch": 1.5860155382907881,
+      "grad_norm": 0.46315282583236694,
+      "learning_rate": 1.0742377368438915e-05,
+      "loss": 0.6653,
+      "mean_token_accuracy": 0.7937742045003314,
+      "step": 535
+    },
+    {
+      "epoch": 1.5889752127266,
+      "grad_norm": 0.43467020988464355,
+      "learning_rate": 1.0707907396588362e-05,
+      "loss": 0.675,
+      "mean_token_accuracy": 0.7911407237837417,
+      "step": 536
+    },
+    {
+      "epoch": 1.5919348871624122,
+      "grad_norm": 0.47853776812553406,
+      "learning_rate": 1.0673428969068365e-05,
+      "loss": 0.6694,
+      "mean_token_accuracy": 0.7934067804791232,
+      "step": 537
+    },
+    {
+      "epoch": 1.5948945615982242,
+      "grad_norm": 0.4569770395755768,
+      "learning_rate": 1.063894249770989e-05,
+      "loss": 0.7149,
+      "mean_token_accuracy": 0.7789215590955586,
+      "step": 538
+    },
+    {
+      "epoch": 1.5978542360340362,
+      "grad_norm": 0.48249223828315735,
+      "learning_rate": 1.0604448394439983e-05,
+      "loss": 0.6881,
+      "mean_token_accuracy": 0.7885556262821241,
+      "step": 539
+    },
+    {
+      "epoch": 1.6008139104698484,
+      "grad_norm": 0.44117307662963867,
+      "learning_rate": 1.0569947071276847e-05,
+      "loss": 0.6773,
+      "mean_token_accuracy": 0.7905948947059994,
+      "step": 540
+    },
+    {
+      "epoch": 1.6037735849056602,
+      "grad_norm": 0.4791225492954254,
+      "learning_rate": 1.053543894032493e-05,
+      "loss": 0.6486,
+      "mean_token_accuracy": 0.7984527785084713,
+      "step": 541
+    },
+    {
+      "epoch": 1.6067332593414725,
+      "grad_norm": 0.4592903256416321,
+      "learning_rate": 1.0500924413769988e-05,
+      "loss": 0.7029,
+      "mean_token_accuracy": 0.7816764343124575,
+      "step": 542
+    },
+    {
+      "epoch": 1.6096929337772845,
+      "grad_norm": 0.4603089988231659,
+      "learning_rate": 1.0466403903874176e-05,
+      "loss": 0.6692,
+      "mean_token_accuracy": 0.7920168861161754,
+      "step": 543
+    },
+    {
+      "epoch": 1.6126526082130965,
+      "grad_norm": 0.4877552092075348,
+      "learning_rate": 1.0431877822971118e-05,
+      "loss": 0.7264,
+      "mean_token_accuracy": 0.7763762310950634,
+      "step": 544
+    },
+    {
+      "epoch": 1.6156122826489088,
+      "grad_norm": 0.4495700001716614,
+      "learning_rate": 1.0397346583460972e-05,
+      "loss": 0.6748,
+      "mean_token_accuracy": 0.790038916470125,
+      "step": 545
+    },
+    {
+      "epoch": 1.6185719570847206,
+      "grad_norm": 0.4363431930541992,
+      "learning_rate": 1.0362810597805526e-05,
+      "loss": 0.7176,
+      "mean_token_accuracy": 0.7804455873720191,
+      "step": 546
+    },
+    {
+      "epoch": 1.6215316315205328,
+      "grad_norm": 0.4593956470489502,
+      "learning_rate": 1.0328270278523256e-05,
+      "loss": 0.692,
+      "mean_token_accuracy": 0.7868243000254014,
+      "step": 547
+    },
+    {
+      "epoch": 1.6244913059563448,
+      "grad_norm": 0.4650803506374359,
+      "learning_rate": 1.0293726038184393e-05,
+      "loss": 0.6667,
+      "mean_token_accuracy": 0.7932379645110449,
+      "step": 548
+    },
+    {
+      "epoch": 1.6274509803921569,
+      "grad_norm": 0.4343462288379669,
+      "learning_rate": 1.0259178289406011e-05,
+      "loss": 0.6828,
+      "mean_token_accuracy": 0.7873501273107357,
+      "step": 549
+    },
+    {
+      "epoch": 1.6304106548279689,
+      "grad_norm": 0.485445499420166,
+      "learning_rate": 1.022462744484709e-05,
+      "loss": 0.6757,
+      "mean_token_accuracy": 0.790149107536362,
+      "step": 550
+    },
+    {
+      "epoch": 1.633370329263781,
+      "grad_norm": 0.4408370852470398,
+      "learning_rate": 1.019007391720359e-05,
+      "loss": 0.6423,
+      "mean_token_accuracy": 0.8007969798780114,
+      "step": 551
+    },
+    {
+      "epoch": 1.6363300036995931,
+      "grad_norm": 0.48014140129089355,
+      "learning_rate": 1.0155518119203511e-05,
+      "loss": 0.6485,
+      "mean_token_accuracy": 0.798990145407414,
+      "step": 552
+    },
+    {
+      "epoch": 1.6392896781354052,
+      "grad_norm": 0.43950581550598145,
+      "learning_rate": 1.0120960463601977e-05,
+      "loss": 0.6884,
+      "mean_token_accuracy": 0.7868133995463237,
+      "step": 553
+    },
+    {
+      "epoch": 1.6422493525712172,
+      "grad_norm": 0.4777732789516449,
+      "learning_rate": 1.0086401363176306e-05,
+      "loss": 0.7016,
+      "mean_token_accuracy": 0.7829182684226537,
+      "step": 554
+    },
+    {
+      "epoch": 1.6452090270070292,
+      "grad_norm": 0.4738129675388336,
+      "learning_rate": 1.0051841230721065e-05,
+      "loss": 0.7025,
+      "mean_token_accuracy": 0.7833107058164892,
+      "step": 555
+    },
+    {
+      "epoch": 1.6481687014428412,
+      "grad_norm": 0.49576374888420105,
+      "learning_rate": 1.0017280479043148e-05,
+      "loss": 0.6832,
+      "mean_token_accuracy": 0.7878164823186655,
+      "step": 556
+    },
+    {
+      "epoch": 1.6511283758786535,
+      "grad_norm": 0.4482108950614929,
+      "learning_rate": 9.982719520956856e-06,
+      "loss": 0.6935,
+      "mean_token_accuracy": 0.7859008840989987,
+      "step": 557
+    },
+    {
+      "epoch": 1.6540880503144653,
+      "grad_norm": 0.4530676603317261,
+      "learning_rate": 9.948158769278939e-06,
+      "loss": 0.6496,
+      "mean_token_accuracy": 0.7975575400059007,
+      "step": 558
+    },
+    {
+      "epoch": 1.6570477247502775,
+      "grad_norm": 0.4506595730781555,
+      "learning_rate": 9.913598636823694e-06,
+      "loss": 0.6711,
+      "mean_token_accuracy": 0.7920525949216152,
+      "step": 559
+    },
+    {
+      "epoch": 1.6600073991860895,
+      "grad_norm": 0.492118775844574,
+      "learning_rate": 9.879039536398023e-06,
+      "loss": 0.6663,
+      "mean_token_accuracy": 0.7926239117866946,
+      "step": 560
+    },
+    {
+      "epoch": 1.6629670736219015,
+      "grad_norm": 0.4334714114665985,
+      "learning_rate": 9.844481880796492e-06,
+      "loss": 0.6685,
+      "mean_token_accuracy": 0.7934195520197277,
+      "step": 561
+    },
+    {
+      "epoch": 1.6659267480577138,
+      "grad_norm": 0.43926241993904114,
+      "learning_rate": 9.809926082796415e-06,
+      "loss": 0.668,
+      "mean_token_accuracy": 0.7921636930110467,
+      "step": 562
+    },
+    {
+      "epoch": 1.6688864224935256,
+      "grad_norm": 0.46381375193595886,
+      "learning_rate": 9.775372555152912e-06,
+      "loss": 0.7106,
+      "mean_token_accuracy": 0.7814721603110977,
+      "step": 563
+    },
+    {
+      "epoch": 1.6718460969293378,
+      "grad_norm": 0.4584568738937378,
+      "learning_rate": 9.740821710593989e-06,
+      "loss": 0.6723,
+      "mean_token_accuracy": 0.7927753026753256,
+      "step": 564
+    },
+    {
+      "epoch": 1.6748057713651499,
+      "grad_norm": 0.46233710646629333,
+      "learning_rate": 9.70627396181561e-06,
+      "loss": 0.6979,
+      "mean_token_accuracy": 0.7847842845307743,
+      "step": 565
+    },
+    {
+      "epoch": 1.6777654458009619,
+      "grad_norm": 0.4692407548427582,
+      "learning_rate": 9.671729721476747e-06,
+      "loss": 0.6779,
+      "mean_token_accuracy": 0.7904914247805244,
+      "step": 566
+    },
+    {
+      "epoch": 1.6807251202367741,
+      "grad_norm": 0.45148906111717224,
+      "learning_rate": 9.637189402194477e-06,
+      "loss": 0.6636,
+      "mean_token_accuracy": 0.794561469534099,
+      "step": 567
+    },
+    {
+      "epoch": 1.683684794672586,
+      "grad_norm": 0.4668971002101898,
+      "learning_rate": 9.602653416539031e-06,
+      "loss": 0.6562,
+      "mean_token_accuracy": 0.7957992597890263,
+      "step": 568
+    },
+    {
+      "epoch": 1.6866444691083982,
+      "grad_norm": 0.4657999575138092,
+      "learning_rate": 9.568122177028884e-06,
+      "loss": 0.6793,
+      "mean_token_accuracy": 0.7895593260251141,
+      "step": 569
+    },
+    {
+      "epoch": 1.6896041435442102,
+      "grad_norm": 0.45058828592300415,
+      "learning_rate": 9.533596096125826e-06,
+      "loss": 0.6982,
+      "mean_token_accuracy": 0.7837857085184711,
+      "step": 570
+    },
+    {
+      "epoch": 1.6925638179800222,
+      "grad_norm": 0.5159661769866943,
+      "learning_rate": 9.499075586230014e-06,
+      "loss": 0.7278,
+      "mean_token_accuracy": 0.7758815945577252,
+      "step": 571
+    },
+    {
+      "epoch": 1.6955234924158342,
+      "grad_norm": 0.4985567629337311,
+      "learning_rate": 9.464561059675073e-06,
+      "loss": 0.6815,
+      "mean_token_accuracy": 0.789947097130735,
+      "step": 572
+    },
+    {
+      "epoch": 1.6984831668516462,
+      "grad_norm": 0.4985766112804413,
+      "learning_rate": 9.430052928723153e-06,
+      "loss": 0.6689,
+      "mean_token_accuracy": 0.7914537628745669,
+      "step": 573
+    },
+    {
+      "epoch": 1.7014428412874585,
+      "grad_norm": 0.44924196600914,
+      "learning_rate": 9.395551605560018e-06,
+      "loss": 0.654,
+      "mean_token_accuracy": 0.7949039622131476,
+      "step": 574
+    },
+    {
+      "epoch": 1.7044025157232703,
+      "grad_norm": 0.4486066997051239,
+      "learning_rate": 9.361057502290112e-06,
+      "loss": 0.6689,
+      "mean_token_accuracy": 0.7932129938757272,
+      "step": 575
+    },
+    {
+      "epoch": 1.7073621901590825,
+      "grad_norm": 0.5298429131507874,
+      "learning_rate": 9.326571030931636e-06,
+      "loss": 0.6797,
+      "mean_token_accuracy": 0.7899495064143103,
+      "step": 576
+    },
+    {
+      "epoch": 1.7103218645948945,
+      "grad_norm": 0.4834374189376831,
+      "learning_rate": 9.292092603411642e-06,
+      "loss": 0.6856,
+      "mean_token_accuracy": 0.7874172906006217,
+      "step": 577
+    },
+    {
+      "epoch": 1.7132815390307066,
+      "grad_norm": 0.4545672833919525,
+      "learning_rate": 9.257622631561085e-06,
+      "loss": 0.6793,
+      "mean_token_accuracy": 0.7896850742245419,
+      "step": 578
+    },
+    {
+      "epoch": 1.7162412134665188,
+      "grad_norm": 0.49482157826423645,
+      "learning_rate": 9.223161527109938e-06,
+      "loss": 0.7249,
+      "mean_token_accuracy": 0.7754079872839525,
+      "step": 579
+    },
+    {
+      "epoch": 1.7192008879023306,
+      "grad_norm": 0.47407853603363037,
+      "learning_rate": 9.188709701682246e-06,
+      "loss": 0.6793,
+      "mean_token_accuracy": 0.7890331281672109,
+      "step": 580
+    },
+    {
+      "epoch": 1.7221605623381429,
+      "grad_norm": 0.496600478887558,
+      "learning_rate": 9.154267566791224e-06,
+      "loss": 0.6745,
+      "mean_token_accuracy": 0.7916224036955456,
+      "step": 581
+    },
+    {
+      "epoch": 1.7251202367739549,
+      "grad_norm": 0.447837233543396,
+      "learning_rate": 9.119835533834332e-06,
+      "loss": 0.6443,
+      "mean_token_accuracy": 0.8001154358817507,
+      "step": 582
+    },
+    {
+      "epoch": 1.728079911209767,
+      "grad_norm": 0.4290511906147003,
+      "learning_rate": 9.085414014088368e-06,
+      "loss": 0.7033,
+      "mean_token_accuracy": 0.7838360657347012,
+      "step": 583
+    },
+    {
+      "epoch": 1.7310395856455791,
+      "grad_norm": 0.4949333369731903,
+      "learning_rate": 9.051003418704566e-06,
+      "loss": 0.6797,
+      "mean_token_accuracy": 0.7891070494649397,
+      "step": 584
+    },
+    {
+      "epoch": 1.733999260081391,
+      "grad_norm": 0.47587254643440247,
+      "learning_rate": 9.016604158703654e-06,
+      "loss": 0.6047,
+      "mean_token_accuracy": 0.8115938183485798,
+      "step": 585
+    },
+    {
+      "epoch": 1.7369589345172032,
+      "grad_norm": 0.4586060643196106,
+      "learning_rate": 8.982216644970978e-06,
+      "loss": 0.7073,
+      "mean_token_accuracy": 0.7814491686139491,
+      "step": 586
+    },
+    {
+      "epoch": 1.7399186089530152,
+      "grad_norm": 0.4535180628299713,
+      "learning_rate": 8.947841288251568e-06,
+      "loss": 0.6773,
+      "mean_token_accuracy": 0.7899806831449463,
+      "step": 587
+    },
+    {
+      "epoch": 1.7428782833888272,
+      "grad_norm": 0.4698368012905121,
+      "learning_rate": 8.913478499145255e-06,
+      "loss": 0.6992,
+      "mean_token_accuracy": 0.7847534234645677,
+      "step": 588
+    },
+    {
+      "epoch": 1.7458379578246392,
+      "grad_norm": 0.4965501129627228,
+      "learning_rate": 8.879128688101749e-06,
+      "loss": 0.73,
+      "mean_token_accuracy": 0.7749135427241792,
+      "step": 589
+    },
+    {
+      "epoch": 1.7487976322604513,
+      "grad_norm": 0.42426785826683044,
+      "learning_rate": 8.844792265415738e-06,
+      "loss": 0.6691,
+      "mean_token_accuracy": 0.7934521695906798,
+      "step": 590
+    },
+    {
+      "epoch": 1.7517573066962635,
+      "grad_norm": 0.4164229929447174,
+      "learning_rate": 8.810469641222001e-06,
+      "loss": 0.6792,
+      "mean_token_accuracy": 0.7893430794759394,
+      "step": 591
+    },
+    {
+      "epoch": 1.7547169811320755,
+      "grad_norm": 0.4406238794326782,
+      "learning_rate": 8.776161225490488e-06,
+      "loss": 0.6774,
+      "mean_token_accuracy": 0.7888743256018739,
+      "step": 592
+    },
+    {
+      "epoch": 1.7576766555678875,
+      "grad_norm": 0.4821741282939911,
+      "learning_rate": 8.741867428021447e-06,
+      "loss": 0.7028,
+      "mean_token_accuracy": 0.782003973548151,
+      "step": 593
+    },
+    {
+      "epoch": 1.7606363300036996,
+      "grad_norm": 0.41678085923194885,
+      "learning_rate": 8.707588658440511e-06,
+      "loss": 0.6673,
+      "mean_token_accuracy": 0.792060705641046,
+      "step": 594
+    },
+    {
+      "epoch": 1.7635960044395116,
+      "grad_norm": 0.4335281252861023,
+      "learning_rate": 8.673325326193806e-06,
+      "loss": 0.6799,
+      "mean_token_accuracy": 0.7913004243427386,
+      "step": 595
+    },
+    {
+      "epoch": 1.7665556788753238,
+      "grad_norm": 0.46854230761528015,
+      "learning_rate": 8.639077840543078e-06,
+      "loss": 0.6939,
+      "mean_token_accuracy": 0.784777034055922,
+      "step": 596
+    },
+    {
+      "epoch": 1.7695153533111356,
+      "grad_norm": 0.4286266267299652,
+      "learning_rate": 8.604846610560771e-06,
+      "loss": 0.682,
+      "mean_token_accuracy": 0.7879420465198175,
+      "step": 597
+    },
+    {
+      "epoch": 1.7724750277469479,
+      "grad_norm": 0.4346145689487457,
+      "learning_rate": 8.570632045125185e-06,
+      "loss": 0.6722,
+      "mean_token_accuracy": 0.7908459643173444,
+      "step": 598
+    },
+    {
+      "epoch": 1.77543470218276,
+      "grad_norm": 0.47212105989456177,
+      "learning_rate": 8.536434552915555e-06,
+      "loss": 0.6758,
+      "mean_token_accuracy": 0.7914862427903648,
+      "step": 599
+    },
+    {
+      "epoch": 1.778394376618572,
+      "grad_norm": 0.45980679988861084,
+      "learning_rate": 8.502254542407186e-06,
+      "loss": 0.6988,
+      "mean_token_accuracy": 0.7817833351753944,
+      "step": 600
+    },
+    {
+      "epoch": 1.778394376618572,
+      "eval_loss": 0.739486575126648,
+      "eval_mean_token_accuracy": 0.7714524950010826,
+      "eval_runtime": 24.4731,
+      "eval_samples_per_second": 5.271,
+      "eval_steps_per_second": 1.348,
+      "step": 600
+    },
+    {
+      "epoch": 1.7813540510543842,
+      "grad_norm": 0.4924312233924866,
+      "learning_rate": 8.468092421866575e-06,
+      "loss": 0.6954,
+      "mean_token_accuracy": 0.7859722749641744,
+      "step": 601
+    },
+    {
+      "epoch": 1.784313725490196,
+      "grad_norm": 0.4518575966358185,
+      "learning_rate": 8.433948599346516e-06,
+      "loss": 0.6719,
+      "mean_token_accuracy": 0.7915203880270405,
+      "step": 602
+    },
+    {
+      "epoch": 1.7872733999260082,
+      "grad_norm": 0.41159677505493164,
+      "learning_rate": 8.399823482681263e-06,
+      "loss": 0.6654,
+      "mean_token_accuracy": 0.7925289623050378,
+      "step": 603
+    },
+    {
+      "epoch": 1.7902330743618202,
+      "grad_norm": 0.4749601483345032,
+      "learning_rate": 8.36571747948162e-06,
+      "loss": 0.651,
+      "mean_token_accuracy": 0.7971818401347246,
+      "step": 604
+    },
+    {
+      "epoch": 1.7931927487976322,
+      "grad_norm": 0.4616299271583557,
+      "learning_rate": 8.331630997130091e-06,
+      "loss": 0.6387,
+      "mean_token_accuracy": 0.801418446439762,
+      "step": 605
+    },
+    {
+      "epoch": 1.7961524232334445,
+      "grad_norm": 0.4717465341091156,
+      "learning_rate": 8.297564442776014e-06,
+      "loss": 0.7002,
+      "mean_token_accuracy": 0.7815816907542203,
+      "step": 606
+    },
+    {
+      "epoch": 1.7991120976692563,
+      "grad_norm": 0.45160382986068726,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 0.6656,
+      "mean_token_accuracy": 0.7934779098419342,
+      "step": 607
+    },
+    {
+      "epoch": 1.8020717721050685,
+      "grad_norm": 0.5111809372901917,
+      "learning_rate": 8.229492745462551e-06,
+      "loss": 0.6734,
+      "mean_token_accuracy": 0.7910897600390507,
+      "step": 608
+    },
+    {
+      "epoch": 1.8050314465408805,
+      "grad_norm": 0.4546574652194977,
+      "learning_rate": 8.195488415592238e-06,
+      "loss": 0.6832,
+      "mean_token_accuracy": 0.7884104161267849,
+      "step": 609
+    },
+    {
+      "epoch": 1.8079911209766926,
+      "grad_norm": 0.48915475606918335,
+      "learning_rate": 8.161505639887818e-06,
+      "loss": 0.6865,
+      "mean_token_accuracy": 0.7868375134510748,
+      "step": 610
+    },
+    {
+      "epoch": 1.8109507954125046,
+      "grad_norm": 0.45673686265945435,
+      "learning_rate": 8.12754482425989e-06,
+      "loss": 0.6531,
+      "mean_token_accuracy": 0.7978940928567595,
+      "step": 611
+    },
+    {
+      "epoch": 1.8139104698483166,
+      "grad_norm": 0.46595895290374756,
+      "learning_rate": 8.09360637435676e-06,
+      "loss": 0.6763,
+      "mean_token_accuracy": 0.7900004127541489,
+      "step": 612
+    },
+    {
+      "epoch": 1.8168701442841289,
+      "grad_norm": 0.4639073312282562,
+      "learning_rate": 8.05969069555957e-06,
+      "loss": 0.7068,
+      "mean_token_accuracy": 0.7818326911340046,
+      "step": 613
+    },
+    {
+      "epoch": 1.8198298187199407,
+      "grad_norm": 0.48692357540130615,
+      "learning_rate": 8.025798192977482e-06,
+      "loss": 0.6724,
+      "mean_token_accuracy": 0.7902419271935022,
+      "step": 614
+    },
+    {
+      "epoch": 1.822789493155753,
+      "grad_norm": 0.4192976653575897,
+      "learning_rate": 7.991929271442817e-06,
+      "loss": 0.694,
+      "mean_token_accuracy": 0.7842421058017395,
+      "step": 615
+    },
+    {
+      "epoch": 1.825749167591565,
+      "grad_norm": 0.4323351979255676,
+      "learning_rate": 7.958084335506239e-06,
+      "loss": 0.6633,
+      "mean_token_accuracy": 0.7939339540476142,
+      "step": 616
+    },
+    {
+      "epoch": 1.828708842027377,
+      "grad_norm": 0.5116434097290039,
+      "learning_rate": 7.924263789431913e-06,
+      "loss": 0.7177,
+      "mean_token_accuracy": 0.7774093907152634,
+      "step": 617
+    },
+    {
+      "epoch": 1.8316685164631892,
+      "grad_norm": 0.47101178765296936,
+      "learning_rate": 7.89046803719267e-06,
+      "loss": 0.6311,
+      "mean_token_accuracy": 0.8026902561156782,
+      "step": 618
+    },
+    {
+      "epoch": 1.834628190899001,
+      "grad_norm": 0.4334461987018585,
+      "learning_rate": 7.856697482465195e-06,
+      "loss": 0.7056,
+      "mean_token_accuracy": 0.7813049117276861,
+      "step": 619
+    },
+    {
+      "epoch": 1.8375878653348132,
+      "grad_norm": 0.44044068455696106,
+      "learning_rate": 7.822952528625192e-06,
+      "loss": 0.6706,
+      "mean_token_accuracy": 0.7911052218155908,
+      "step": 620
+    },
+    {
+      "epoch": 1.8405475397706252,
+      "grad_norm": 0.43130719661712646,
+      "learning_rate": 7.789233578742583e-06,
+      "loss": 0.6868,
+      "mean_token_accuracy": 0.7883987501012448,
+      "step": 621
+    },
+    {
+      "epoch": 1.8435072142064373,
+      "grad_norm": 0.464912086725235,
+      "learning_rate": 7.755541035576677e-06,
+      "loss": 0.6966,
+      "mean_token_accuracy": 0.784260520058606,
+      "step": 622
+    },
+    {
+      "epoch": 1.8464668886422495,
+      "grad_norm": 0.47342586517333984,
+      "learning_rate": 7.721875301571359e-06,
+      "loss": 0.6862,
+      "mean_token_accuracy": 0.7896494653236235,
+      "step": 623
+    },
+    {
+      "epoch": 1.8494265630780613,
+      "grad_norm": 0.4514820873737335,
+      "learning_rate": 7.688236778850307e-06,
+      "loss": 0.6702,
+      "mean_token_accuracy": 0.7906542847766748,
+      "step": 624
+    },
+    {
+      "epoch": 1.8523862375138735,
+      "grad_norm": 0.4382912218570709,
+      "learning_rate": 7.654625869212147e-06,
+      "loss": 0.6519,
+      "mean_token_accuracy": 0.7971948655223885,
+      "step": 625
+    },
+    {
+      "epoch": 1.8553459119496856,
+      "grad_norm": 0.4642338156700134,
+      "learning_rate": 7.621042974125701e-06,
+      "loss": 0.7042,
+      "mean_token_accuracy": 0.7810776086801536,
+      "step": 626
+    },
+    {
+      "epoch": 1.8583055863854976,
+      "grad_norm": 0.43844854831695557,
+      "learning_rate": 7.587488494725157e-06,
+      "loss": 0.7134,
+      "mean_token_accuracy": 0.7782961208172144,
+      "step": 627
+    },
+    {
+      "epoch": 1.8612652608213096,
+      "grad_norm": 0.44983789324760437,
+      "learning_rate": 7.553962831805291e-06,
+      "loss": 0.6928,
+      "mean_token_accuracy": 0.7847411304512161,
+      "step": 628
+    },
+    {
+      "epoch": 1.8642249352571216,
+      "grad_norm": 0.464546799659729,
+      "learning_rate": 7.520466385816672e-06,
+      "loss": 0.6848,
+      "mean_token_accuracy": 0.7877457152823937,
+      "step": 629
+    },
+    {
+      "epoch": 1.8671846096929339,
+      "grad_norm": 0.4500563442707062,
+      "learning_rate": 7.48699955686089e-06,
+      "loss": 0.7043,
+      "mean_token_accuracy": 0.7810525873603867,
+      "step": 630
+    },
+    {
+      "epoch": 1.870144284128746,
+      "grad_norm": 0.4776234030723572,
+      "learning_rate": 7.453562744685779e-06,
+      "loss": 0.6491,
+      "mean_token_accuracy": 0.7980624835148542,
+      "step": 631
+    },
+    {
+      "epoch": 1.873103958564558,
+      "grad_norm": 0.42935752868652344,
+      "learning_rate": 7.420156348680621e-06,
+      "loss": 0.7015,
+      "mean_token_accuracy": 0.7841032229720888,
+      "step": 632
+    },
+    {
+      "epoch": 1.87606363300037,
+      "grad_norm": 0.45095863938331604,
+      "learning_rate": 7.3867807678713965e-06,
+      "loss": 0.6695,
+      "mean_token_accuracy": 0.792214351462561,
+      "step": 633
+    },
+    {
+      "epoch": 1.879023307436182,
+      "grad_norm": 0.4426802694797516,
+      "learning_rate": 7.353436400916006e-06,
+      "loss": 0.7231,
+      "mean_token_accuracy": 0.7759461148659138,
+      "step": 634
+    },
+    {
+      "epoch": 1.8819829818719942,
+      "grad_norm": 0.4576883316040039,
+      "learning_rate": 7.32012364609952e-06,
+      "loss": 0.6891,
+      "mean_token_accuracy": 0.787467563016268,
+      "step": 635
+    },
+    {
+      "epoch": 1.884942656307806,
+      "grad_norm": 0.47537630796432495,
+      "learning_rate": 7.286842901329413e-06,
+      "loss": 0.6737,
+      "mean_token_accuracy": 0.7898305381622779,
+      "step": 636
+    },
+    {
+      "epoch": 1.8879023307436182,
+      "grad_norm": 0.47071340680122375,
+      "learning_rate": 7.253594564130804e-06,
+      "loss": 0.6314,
+      "mean_token_accuracy": 0.8024436031530167,
+      "step": 637
+    },
+    {
+      "epoch": 1.8908620051794303,
+      "grad_norm": 0.42745083570480347,
+      "learning_rate": 7.22037903164173e-06,
+      "loss": 0.6648,
+      "mean_token_accuracy": 0.7939708774130151,
+      "step": 638
+    },
+    {
+      "epoch": 1.8938216796152423,
+      "grad_norm": 0.45386022329330444,
+      "learning_rate": 7.187196700608373e-06,
+      "loss": 0.7055,
+      "mean_token_accuracy": 0.7818898164861657,
+      "step": 639
+    },
+    {
+      "epoch": 1.8967813540510545,
+      "grad_norm": 0.5082824230194092,
+      "learning_rate": 7.154047967380353e-06,
+      "loss": 0.6797,
+      "mean_token_accuracy": 0.7885593754013774,
+      "step": 640
+    },
+    {
+      "epoch": 1.8997410284868663,
+      "grad_norm": 0.42250484228134155,
+      "learning_rate": 7.120933227905971e-06,
+      "loss": 0.6822,
+      "mean_token_accuracy": 0.7885130074722346,
+      "step": 641
+    },
+    {
+      "epoch": 1.9027007029226786,
+      "grad_norm": 0.45145198702812195,
+      "learning_rate": 7.0878528777274814e-06,
+      "loss": 0.7101,
+      "mean_token_accuracy": 0.7797410127092863,
+      "step": 642
+    },
+    {
+      "epoch": 1.9056603773584906,
+      "grad_norm": 0.4663936495780945,
+      "learning_rate": 7.05480731197638e-06,
+      "loss": 0.6638,
+      "mean_token_accuracy": 0.7952863824537968,
+      "step": 643
+    },
+    {
+      "epoch": 1.9086200517943026,
+      "grad_norm": 0.4832487106323242,
+      "learning_rate": 7.021796925368667e-06,
+      "loss": 0.6901,
+      "mean_token_accuracy": 0.7859927796689913,
+      "step": 644
+    },
+    {
+      "epoch": 1.9115797262301149,
+      "grad_norm": 0.4796106219291687,
+      "learning_rate": 6.988822112200157e-06,
+      "loss": 0.699,
+      "mean_token_accuracy": 0.7833292076466405,
+      "step": 645
+    },
+    {
+      "epoch": 1.9145394006659266,
+      "grad_norm": 0.4601701498031616,
+      "learning_rate": 6.955883266341741e-06,
+      "loss": 0.6911,
+      "mean_token_accuracy": 0.7855269916498042,
+      "step": 646
+    },
+    {
+      "epoch": 1.917499075101739,
+      "grad_norm": 0.4631184935569763,
+      "learning_rate": 6.9229807812346985e-06,
+      "loss": 0.6938,
+      "mean_token_accuracy": 0.7854820719902068,
+      "step": 647
+    },
+    {
+      "epoch": 1.920458749537551,
+      "grad_norm": 0.46688076853752136,
+      "learning_rate": 6.890115049885995e-06,
+      "loss": 0.6873,
+      "mean_token_accuracy": 0.7866998790722634,
+      "step": 648
+    },
+    {
+      "epoch": 1.923418423973363,
+      "grad_norm": 0.4536078870296478,
+      "learning_rate": 6.85728646486359e-06,
+      "loss": 0.6795,
+      "mean_token_accuracy": 0.7877265813082034,
+      "step": 649
+    },
+    {
+      "epoch": 1.926378098409175,
+      "grad_norm": 0.4446280896663666,
+      "learning_rate": 6.824495418291741e-06,
+      "loss": 0.6618,
+      "mean_token_accuracy": 0.793360405089406,
+      "step": 650
+    },
+    {
+      "epoch": 1.929337772844987,
+      "grad_norm": 0.4624863564968109,
+      "learning_rate": 6.791742301846325e-06,
+      "loss": 0.6943,
+      "mean_token_accuracy": 0.7851390097369664,
+      "step": 651
+    },
+    {
+      "epoch": 1.9322974472807992,
+      "grad_norm": 0.46851369738578796,
+      "learning_rate": 6.759027506750159e-06,
+      "loss": 0.6973,
+      "mean_token_accuracy": 0.7825239711607613,
+      "step": 652
+    },
+    {
+      "epoch": 1.935257121716611,
+      "grad_norm": 0.45422789454460144,
+      "learning_rate": 6.726351423768323e-06,
+      "loss": 0.7049,
+      "mean_token_accuracy": 0.7834841114161091,
+      "step": 653
+    },
+    {
+      "epoch": 1.9382167961524233,
+      "grad_norm": 0.4513411521911621,
+      "learning_rate": 6.693714443203507e-06,
+      "loss": 0.674,
+      "mean_token_accuracy": 0.7905625791946234,
+      "step": 654
+    },
+    {
+      "epoch": 1.9411764705882353,
+      "grad_norm": 0.44000759720802307,
+      "learning_rate": 6.661116954891329e-06,
+      "loss": 0.6889,
+      "mean_token_accuracy": 0.7876442391621598,
+      "step": 655
+    },
+    {
+      "epoch": 1.9441361450240473,
+      "grad_norm": 0.4787219166755676,
+      "learning_rate": 6.62855934819569e-06,
+      "loss": 0.7072,
+      "mean_token_accuracy": 0.779945015719257,
+      "step": 656
+    },
+    {
+      "epoch": 1.9470958194598595,
+      "grad_norm": 0.42401981353759766,
+      "learning_rate": 6.59604201200412e-06,
+      "loss": 0.6773,
+      "mean_token_accuracy": 0.7896623125899848,
+      "step": 657
+    },
+    {
+      "epoch": 1.9500554938956713,
+      "grad_norm": 0.5051243305206299,
+      "learning_rate": 6.563565334723134e-06,
+      "loss": 0.6973,
+      "mean_token_accuracy": 0.7849915232879509,
+      "step": 658
+    },
+    {
+      "epoch": 1.9530151683314836,
+      "grad_norm": 0.4501940608024597,
+      "learning_rate": 6.5311297042736046e-06,
+      "loss": 0.7169,
+      "mean_token_accuracy": 0.7793906916939676,
+      "step": 659
+    },
+    {
+      "epoch": 1.9559748427672956,
+      "grad_norm": 0.4441750645637512,
+      "learning_rate": 6.498735508086094e-06,
+      "loss": 0.6299,
+      "mean_token_accuracy": 0.80293781287729,
+      "step": 660
+    },
+    {
+      "epoch": 1.9589345172031076,
+      "grad_norm": 0.4581814706325531,
+      "learning_rate": 6.466383133096268e-06,
+      "loss": 0.696,
+      "mean_token_accuracy": 0.7832016518779903,
+      "step": 661
+    },
+    {
+      "epoch": 1.9618941916389199,
+      "grad_norm": 0.4844694137573242,
+      "learning_rate": 6.4340729657402424e-06,
+      "loss": 0.6553,
+      "mean_token_accuracy": 0.79566224863039,
+      "step": 662
+    },
+    {
+      "epoch": 1.9648538660747317,
+      "grad_norm": 0.47741377353668213,
+      "learning_rate": 6.40180539194999e-06,
+      "loss": 0.7005,
+      "mean_token_accuracy": 0.7834191013265248,
+      "step": 663
+    },
+    {
+      "epoch": 1.967813540510544,
+      "grad_norm": 0.4623546600341797,
+      "learning_rate": 6.3695807971487175e-06,
+      "loss": 0.6739,
+      "mean_token_accuracy": 0.7908099908248746,
+      "step": 664
+    },
+    {
+      "epoch": 1.970773214946356,
+      "grad_norm": 0.44196298718452454,
+      "learning_rate": 6.337399566246257e-06,
+      "loss": 0.6887,
+      "mean_token_accuracy": 0.7867410372609397,
+      "step": 665
+    },
+    {
+      "epoch": 1.973732889382168,
+      "grad_norm": 0.44744858145713806,
+      "learning_rate": 6.305262083634488e-06,
+      "loss": 0.6947,
+      "mean_token_accuracy": 0.7849319629950706,
+      "step": 666
+    },
+    {
+      "epoch": 1.97669256381798,
+      "grad_norm": 0.48888614773750305,
+      "learning_rate": 6.2731687331827214e-06,
+      "loss": 0.6935,
+      "mean_token_accuracy": 0.7852305896900613,
+      "step": 667
+    },
+    {
+      "epoch": 1.979652238253792,
+      "grad_norm": 0.548868715763092,
+      "learning_rate": 6.2411198982331435e-06,
+      "loss": 0.6583,
+      "mean_token_accuracy": 0.7950044402077763,
+      "step": 668
+    },
+    {
+      "epoch": 1.9826119126896042,
+      "grad_norm": 0.44247865676879883,
+      "learning_rate": 6.209115961596208e-06,
+      "loss": 0.6963,
+      "mean_token_accuracy": 0.7844457961563795,
+      "step": 669
+    },
+    {
+      "epoch": 1.9855715871254163,
+      "grad_norm": 0.4636320471763611,
+      "learning_rate": 6.177157305546077e-06,
+      "loss": 0.6912,
+      "mean_token_accuracy": 0.7862634185033074,
+      "step": 670
+    },
+    {
+      "epoch": 1.9885312615612283,
+      "grad_norm": 0.4413374066352844,
+      "learning_rate": 6.145244311816063e-06,
+      "loss": 0.6814,
+      "mean_token_accuracy": 0.787695055467721,
+      "step": 671
+    },
+    {
+      "epoch": 1.9914909359970403,
+      "grad_norm": 0.45312613248825073,
+      "learning_rate": 6.113377361594048e-06,
+      "loss": 0.6754,
+      "mean_token_accuracy": 0.7900683076107496,
+      "step": 672
+    },
+    {
+      "epoch": 1.9944506104328523,
+      "grad_norm": 0.4501809775829315,
+      "learning_rate": 6.081556835517955e-06,
+      "loss": 0.6822,
+      "mean_token_accuracy": 0.788871206473793,
+      "step": 673
+    },
+    {
+      "epoch": 1.9974102848686646,
+      "grad_norm": 0.45863819122314453,
+      "learning_rate": 6.049783113671184e-06,
+      "loss": 0.6751,
+      "mean_token_accuracy": 0.7895972815620605,
+      "step": 674
+    },
+    {
+      "epoch": 2.0029596744358122,
+      "grad_norm": 0.7237296104431152,
+      "learning_rate": 6.018056575578075e-06,
+      "loss": 1.3777,
+      "mean_token_accuracy": 0.7904976583626417,
+      "step": 675
+    },
+    {
+      "epoch": 2.005919348871624,
+      "grad_norm": 0.4619278311729431,
+      "learning_rate": 5.986377600199371e-06,
+      "loss": 0.6827,
+      "mean_token_accuracy": 0.7859173509620443,
+      "step": 676
+    },
+    {
+      "epoch": 2.0088790233074363,
+      "grad_norm": 0.4588172435760498,
+      "learning_rate": 5.9547465659277215e-06,
+      "loss": 0.6602,
+      "mean_token_accuracy": 0.7935102380543758,
+      "step": 677
+    },
+    {
+      "epoch": 2.011838697743248,
+      "grad_norm": 0.4326033890247345,
+      "learning_rate": 5.923163850583114e-06,
+      "loss": 0.6169,
+      "mean_token_accuracy": 0.8052656884361966,
+      "step": 678
+    },
+    {
+      "epoch": 2.0147983721790603,
+      "grad_norm": 0.4270947277545929,
+      "learning_rate": 5.891629831408392e-06,
+      "loss": 0.6675,
+      "mean_token_accuracy": 0.7923289976402469,
+      "step": 679
+    },
+    {
+      "epoch": 2.0177580466148726,
+      "grad_norm": 0.42200711369514465,
+      "learning_rate": 5.8601448850647515e-06,
+      "loss": 0.7139,
+      "mean_token_accuracy": 0.7767213966992985,
+      "step": 680
+    },
+    {
+      "epoch": 2.0207177210506844,
+      "grad_norm": 0.4401227831840515,
+      "learning_rate": 5.828709387627219e-06,
+      "loss": 0.6296,
+      "mean_token_accuracy": 0.8034322271999133,
+      "step": 681
+    },
+    {
+      "epoch": 2.0236773954864966,
+      "grad_norm": 0.4614053964614868,
+      "learning_rate": 5.797323714580192e-06,
+      "loss": 0.6402,
+      "mean_token_accuracy": 0.7988319450662181,
+      "step": 682
+    },
+    {
+      "epoch": 2.0266370699223084,
+      "grad_norm": 0.4590739905834198,
+      "learning_rate": 5.7659882408129204e-06,
+      "loss": 0.6523,
+      "mean_token_accuracy": 0.79529094328691,
+      "step": 683
+    },
+    {
+      "epoch": 2.0295967443581207,
+      "grad_norm": 0.4543253481388092,
+      "learning_rate": 5.7347033406150494e-06,
+      "loss": 0.6733,
+      "mean_token_accuracy": 0.7890264127897217,
+      "step": 684
+    },
+    {
+      "epoch": 2.0325564187939325,
+      "grad_norm": 0.4582739770412445,
+      "learning_rate": 5.703469387672138e-06,
+      "loss": 0.6056,
+      "mean_token_accuracy": 0.8107667655932651,
+      "step": 685
+    },
+    {
+      "epoch": 2.0355160932297447,
+      "grad_norm": 0.42348945140838623,
+      "learning_rate": 5.672286755061212e-06,
+      "loss": 0.6377,
+      "mean_token_accuracy": 0.799343160525926,
+      "step": 686
+    },
+    {
+      "epoch": 2.038475767665557,
+      "grad_norm": 0.4367158114910126,
+      "learning_rate": 5.64115581524629e-06,
+      "loss": 0.6456,
+      "mean_token_accuracy": 0.7978098111032584,
+      "step": 687
+    },
+    {
+      "epoch": 2.0414354421013687,
+      "grad_norm": 0.4166472852230072,
+      "learning_rate": 5.610076940073939e-06,
+      "loss": 0.64,
+      "mean_token_accuracy": 0.7996033627487545,
+      "step": 688
+    },
+    {
+      "epoch": 2.044395116537181,
+      "grad_norm": 0.4349493980407715,
+      "learning_rate": 5.579050500768837e-06,
+      "loss": 0.6247,
+      "mean_token_accuracy": 0.8040890019359421,
+      "step": 689
+    },
+    {
+      "epoch": 2.0473547909729928,
+      "grad_norm": 0.43666020035743713,
+      "learning_rate": 5.548076867929331e-06,
+      "loss": 0.6499,
+      "mean_token_accuracy": 0.7959618095761632,
+      "step": 690
+    },
+    {
+      "epoch": 2.050314465408805,
+      "grad_norm": 0.4168229401111603,
+      "learning_rate": 5.517156411523026e-06,
+      "loss": 0.6207,
+      "mean_token_accuracy": 0.8063047096858116,
+      "step": 691
+    },
+    {
+      "epoch": 2.0532741398446173,
+      "grad_norm": 0.4426259398460388,
+      "learning_rate": 5.486289500882355e-06,
+      "loss": 0.6437,
+      "mean_token_accuracy": 0.7976666538912617,
+      "step": 692
+    },
+    {
+      "epoch": 2.056233814280429,
+      "grad_norm": 0.47709882259368896,
+      "learning_rate": 5.455476504700161e-06,
+      "loss": 0.6354,
+      "mean_token_accuracy": 0.8001667386857992,
+      "step": 693
+    },
+    {
+      "epoch": 2.0591934887162413,
+      "grad_norm": 0.4387308359146118,
+      "learning_rate": 5.424717791025302e-06,
+      "loss": 0.6093,
+      "mean_token_accuracy": 0.8074188099768709,
+      "step": 694
+    },
+    {
+      "epoch": 2.062153163152053,
+      "grad_norm": 0.42804378271102905,
+      "learning_rate": 5.3940137272582534e-06,
+      "loss": 0.6621,
+      "mean_token_accuracy": 0.7942881189608123,
+      "step": 695
+    },
+    {
+      "epoch": 2.0651128375878653,
+      "grad_norm": 0.4197988510131836,
+      "learning_rate": 5.3633646801467255e-06,
+      "loss": 0.6272,
+      "mean_token_accuracy": 0.8035603820307122,
+      "step": 696
+    },
+    {
+      "epoch": 2.0680725120236776,
+      "grad_norm": 0.4130113422870636,
+      "learning_rate": 5.332771015781275e-06,
+      "loss": 0.6318,
+      "mean_token_accuracy": 0.8026469316916442,
+      "step": 697
+    },
+    {
+      "epoch": 2.0710321864594894,
+      "grad_norm": 0.4477401077747345,
+      "learning_rate": 5.302233099590928e-06,
+      "loss": 0.6202,
+      "mean_token_accuracy": 0.8051835840765896,
+      "step": 698
+    },
+    {
+      "epoch": 2.0739918608953016,
+      "grad_norm": 0.4212632477283478,
+      "learning_rate": 5.271751296338823e-06,
+      "loss": 0.6454,
+      "mean_token_accuracy": 0.7975187090662971,
+      "step": 699
+    },
+    {
+      "epoch": 2.0769515353311134,
+      "grad_norm": 0.43481898307800293,
+      "learning_rate": 5.241325970117851e-06,
+      "loss": 0.6298,
+      "mean_token_accuracy": 0.8037347054797938,
+      "step": 700
+    },
+    {
+      "epoch": 2.0769515353311134,
+      "eval_loss": 0.7401972413063049,
+      "eval_mean_token_accuracy": 0.7715796790522826,
+      "eval_runtime": 24.8345,
+      "eval_samples_per_second": 5.194,
+      "eval_steps_per_second": 1.329,
+      "step": 700
+    },
+    {
+      "epoch": 2.0799112097669257,
+      "grad_norm": 0.42328760027885437,
+      "learning_rate": 5.210957484346314e-06,
+      "loss": 0.5797,
+      "mean_token_accuracy": 0.8171162575964448,
+      "step": 701
+    },
+    {
+      "epoch": 2.0828708842027375,
+      "grad_norm": 0.40636351704597473,
+      "learning_rate": 5.1806462017635775e-06,
+      "loss": 0.6444,
+      "mean_token_accuracy": 0.7976044651105583,
+      "step": 702
+    },
+    {
+      "epoch": 2.0858305586385497,
+      "grad_norm": 0.4619290232658386,
+      "learning_rate": 5.150392484425728e-06,
+      "loss": 0.6432,
+      "mean_token_accuracy": 0.7998582873056539,
+      "step": 703
+    },
+    {
+      "epoch": 2.088790233074362,
+      "grad_norm": 0.42781201004981995,
+      "learning_rate": 5.120196693701267e-06,
+      "loss": 0.6447,
+      "mean_token_accuracy": 0.7980342866377519,
+      "step": 704
+    },
+    {
+      "epoch": 2.0917499075101738,
+      "grad_norm": 0.435585081577301,
+      "learning_rate": 5.090059190266779e-06,
+      "loss": 0.6703,
+      "mean_token_accuracy": 0.7898306031291672,
+      "step": 705
+    },
+    {
+      "epoch": 2.094709581945986,
+      "grad_norm": 0.42848485708236694,
+      "learning_rate": 5.059980334102637e-06,
+      "loss": 0.6399,
+      "mean_token_accuracy": 0.8012392387851905,
+      "step": 706
+    },
+    {
+      "epoch": 2.097669256381798,
+      "grad_norm": 0.44752803444862366,
+      "learning_rate": 5.0299604844886985e-06,
+      "loss": 0.6444,
+      "mean_token_accuracy": 0.7983052126079367,
+      "step": 707
+    },
+    {
+      "epoch": 2.10062893081761,
+      "grad_norm": 0.41624656319618225,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.6564,
+      "mean_token_accuracy": 0.7942197264250628,
+      "step": 708
+    },
+    {
+      "epoch": 2.1035886052534223,
+      "grad_norm": 0.4133838415145874,
+      "learning_rate": 4.970099238502494e-06,
+      "loss": 0.6516,
+      "mean_token_accuracy": 0.7961836172559192,
+      "step": 709
+    },
+    {
+      "epoch": 2.106548279689234,
+      "grad_norm": 0.4188925325870514,
+      "learning_rate": 4.940258557148765e-06,
+      "loss": 0.6703,
+      "mean_token_accuracy": 0.7904122765338784,
+      "step": 710
+    },
+    {
+      "epoch": 2.1095079541250463,
+      "grad_norm": 0.4261308014392853,
+      "learning_rate": 4.910478312373757e-06,
+      "loss": 0.6172,
+      "mean_token_accuracy": 0.8066983237111479,
+      "step": 711
+    },
+    {
+      "epoch": 2.112467628560858,
+      "grad_norm": 0.40434494614601135,
+      "learning_rate": 4.8807588598905364e-06,
+      "loss": 0.6482,
+      "mean_token_accuracy": 0.7977588880511752,
+      "step": 712
+    },
+    {
+      "epoch": 2.1154273029966704,
+      "grad_norm": 0.4250684380531311,
+      "learning_rate": 4.8511005546860214e-06,
+      "loss": 0.6495,
+      "mean_token_accuracy": 0.7967420913450249,
+      "step": 713
+    },
+    {
+      "epoch": 2.1183869774324826,
+      "grad_norm": 0.4167192280292511,
+      "learning_rate": 4.821503751016746e-06,
+      "loss": 0.6226,
+      "mean_token_accuracy": 0.8038675074568771,
+      "step": 714
+    },
+    {
+      "epoch": 2.1213466518682944,
+      "grad_norm": 0.4020220637321472,
+      "learning_rate": 4.791968802404648e-06,
+      "loss": 0.639,
+      "mean_token_accuracy": 0.8002841240121322,
+      "step": 715
+    },
+    {
+      "epoch": 2.1243063263041067,
+      "grad_norm": 0.41898688673973083,
+      "learning_rate": 4.762496061632814e-06,
+      "loss": 0.5961,
+      "mean_token_accuracy": 0.8106809432630374,
+      "step": 716
+    },
+    {
+      "epoch": 2.1272660007399185,
+      "grad_norm": 0.4082755446434021,
+      "learning_rate": 4.733085880741301e-06,
+      "loss": 0.6836,
+      "mean_token_accuracy": 0.7858357226121178,
+      "step": 717
+    },
+    {
+      "epoch": 2.1302256751757307,
+      "grad_norm": 0.4276457130908966,
+      "learning_rate": 4.703738611022899e-06,
+      "loss": 0.6561,
+      "mean_token_accuracy": 0.7956159537823245,
+      "step": 718
+    },
+    {
+      "epoch": 2.133185349611543,
+      "grad_norm": 0.42158472537994385,
+      "learning_rate": 4.674454603018949e-06,
+      "loss": 0.6147,
+      "mean_token_accuracy": 0.8079100447436781,
+      "step": 719
+    },
+    {
+      "epoch": 2.1361450240473547,
+      "grad_norm": 0.4250597357749939,
+      "learning_rate": 4.645234206515171e-06,
+      "loss": 0.6386,
+      "mean_token_accuracy": 0.8010068266815492,
+      "step": 720
+    },
+    {
+      "epoch": 2.139104698483167,
+      "grad_norm": 0.4138052463531494,
+      "learning_rate": 4.616077770537453e-06,
+      "loss": 0.6231,
+      "mean_token_accuracy": 0.804220202437573,
+      "step": 721
+    },
+    {
+      "epoch": 2.1420643729189788,
+      "grad_norm": 0.4031846523284912,
+      "learning_rate": 4.586985643347716e-06,
+      "loss": 0.6353,
+      "mean_token_accuracy": 0.7999556744979773,
+      "step": 722
+    },
+    {
+      "epoch": 2.145024047354791,
+      "grad_norm": 0.4207233190536499,
+      "learning_rate": 4.557958172439726e-06,
+      "loss": 0.6519,
+      "mean_token_accuracy": 0.795605835154003,
+      "step": 723
+    },
+    {
+      "epoch": 2.1479837217906033,
+      "grad_norm": 0.4172452390193939,
+      "learning_rate": 4.5289957045349655e-06,
+      "loss": 0.6214,
+      "mean_token_accuracy": 0.8051871043336377,
+      "step": 724
+    },
+    {
+      "epoch": 2.150943396226415,
+      "grad_norm": 0.4109727442264557,
+      "learning_rate": 4.500098585578475e-06,
+      "loss": 0.62,
+      "mean_token_accuracy": 0.8044500506016459,
+      "step": 725
+    },
+    {
+      "epoch": 2.1539030706622273,
+      "grad_norm": 0.4343760907649994,
+      "learning_rate": 4.471267160734731e-06,
+      "loss": 0.6539,
+      "mean_token_accuracy": 0.7939436976287444,
+      "step": 726
+    },
+    {
+      "epoch": 2.156862745098039,
+      "grad_norm": 0.4174571931362152,
+      "learning_rate": 4.4425017743835155e-06,
+      "loss": 0.6371,
+      "mean_token_accuracy": 0.8005225952205913,
+      "step": 727
+    },
+    {
+      "epoch": 2.1598224195338513,
+      "grad_norm": 0.38494619727134705,
+      "learning_rate": 4.413802770115816e-06,
+      "loss": 0.6524,
+      "mean_token_accuracy": 0.7961488383409648,
+      "step": 728
+    },
+    {
+      "epoch": 2.162782093969663,
+      "grad_norm": 0.41858088970184326,
+      "learning_rate": 4.385170490729712e-06,
+      "loss": 0.6421,
+      "mean_token_accuracy": 0.7982196911670912,
+      "step": 729
+    },
+    {
+      "epoch": 2.1657417684054754,
+      "grad_norm": 0.45224249362945557,
+      "learning_rate": 4.356605278226274e-06,
+      "loss": 0.6639,
+      "mean_token_accuracy": 0.7918000336006263,
+      "step": 730
+    },
+    {
+      "epoch": 2.1687014428412876,
+      "grad_norm": 0.43538355827331543,
+      "learning_rate": 4.328107473805487e-06,
+      "loss": 0.6383,
+      "mean_token_accuracy": 0.800484981130683,
+      "step": 731
+    },
+    {
+      "epoch": 2.1716611172770994,
+      "grad_norm": 0.3976902365684509,
+      "learning_rate": 4.299677417862174e-06,
+      "loss": 0.6556,
+      "mean_token_accuracy": 0.7932561264782982,
+      "step": 732
+    },
+    {
+      "epoch": 2.1746207917129117,
+      "grad_norm": 0.44118574261665344,
+      "learning_rate": 4.2713154499819345e-06,
+      "loss": 0.6636,
+      "mean_token_accuracy": 0.7921884608817545,
+      "step": 733
+    },
+    {
+      "epoch": 2.1775804661487235,
+      "grad_norm": 0.4160580635070801,
+      "learning_rate": 4.243021908937083e-06,
+      "loss": 0.6136,
+      "mean_token_accuracy": 0.8078645092004564,
+      "step": 734
+    },
+    {
+      "epoch": 2.1805401405845357,
+      "grad_norm": 0.4081907272338867,
+      "learning_rate": 4.214797132682597e-06,
+      "loss": 0.6017,
+      "mean_token_accuracy": 0.8104744103732681,
+      "step": 735
+    },
+    {
+      "epoch": 2.183499815020348,
+      "grad_norm": 0.4466439187526703,
+      "learning_rate": 4.186641458352088e-06,
+      "loss": 0.6713,
+      "mean_token_accuracy": 0.7900975226524254,
+      "step": 736
+    },
+    {
+      "epoch": 2.1864594894561598,
+      "grad_norm": 0.4527799189090729,
+      "learning_rate": 4.158555222253772e-06,
+      "loss": 0.6744,
+      "mean_token_accuracy": 0.7901550404552812,
+      "step": 737
+    },
+    {
+      "epoch": 2.189419163891972,
+      "grad_norm": 0.4166731536388397,
+      "learning_rate": 4.130538759866457e-06,
+      "loss": 0.6523,
+      "mean_token_accuracy": 0.795872875107717,
+      "step": 738
+    },
+    {
+      "epoch": 2.192378838327784,
+      "grad_norm": 0.4434090852737427,
+      "learning_rate": 4.102592405835536e-06,
+      "loss": 0.6366,
+      "mean_token_accuracy": 0.8006169174890402,
+      "step": 739
+    },
+    {
+      "epoch": 2.195338512763596,
+      "grad_norm": 0.4182213842868805,
+      "learning_rate": 4.074716493968976e-06,
+      "loss": 0.6193,
+      "mean_token_accuracy": 0.8064642927723187,
+      "step": 740
+    },
+    {
+      "epoch": 2.1982981871994083,
+      "grad_norm": 0.4401805102825165,
+      "learning_rate": 4.046911357233343e-06,
+      "loss": 0.5899,
+      "mean_token_accuracy": 0.8129922266946384,
+      "step": 741
+    },
+    {
+      "epoch": 2.20125786163522,
+      "grad_norm": 0.4129815697669983,
+      "learning_rate": 4.019177327749822e-06,
+      "loss": 0.6164,
+      "mean_token_accuracy": 0.8067027474840832,
+      "step": 742
+    },
+    {
+      "epoch": 2.2042175360710323,
+      "grad_norm": 0.414181649684906,
+      "learning_rate": 3.991514736790259e-06,
+      "loss": 0.6572,
+      "mean_token_accuracy": 0.7943868846552696,
+      "step": 743
+    },
+    {
+      "epoch": 2.207177210506844,
+      "grad_norm": 0.41192206740379333,
+      "learning_rate": 3.9639239147731865e-06,
+      "loss": 0.6105,
+      "mean_token_accuracy": 0.8081474157714055,
+      "step": 744
+    },
+    {
+      "epoch": 2.2101368849426564,
+      "grad_norm": 0.4337133765220642,
+      "learning_rate": 3.936405191259891e-06,
+      "loss": 0.646,
+      "mean_token_accuracy": 0.7979063248420304,
+      "step": 745
+    },
+    {
+      "epoch": 2.213096559378468,
+      "grad_norm": 0.42786547541618347,
+      "learning_rate": 3.908958894950465e-06,
+      "loss": 0.6611,
+      "mean_token_accuracy": 0.7936699913649292,
+      "step": 746
+    },
+    {
+      "epoch": 2.2160562338142804,
+      "grad_norm": 0.45288723707199097,
+      "learning_rate": 3.881585353679891e-06,
+      "loss": 0.6648,
+      "mean_token_accuracy": 0.7914008191748386,
+      "step": 747
+    },
+    {
+      "epoch": 2.2190159082500927,
+      "grad_norm": 0.45666372776031494,
+      "learning_rate": 3.854284894414122e-06,
+      "loss": 0.6291,
+      "mean_token_accuracy": 0.8025700241416271,
+      "step": 748
+    },
+    {
+      "epoch": 2.2219755826859044,
+      "grad_norm": 0.41519424319267273,
+      "learning_rate": 3.827057843246181e-06,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8051112931321951,
+      "step": 749
+    },
+    {
+      "epoch": 2.2249352571217167,
+      "grad_norm": 0.42094844579696655,
+      "learning_rate": 3.799904525392251e-06,
+      "loss": 0.6083,
+      "mean_token_accuracy": 0.8084426362380992,
+      "step": 750
+    },
+    {
+      "epoch": 2.2278949315575285,
+      "grad_norm": 0.41918104887008667,
+      "learning_rate": 3.7728252651878018e-06,
+      "loss": 0.6584,
+      "mean_token_accuracy": 0.7924028935909405,
+      "step": 751
+    },
+    {
+      "epoch": 2.2308546059933407,
+      "grad_norm": 0.43053704500198364,
+      "learning_rate": 3.745820386083724e-06,
+      "loss": 0.6675,
+      "mean_token_accuracy": 0.7899391245102569,
+      "step": 752
+    },
+    {
+      "epoch": 2.233814280429153,
+      "grad_norm": 0.433442085981369,
+      "learning_rate": 3.718890210642442e-06,
+      "loss": 0.6606,
+      "mean_token_accuracy": 0.7937032510168863,
+      "step": 753
+    },
+    {
+      "epoch": 2.2367739548649648,
+      "grad_norm": 0.4508717358112335,
+      "learning_rate": 3.6920350605340883e-06,
+      "loss": 0.6266,
+      "mean_token_accuracy": 0.8043645426941337,
+      "step": 754
+    },
+    {
+      "epoch": 2.239733629300777,
+      "grad_norm": 0.4047711491584778,
+      "learning_rate": 3.6652552565326382e-06,
+      "loss": 0.6681,
+      "mean_token_accuracy": 0.7906295543184187,
+      "step": 755
+    },
+    {
+      "epoch": 2.242693303736589,
+      "grad_norm": 0.4291645586490631,
+      "learning_rate": 3.638551118512089e-06,
+      "loss": 0.6562,
+      "mean_token_accuracy": 0.7943759677554681,
+      "step": 756
+    },
+    {
+      "epoch": 2.245652978172401,
+      "grad_norm": 0.46543434262275696,
+      "learning_rate": 3.611922965442648e-06,
+      "loss": 0.6955,
+      "mean_token_accuracy": 0.7842147288330679,
+      "step": 757
+    },
+    {
+      "epoch": 2.2486126526082133,
+      "grad_norm": 0.44530779123306274,
+      "learning_rate": 3.5853711153868962e-06,
+      "loss": 0.6443,
+      "mean_token_accuracy": 0.7977429200467334,
+      "step": 758
+    },
+    {
+      "epoch": 2.251572327044025,
+      "grad_norm": 0.4391216039657593,
+      "learning_rate": 3.558895885496023e-06,
+      "loss": 0.6551,
+      "mean_token_accuracy": 0.7939586840706503,
+      "step": 759
+    },
+    {
+      "epoch": 2.2545320014798373,
+      "grad_norm": 0.42412394285202026,
+      "learning_rate": 3.53249759200601e-06,
+      "loss": 0.6217,
+      "mean_token_accuracy": 0.8050196332982708,
+      "step": 760
+    },
+    {
+      "epoch": 2.257491675915649,
+      "grad_norm": 0.42387112975120544,
+      "learning_rate": 3.506176550233863e-06,
+      "loss": 0.6572,
+      "mean_token_accuracy": 0.794313531964468,
+      "step": 761
+    },
+    {
+      "epoch": 2.2604513503514614,
+      "grad_norm": 0.434893399477005,
+      "learning_rate": 3.479933074573858e-06,
+      "loss": 0.6855,
+      "mean_token_accuracy": 0.7879362757907509,
+      "step": 762
+    },
+    {
+      "epoch": 2.263411024787273,
+      "grad_norm": 0.4247857928276062,
+      "learning_rate": 3.453767478493761e-06,
+      "loss": 0.644,
+      "mean_token_accuracy": 0.7982682262279043,
+      "step": 763
+    },
+    {
+      "epoch": 2.2663706992230854,
+      "grad_norm": 0.42670580744743347,
+      "learning_rate": 3.4276800745311135e-06,
+      "loss": 0.6195,
+      "mean_token_accuracy": 0.8050541199962113,
+      "step": 764
+    },
+    {
+      "epoch": 2.2693303736588977,
+      "grad_norm": 0.3888881504535675,
+      "learning_rate": 3.401671174289469e-06,
+      "loss": 0.6515,
+      "mean_token_accuracy": 0.7958488753426484,
+      "step": 765
+    },
+    {
+      "epoch": 2.2722900480947095,
+      "grad_norm": 0.41099730134010315,
+      "learning_rate": 3.37574108843469e-06,
+      "loss": 0.6781,
+      "mean_token_accuracy": 0.7891008767600376,
+      "step": 766
+    },
+    {
+      "epoch": 2.2752497225305217,
+      "grad_norm": 0.41824233531951904,
+      "learning_rate": 3.3498901266912397e-06,
+      "loss": 0.6085,
+      "mean_token_accuracy": 0.8082267427244683,
+      "step": 767
+    },
+    {
+      "epoch": 2.2782093969663335,
+      "grad_norm": 0.4144093692302704,
+      "learning_rate": 3.3241185978384636e-06,
+      "loss": 0.6699,
+      "mean_token_accuracy": 0.7909267478796423,
+      "step": 768
+    },
+    {
+      "epoch": 2.2811690714021458,
+      "grad_norm": 0.42413535714149475,
+      "learning_rate": 3.2984268097069284e-06,
+      "loss": 0.6339,
+      "mean_token_accuracy": 0.801065864295844,
+      "step": 769
+    },
+    {
+      "epoch": 2.284128745837958,
+      "grad_norm": 0.39951691031455994,
+      "learning_rate": 3.2728150691747117e-06,
+      "loss": 0.6411,
+      "mean_token_accuracy": 0.7983959606160835,
+      "step": 770
+    },
+    {
+      "epoch": 2.28708842027377,
+      "grad_norm": 0.41182059049606323,
+      "learning_rate": 3.2472836821637744e-06,
+      "loss": 0.6281,
+      "mean_token_accuracy": 0.802523700960331,
+      "step": 771
+    },
+    {
+      "epoch": 2.290048094709582,
+      "grad_norm": 0.4084027409553528,
+      "learning_rate": 3.22183295363627e-06,
+      "loss": 0.6265,
+      "mean_token_accuracy": 0.802413599215893,
+      "step": 772
+    },
+    {
+      "epoch": 2.293007769145394,
+      "grad_norm": 0.4154830574989319,
+      "learning_rate": 3.196463187590929e-06,
+      "loss": 0.649,
+      "mean_token_accuracy": 0.796869447336104,
+      "step": 773
+    },
+    {
+      "epoch": 2.295967443581206,
+      "grad_norm": 0.4043501019477844,
+      "learning_rate": 3.1711746870594083e-06,
+      "loss": 0.6287,
+      "mean_token_accuracy": 0.8030152586126692,
+      "step": 774
+    },
+    {
+      "epoch": 2.2989271180170183,
+      "grad_norm": 0.4156252443790436,
+      "learning_rate": 3.145967754102691e-06,
+      "loss": 0.6372,
+      "mean_token_accuracy": 0.8003738520892887,
+      "step": 775
+    },
+    {
+      "epoch": 2.30188679245283,
+      "grad_norm": 0.4200536012649536,
+      "learning_rate": 3.1208426898074685e-06,
+      "loss": 0.671,
+      "mean_token_accuracy": 0.7902292574180307,
+      "step": 776
+    },
+    {
+      "epoch": 2.3048464668886424,
+      "grad_norm": 0.41020068526268005,
+      "learning_rate": 3.0957997942825337e-06,
+      "loss": 0.6371,
+      "mean_token_accuracy": 0.7996246095334629,
+      "step": 777
+    },
+    {
+      "epoch": 2.307806141324454,
+      "grad_norm": 0.419129341840744,
+      "learning_rate": 3.070839366655215e-06,
+      "loss": 0.6468,
+      "mean_token_accuracy": 0.7962623324512614,
+      "step": 778
+    },
+    {
+      "epoch": 2.3107658157602664,
+      "grad_norm": 0.4240724444389343,
+      "learning_rate": 3.045961705067787e-06,
+      "loss": 0.659,
+      "mean_token_accuracy": 0.7953217981209549,
+      "step": 779
+    },
+    {
+      "epoch": 2.313725490196078,
+      "grad_norm": 0.4143866002559662,
+      "learning_rate": 3.021167106673928e-06,
+      "loss": 0.6424,
+      "mean_token_accuracy": 0.7982811964276817,
+      "step": 780
+    },
+    {
+      "epoch": 2.3166851646318904,
+      "grad_norm": 0.3981107175350189,
+      "learning_rate": 2.996455867635155e-06,
+      "loss": 0.6607,
+      "mean_token_accuracy": 0.791508945971797,
+      "step": 781
+    },
+    {
+      "epoch": 2.3196448390677027,
+      "grad_norm": 0.4162614345550537,
+      "learning_rate": 2.9718282831172885e-06,
+      "loss": 0.6504,
+      "mean_token_accuracy": 0.7963113772717785,
+      "step": 782
+    },
+    {
+      "epoch": 2.3226045135035145,
+      "grad_norm": 0.4027155637741089,
+      "learning_rate": 2.94728464728693e-06,
+      "loss": 0.6019,
+      "mean_token_accuracy": 0.8109574738019254,
+      "step": 783
+    },
+    {
+      "epoch": 2.3255641879393267,
+      "grad_norm": 0.3899628520011902,
+      "learning_rate": 2.922825253307947e-06,
+      "loss": 0.6574,
+      "mean_token_accuracy": 0.7928772726976023,
+      "step": 784
+    },
+    {
+      "epoch": 2.328523862375139,
+      "grad_norm": 0.40858355164527893,
+      "learning_rate": 2.898450393337977e-06,
+      "loss": 0.6746,
+      "mean_token_accuracy": 0.7888906732688429,
+      "step": 785
+    },
+    {
+      "epoch": 2.3314835368109508,
+      "grad_norm": 0.41953524947166443,
+      "learning_rate": 2.8741603585249312e-06,
+      "loss": 0.6408,
+      "mean_token_accuracy": 0.7996593220237972,
+      "step": 786
+    },
+    {
+      "epoch": 2.334443211246763,
+      "grad_norm": 0.4106321334838867,
+      "learning_rate": 2.8499554390035144e-06,
+      "loss": 0.6483,
+      "mean_token_accuracy": 0.7961187957538525,
+      "step": 787
+    },
+    {
+      "epoch": 2.337402885682575,
+      "grad_norm": 0.3997010886669159,
+      "learning_rate": 2.8258359238917665e-06,
+      "loss": 0.6245,
+      "mean_token_accuracy": 0.8050718498453701,
+      "step": 788
+    },
+    {
+      "epoch": 2.340362560118387,
+      "grad_norm": 0.409584105014801,
+      "learning_rate": 2.8018021012875994e-06,
+      "loss": 0.6017,
+      "mean_token_accuracy": 0.8123756950624281,
+      "step": 789
+    },
+    {
+      "epoch": 2.343322234554199,
+      "grad_norm": 0.40811508893966675,
+      "learning_rate": 2.7778542582653746e-06,
+      "loss": 0.6084,
+      "mean_token_accuracy": 0.8097888468215142,
+      "step": 790
+    },
+    {
+      "epoch": 2.346281908990011,
+      "grad_norm": 0.38959836959838867,
+      "learning_rate": 2.753992680872457e-06,
+      "loss": 0.6062,
+      "mean_token_accuracy": 0.8108852376474688,
+      "step": 791
+    },
+    {
+      "epoch": 2.3492415834258233,
+      "grad_norm": 0.3957045376300812,
+      "learning_rate": 2.7302176541257984e-06,
+      "loss": 0.6328,
+      "mean_token_accuracy": 0.8015920238869745,
+      "step": 792
+    },
+    {
+      "epoch": 2.352201257861635,
+      "grad_norm": 0.40360507369041443,
+      "learning_rate": 2.7065294620085425e-06,
+      "loss": 0.648,
+      "mean_token_accuracy": 0.7971657427741622,
+      "step": 793
+    },
+    {
+      "epoch": 2.3551609322974474,
+      "grad_norm": 0.45460647344589233,
+      "learning_rate": 2.6829283874666236e-06,
+      "loss": 0.6445,
+      "mean_token_accuracy": 0.7987224105203672,
+      "step": 794
+    },
+    {
+      "epoch": 2.358120606733259,
+      "grad_norm": 0.39461758732795715,
+      "learning_rate": 2.6594147124053983e-06,
+      "loss": 0.6515,
+      "mean_token_accuracy": 0.796149561930855,
+      "step": 795
+    },
+    {
+      "epoch": 2.3610802811690714,
+      "grad_norm": 0.41954609751701355,
+      "learning_rate": 2.635988717686272e-06,
+      "loss": 0.6246,
+      "mean_token_accuracy": 0.8032149733919829,
+      "step": 796
+    },
+    {
+      "epoch": 2.3640399556048832,
+      "grad_norm": 0.40406131744384766,
+      "learning_rate": 2.6126506831233343e-06,
+      "loss": 0.6231,
+      "mean_token_accuracy": 0.8041168200702946,
+      "step": 797
+    },
+    {
+      "epoch": 2.3669996300406955,
+      "grad_norm": 0.3953285217285156,
+      "learning_rate": 2.5894008874800323e-06,
+      "loss": 0.6069,
+      "mean_token_accuracy": 0.8095464392825367,
+      "step": 798
+    },
+    {
+      "epoch": 2.3699593044765077,
+      "grad_norm": 0.39232245087623596,
+      "learning_rate": 2.5662396084658383e-06,
+      "loss": 0.6887,
+      "mean_token_accuracy": 0.7847626079340336,
+      "step": 799
+    },
+    {
+      "epoch": 2.3729189789123195,
+      "grad_norm": 0.4201255440711975,
+      "learning_rate": 2.543167122732918e-06,
+      "loss": 0.6305,
+      "mean_token_accuracy": 0.8017334424766583,
+      "step": 800
+    },
+    {
+      "epoch": 2.3729189789123195,
+      "eval_loss": 0.7381730079650879,
+      "eval_mean_token_accuracy": 0.7720131224354058,
+      "eval_runtime": 24.485,
+      "eval_samples_per_second": 5.269,
+      "eval_steps_per_second": 1.348,
+      "step": 800
+    },
+    {
+      "epoch": 2.3758786533481318,
+      "grad_norm": 0.41799813508987427,
+      "learning_rate": 2.5201837058728506e-06,
+      "loss": 0.6426,
+      "mean_token_accuracy": 0.7981351114043707,
+      "step": 801
+    },
+    {
+      "epoch": 2.378838327783944,
+      "grad_norm": 0.4000183939933777,
+      "learning_rate": 2.4972896324133143e-06,
+      "loss": 0.6408,
+      "mean_token_accuracy": 0.8005246267043143,
+      "step": 802
+    },
+    {
+      "epoch": 2.381798002219756,
+      "grad_norm": 0.3985981345176697,
+      "learning_rate": 2.474485175814816e-06,
+      "loss": 0.6419,
+      "mean_token_accuracy": 0.8006590768326411,
+      "step": 803
+    },
+    {
+      "epoch": 2.384757676655568,
+      "grad_norm": 0.39996403455734253,
+      "learning_rate": 2.451770608467432e-06,
+      "loss": 0.6556,
+      "mean_token_accuracy": 0.7937097877818717,
+      "step": 804
+    },
+    {
+      "epoch": 2.38771735109138,
+      "grad_norm": 0.40971750020980835,
+      "learning_rate": 2.429146201687538e-06,
+      "loss": 0.6544,
+      "mean_token_accuracy": 0.7955813996484105,
+      "step": 805
+    },
+    {
+      "epoch": 2.390677025527192,
+      "grad_norm": 0.4214819669723511,
+      "learning_rate": 2.4066122257145898e-06,
+      "loss": 0.6192,
+      "mean_token_accuracy": 0.8044043910369116,
+      "step": 806
+    },
+    {
+      "epoch": 2.393636699963004,
+      "grad_norm": 0.3935949206352234,
+      "learning_rate": 2.3841689497078746e-06,
+      "loss": 0.6616,
+      "mean_token_accuracy": 0.7930927722183864,
+      "step": 807
+    },
+    {
+      "epoch": 2.396596374398816,
+      "grad_norm": 0.4110560715198517,
+      "learning_rate": 2.361816641743303e-06,
+      "loss": 0.6589,
+      "mean_token_accuracy": 0.7933747994521603,
+      "step": 808
+    },
+    {
+      "epoch": 2.3995560488346284,
+      "grad_norm": 0.40695828199386597,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 0.6654,
+      "mean_token_accuracy": 0.79236514420736,
+      "step": 809
+    },
+    {
+      "epoch": 2.40251572327044,
+      "grad_norm": 0.4188994765281677,
+      "learning_rate": 2.317385996808195e-06,
+      "loss": 0.6401,
+      "mean_token_accuracy": 0.7978658874862038,
+      "step": 810
+    },
+    {
+      "epoch": 2.4054753977062524,
+      "grad_norm": 0.4050770699977875,
+      "learning_rate": 2.295308190543859e-06,
+      "loss": 0.6565,
+      "mean_token_accuracy": 0.793120003753917,
+      "step": 811
+    },
+    {
+      "epoch": 2.408435072142064,
+      "grad_norm": 0.4208693206310272,
+      "learning_rate": 2.2733224137277366e-06,
+      "loss": 0.6625,
+      "mean_token_accuracy": 0.7924009490317484,
+      "step": 812
+    },
+    {
+      "epoch": 2.4113947465778764,
+      "grad_norm": 0.41889867186546326,
+      "learning_rate": 2.251428928971102e-06,
+      "loss": 0.6421,
+      "mean_token_accuracy": 0.7987856486295601,
+      "step": 813
+    },
+    {
+      "epoch": 2.4143544210136882,
+      "grad_norm": 0.3941342532634735,
+      "learning_rate": 2.229627997782834e-06,
+      "loss": 0.6522,
+      "mean_token_accuracy": 0.7969981541204149,
+      "step": 814
+    },
+    {
+      "epoch": 2.4173140954495005,
+      "grad_norm": 0.4085904061794281,
+      "learning_rate": 2.2079198805662917e-06,
+      "loss": 0.636,
+      "mean_token_accuracy": 0.8006980355838276,
+      "step": 815
+    },
+    {
+      "epoch": 2.4202737698853127,
+      "grad_norm": 0.39825567603111267,
+      "learning_rate": 2.186304836616221e-06,
+      "loss": 0.6447,
+      "mean_token_accuracy": 0.7977600103702366,
+      "step": 816
+    },
+    {
+      "epoch": 2.4232334443211245,
+      "grad_norm": 0.40731707215309143,
+      "learning_rate": 2.1647831241156304e-06,
+      "loss": 0.6504,
+      "mean_token_accuracy": 0.7959071538531968,
+      "step": 817
+    },
+    {
+      "epoch": 2.4261931187569368,
+      "grad_norm": 0.406483918428421,
+      "learning_rate": 2.1433550001327376e-06,
+      "loss": 0.6639,
+      "mean_token_accuracy": 0.7929632102578547,
+      "step": 818
+    },
+    {
+      "epoch": 2.429152793192749,
+      "grad_norm": 0.40205124020576477,
+      "learning_rate": 2.122020720617869e-06,
+      "loss": 0.6602,
+      "mean_token_accuracy": 0.7925995018559459,
+      "step": 819
+    },
+    {
+      "epoch": 2.432112467628561,
+      "grad_norm": 0.39821526408195496,
+      "learning_rate": 2.1007805404004247e-06,
+      "loss": 0.6125,
+      "mean_token_accuracy": 0.8074528559405126,
+      "step": 820
+    },
+    {
+      "epoch": 2.435072142064373,
+      "grad_norm": 0.41154807806015015,
+      "learning_rate": 2.0796347131858187e-06,
+      "loss": 0.5924,
+      "mean_token_accuracy": 0.8134260585147182,
+      "step": 821
+    },
+    {
+      "epoch": 2.438031816500185,
+      "grad_norm": 0.4058592617511749,
+      "learning_rate": 2.058583491552465e-06,
+      "loss": 0.6446,
+      "mean_token_accuracy": 0.7976544788468782,
+      "step": 822
+    },
+    {
+      "epoch": 2.440991490935997,
+      "grad_norm": 0.4115375280380249,
+      "learning_rate": 2.037627126948751e-06,
+      "loss": 0.6486,
+      "mean_token_accuracy": 0.7961866171753605,
+      "step": 823
+    },
+    {
+      "epoch": 2.443951165371809,
+      "grad_norm": 0.4094432592391968,
+      "learning_rate": 2.0167658696900317e-06,
+      "loss": 0.6498,
+      "mean_token_accuracy": 0.7974890015343987,
+      "step": 824
+    },
+    {
+      "epoch": 2.446910839807621,
+      "grad_norm": 0.4136302173137665,
+      "learning_rate": 1.9959999689556407e-06,
+      "loss": 0.6508,
+      "mean_token_accuracy": 0.7969356095942468,
+      "step": 825
+    },
+    {
+      "epoch": 2.4498705142434334,
+      "grad_norm": 0.3964935839176178,
+      "learning_rate": 1.9753296727859195e-06,
+      "loss": 0.6422,
+      "mean_token_accuracy": 0.7975552703681513,
+      "step": 826
+    },
+    {
+      "epoch": 2.452830188679245,
+      "grad_norm": 0.3923938572406769,
+      "learning_rate": 1.9547552280792528e-06,
+      "loss": 0.6644,
+      "mean_token_accuracy": 0.7923696593805352,
+      "step": 827
+    },
+    {
+      "epoch": 2.4557898631150574,
+      "grad_norm": 0.40744659304618835,
+      "learning_rate": 1.9342768805891176e-06,
+      "loss": 0.6185,
+      "mean_token_accuracy": 0.805182835348635,
+      "step": 828
+    },
+    {
+      "epoch": 2.4587495375508692,
+      "grad_norm": 0.3996569812297821,
+      "learning_rate": 1.9138948749211473e-06,
+      "loss": 0.6885,
+      "mean_token_accuracy": 0.7846693968735795,
+      "step": 829
+    },
+    {
+      "epoch": 2.4617092119866815,
+      "grad_norm": 0.41256505250930786,
+      "learning_rate": 1.8936094545302098e-06,
+      "loss": 0.633,
+      "mean_token_accuracy": 0.80203945172239,
+      "step": 830
+    },
+    {
+      "epoch": 2.4646688864224937,
+      "grad_norm": 0.40780341625213623,
+      "learning_rate": 1.8734208617174986e-06,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8031928870956203,
+      "step": 831
+    },
+    {
+      "epoch": 2.4676285608583055,
+      "grad_norm": 0.40084558725357056,
+      "learning_rate": 1.8533293376276473e-06,
+      "loss": 0.6645,
+      "mean_token_accuracy": 0.7910519113431395,
+      "step": 832
+    },
+    {
+      "epoch": 2.4705882352941178,
+      "grad_norm": 0.39891085028648376,
+      "learning_rate": 1.8333351222458407e-06,
+      "loss": 0.6457,
+      "mean_token_accuracy": 0.7975340656719943,
+      "step": 833
+    },
+    {
+      "epoch": 2.4735479097299296,
+      "grad_norm": 0.39134928584098816,
+      "learning_rate": 1.813438454394948e-06,
+      "loss": 0.666,
+      "mean_token_accuracy": 0.7898439445031347,
+      "step": 834
+    },
+    {
+      "epoch": 2.476507584165742,
+      "grad_norm": 0.41572368144989014,
+      "learning_rate": 1.7936395717326705e-06,
+      "loss": 0.6414,
+      "mean_token_accuracy": 0.7995425811392918,
+      "step": 835
+    },
+    {
+      "epoch": 2.479467258601554,
+      "grad_norm": 0.40483906865119934,
+      "learning_rate": 1.773938710748706e-06,
+      "loss": 0.662,
+      "mean_token_accuracy": 0.7923949344399477,
+      "step": 836
+    },
+    {
+      "epoch": 2.482426933037366,
+      "grad_norm": 0.40634220838546753,
+      "learning_rate": 1.7543361067619269e-06,
+      "loss": 0.615,
+      "mean_token_accuracy": 0.806526275556733,
+      "step": 837
+    },
+    {
+      "epoch": 2.485386607473178,
+      "grad_norm": 0.4077673852443695,
+      "learning_rate": 1.734831993917564e-06,
+      "loss": 0.6328,
+      "mean_token_accuracy": 0.802378745198797,
+      "step": 838
+    },
+    {
+      "epoch": 2.48834628190899,
+      "grad_norm": 0.39237353205680847,
+      "learning_rate": 1.715426605184407e-06,
+      "loss": 0.6155,
+      "mean_token_accuracy": 0.8060445709769514,
+      "step": 839
+    },
+    {
+      "epoch": 2.491305956344802,
+      "grad_norm": 0.4081886112689972,
+      "learning_rate": 1.6961201723520248e-06,
+      "loss": 0.6144,
+      "mean_token_accuracy": 0.8065054898817852,
+      "step": 840
+    },
+    {
+      "epoch": 2.494265630780614,
+      "grad_norm": 0.4004494547843933,
+      "learning_rate": 1.676912926028007e-06,
+      "loss": 0.6055,
+      "mean_token_accuracy": 0.809148562640221,
+      "step": 841
+    },
+    {
+      "epoch": 2.497225305216426,
+      "grad_norm": 0.4009197950363159,
+      "learning_rate": 1.6578050956351887e-06,
+      "loss": 0.6238,
+      "mean_token_accuracy": 0.8049418801942305,
+      "step": 842
+    },
+    {
+      "epoch": 2.5001849796522384,
+      "grad_norm": 0.3991737365722656,
+      "learning_rate": 1.6387969094089318e-06,
+      "loss": 0.6176,
+      "mean_token_accuracy": 0.8066388869046413,
+      "step": 843
+    },
+    {
+      "epoch": 2.50314465408805,
+      "grad_norm": 0.4157380163669586,
+      "learning_rate": 1.619888594394382e-06,
+      "loss": 0.6469,
+      "mean_token_accuracy": 0.7967652752528133,
+      "step": 844
+    },
+    {
+      "epoch": 2.5061043285238624,
+      "grad_norm": 0.41072478890419006,
+      "learning_rate": 1.6010803764437633e-06,
+      "loss": 0.6285,
+      "mean_token_accuracy": 0.8027356011802552,
+      "step": 845
+    },
+    {
+      "epoch": 2.5090640029596747,
+      "grad_norm": 0.38374269008636475,
+      "learning_rate": 1.5823724802136863e-06,
+      "loss": 0.6655,
+      "mean_token_accuracy": 0.7921055036509936,
+      "step": 846
+    },
+    {
+      "epoch": 2.5120236773954865,
+      "grad_norm": 0.3918653130531311,
+      "learning_rate": 1.5637651291624522e-06,
+      "loss": 0.6541,
+      "mean_token_accuracy": 0.7957731421640813,
+      "step": 847
+    },
+    {
+      "epoch": 2.5149833518312983,
+      "grad_norm": 0.4183335602283478,
+      "learning_rate": 1.545258545547398e-06,
+      "loss": 0.6808,
+      "mean_token_accuracy": 0.7860103025645604,
+      "step": 848
+    },
+    {
+      "epoch": 2.5179430262671105,
+      "grad_norm": 0.40748029947280884,
+      "learning_rate": 1.5268529504222262e-06,
+      "loss": 0.6476,
+      "mean_token_accuracy": 0.7958813429391195,
+      "step": 849
+    },
+    {
+      "epoch": 2.5209027007029228,
+      "grad_norm": 0.4112967550754547,
+      "learning_rate": 1.5085485636343755e-06,
+      "loss": 0.6305,
+      "mean_token_accuracy": 0.8016536067152452,
+      "step": 850
+    },
+    {
+      "epoch": 2.5238623751387346,
+      "grad_norm": 0.40055161714553833,
+      "learning_rate": 1.4903456038223941e-06,
+      "loss": 0.6374,
+      "mean_token_accuracy": 0.799591641647149,
+      "step": 851
+    },
+    {
+      "epoch": 2.526822049574547,
+      "grad_norm": 0.39930155873298645,
+      "learning_rate": 1.4722442884133214e-06,
+      "loss": 0.5796,
+      "mean_token_accuracy": 0.8175529008877027,
+      "step": 852
+    },
+    {
+      "epoch": 2.529781724010359,
+      "grad_norm": 0.3882523477077484,
+      "learning_rate": 1.4542448336201021e-06,
+      "loss": 0.646,
+      "mean_token_accuracy": 0.7965177087401804,
+      "step": 853
+    },
+    {
+      "epoch": 2.532741398446171,
+      "grad_norm": 0.4089968502521515,
+      "learning_rate": 1.4363474544389876e-06,
+      "loss": 0.6288,
+      "mean_token_accuracy": 0.8025391764757291,
+      "step": 854
+    },
+    {
+      "epoch": 2.535701072881983,
+      "grad_norm": 0.39754486083984375,
+      "learning_rate": 1.4185523646469822e-06,
+      "loss": 0.6461,
+      "mean_token_accuracy": 0.7974458592055889,
+      "step": 855
+    },
+    {
+      "epoch": 2.538660747317795,
+      "grad_norm": 0.429750919342041,
+      "learning_rate": 1.4008597767992872e-06,
+      "loss": 0.6118,
+      "mean_token_accuracy": 0.8093011527301119,
+      "step": 856
+    },
+    {
+      "epoch": 2.541620421753607,
+      "grad_norm": 0.38371750712394714,
+      "learning_rate": 1.3832699022267516e-06,
+      "loss": 0.6399,
+      "mean_token_accuracy": 0.7980772590627099,
+      "step": 857
+    },
+    {
+      "epoch": 2.544580096189419,
+      "grad_norm": 0.41115689277648926,
+      "learning_rate": 1.3657829510333653e-06,
+      "loss": 0.6633,
+      "mean_token_accuracy": 0.7933955020310409,
+      "step": 858
+    },
+    {
+      "epoch": 2.547539770625231,
+      "grad_norm": 0.406768262386322,
+      "learning_rate": 1.3483991320937307e-06,
+      "loss": 0.6368,
+      "mean_token_accuracy": 0.8023250526600325,
+      "step": 859
+    },
+    {
+      "epoch": 2.5504994450610434,
+      "grad_norm": 0.4091865122318268,
+      "learning_rate": 1.3311186530505838e-06,
+      "loss": 0.6189,
+      "mean_token_accuracy": 0.8061198976192254,
+      "step": 860
+    },
+    {
+      "epoch": 2.5534591194968552,
+      "grad_norm": 0.385766863822937,
+      "learning_rate": 1.313941720312303e-06,
+      "loss": 0.6262,
+      "mean_token_accuracy": 0.8026254886335932,
+      "step": 861
+    },
+    {
+      "epoch": 2.5564187939326675,
+      "grad_norm": 0.403012216091156,
+      "learning_rate": 1.2968685390504465e-06,
+      "loss": 0.622,
+      "mean_token_accuracy": 0.8041227440695632,
+      "step": 862
+    },
+    {
+      "epoch": 2.5593784683684797,
+      "grad_norm": 0.3971555829048157,
+      "learning_rate": 1.2798993131973093e-06,
+      "loss": 0.6745,
+      "mean_token_accuracy": 0.7896582637305288,
+      "step": 863
+    },
+    {
+      "epoch": 2.5623381428042915,
+      "grad_norm": 0.40315189957618713,
+      "learning_rate": 1.263034245443473e-06,
+      "loss": 0.6563,
+      "mean_token_accuracy": 0.7948344293273772,
+      "step": 864
+    },
+    {
+      "epoch": 2.5652978172401038,
+      "grad_norm": 0.40858373045921326,
+      "learning_rate": 1.2462735372353996e-06,
+      "loss": 0.6228,
+      "mean_token_accuracy": 0.8045441140339781,
+      "step": 865
+    },
+    {
+      "epoch": 2.5682574916759155,
+      "grad_norm": 0.3969631493091583,
+      "learning_rate": 1.2296173887730122e-06,
+      "loss": 0.6345,
+      "mean_token_accuracy": 0.8022942568625994,
+      "step": 866
+    },
+    {
+      "epoch": 2.571217166111728,
+      "grad_norm": 0.39615315198898315,
+      "learning_rate": 1.2130659990073146e-06,
+      "loss": 0.6356,
+      "mean_token_accuracy": 0.7998559942550404,
+      "step": 867
+    },
+    {
+      "epoch": 2.5741768405475396,
+      "grad_norm": 0.38922396302223206,
+      "learning_rate": 1.196619565638003e-06,
+      "loss": 0.6286,
+      "mean_token_accuracy": 0.8018824489890675,
+      "step": 868
+    },
+    {
+      "epoch": 2.577136514983352,
+      "grad_norm": 0.4000704288482666,
+      "learning_rate": 1.1802782851111206e-06,
+      "loss": 0.6418,
+      "mean_token_accuracy": 0.7989303050191064,
+      "step": 869
+    },
+    {
+      "epoch": 2.580096189419164,
+      "grad_norm": 0.39476409554481506,
+      "learning_rate": 1.1640423526166987e-06,
+      "loss": 0.6445,
+      "mean_token_accuracy": 0.797418578107648,
+      "step": 870
+    },
+    {
+      "epoch": 2.583055863854976,
+      "grad_norm": 0.39660996198654175,
+      "learning_rate": 1.1479119620864277e-06,
+      "loss": 0.6575,
+      "mean_token_accuracy": 0.795806747653712,
+      "step": 871
+    },
+    {
+      "epoch": 2.586015538290788,
+      "grad_norm": 0.41734716296195984,
+      "learning_rate": 1.1318873061913405e-06,
+      "loss": 0.5882,
+      "mean_token_accuracy": 0.8143113885996807,
+      "step": 872
+    },
+    {
+      "epoch": 2.5889752127266,
+      "grad_norm": 0.3729105293750763,
+      "learning_rate": 1.1159685763395113e-06,
+      "loss": 0.64,
+      "mean_token_accuracy": 0.7987188883545505,
+      "step": 873
+    },
+    {
+      "epoch": 2.591934887162412,
+      "grad_norm": 0.3946407437324524,
+      "learning_rate": 1.1001559626737757e-06,
+      "loss": 0.6418,
+      "mean_token_accuracy": 0.798503030470437,
+      "step": 874
+    },
+    {
+      "epoch": 2.594894561598224,
+      "grad_norm": 0.4132760763168335,
+      "learning_rate": 1.0844496540694515e-06,
+      "loss": 0.6267,
+      "mean_token_accuracy": 0.8039569693853369,
+      "step": 875
+    },
+    {
+      "epoch": 2.597854236034036,
+      "grad_norm": 0.40759339928627014,
+      "learning_rate": 1.0688498381320855e-06,
+      "loss": 0.6318,
+      "mean_token_accuracy": 0.8012822502344166,
+      "step": 876
+    },
+    {
+      "epoch": 2.6008139104698484,
+      "grad_norm": 0.41799381375312805,
+      "learning_rate": 1.0533567011952094e-06,
+      "loss": 0.6464,
+      "mean_token_accuracy": 0.7964816550323018,
+      "step": 877
+    },
+    {
+      "epoch": 2.6037735849056602,
+      "grad_norm": 0.4257717430591583,
+      "learning_rate": 1.037970428318118e-06,
+      "loss": 0.6841,
+      "mean_token_accuracy": 0.7837483957536826,
+      "step": 878
+    },
+    {
+      "epoch": 2.6067332593414725,
+      "grad_norm": 0.4087117314338684,
+      "learning_rate": 1.022691203283661e-06,
+      "loss": 0.6507,
+      "mean_token_accuracy": 0.7950712747355096,
+      "step": 879
+    },
+    {
+      "epoch": 2.6096929337772847,
+      "grad_norm": 0.41945111751556396,
+      "learning_rate": 1.0075192085960451e-06,
+      "loss": 0.6678,
+      "mean_token_accuracy": 0.7909589594797406,
+      "step": 880
+    },
+    {
+      "epoch": 2.6126526082130965,
+      "grad_norm": 0.398735374212265,
+      "learning_rate": 9.924546254786493e-07,
+      "loss": 0.6316,
+      "mean_token_accuracy": 0.8018926205701773,
+      "step": 881
+    },
+    {
+      "epoch": 2.6156122826489088,
+      "grad_norm": 0.406318724155426,
+      "learning_rate": 9.77497633871868e-07,
+      "loss": 0.6054,
+      "mean_token_accuracy": 0.8093279590843514,
+      "step": 882
+    },
+    {
+      "epoch": 2.6185719570847206,
+      "grad_norm": 0.3851606845855713,
+      "learning_rate": 9.62648412430951e-07,
+      "loss": 0.6791,
+      "mean_token_accuracy": 0.7881774140441217,
+      "step": 883
+    },
+    {
+      "epoch": 2.621531631520533,
+      "grad_norm": 0.4061947762966156,
+      "learning_rate": 9.479071385238892e-07,
+      "loss": 0.6212,
+      "mean_token_accuracy": 0.8042670614990748,
+      "step": 884
+    },
+    {
+      "epoch": 2.6244913059563446,
+      "grad_norm": 0.39614221453666687,
+      "learning_rate": 9.332739882292752e-07,
+      "loss": 0.6296,
+      "mean_token_accuracy": 0.8017565837535566,
+      "step": 885
+    },
+    {
+      "epoch": 2.627450980392157,
+      "grad_norm": 0.3858533501625061,
+      "learning_rate": 9.187491363342094e-07,
+      "loss": 0.5922,
+      "mean_token_accuracy": 0.8143832301495489,
+      "step": 886
+    },
+    {
+      "epoch": 2.630410654827969,
+      "grad_norm": 0.39614781737327576,
+      "learning_rate": 9.043327563322113e-07,
+      "loss": 0.6387,
+      "mean_token_accuracy": 0.799956339899957,
+      "step": 887
+    },
+    {
+      "epoch": 2.633370329263781,
+      "grad_norm": 0.38962864875793457,
+      "learning_rate": 8.900250204211513e-07,
+      "loss": 0.626,
+      "mean_token_accuracy": 0.8054223234361488,
+      "step": 888
+    },
+    {
+      "epoch": 2.636330003699593,
+      "grad_norm": 0.38743823766708374,
+      "learning_rate": 8.758260995011825e-07,
+      "loss": 0.6249,
+      "mean_token_accuracy": 0.8041963208824743,
+      "step": 889
+    },
+    {
+      "epoch": 2.6392896781354054,
+      "grad_norm": 0.38722845911979675,
+      "learning_rate": 8.617361631727139e-07,
+      "loss": 0.637,
+      "mean_token_accuracy": 0.7999073170969193,
+      "step": 890
+    },
+    {
+      "epoch": 2.642249352571217,
+      "grad_norm": 0.38422495126724243,
+      "learning_rate": 8.477553797343729e-07,
+      "loss": 0.5932,
+      "mean_token_accuracy": 0.8125740456037845,
+      "step": 891
+    },
+    {
+      "epoch": 2.645209027007029,
+      "grad_norm": 0.3883955180644989,
+      "learning_rate": 8.338839161809997e-07,
+      "loss": 0.6259,
+      "mean_token_accuracy": 0.8034302437405634,
+      "step": 892
+    },
+    {
+      "epoch": 2.648168701442841,
+      "grad_norm": 0.413769394159317,
+      "learning_rate": 8.201219382016556e-07,
+      "loss": 0.6425,
+      "mean_token_accuracy": 0.7988244713424745,
+      "step": 893
+    },
+    {
+      "epoch": 2.6511283758786535,
+      "grad_norm": 0.3942348062992096,
+      "learning_rate": 8.06469610177636e-07,
+      "loss": 0.6366,
+      "mean_token_accuracy": 0.800066869045331,
+      "step": 894
+    },
+    {
+      "epoch": 2.6540880503144653,
+      "grad_norm": 0.3790660500526428,
+      "learning_rate": 7.92927095180518e-07,
+      "loss": 0.6505,
+      "mean_token_accuracy": 0.795845314542134,
+      "step": 895
+    },
+    {
+      "epoch": 2.6570477247502775,
+      "grad_norm": 0.42260193824768066,
+      "learning_rate": 7.794945549701993e-07,
+      "loss": 0.6085,
+      "mean_token_accuracy": 0.8089679902729355,
+      "step": 896
+    },
+    {
+      "epoch": 2.6600073991860897,
+      "grad_norm": 0.37863457202911377,
+      "learning_rate": 7.661721499929753e-07,
+      "loss": 0.608,
+      "mean_token_accuracy": 0.8079819508856279,
+      "step": 897
+    },
+    {
+      "epoch": 2.6629670736219015,
+      "grad_norm": 0.4104274809360504,
+      "learning_rate": 7.529600393796232e-07,
+      "loss": 0.6343,
+      "mean_token_accuracy": 0.8013414635641989,
+      "step": 898
+    },
+    {
+      "epoch": 2.665926748057714,
+      "grad_norm": 0.4015280604362488,
+      "learning_rate": 7.398583809434944e-07,
+      "loss": 0.6194,
+      "mean_token_accuracy": 0.8067789013401996,
+      "step": 899
+    },
+    {
+      "epoch": 2.6688864224935256,
+      "grad_norm": 0.3843616247177124,
+      "learning_rate": 7.268673311786378e-07,
+      "loss": 0.655,
+      "mean_token_accuracy": 0.7944493186314524,
+      "step": 900
+    },
+    {
+      "epoch": 2.6688864224935256,
+      "eval_loss": 0.737091064453125,
+      "eval_mean_token_accuracy": 0.7722201670436681,
+      "eval_runtime": 24.4823,
+      "eval_samples_per_second": 5.269,
+      "eval_steps_per_second": 1.348,
+      "step": 900
+    },
+    {
+      "epoch": 2.671846096929338,
+      "grad_norm": 0.40167438983917236,
+      "learning_rate": 7.1398704525792e-07,
+      "loss": 0.6665,
+      "mean_token_accuracy": 0.7904682922183952,
+      "step": 901
+    },
+    {
+      "epoch": 2.6748057713651496,
+      "grad_norm": 0.4117159843444824,
+      "learning_rate": 7.012176770311863e-07,
+      "loss": 0.6622,
+      "mean_token_accuracy": 0.7920689961190451,
+      "step": 902
+    },
+    {
+      "epoch": 2.677765445800962,
+      "grad_norm": 0.39613744616508484,
+      "learning_rate": 6.885593790234057e-07,
+      "loss": 0.6376,
+      "mean_token_accuracy": 0.799410845334018,
+      "step": 903
+    },
+    {
+      "epoch": 2.680725120236774,
+      "grad_norm": 0.38793283700942993,
+      "learning_rate": 6.760123024328624e-07,
+      "loss": 0.6141,
+      "mean_token_accuracy": 0.8077387547151241,
+      "step": 904
+    },
+    {
+      "epoch": 2.683684794672586,
+      "grad_norm": 0.38844698667526245,
+      "learning_rate": 6.635765971293484e-07,
+      "loss": 0.6559,
+      "mean_token_accuracy": 0.794430430660069,
+      "step": 905
+    },
+    {
+      "epoch": 2.686644469108398,
+      "grad_norm": 0.3850746154785156,
+      "learning_rate": 6.512524116523633e-07,
+      "loss": 0.627,
+      "mean_token_accuracy": 0.8037230062591546,
+      "step": 906
+    },
+    {
+      "epoch": 2.6896041435442104,
+      "grad_norm": 0.3915550708770752,
+      "learning_rate": 6.390398932093555e-07,
+      "loss": 0.6077,
+      "mean_token_accuracy": 0.8080517778457975,
+      "step": 907
+    },
+    {
+      "epoch": 2.692563817980022,
+      "grad_norm": 0.37720099091529846,
+      "learning_rate": 6.269391876739494e-07,
+      "loss": 0.6301,
+      "mean_token_accuracy": 0.8039389719388176,
+      "step": 908
+    },
+    {
+      "epoch": 2.695523492415834,
+      "grad_norm": 0.3923218250274658,
+      "learning_rate": 6.149504395842087e-07,
+      "loss": 0.6148,
+      "mean_token_accuracy": 0.8082143968389491,
+      "step": 909
+    },
+    {
+      "epoch": 2.6984831668516462,
+      "grad_norm": 0.39484548568725586,
+      "learning_rate": 6.030737921409169e-07,
+      "loss": 0.6583,
+      "mean_token_accuracy": 0.7938795460478842,
+      "step": 910
+    },
+    {
+      "epoch": 2.7014428412874585,
+      "grad_norm": 0.40009021759033203,
+      "learning_rate": 5.913093872058528e-07,
+      "loss": 0.6608,
+      "mean_token_accuracy": 0.793614022788515,
+      "step": 911
+    },
+    {
+      "epoch": 2.7044025157232703,
+      "grad_norm": 0.40624064207077026,
+      "learning_rate": 5.796573653001091e-07,
+      "loss": 0.6335,
+      "mean_token_accuracy": 0.8018102965988579,
+      "step": 912
+    },
+    {
+      "epoch": 2.7073621901590825,
+      "grad_norm": 0.4008027911186218,
+      "learning_rate": 5.681178656024055e-07,
+      "loss": 0.6626,
+      "mean_token_accuracy": 0.7932069577957652,
+      "step": 913
+    },
+    {
+      "epoch": 2.7103218645948948,
+      "grad_norm": 0.40246814489364624,
+      "learning_rate": 5.56691025947429e-07,
+      "loss": 0.6378,
+      "mean_token_accuracy": 0.800000261371183,
+      "step": 914
+    },
+    {
+      "epoch": 2.7132815390307066,
+      "grad_norm": 0.37238821387290955,
+      "learning_rate": 5.453769828241872e-07,
+      "loss": 0.6268,
+      "mean_token_accuracy": 0.8024412909252127,
+      "step": 915
+    },
+    {
+      "epoch": 2.716241213466519,
+      "grad_norm": 0.39563846588134766,
+      "learning_rate": 5.341758713743828e-07,
+      "loss": 0.6596,
+      "mean_token_accuracy": 0.7931748591712275,
+      "step": 916
+    },
+    {
+      "epoch": 2.7192008879023306,
+      "grad_norm": 0.3933393061161041,
+      "learning_rate": 5.230878253907911e-07,
+      "loss": 0.6416,
+      "mean_token_accuracy": 0.7995262716287037,
+      "step": 917
+    },
+    {
+      "epoch": 2.722160562338143,
+      "grad_norm": 0.3950590193271637,
+      "learning_rate": 5.121129773156663e-07,
+      "loss": 0.6771,
+      "mean_token_accuracy": 0.7878128871617898,
+      "step": 918
+    },
+    {
+      "epoch": 2.7251202367739547,
+      "grad_norm": 0.41165900230407715,
+      "learning_rate": 5.012514582391592e-07,
+      "loss": 0.6194,
+      "mean_token_accuracy": 0.805260790188586,
+      "step": 919
+    },
+    {
+      "epoch": 2.728079911209767,
+      "grad_norm": 0.3828143775463104,
+      "learning_rate": 4.905033978977492e-07,
+      "loss": 0.6285,
+      "mean_token_accuracy": 0.8036274550004541,
+      "step": 920
+    },
+    {
+      "epoch": 2.731039585645579,
+      "grad_norm": 0.3781799077987671,
+      "learning_rate": 4.798689246727006e-07,
+      "loss": 0.6143,
+      "mean_token_accuracy": 0.8072609168484571,
+      "step": 921
+    },
+    {
+      "epoch": 2.733999260081391,
+      "grad_norm": 0.3903900682926178,
+      "learning_rate": 4.693481655885257e-07,
+      "loss": 0.6698,
+      "mean_token_accuracy": 0.7922049787058092,
+      "step": 922
+    },
+    {
+      "epoch": 2.736958934517203,
+      "grad_norm": 0.3956415355205536,
+      "learning_rate": 4.58941246311464e-07,
+      "loss": 0.6301,
+      "mean_token_accuracy": 0.8028085591716645,
+      "step": 923
+    },
+    {
+      "epoch": 2.7399186089530154,
+      "grad_norm": 0.3861734867095947,
+      "learning_rate": 4.4864829114798394e-07,
+      "loss": 0.6371,
+      "mean_token_accuracy": 0.8004312278302195,
+      "step": 924
+    },
+    {
+      "epoch": 2.742878283388827,
+      "grad_norm": 0.3868809640407562,
+      "learning_rate": 4.384694230432984e-07,
+      "loss": 0.5952,
+      "mean_token_accuracy": 0.8138450723816196,
+      "step": 925
+    },
+    {
+      "epoch": 2.745837957824639,
+      "grad_norm": 0.3856772780418396,
+      "learning_rate": 4.2840476357989825e-07,
+      "loss": 0.611,
+      "mean_token_accuracy": 0.80796215409744,
+      "step": 926
+    },
+    {
+      "epoch": 2.7487976322604513,
+      "grad_norm": 0.404486745595932,
+      "learning_rate": 4.184544329761009e-07,
+      "loss": 0.6209,
+      "mean_token_accuracy": 0.8057150436844314,
+      "step": 927
+    },
+    {
+      "epoch": 2.7517573066962635,
+      "grad_norm": 0.3897272050380707,
+      "learning_rate": 4.0861855008460403e-07,
+      "loss": 0.6327,
+      "mean_token_accuracy": 0.8016584740172387,
+      "step": 928
+    },
+    {
+      "epoch": 2.7547169811320753,
+      "grad_norm": 0.3906909227371216,
+      "learning_rate": 3.988972323910778e-07,
+      "loss": 0.6181,
+      "mean_token_accuracy": 0.805539043349179,
+      "step": 929
+    },
+    {
+      "epoch": 2.7576766555678875,
+      "grad_norm": 0.38629284501075745,
+      "learning_rate": 3.8929059601275463e-07,
+      "loss": 0.6256,
+      "mean_token_accuracy": 0.8029286474181538,
+      "step": 930
+    },
+    {
+      "epoch": 2.7606363300037,
+      "grad_norm": 0.4061240255832672,
+      "learning_rate": 3.797987556970495e-07,
+      "loss": 0.6719,
+      "mean_token_accuracy": 0.7906059984731508,
+      "step": 931
+    },
+    {
+      "epoch": 2.7635960044395116,
+      "grad_norm": 0.40067771077156067,
+      "learning_rate": 3.7042182482018074e-07,
+      "loss": 0.6271,
+      "mean_token_accuracy": 0.8041936678142166,
+      "step": 932
+    },
+    {
+      "epoch": 2.766555678875324,
+      "grad_norm": 0.3809727132320404,
+      "learning_rate": 3.611599153858214e-07,
+      "loss": 0.6769,
+      "mean_token_accuracy": 0.7875104091416671,
+      "step": 933
+    },
+    {
+      "epoch": 2.7695153533111356,
+      "grad_norm": 0.40350061655044556,
+      "learning_rate": 3.520131380237546e-07,
+      "loss": 0.6647,
+      "mean_token_accuracy": 0.7917032324367623,
+      "step": 934
+    },
+    {
+      "epoch": 2.772475027746948,
+      "grad_norm": 0.4117463529109955,
+      "learning_rate": 3.429816019885657e-07,
+      "loss": 0.6811,
+      "mean_token_accuracy": 0.787343757534307,
+      "step": 935
+    },
+    {
+      "epoch": 2.7754347021827597,
+      "grad_norm": 0.3994939923286438,
+      "learning_rate": 3.3406541515832e-07,
+      "loss": 0.6786,
+      "mean_token_accuracy": 0.7861266133562229,
+      "step": 936
+    },
+    {
+      "epoch": 2.778394376618572,
+      "grad_norm": 0.39691928029060364,
+      "learning_rate": 3.252646840332918e-07,
+      "loss": 0.6468,
+      "mean_token_accuracy": 0.7971869583236945,
+      "step": 937
+    },
+    {
+      "epoch": 2.781354051054384,
+      "grad_norm": 0.37808868288993835,
+      "learning_rate": 3.16579513734675e-07,
+      "loss": 0.6259,
+      "mean_token_accuracy": 0.8036837288252531,
+      "step": 938
+    },
+    {
+      "epoch": 2.784313725490196,
+      "grad_norm": 0.38705241680145264,
+      "learning_rate": 3.080100080033388e-07,
+      "loss": 0.622,
+      "mean_token_accuracy": 0.8054349345477914,
+      "step": 939
+    },
+    {
+      "epoch": 2.787273399926008,
+      "grad_norm": 0.37049245834350586,
+      "learning_rate": 2.995562691985898e-07,
+      "loss": 0.6281,
+      "mean_token_accuracy": 0.802922693455199,
+      "step": 940
+    },
+    {
+      "epoch": 2.7902330743618204,
+      "grad_norm": 0.4022907316684723,
+      "learning_rate": 2.9121839829693857e-07,
+      "loss": 0.6193,
+      "mean_token_accuracy": 0.8052185953687516,
+      "step": 941
+    },
+    {
+      "epoch": 2.7931927487976322,
+      "grad_norm": 0.40110448002815247,
+      "learning_rate": 2.829964948909048e-07,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8038183781558145,
+      "step": 942
+    },
+    {
+      "epoch": 2.7961524232334445,
+      "grad_norm": 0.3919583857059479,
+      "learning_rate": 2.748906571878207e-07,
+      "loss": 0.6603,
+      "mean_token_accuracy": 0.7946063609111435,
+      "step": 943
+    },
+    {
+      "epoch": 2.7991120976692563,
+      "grad_norm": 0.39748555421829224,
+      "learning_rate": 2.6690098200866097e-07,
+      "loss": 0.6416,
+      "mean_token_accuracy": 0.7996132256535484,
+      "step": 944
+    },
+    {
+      "epoch": 2.8020717721050685,
+      "grad_norm": 0.40067169070243835,
+      "learning_rate": 2.5902756478688674e-07,
+      "loss": 0.6431,
+      "mean_token_accuracy": 0.7986862031085916,
+      "step": 945
+    },
+    {
+      "epoch": 2.8050314465408803,
+      "grad_norm": 0.3947811722755432,
+      "learning_rate": 2.5127049956730207e-07,
+      "loss": 0.6424,
+      "mean_token_accuracy": 0.797873089467536,
+      "step": 946
+    },
+    {
+      "epoch": 2.8079911209766926,
+      "grad_norm": 0.38122984766960144,
+      "learning_rate": 2.436298790049363e-07,
+      "loss": 0.6656,
+      "mean_token_accuracy": 0.7921808444907809,
+      "step": 947
+    },
+    {
+      "epoch": 2.810950795412505,
+      "grad_norm": 0.3970412611961365,
+      "learning_rate": 2.3610579436392999e-07,
+      "loss": 0.6454,
+      "mean_token_accuracy": 0.798217491279841,
+      "step": 948
+    },
+    {
+      "epoch": 2.8139104698483166,
+      "grad_norm": 0.39274781942367554,
+      "learning_rate": 2.2869833551645293e-07,
+      "loss": 0.6462,
+      "mean_token_accuracy": 0.7971693406963306,
+      "step": 949
+    },
+    {
+      "epoch": 2.816870144284129,
+      "grad_norm": 0.38875052332878113,
+      "learning_rate": 2.2140759094162468e-07,
+      "loss": 0.6447,
+      "mean_token_accuracy": 0.7977855648395308,
+      "step": 950
+    },
+    {
+      "epoch": 2.8198298187199407,
+      "grad_norm": 0.39083102345466614,
+      "learning_rate": 2.1423364772445886e-07,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8038262482281366,
+      "step": 951
+    },
+    {
+      "epoch": 2.822789493155753,
+      "grad_norm": 0.3867531716823578,
+      "learning_rate": 2.071765915548274e-07,
+      "loss": 0.6872,
+      "mean_token_accuracy": 0.7856023656322098,
+      "step": 952
+    },
+    {
+      "epoch": 2.8257491675915647,
+      "grad_norm": 0.39589664340019226,
+      "learning_rate": 2.002365067264289e-07,
+      "loss": 0.6737,
+      "mean_token_accuracy": 0.7887226540574725,
+      "step": 953
+    },
+    {
+      "epoch": 2.828708842027377,
+      "grad_norm": 0.41389018297195435,
+      "learning_rate": 1.9341347613579086e-07,
+      "loss": 0.6184,
+      "mean_token_accuracy": 0.8065408919751612,
+      "step": 954
+    },
+    {
+      "epoch": 2.831668516463189,
+      "grad_norm": 0.4138829708099365,
+      "learning_rate": 1.867075812812691e-07,
+      "loss": 0.6391,
+      "mean_token_accuracy": 0.8007256177269018,
+      "step": 955
+    },
+    {
+      "epoch": 2.834628190899001,
+      "grad_norm": 0.384776771068573,
+      "learning_rate": 1.8011890226208527e-07,
+      "loss": 0.613,
+      "mean_token_accuracy": 0.8072664965020259,
+      "step": 956
+    },
+    {
+      "epoch": 2.837587865334813,
+      "grad_norm": 0.37912535667419434,
+      "learning_rate": 1.7364751777736334e-07,
+      "loss": 0.6509,
+      "mean_token_accuracy": 0.7937373916975208,
+      "step": 957
+    },
+    {
+      "epoch": 2.8405475397706255,
+      "grad_norm": 0.39359596371650696,
+      "learning_rate": 1.6729350512519006e-07,
+      "loss": 0.6386,
+      "mean_token_accuracy": 0.8000337051550754,
+      "step": 958
+    },
+    {
+      "epoch": 2.8435072142064373,
+      "grad_norm": 0.3822968602180481,
+      "learning_rate": 1.6105694020169594e-07,
+      "loss": 0.6322,
+      "mean_token_accuracy": 0.8005505544311058,
+      "step": 959
+    },
+    {
+      "epoch": 2.8464668886422495,
+      "grad_norm": 0.376174658536911,
+      "learning_rate": 1.5493789750014032e-07,
+      "loss": 0.6178,
+      "mean_token_accuracy": 0.8039858290743149,
+      "step": 960
+    },
+    {
+      "epoch": 2.8494265630780613,
+      "grad_norm": 0.388172447681427,
+      "learning_rate": 1.489364501100332e-07,
+      "loss": 0.6551,
+      "mean_token_accuracy": 0.7960565577797374,
+      "step": 961
+    },
+    {
+      "epoch": 2.8523862375138735,
+      "grad_norm": 0.3901033103466034,
+      "learning_rate": 1.430526697162482e-07,
+      "loss": 0.645,
+      "mean_token_accuracy": 0.7975772604806072,
+      "step": 962
+    },
+    {
+      "epoch": 2.8553459119496853,
+      "grad_norm": 0.3848772943019867,
+      "learning_rate": 1.3728662659818205e-07,
+      "loss": 0.6037,
+      "mean_token_accuracy": 0.8107080863727026,
+      "step": 963
+    },
+    {
+      "epoch": 2.8583055863854976,
+      "grad_norm": 0.38093602657318115,
+      "learning_rate": 1.3163838962890196e-07,
+      "loss": 0.6602,
+      "mean_token_accuracy": 0.7919608208568516,
+      "step": 964
+    },
+    {
+      "epoch": 2.86126526082131,
+      "grad_norm": 0.3964565396308899,
+      "learning_rate": 1.2610802627432972e-07,
+      "loss": 0.6427,
+      "mean_token_accuracy": 0.798779575468243,
+      "step": 965
+    },
+    {
+      "epoch": 2.8642249352571216,
+      "grad_norm": 0.41397061944007874,
+      "learning_rate": 1.206956025924333e-07,
+      "loss": 0.6266,
+      "mean_token_accuracy": 0.8023839610262327,
+      "step": 966
+    },
+    {
+      "epoch": 2.867184609692934,
+      "grad_norm": 0.3790512681007385,
+      "learning_rate": 1.1540118323243866e-07,
+      "loss": 0.5703,
+      "mean_token_accuracy": 0.8205281597109083,
+      "step": 967
+    },
+    {
+      "epoch": 2.870144284128746,
+      "grad_norm": 0.3819893002510071,
+      "learning_rate": 1.1022483143405705e-07,
+      "loss": 0.6072,
+      "mean_token_accuracy": 0.8105382446606855,
+      "step": 968
+    },
+    {
+      "epoch": 2.873103958564558,
+      "grad_norm": 0.38210329413414,
+      "learning_rate": 1.0516660902673448e-07,
+      "loss": 0.6473,
+      "mean_token_accuracy": 0.7979098356765058,
+      "step": 969
+    },
+    {
+      "epoch": 2.8760636330003697,
+      "grad_norm": 0.3830581307411194,
+      "learning_rate": 1.0022657642890232e-07,
+      "loss": 0.6233,
+      "mean_token_accuracy": 0.8037948333368617,
+      "step": 970
+    },
+    {
+      "epoch": 2.879023307436182,
+      "grad_norm": 0.39410918951034546,
+      "learning_rate": 9.540479264726676e-08,
+      "loss": 0.6517,
+      "mean_token_accuracy": 0.7945131404435056,
+      "step": 971
+    },
+    {
+      "epoch": 2.881982981871994,
+      "grad_norm": 0.38177594542503357,
+      "learning_rate": 9.070131527609604e-08,
+      "loss": 0.6083,
+      "mean_token_accuracy": 0.8094474921741853,
+      "step": 972
+    },
+    {
+      "epoch": 2.884942656307806,
+      "grad_norm": 0.3808548152446747,
+      "learning_rate": 8.61162004965388e-08,
+      "loss": 0.6347,
+      "mean_token_accuracy": 0.8012875105708535,
+      "step": 973
+    },
+    {
+      "epoch": 2.8879023307436182,
+      "grad_norm": 0.4010704755783081,
+      "learning_rate": 8.16495030759501e-08,
+      "loss": 0.67,
+      "mean_token_accuracy": 0.7904797064838223,
+      "step": 974
+    },
+    {
+      "epoch": 2.8908620051794305,
+      "grad_norm": 0.3918650448322296,
+      "learning_rate": 7.730127636723539e-08,
+      "loss": 0.6005,
+      "mean_token_accuracy": 0.8118496389421752,
+      "step": 975
+    },
+    {
+      "epoch": 2.8938216796152423,
+      "grad_norm": 0.3898662030696869,
+      "learning_rate": 7.307157230821426e-08,
+      "loss": 0.6453,
+      "mean_token_accuracy": 0.7980052666038159,
+      "step": 976
+    },
+    {
+      "epoch": 2.8967813540510545,
+      "grad_norm": 0.39199164509773254,
+      "learning_rate": 6.896044142100433e-08,
+      "loss": 0.6576,
+      "mean_token_accuracy": 0.7941206706838407,
+      "step": 977
+    },
+    {
+      "epoch": 2.8997410284868663,
+      "grad_norm": 0.40657898783683777,
+      "learning_rate": 6.496793281141056e-08,
+      "loss": 0.6771,
+      "mean_token_accuracy": 0.7881219963995537,
+      "step": 978
+    },
+    {
+      "epoch": 2.9027007029226786,
+      "grad_norm": 0.3844878673553467,
+      "learning_rate": 6.109409416834689e-08,
+      "loss": 0.6412,
+      "mean_token_accuracy": 0.7994358237487954,
+      "step": 979
+    },
+    {
+      "epoch": 2.9056603773584904,
+      "grad_norm": 0.396533340215683,
+      "learning_rate": 5.7338971763256646e-08,
+      "loss": 0.6225,
+      "mean_token_accuracy": 0.8051790813619156,
+      "step": 980
+    },
+    {
+      "epoch": 2.9086200517943026,
+      "grad_norm": 0.3754301369190216,
+      "learning_rate": 5.37026104495697e-08,
+      "loss": 0.6305,
+      "mean_token_accuracy": 0.8030408479316886,
+      "step": 981
+    },
+    {
+      "epoch": 2.911579726230115,
+      "grad_norm": 0.40677276253700256,
+      "learning_rate": 5.0185053662161756e-08,
+      "loss": 0.6322,
+      "mean_token_accuracy": 0.8007158859109983,
+      "step": 982
+    },
+    {
+      "epoch": 2.9145394006659266,
+      "grad_norm": 0.3934902250766754,
+      "learning_rate": 4.678634341683252e-08,
+      "loss": 0.6222,
+      "mean_token_accuracy": 0.804753444318889,
+      "step": 983
+    },
+    {
+      "epoch": 2.917499075101739,
+      "grad_norm": 0.3706609904766083,
+      "learning_rate": 4.350652030981395e-08,
+      "loss": 0.6447,
+      "mean_token_accuracy": 0.7980685126294768,
+      "step": 984
+    },
+    {
+      "epoch": 2.920458749537551,
+      "grad_norm": 0.39183953404426575,
+      "learning_rate": 4.0345623517273894e-08,
+      "loss": 0.6267,
+      "mean_token_accuracy": 0.8036114839333938,
+      "step": 985
+    },
+    {
+      "epoch": 2.923418423973363,
+      "grad_norm": 0.3982419967651367,
+      "learning_rate": 3.7303690794854296e-08,
+      "loss": 0.7065,
+      "mean_token_accuracy": 0.7786746050545399,
+      "step": 986
+    },
+    {
+      "epoch": 2.9263780984091747,
+      "grad_norm": 0.4075382649898529,
+      "learning_rate": 3.438075847721933e-08,
+      "loss": 0.585,
+      "mean_token_accuracy": 0.8150346535603673,
+      "step": 987
+    },
+    {
+      "epoch": 2.929337772844987,
+      "grad_norm": 0.3877173662185669,
+      "learning_rate": 3.157686147762129e-08,
+      "loss": 0.6477,
+      "mean_token_accuracy": 0.7976473361920864,
+      "step": 988
+    },
+    {
+      "epoch": 2.932297447280799,
+      "grad_norm": 0.38589945435523987,
+      "learning_rate": 2.8892033287484245e-08,
+      "loss": 0.664,
+      "mean_token_accuracy": 0.79294201748894,
+      "step": 989
+    },
+    {
+      "epoch": 2.935257121716611,
+      "grad_norm": 0.38838937878608704,
+      "learning_rate": 2.6326305976001054e-08,
+      "loss": 0.6019,
+      "mean_token_accuracy": 0.8104530195130828,
+      "step": 990
+    },
+    {
+      "epoch": 2.9382167961524233,
+      "grad_norm": 0.3857711851596832,
+      "learning_rate": 2.3879710189753657e-08,
+      "loss": 0.6397,
+      "mean_token_accuracy": 0.798951730040894,
+      "step": 991
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 0.38144826889038086,
+      "learning_rate": 2.1552275152346702e-08,
+      "loss": 0.637,
+      "mean_token_accuracy": 0.8008487203446606,
+      "step": 992
+    },
+    {
+      "epoch": 2.9441361450240473,
+      "grad_norm": 0.39223143458366394,
+      "learning_rate": 1.9344028664056715e-08,
+      "loss": 0.6031,
+      "mean_token_accuracy": 0.8099199822731445,
+      "step": 993
+    },
+    {
+      "epoch": 2.9470958194598595,
+      "grad_norm": 0.40251073241233826,
+      "learning_rate": 1.7254997101500137e-08,
+      "loss": 0.62,
+      "mean_token_accuracy": 0.8063151660778272,
+      "step": 994
+    },
+    {
+      "epoch": 2.9500554938956713,
+      "grad_norm": 0.39291098713874817,
+      "learning_rate": 1.528520541731915e-08,
+      "loss": 0.6079,
+      "mean_token_accuracy": 0.8091930978495294,
+      "step": 995
+    },
+    {
+      "epoch": 2.9530151683314836,
+      "grad_norm": 0.3827592432498932,
+      "learning_rate": 1.3434677139885222e-08,
+      "loss": 0.6533,
+      "mean_token_accuracy": 0.7946187338585824,
+      "step": 996
+    },
+    {
+      "epoch": 2.9559748427672954,
+      "grad_norm": 0.37337788939476013,
+      "learning_rate": 1.170343437301491e-08,
+      "loss": 0.646,
+      "mean_token_accuracy": 0.7960541011916046,
+      "step": 997
+    },
+    {
+      "epoch": 2.9589345172031076,
+      "grad_norm": 0.39986652135849,
+      "learning_rate": 1.0091497795706728e-08,
+      "loss": 0.6393,
+      "mean_token_accuracy": 0.7991646202099173,
+      "step": 998
+    },
+    {
+      "epoch": 2.96189419163892,
+      "grad_norm": 0.3993469774723053,
+      "learning_rate": 8.59888666189579e-09,
+      "loss": 0.6753,
+      "mean_token_accuracy": 0.7898335911094181,
+      "step": 999
+    },
+    {
+      "epoch": 2.9648538660747317,
+      "grad_norm": 0.40232738852500916,
+      "learning_rate": 7.225618800222878e-09,
+      "loss": 0.6607,
+      "mean_token_accuracy": 0.7922276751171351,
+      "step": 1000
+    },
+    {
+      "epoch": 2.9648538660747317,
+      "eval_loss": 0.7369399070739746,
+      "eval_mean_token_accuracy": 0.7721513551540902,
+      "eval_runtime": 24.4981,
+      "eval_samples_per_second": 5.266,
+      "eval_steps_per_second": 1.347,
+      "step": 1000
+    },
+    {
+      "epoch": 2.967813540510544,
+      "grad_norm": 0.3906041085720062,
+      "learning_rate": 5.971710613821291e-09,
+      "loss": 0.6733,
+      "mean_token_accuracy": 0.7893573225919971,
+      "step": 1001
+    },
+    {
+      "epoch": 2.970773214946356,
+      "grad_norm": 0.39397749304771423,
+      "learning_rate": 4.837177080119215e-09,
+      "loss": 0.6217,
+      "mean_token_accuracy": 0.8034013413614648,
+      "step": 1002
+    },
+    {
+      "epoch": 2.973732889382168,
+      "grad_norm": 0.3905346691608429,
+      "learning_rate": 3.8220317506654226e-09,
+      "loss": 0.6531,
+      "mean_token_accuracy": 0.795008107180572,
+      "step": 1003
+    },
+    {
+      "epoch": 2.9766925638179798,
+      "grad_norm": 0.3973424732685089,
+      "learning_rate": 2.9262867509605164e-09,
+      "loss": 0.6395,
+      "mean_token_accuracy": 0.7991790842606037,
+      "step": 1004
+    },
+    {
+      "epoch": 2.979652238253792,
+      "grad_norm": 0.3992668092250824,
+      "learning_rate": 2.149952780321485e-09,
+      "loss": 0.6643,
+      "mean_token_accuracy": 0.7913003021486229,
+      "step": 1005
+    },
+    {
+      "epoch": 2.9826119126896042,
+      "grad_norm": 0.4035053253173828,
+      "learning_rate": 1.4930391117451427e-09,
+      "loss": 0.6354,
+      "mean_token_accuracy": 0.7998262221333795,
+      "step": 1006
+    },
+    {
+      "epoch": 2.985571587125416,
+      "grad_norm": 0.4096769690513611,
+      "learning_rate": 9.555535917993297e-10,
+      "loss": 0.6961,
+      "mean_token_accuracy": 0.7825063025724978,
+      "step": 1007
+    },
+    {
+      "epoch": 2.9885312615612283,
+      "grad_norm": 0.41353654861450195,
+      "learning_rate": 5.375026405352035e-10,
+      "loss": 0.6249,
+      "mean_token_accuracy": 0.8038925258126584,
+      "step": 1008
+    },
+    {
+      "epoch": 2.9914909359970405,
+      "grad_norm": 0.3798801898956299,
+      "learning_rate": 2.388912514017516e-10,
+      "loss": 0.6626,
+      "mean_token_accuracy": 0.793458732875717,
+      "step": 1009
+    },
+    {
+      "epoch": 2.9944506104328523,
+      "grad_norm": 0.39510512351989746,
+      "learning_rate": 5.972299119250124e-11,
+      "loss": 0.5891,
+      "mean_token_accuracy": 0.8136845518054924,
+      "step": 1010
+    },
+    {
+      "epoch": 2.9974102848686646,
+      "grad_norm": 0.40476804971694946,
+      "learning_rate": 0.0,
+      "loss": 0.6628,
+      "mean_token_accuracy": 0.7925300203396853,
+      "step": 1011
+    },
+    {
+      "epoch": 2.9974102848686646,
+      "step": 1011,
+      "total_flos": 230593791000576.0,
+      "train_loss": 0.7078155129410982,
+      "train_runtime": 41256.6124,
+      "train_samples_per_second": 1.572,
+      "train_steps_per_second": 0.025
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1011,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 230593791000576.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}