{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.3333333333333333, "eval_steps": 500, "global_step": 1000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0003333333333333333, "grad_norm": 3.953395366668701, "learning_rate": 1.6666666666666668e-07, "loss": 0.9747, "step": 1 }, { "epoch": 0.0006666666666666666, "grad_norm": 3.7105355262756348, "learning_rate": 3.3333333333333335e-07, "loss": 0.8304, "step": 2 }, { "epoch": 0.001, "grad_norm": 6.670517444610596, "learning_rate": 5.000000000000001e-07, "loss": 0.9317, "step": 3 }, { "epoch": 0.0013333333333333333, "grad_norm": 4.584139347076416, "learning_rate": 6.666666666666667e-07, "loss": 0.9126, "step": 4 }, { "epoch": 0.0016666666666666668, "grad_norm": 3.9163777828216553, "learning_rate": 8.333333333333333e-07, "loss": 0.8644, "step": 5 }, { "epoch": 0.002, "grad_norm": 3.7514755725860596, "learning_rate": 1.0000000000000002e-06, "loss": 0.8892, "step": 6 }, { "epoch": 0.0023333333333333335, "grad_norm": 3.733147621154785, "learning_rate": 1.1666666666666668e-06, "loss": 0.8965, "step": 7 }, { "epoch": 0.0026666666666666666, "grad_norm": 3.3413407802581787, "learning_rate": 1.3333333333333334e-06, "loss": 0.7998, "step": 8 }, { "epoch": 0.003, "grad_norm": 2.669220447540283, "learning_rate": 1.5e-06, "loss": 0.7651, "step": 9 }, { "epoch": 0.0033333333333333335, "grad_norm": 2.563971757888794, "learning_rate": 1.6666666666666667e-06, "loss": 0.7428, "step": 10 }, { "epoch": 0.0036666666666666666, "grad_norm": 3.6352648735046387, "learning_rate": 1.8333333333333335e-06, "loss": 0.7849, "step": 11 }, { "epoch": 0.004, "grad_norm": 2.3276443481445312, "learning_rate": 2.0000000000000003e-06, "loss": 0.6952, "step": 12 }, { "epoch": 0.004333333333333333, "grad_norm": 2.1801578998565674, "learning_rate": 2.166666666666667e-06, "loss": 0.73, "step": 13 }, { "epoch": 0.004666666666666667, "grad_norm": 2.4430813789367676, "learning_rate": 2.3333333333333336e-06, "loss": 0.7127, "step": 14 }, { "epoch": 0.005, "grad_norm": 2.101902961730957, "learning_rate": 2.5e-06, "loss": 0.7021, "step": 15 }, { "epoch": 0.005333333333333333, "grad_norm": 1.8234139680862427, "learning_rate": 2.666666666666667e-06, "loss": 0.6086, "step": 16 }, { "epoch": 0.005666666666666667, "grad_norm": 1.7481471300125122, "learning_rate": 2.8333333333333335e-06, "loss": 0.565, "step": 17 }, { "epoch": 0.006, "grad_norm": 1.9656072854995728, "learning_rate": 3e-06, "loss": 0.6514, "step": 18 }, { "epoch": 0.006333333333333333, "grad_norm": 2.0986952781677246, "learning_rate": 3.166666666666667e-06, "loss": 0.6746, "step": 19 }, { "epoch": 0.006666666666666667, "grad_norm": 2.565603017807007, "learning_rate": 3.3333333333333333e-06, "loss": 0.6086, "step": 20 }, { "epoch": 0.007, "grad_norm": 1.5754969120025635, "learning_rate": 3.5000000000000004e-06, "loss": 0.4919, "step": 21 }, { "epoch": 0.007333333333333333, "grad_norm": 1.8095873594284058, "learning_rate": 3.666666666666667e-06, "loss": 0.5612, "step": 22 }, { "epoch": 0.007666666666666666, "grad_norm": 1.721886396408081, "learning_rate": 3.833333333333334e-06, "loss": 0.5356, "step": 23 }, { "epoch": 0.008, "grad_norm": 2.14868426322937, "learning_rate": 4.000000000000001e-06, "loss": 0.5967, "step": 24 }, { "epoch": 0.008333333333333333, "grad_norm": 1.7181668281555176, "learning_rate": 4.166666666666667e-06, "loss": 0.5642, "step": 25 }, { "epoch": 0.008666666666666666, "grad_norm": 1.891082525253296, "learning_rate": 4.333333333333334e-06, "loss": 0.5229, "step": 26 }, { "epoch": 0.009, "grad_norm": 1.5455230474472046, "learning_rate": 4.5e-06, "loss": 0.5411, "step": 27 }, { "epoch": 0.009333333333333334, "grad_norm": 3.7377946376800537, "learning_rate": 4.666666666666667e-06, "loss": 0.5927, "step": 28 }, { "epoch": 0.009666666666666667, "grad_norm": 2.113539218902588, "learning_rate": 4.833333333333333e-06, "loss": 0.4808, "step": 29 }, { "epoch": 0.01, "grad_norm": 1.7574840784072876, "learning_rate": 5e-06, "loss": 0.5038, "step": 30 }, { "epoch": 0.010333333333333333, "grad_norm": 1.6850998401641846, "learning_rate": 5.166666666666667e-06, "loss": 0.457, "step": 31 }, { "epoch": 0.010666666666666666, "grad_norm": 2.484438180923462, "learning_rate": 5.333333333333334e-06, "loss": 0.4746, "step": 32 }, { "epoch": 0.011, "grad_norm": 1.663460373878479, "learning_rate": 5.500000000000001e-06, "loss": 0.4883, "step": 33 }, { "epoch": 0.011333333333333334, "grad_norm": 1.6798481941223145, "learning_rate": 5.666666666666667e-06, "loss": 0.4467, "step": 34 }, { "epoch": 0.011666666666666667, "grad_norm": 1.7533687353134155, "learning_rate": 5.833333333333334e-06, "loss": 0.4775, "step": 35 }, { "epoch": 0.012, "grad_norm": 1.9110267162322998, "learning_rate": 6e-06, "loss": 0.4316, "step": 36 }, { "epoch": 0.012333333333333333, "grad_norm": 1.731864333152771, "learning_rate": 6.166666666666667e-06, "loss": 0.4988, "step": 37 }, { "epoch": 0.012666666666666666, "grad_norm": 1.82390558719635, "learning_rate": 6.333333333333334e-06, "loss": 0.466, "step": 38 }, { "epoch": 0.013, "grad_norm": 1.8916178941726685, "learning_rate": 6.5000000000000004e-06, "loss": 0.4821, "step": 39 }, { "epoch": 0.013333333333333334, "grad_norm": 1.750315546989441, "learning_rate": 6.666666666666667e-06, "loss": 0.444, "step": 40 }, { "epoch": 0.013666666666666667, "grad_norm": 1.6363168954849243, "learning_rate": 6.833333333333333e-06, "loss": 0.372, "step": 41 }, { "epoch": 0.014, "grad_norm": 1.7785207033157349, "learning_rate": 7.000000000000001e-06, "loss": 0.3779, "step": 42 }, { "epoch": 0.014333333333333333, "grad_norm": 1.7099310159683228, "learning_rate": 7.166666666666667e-06, "loss": 0.4722, "step": 43 }, { "epoch": 0.014666666666666666, "grad_norm": 1.3298712968826294, "learning_rate": 7.333333333333334e-06, "loss": 0.3492, "step": 44 }, { "epoch": 0.015, "grad_norm": 1.817345142364502, "learning_rate": 7.5e-06, "loss": 0.4189, "step": 45 }, { "epoch": 0.015333333333333332, "grad_norm": 1.3972567319869995, "learning_rate": 7.666666666666667e-06, "loss": 0.3355, "step": 46 }, { "epoch": 0.015666666666666666, "grad_norm": 1.35780668258667, "learning_rate": 7.833333333333333e-06, "loss": 0.3737, "step": 47 }, { "epoch": 0.016, "grad_norm": 1.6960091590881348, "learning_rate": 8.000000000000001e-06, "loss": 0.4332, "step": 48 }, { "epoch": 0.01633333333333333, "grad_norm": 1.568686842918396, "learning_rate": 8.166666666666668e-06, "loss": 0.3888, "step": 49 }, { "epoch": 0.016666666666666666, "grad_norm": 1.4132697582244873, "learning_rate": 8.333333333333334e-06, "loss": 0.3322, "step": 50 }, { "epoch": 0.017, "grad_norm": 1.659246802330017, "learning_rate": 8.500000000000002e-06, "loss": 0.4567, "step": 51 }, { "epoch": 0.017333333333333333, "grad_norm": 1.9844367504119873, "learning_rate": 8.666666666666668e-06, "loss": 0.3974, "step": 52 }, { "epoch": 0.017666666666666667, "grad_norm": 1.6027755737304688, "learning_rate": 8.833333333333334e-06, "loss": 0.3917, "step": 53 }, { "epoch": 0.018, "grad_norm": 1.453019618988037, "learning_rate": 9e-06, "loss": 0.3336, "step": 54 }, { "epoch": 0.018333333333333333, "grad_norm": 1.4241881370544434, "learning_rate": 9.166666666666666e-06, "loss": 0.3451, "step": 55 }, { "epoch": 0.018666666666666668, "grad_norm": 1.5545347929000854, "learning_rate": 9.333333333333334e-06, "loss": 0.3593, "step": 56 }, { "epoch": 0.019, "grad_norm": 1.2675824165344238, "learning_rate": 9.5e-06, "loss": 0.3397, "step": 57 }, { "epoch": 0.019333333333333334, "grad_norm": 1.5485769510269165, "learning_rate": 9.666666666666667e-06, "loss": 0.3582, "step": 58 }, { "epoch": 0.019666666666666666, "grad_norm": 1.6267204284667969, "learning_rate": 9.833333333333333e-06, "loss": 0.3371, "step": 59 }, { "epoch": 0.02, "grad_norm": 1.4819341897964478, "learning_rate": 1e-05, "loss": 0.3979, "step": 60 }, { "epoch": 0.02033333333333333, "grad_norm": 1.523547887802124, "learning_rate": 1.0166666666666667e-05, "loss": 0.39, "step": 61 }, { "epoch": 0.020666666666666667, "grad_norm": 1.4726427793502808, "learning_rate": 1.0333333333333333e-05, "loss": 0.356, "step": 62 }, { "epoch": 0.021, "grad_norm": 1.332187533378601, "learning_rate": 1.05e-05, "loss": 0.3099, "step": 63 }, { "epoch": 0.021333333333333333, "grad_norm": 1.4094098806381226, "learning_rate": 1.0666666666666667e-05, "loss": 0.3192, "step": 64 }, { "epoch": 0.021666666666666667, "grad_norm": 1.6353566646575928, "learning_rate": 1.0833333333333334e-05, "loss": 0.3261, "step": 65 }, { "epoch": 0.022, "grad_norm": 1.5030579566955566, "learning_rate": 1.1000000000000001e-05, "loss": 0.3929, "step": 66 }, { "epoch": 0.022333333333333334, "grad_norm": 2.1083621978759766, "learning_rate": 1.1166666666666668e-05, "loss": 0.461, "step": 67 }, { "epoch": 0.02266666666666667, "grad_norm": 1.6705724000930786, "learning_rate": 1.1333333333333334e-05, "loss": 0.3947, "step": 68 }, { "epoch": 0.023, "grad_norm": 1.413004994392395, "learning_rate": 1.1500000000000002e-05, "loss": 0.3224, "step": 69 }, { "epoch": 0.023333333333333334, "grad_norm": 1.6950210332870483, "learning_rate": 1.1666666666666668e-05, "loss": 0.3763, "step": 70 }, { "epoch": 0.023666666666666666, "grad_norm": 1.4866547584533691, "learning_rate": 1.1833333333333334e-05, "loss": 0.3239, "step": 71 }, { "epoch": 0.024, "grad_norm": 1.546217441558838, "learning_rate": 1.2e-05, "loss": 0.3684, "step": 72 }, { "epoch": 0.024333333333333332, "grad_norm": 1.6388611793518066, "learning_rate": 1.2166666666666668e-05, "loss": 0.342, "step": 73 }, { "epoch": 0.024666666666666667, "grad_norm": 1.426133155822754, "learning_rate": 1.2333333333333334e-05, "loss": 0.2835, "step": 74 }, { "epoch": 0.025, "grad_norm": 1.5605098009109497, "learning_rate": 1.25e-05, "loss": 0.3053, "step": 75 }, { "epoch": 0.025333333333333333, "grad_norm": 2.0954012870788574, "learning_rate": 1.2666666666666668e-05, "loss": 0.3634, "step": 76 }, { "epoch": 0.025666666666666667, "grad_norm": 1.7222869396209717, "learning_rate": 1.2833333333333333e-05, "loss": 0.4678, "step": 77 }, { "epoch": 0.026, "grad_norm": 2.151477813720703, "learning_rate": 1.3000000000000001e-05, "loss": 0.3732, "step": 78 }, { "epoch": 0.026333333333333334, "grad_norm": 1.4184696674346924, "learning_rate": 1.3166666666666665e-05, "loss": 0.3863, "step": 79 }, { "epoch": 0.02666666666666667, "grad_norm": 1.5404107570648193, "learning_rate": 1.3333333333333333e-05, "loss": 0.3362, "step": 80 }, { "epoch": 0.027, "grad_norm": 1.4057250022888184, "learning_rate": 1.3500000000000001e-05, "loss": 0.3278, "step": 81 }, { "epoch": 0.027333333333333334, "grad_norm": 1.4827985763549805, "learning_rate": 1.3666666666666666e-05, "loss": 0.3566, "step": 82 }, { "epoch": 0.027666666666666666, "grad_norm": 1.567644476890564, "learning_rate": 1.3833333333333334e-05, "loss": 0.3622, "step": 83 }, { "epoch": 0.028, "grad_norm": 1.6166788339614868, "learning_rate": 1.4000000000000001e-05, "loss": 0.3744, "step": 84 }, { "epoch": 0.028333333333333332, "grad_norm": 1.5404103994369507, "learning_rate": 1.4166666666666668e-05, "loss": 0.3182, "step": 85 }, { "epoch": 0.028666666666666667, "grad_norm": 1.6452393531799316, "learning_rate": 1.4333333333333334e-05, "loss": 0.3414, "step": 86 }, { "epoch": 0.029, "grad_norm": 1.4937787055969238, "learning_rate": 1.45e-05, "loss": 0.3932, "step": 87 }, { "epoch": 0.029333333333333333, "grad_norm": 1.7709240913391113, "learning_rate": 1.4666666666666668e-05, "loss": 0.4493, "step": 88 }, { "epoch": 0.029666666666666668, "grad_norm": 1.826235055923462, "learning_rate": 1.4833333333333336e-05, "loss": 0.4358, "step": 89 }, { "epoch": 0.03, "grad_norm": 1.2349361181259155, "learning_rate": 1.5e-05, "loss": 0.3008, "step": 90 }, { "epoch": 0.030333333333333334, "grad_norm": 1.6294262409210205, "learning_rate": 1.5166666666666668e-05, "loss": 0.3861, "step": 91 }, { "epoch": 0.030666666666666665, "grad_norm": 1.4110265970230103, "learning_rate": 1.5333333333333334e-05, "loss": 0.3231, "step": 92 }, { "epoch": 0.031, "grad_norm": 1.3174939155578613, "learning_rate": 1.55e-05, "loss": 0.3513, "step": 93 }, { "epoch": 0.03133333333333333, "grad_norm": 1.34541916847229, "learning_rate": 1.5666666666666667e-05, "loss": 0.2929, "step": 94 }, { "epoch": 0.03166666666666667, "grad_norm": 1.528634786605835, "learning_rate": 1.5833333333333333e-05, "loss": 0.3563, "step": 95 }, { "epoch": 0.032, "grad_norm": 1.9558664560317993, "learning_rate": 1.6000000000000003e-05, "loss": 0.4464, "step": 96 }, { "epoch": 0.03233333333333333, "grad_norm": 1.5986521244049072, "learning_rate": 1.6166666666666665e-05, "loss": 0.3489, "step": 97 }, { "epoch": 0.03266666666666666, "grad_norm": 1.6344914436340332, "learning_rate": 1.6333333333333335e-05, "loss": 0.3991, "step": 98 }, { "epoch": 0.033, "grad_norm": 1.7303506135940552, "learning_rate": 1.65e-05, "loss": 0.4274, "step": 99 }, { "epoch": 0.03333333333333333, "grad_norm": 1.5459728240966797, "learning_rate": 1.6666666666666667e-05, "loss": 0.3306, "step": 100 }, { "epoch": 0.033666666666666664, "grad_norm": 1.6818580627441406, "learning_rate": 1.6833333333333334e-05, "loss": 0.3574, "step": 101 }, { "epoch": 0.034, "grad_norm": 1.5971468687057495, "learning_rate": 1.7000000000000003e-05, "loss": 0.3785, "step": 102 }, { "epoch": 0.034333333333333334, "grad_norm": 1.766853928565979, "learning_rate": 1.7166666666666666e-05, "loss": 0.353, "step": 103 }, { "epoch": 0.034666666666666665, "grad_norm": 1.368243932723999, "learning_rate": 1.7333333333333336e-05, "loss": 0.3294, "step": 104 }, { "epoch": 0.035, "grad_norm": 1.3657722473144531, "learning_rate": 1.75e-05, "loss": 0.2953, "step": 105 }, { "epoch": 0.035333333333333335, "grad_norm": 1.5740365982055664, "learning_rate": 1.7666666666666668e-05, "loss": 0.3543, "step": 106 }, { "epoch": 0.035666666666666666, "grad_norm": 1.4357829093933105, "learning_rate": 1.7833333333333334e-05, "loss": 0.3239, "step": 107 }, { "epoch": 0.036, "grad_norm": 1.8812717199325562, "learning_rate": 1.8e-05, "loss": 0.4263, "step": 108 }, { "epoch": 0.036333333333333336, "grad_norm": 1.4755126237869263, "learning_rate": 1.8166666666666667e-05, "loss": 0.3344, "step": 109 }, { "epoch": 0.03666666666666667, "grad_norm": 1.595537543296814, "learning_rate": 1.8333333333333333e-05, "loss": 0.3897, "step": 110 }, { "epoch": 0.037, "grad_norm": 1.5346170663833618, "learning_rate": 1.85e-05, "loss": 0.3256, "step": 111 }, { "epoch": 0.037333333333333336, "grad_norm": 1.4340442419052124, "learning_rate": 1.866666666666667e-05, "loss": 0.3085, "step": 112 }, { "epoch": 0.03766666666666667, "grad_norm": 1.5140653848648071, "learning_rate": 1.8833333333333335e-05, "loss": 0.331, "step": 113 }, { "epoch": 0.038, "grad_norm": 1.4573544263839722, "learning_rate": 1.9e-05, "loss": 0.3259, "step": 114 }, { "epoch": 0.03833333333333333, "grad_norm": 1.2812256813049316, "learning_rate": 1.9166666666666667e-05, "loss": 0.3135, "step": 115 }, { "epoch": 0.03866666666666667, "grad_norm": 1.53571617603302, "learning_rate": 1.9333333333333333e-05, "loss": 0.3623, "step": 116 }, { "epoch": 0.039, "grad_norm": 1.4054882526397705, "learning_rate": 1.9500000000000003e-05, "loss": 0.3083, "step": 117 }, { "epoch": 0.03933333333333333, "grad_norm": 1.5709601640701294, "learning_rate": 1.9666666666666666e-05, "loss": 0.3591, "step": 118 }, { "epoch": 0.03966666666666667, "grad_norm": 1.4430993795394897, "learning_rate": 1.9833333333333335e-05, "loss": 0.3235, "step": 119 }, { "epoch": 0.04, "grad_norm": 1.2675756216049194, "learning_rate": 2e-05, "loss": 0.3231, "step": 120 }, { "epoch": 0.04033333333333333, "grad_norm": 1.6907734870910645, "learning_rate": 2.0166666666666668e-05, "loss": 0.3788, "step": 121 }, { "epoch": 0.04066666666666666, "grad_norm": 1.5159516334533691, "learning_rate": 2.0333333333333334e-05, "loss": 0.3519, "step": 122 }, { "epoch": 0.041, "grad_norm": 1.7196882963180542, "learning_rate": 2.05e-05, "loss": 0.3817, "step": 123 }, { "epoch": 0.04133333333333333, "grad_norm": 1.728525996208191, "learning_rate": 2.0666666666666666e-05, "loss": 0.3381, "step": 124 }, { "epoch": 0.041666666666666664, "grad_norm": 1.74927818775177, "learning_rate": 2.0833333333333336e-05, "loss": 0.4133, "step": 125 }, { "epoch": 0.042, "grad_norm": 2.214763641357422, "learning_rate": 2.1e-05, "loss": 0.475, "step": 126 }, { "epoch": 0.042333333333333334, "grad_norm": 1.4449557065963745, "learning_rate": 2.116666666666667e-05, "loss": 0.3355, "step": 127 }, { "epoch": 0.042666666666666665, "grad_norm": 1.3350657224655151, "learning_rate": 2.1333333333333335e-05, "loss": 0.2971, "step": 128 }, { "epoch": 0.043, "grad_norm": 1.3243197202682495, "learning_rate": 2.15e-05, "loss": 0.2936, "step": 129 }, { "epoch": 0.043333333333333335, "grad_norm": 1.6345150470733643, "learning_rate": 2.1666666666666667e-05, "loss": 0.3521, "step": 130 }, { "epoch": 0.043666666666666666, "grad_norm": 2.0870022773742676, "learning_rate": 2.1833333333333333e-05, "loss": 0.4417, "step": 131 }, { "epoch": 0.044, "grad_norm": 1.5308624505996704, "learning_rate": 2.2000000000000003e-05, "loss": 0.3224, "step": 132 }, { "epoch": 0.044333333333333336, "grad_norm": 1.4620624780654907, "learning_rate": 2.216666666666667e-05, "loss": 0.3224, "step": 133 }, { "epoch": 0.04466666666666667, "grad_norm": 1.4036201238632202, "learning_rate": 2.2333333333333335e-05, "loss": 0.3004, "step": 134 }, { "epoch": 0.045, "grad_norm": 1.735681176185608, "learning_rate": 2.25e-05, "loss": 0.3303, "step": 135 }, { "epoch": 0.04533333333333334, "grad_norm": 1.4971989393234253, "learning_rate": 2.2666666666666668e-05, "loss": 0.3153, "step": 136 }, { "epoch": 0.04566666666666667, "grad_norm": 3.4707398414611816, "learning_rate": 2.2833333333333334e-05, "loss": 0.4312, "step": 137 }, { "epoch": 0.046, "grad_norm": 1.7263460159301758, "learning_rate": 2.3000000000000003e-05, "loss": 0.3923, "step": 138 }, { "epoch": 0.04633333333333333, "grad_norm": 1.3158482313156128, "learning_rate": 2.3166666666666666e-05, "loss": 0.3108, "step": 139 }, { "epoch": 0.04666666666666667, "grad_norm": 1.5561543703079224, "learning_rate": 2.3333333333333336e-05, "loss": 0.3619, "step": 140 }, { "epoch": 0.047, "grad_norm": 1.5590838193893433, "learning_rate": 2.35e-05, "loss": 0.3413, "step": 141 }, { "epoch": 0.04733333333333333, "grad_norm": 1.9386111497879028, "learning_rate": 2.3666666666666668e-05, "loss": 0.4538, "step": 142 }, { "epoch": 0.04766666666666667, "grad_norm": 1.4611613750457764, "learning_rate": 2.3833333333333334e-05, "loss": 0.3328, "step": 143 }, { "epoch": 0.048, "grad_norm": 1.4083524942398071, "learning_rate": 2.4e-05, "loss": 0.3683, "step": 144 }, { "epoch": 0.04833333333333333, "grad_norm": 4.442422866821289, "learning_rate": 2.4166666666666667e-05, "loss": 0.342, "step": 145 }, { "epoch": 0.048666666666666664, "grad_norm": 1.897199273109436, "learning_rate": 2.4333333333333336e-05, "loss": 0.3359, "step": 146 }, { "epoch": 0.049, "grad_norm": 1.455759882926941, "learning_rate": 2.45e-05, "loss": 0.3557, "step": 147 }, { "epoch": 0.04933333333333333, "grad_norm": 1.732920527458191, "learning_rate": 2.466666666666667e-05, "loss": 0.3624, "step": 148 }, { "epoch": 0.049666666666666665, "grad_norm": 1.6186577081680298, "learning_rate": 2.4833333333333335e-05, "loss": 0.4221, "step": 149 }, { "epoch": 0.05, "grad_norm": 2.151060104370117, "learning_rate": 2.5e-05, "loss": 0.4304, "step": 150 }, { "epoch": 0.050333333333333334, "grad_norm": 1.517791748046875, "learning_rate": 2.5166666666666667e-05, "loss": 0.3217, "step": 151 }, { "epoch": 0.050666666666666665, "grad_norm": 1.5455111265182495, "learning_rate": 2.5333333333333337e-05, "loss": 0.3484, "step": 152 }, { "epoch": 0.051, "grad_norm": 1.3353674411773682, "learning_rate": 2.5500000000000003e-05, "loss": 0.286, "step": 153 }, { "epoch": 0.051333333333333335, "grad_norm": 1.4271986484527588, "learning_rate": 2.5666666666666666e-05, "loss": 0.353, "step": 154 }, { "epoch": 0.051666666666666666, "grad_norm": 1.733125925064087, "learning_rate": 2.5833333333333336e-05, "loss": 0.3943, "step": 155 }, { "epoch": 0.052, "grad_norm": 6.120161533355713, "learning_rate": 2.6000000000000002e-05, "loss": 0.3833, "step": 156 }, { "epoch": 0.052333333333333336, "grad_norm": 1.6967121362686157, "learning_rate": 2.6166666666666668e-05, "loss": 0.3778, "step": 157 }, { "epoch": 0.05266666666666667, "grad_norm": 1.9036916494369507, "learning_rate": 2.633333333333333e-05, "loss": 0.2843, "step": 158 }, { "epoch": 0.053, "grad_norm": 1.7140095233917236, "learning_rate": 2.6500000000000004e-05, "loss": 0.3918, "step": 159 }, { "epoch": 0.05333333333333334, "grad_norm": 1.3422181606292725, "learning_rate": 2.6666666666666667e-05, "loss": 0.3402, "step": 160 }, { "epoch": 0.05366666666666667, "grad_norm": 1.3878352642059326, "learning_rate": 2.6833333333333333e-05, "loss": 0.3169, "step": 161 }, { "epoch": 0.054, "grad_norm": 1.446089744567871, "learning_rate": 2.7000000000000002e-05, "loss": 0.3438, "step": 162 }, { "epoch": 0.05433333333333333, "grad_norm": 1.2851896286010742, "learning_rate": 2.716666666666667e-05, "loss": 0.2795, "step": 163 }, { "epoch": 0.05466666666666667, "grad_norm": 1.4944298267364502, "learning_rate": 2.733333333333333e-05, "loss": 0.3463, "step": 164 }, { "epoch": 0.055, "grad_norm": 1.5940018892288208, "learning_rate": 2.7500000000000004e-05, "loss": 0.3653, "step": 165 }, { "epoch": 0.05533333333333333, "grad_norm": 1.2155016660690308, "learning_rate": 2.7666666666666667e-05, "loss": 0.3007, "step": 166 }, { "epoch": 0.05566666666666667, "grad_norm": 1.7410703897476196, "learning_rate": 2.7833333333333333e-05, "loss": 0.3656, "step": 167 }, { "epoch": 0.056, "grad_norm": 1.5186805725097656, "learning_rate": 2.8000000000000003e-05, "loss": 0.3309, "step": 168 }, { "epoch": 0.05633333333333333, "grad_norm": 1.3507519960403442, "learning_rate": 2.816666666666667e-05, "loss": 0.3209, "step": 169 }, { "epoch": 0.056666666666666664, "grad_norm": 1.378380298614502, "learning_rate": 2.8333333333333335e-05, "loss": 0.3257, "step": 170 }, { "epoch": 0.057, "grad_norm": 1.413633108139038, "learning_rate": 2.8499999999999998e-05, "loss": 0.3067, "step": 171 }, { "epoch": 0.05733333333333333, "grad_norm": 1.3859586715698242, "learning_rate": 2.8666666666666668e-05, "loss": 0.3464, "step": 172 }, { "epoch": 0.057666666666666665, "grad_norm": 1.281520128250122, "learning_rate": 2.8833333333333334e-05, "loss": 0.3538, "step": 173 }, { "epoch": 0.058, "grad_norm": 1.6939369440078735, "learning_rate": 2.9e-05, "loss": 0.4368, "step": 174 }, { "epoch": 0.058333333333333334, "grad_norm": 1.7700634002685547, "learning_rate": 2.916666666666667e-05, "loss": 0.33, "step": 175 }, { "epoch": 0.058666666666666666, "grad_norm": 1.4249154329299927, "learning_rate": 2.9333333333333336e-05, "loss": 0.3226, "step": 176 }, { "epoch": 0.059, "grad_norm": 1.3474069833755493, "learning_rate": 2.95e-05, "loss": 0.2756, "step": 177 }, { "epoch": 0.059333333333333335, "grad_norm": 1.2740994691848755, "learning_rate": 2.9666666666666672e-05, "loss": 0.266, "step": 178 }, { "epoch": 0.059666666666666666, "grad_norm": 1.8142409324645996, "learning_rate": 2.9833333333333335e-05, "loss": 0.3101, "step": 179 }, { "epoch": 0.06, "grad_norm": 1.4520740509033203, "learning_rate": 3e-05, "loss": 0.3521, "step": 180 }, { "epoch": 0.060333333333333336, "grad_norm": 1.609920859336853, "learning_rate": 3.016666666666667e-05, "loss": 0.3578, "step": 181 }, { "epoch": 0.06066666666666667, "grad_norm": 1.3788601160049438, "learning_rate": 3.0333333333333337e-05, "loss": 0.3204, "step": 182 }, { "epoch": 0.061, "grad_norm": 1.3609263896942139, "learning_rate": 3.05e-05, "loss": 0.3246, "step": 183 }, { "epoch": 0.06133333333333333, "grad_norm": 1.382299780845642, "learning_rate": 3.066666666666667e-05, "loss": 0.3385, "step": 184 }, { "epoch": 0.06166666666666667, "grad_norm": 1.9848756790161133, "learning_rate": 3.0833333333333335e-05, "loss": 0.3731, "step": 185 }, { "epoch": 0.062, "grad_norm": 1.4903755187988281, "learning_rate": 3.1e-05, "loss": 0.3489, "step": 186 }, { "epoch": 0.06233333333333333, "grad_norm": 1.3801896572113037, "learning_rate": 3.116666666666667e-05, "loss": 0.3621, "step": 187 }, { "epoch": 0.06266666666666666, "grad_norm": 1.6879767179489136, "learning_rate": 3.1333333333333334e-05, "loss": 0.451, "step": 188 }, { "epoch": 0.063, "grad_norm": 1.4495042562484741, "learning_rate": 3.15e-05, "loss": 0.2778, "step": 189 }, { "epoch": 0.06333333333333334, "grad_norm": 1.290792465209961, "learning_rate": 3.1666666666666666e-05, "loss": 0.2716, "step": 190 }, { "epoch": 0.06366666666666666, "grad_norm": 1.9189130067825317, "learning_rate": 3.183333333333334e-05, "loss": 0.4117, "step": 191 }, { "epoch": 0.064, "grad_norm": 1.5139693021774292, "learning_rate": 3.2000000000000005e-05, "loss": 0.3266, "step": 192 }, { "epoch": 0.06433333333333334, "grad_norm": 1.7017555236816406, "learning_rate": 3.2166666666666665e-05, "loss": 0.3157, "step": 193 }, { "epoch": 0.06466666666666666, "grad_norm": 1.440495252609253, "learning_rate": 3.233333333333333e-05, "loss": 0.3303, "step": 194 }, { "epoch": 0.065, "grad_norm": 1.4504367113113403, "learning_rate": 3.2500000000000004e-05, "loss": 0.2769, "step": 195 }, { "epoch": 0.06533333333333333, "grad_norm": 1.375322937965393, "learning_rate": 3.266666666666667e-05, "loss": 0.3783, "step": 196 }, { "epoch": 0.06566666666666666, "grad_norm": 1.6191874742507935, "learning_rate": 3.283333333333333e-05, "loss": 0.3312, "step": 197 }, { "epoch": 0.066, "grad_norm": 1.266046166419983, "learning_rate": 3.3e-05, "loss": 0.3533, "step": 198 }, { "epoch": 0.06633333333333333, "grad_norm": 2.0328266620635986, "learning_rate": 3.316666666666667e-05, "loss": 0.4017, "step": 199 }, { "epoch": 0.06666666666666667, "grad_norm": 1.5838234424591064, "learning_rate": 3.3333333333333335e-05, "loss": 0.4061, "step": 200 }, { "epoch": 0.067, "grad_norm": 1.679366946220398, "learning_rate": 3.35e-05, "loss": 0.4266, "step": 201 }, { "epoch": 0.06733333333333333, "grad_norm": 1.5685397386550903, "learning_rate": 3.366666666666667e-05, "loss": 0.4183, "step": 202 }, { "epoch": 0.06766666666666667, "grad_norm": 1.776902198791504, "learning_rate": 3.3833333333333334e-05, "loss": 0.3168, "step": 203 }, { "epoch": 0.068, "grad_norm": 1.7474539279937744, "learning_rate": 3.4000000000000007e-05, "loss": 0.3145, "step": 204 }, { "epoch": 0.06833333333333333, "grad_norm": 1.4013917446136475, "learning_rate": 3.4166666666666666e-05, "loss": 0.3322, "step": 205 }, { "epoch": 0.06866666666666667, "grad_norm": 1.459243655204773, "learning_rate": 3.433333333333333e-05, "loss": 0.3273, "step": 206 }, { "epoch": 0.069, "grad_norm": 1.4038946628570557, "learning_rate": 3.45e-05, "loss": 0.3238, "step": 207 }, { "epoch": 0.06933333333333333, "grad_norm": 1.5630148649215698, "learning_rate": 3.466666666666667e-05, "loss": 0.3368, "step": 208 }, { "epoch": 0.06966666666666667, "grad_norm": 1.4870696067810059, "learning_rate": 3.483333333333334e-05, "loss": 0.377, "step": 209 }, { "epoch": 0.07, "grad_norm": 1.5031110048294067, "learning_rate": 3.5e-05, "loss": 0.3609, "step": 210 }, { "epoch": 0.07033333333333333, "grad_norm": 1.6764661073684692, "learning_rate": 3.516666666666667e-05, "loss": 0.3562, "step": 211 }, { "epoch": 0.07066666666666667, "grad_norm": 1.6077598333358765, "learning_rate": 3.5333333333333336e-05, "loss": 0.3924, "step": 212 }, { "epoch": 0.071, "grad_norm": 1.7674628496170044, "learning_rate": 3.55e-05, "loss": 0.3631, "step": 213 }, { "epoch": 0.07133333333333333, "grad_norm": 1.62470543384552, "learning_rate": 3.566666666666667e-05, "loss": 0.3619, "step": 214 }, { "epoch": 0.07166666666666667, "grad_norm": 1.4642609357833862, "learning_rate": 3.5833333333333335e-05, "loss": 0.3153, "step": 215 }, { "epoch": 0.072, "grad_norm": 1.5644686222076416, "learning_rate": 3.6e-05, "loss": 0.3619, "step": 216 }, { "epoch": 0.07233333333333333, "grad_norm": 1.49044668674469, "learning_rate": 3.6166666666666674e-05, "loss": 0.3836, "step": 217 }, { "epoch": 0.07266666666666667, "grad_norm": 1.7291405200958252, "learning_rate": 3.633333333333333e-05, "loss": 0.4209, "step": 218 }, { "epoch": 0.073, "grad_norm": 1.5071781873703003, "learning_rate": 3.65e-05, "loss": 0.3236, "step": 219 }, { "epoch": 0.07333333333333333, "grad_norm": 2.787971258163452, "learning_rate": 3.6666666666666666e-05, "loss": 0.4086, "step": 220 }, { "epoch": 0.07366666666666667, "grad_norm": 1.4977898597717285, "learning_rate": 3.683333333333334e-05, "loss": 0.3655, "step": 221 }, { "epoch": 0.074, "grad_norm": 1.4775617122650146, "learning_rate": 3.7e-05, "loss": 0.3571, "step": 222 }, { "epoch": 0.07433333333333333, "grad_norm": 1.4579126834869385, "learning_rate": 3.7166666666666664e-05, "loss": 0.3274, "step": 223 }, { "epoch": 0.07466666666666667, "grad_norm": 1.5384258031845093, "learning_rate": 3.733333333333334e-05, "loss": 0.3591, "step": 224 }, { "epoch": 0.075, "grad_norm": 1.308038353919983, "learning_rate": 3.7500000000000003e-05, "loss": 0.279, "step": 225 }, { "epoch": 0.07533333333333334, "grad_norm": 1.5637880563735962, "learning_rate": 3.766666666666667e-05, "loss": 0.2898, "step": 226 }, { "epoch": 0.07566666666666666, "grad_norm": 1.479993462562561, "learning_rate": 3.7833333333333336e-05, "loss": 0.3416, "step": 227 }, { "epoch": 0.076, "grad_norm": 1.6080683469772339, "learning_rate": 3.8e-05, "loss": 0.3692, "step": 228 }, { "epoch": 0.07633333333333334, "grad_norm": 3.331662178039551, "learning_rate": 3.816666666666667e-05, "loss": 0.3672, "step": 229 }, { "epoch": 0.07666666666666666, "grad_norm": 2.0933995246887207, "learning_rate": 3.8333333333333334e-05, "loss": 0.3193, "step": 230 }, { "epoch": 0.077, "grad_norm": 1.4656376838684082, "learning_rate": 3.85e-05, "loss": 0.335, "step": 231 }, { "epoch": 0.07733333333333334, "grad_norm": 1.580031394958496, "learning_rate": 3.866666666666667e-05, "loss": 0.4765, "step": 232 }, { "epoch": 0.07766666666666666, "grad_norm": 1.611729383468628, "learning_rate": 3.883333333333333e-05, "loss": 0.318, "step": 233 }, { "epoch": 0.078, "grad_norm": 1.457902193069458, "learning_rate": 3.9000000000000006e-05, "loss": 0.3561, "step": 234 }, { "epoch": 0.07833333333333334, "grad_norm": 1.4646954536437988, "learning_rate": 3.9166666666666665e-05, "loss": 0.3688, "step": 235 }, { "epoch": 0.07866666666666666, "grad_norm": 1.5438694953918457, "learning_rate": 3.933333333333333e-05, "loss": 0.3741, "step": 236 }, { "epoch": 0.079, "grad_norm": 1.6718634366989136, "learning_rate": 3.9500000000000005e-05, "loss": 0.3651, "step": 237 }, { "epoch": 0.07933333333333334, "grad_norm": 1.49998939037323, "learning_rate": 3.966666666666667e-05, "loss": 0.3971, "step": 238 }, { "epoch": 0.07966666666666666, "grad_norm": 1.4909234046936035, "learning_rate": 3.983333333333333e-05, "loss": 0.3436, "step": 239 }, { "epoch": 0.08, "grad_norm": 1.335534691810608, "learning_rate": 4e-05, "loss": 0.2857, "step": 240 }, { "epoch": 0.08033333333333334, "grad_norm": 1.4363330602645874, "learning_rate": 4.016666666666667e-05, "loss": 0.2972, "step": 241 }, { "epoch": 0.08066666666666666, "grad_norm": 1.5053205490112305, "learning_rate": 4.0333333333333336e-05, "loss": 0.3726, "step": 242 }, { "epoch": 0.081, "grad_norm": 1.5662518739700317, "learning_rate": 4.05e-05, "loss": 0.3822, "step": 243 }, { "epoch": 0.08133333333333333, "grad_norm": 1.5105401277542114, "learning_rate": 4.066666666666667e-05, "loss": 0.3845, "step": 244 }, { "epoch": 0.08166666666666667, "grad_norm": 1.2965208292007446, "learning_rate": 4.0833333333333334e-05, "loss": 0.2714, "step": 245 }, { "epoch": 0.082, "grad_norm": 1.3468542098999023, "learning_rate": 4.1e-05, "loss": 0.3419, "step": 246 }, { "epoch": 0.08233333333333333, "grad_norm": 1.578986644744873, "learning_rate": 4.116666666666667e-05, "loss": 0.4288, "step": 247 }, { "epoch": 0.08266666666666667, "grad_norm": 1.452244520187378, "learning_rate": 4.133333333333333e-05, "loss": 0.3575, "step": 248 }, { "epoch": 0.083, "grad_norm": 1.5739537477493286, "learning_rate": 4.15e-05, "loss": 0.3433, "step": 249 }, { "epoch": 0.08333333333333333, "grad_norm": 1.482478141784668, "learning_rate": 4.166666666666667e-05, "loss": 0.3903, "step": 250 }, { "epoch": 0.08366666666666667, "grad_norm": 1.4102691411972046, "learning_rate": 4.183333333333334e-05, "loss": 0.324, "step": 251 }, { "epoch": 0.084, "grad_norm": 1.3748400211334229, "learning_rate": 4.2e-05, "loss": 0.3348, "step": 252 }, { "epoch": 0.08433333333333333, "grad_norm": 1.3118107318878174, "learning_rate": 4.216666666666667e-05, "loss": 0.2931, "step": 253 }, { "epoch": 0.08466666666666667, "grad_norm": 1.5641124248504639, "learning_rate": 4.233333333333334e-05, "loss": 0.4123, "step": 254 }, { "epoch": 0.085, "grad_norm": 1.3105560541152954, "learning_rate": 4.25e-05, "loss": 0.3441, "step": 255 }, { "epoch": 0.08533333333333333, "grad_norm": 1.5378347635269165, "learning_rate": 4.266666666666667e-05, "loss": 0.3702, "step": 256 }, { "epoch": 0.08566666666666667, "grad_norm": 1.5331541299819946, "learning_rate": 4.2833333333333335e-05, "loss": 0.4366, "step": 257 }, { "epoch": 0.086, "grad_norm": 1.18148672580719, "learning_rate": 4.3e-05, "loss": 0.2741, "step": 258 }, { "epoch": 0.08633333333333333, "grad_norm": 1.4464715719223022, "learning_rate": 4.316666666666667e-05, "loss": 0.334, "step": 259 }, { "epoch": 0.08666666666666667, "grad_norm": 1.552941918373108, "learning_rate": 4.3333333333333334e-05, "loss": 0.3906, "step": 260 }, { "epoch": 0.087, "grad_norm": 1.51602041721344, "learning_rate": 4.35e-05, "loss": 0.3549, "step": 261 }, { "epoch": 0.08733333333333333, "grad_norm": 1.4399656057357788, "learning_rate": 4.3666666666666666e-05, "loss": 0.3437, "step": 262 }, { "epoch": 0.08766666666666667, "grad_norm": 1.3392916917800903, "learning_rate": 4.383333333333334e-05, "loss": 0.2961, "step": 263 }, { "epoch": 0.088, "grad_norm": 1.626286506652832, "learning_rate": 4.4000000000000006e-05, "loss": 0.3532, "step": 264 }, { "epoch": 0.08833333333333333, "grad_norm": 1.6674925088882446, "learning_rate": 4.4166666666666665e-05, "loss": 0.4064, "step": 265 }, { "epoch": 0.08866666666666667, "grad_norm": 1.3257759809494019, "learning_rate": 4.433333333333334e-05, "loss": 0.2652, "step": 266 }, { "epoch": 0.089, "grad_norm": 1.5646772384643555, "learning_rate": 4.4500000000000004e-05, "loss": 0.3433, "step": 267 }, { "epoch": 0.08933333333333333, "grad_norm": 1.5401488542556763, "learning_rate": 4.466666666666667e-05, "loss": 0.4299, "step": 268 }, { "epoch": 0.08966666666666667, "grad_norm": 1.3046114444732666, "learning_rate": 4.483333333333333e-05, "loss": 0.3763, "step": 269 }, { "epoch": 0.09, "grad_norm": 1.4883687496185303, "learning_rate": 4.5e-05, "loss": 0.4005, "step": 270 }, { "epoch": 0.09033333333333333, "grad_norm": 1.20869779586792, "learning_rate": 4.516666666666667e-05, "loss": 0.3037, "step": 271 }, { "epoch": 0.09066666666666667, "grad_norm": 1.4379864931106567, "learning_rate": 4.5333333333333335e-05, "loss": 0.3505, "step": 272 }, { "epoch": 0.091, "grad_norm": 1.5501856803894043, "learning_rate": 4.55e-05, "loss": 0.3676, "step": 273 }, { "epoch": 0.09133333333333334, "grad_norm": 1.6164238452911377, "learning_rate": 4.566666666666667e-05, "loss": 0.3604, "step": 274 }, { "epoch": 0.09166666666666666, "grad_norm": 1.5581339597702026, "learning_rate": 4.5833333333333334e-05, "loss": 0.415, "step": 275 }, { "epoch": 0.092, "grad_norm": 1.9566978216171265, "learning_rate": 4.600000000000001e-05, "loss": 0.2886, "step": 276 }, { "epoch": 0.09233333333333334, "grad_norm": 1.4752821922302246, "learning_rate": 4.6166666666666666e-05, "loss": 0.3575, "step": 277 }, { "epoch": 0.09266666666666666, "grad_norm": 1.5628986358642578, "learning_rate": 4.633333333333333e-05, "loss": 0.3825, "step": 278 }, { "epoch": 0.093, "grad_norm": 2.187627077102661, "learning_rate": 4.6500000000000005e-05, "loss": 0.391, "step": 279 }, { "epoch": 0.09333333333333334, "grad_norm": 1.5310142040252686, "learning_rate": 4.666666666666667e-05, "loss": 0.3838, "step": 280 }, { "epoch": 0.09366666666666666, "grad_norm": 1.543420433998108, "learning_rate": 4.683333333333334e-05, "loss": 0.3011, "step": 281 }, { "epoch": 0.094, "grad_norm": 1.5134119987487793, "learning_rate": 4.7e-05, "loss": 0.3686, "step": 282 }, { "epoch": 0.09433333333333334, "grad_norm": 1.967798113822937, "learning_rate": 4.716666666666667e-05, "loss": 0.4176, "step": 283 }, { "epoch": 0.09466666666666666, "grad_norm": 2.0906894207000732, "learning_rate": 4.7333333333333336e-05, "loss": 0.358, "step": 284 }, { "epoch": 0.095, "grad_norm": 1.3834588527679443, "learning_rate": 4.75e-05, "loss": 0.389, "step": 285 }, { "epoch": 0.09533333333333334, "grad_norm": 1.6481044292449951, "learning_rate": 4.766666666666667e-05, "loss": 0.3488, "step": 286 }, { "epoch": 0.09566666666666666, "grad_norm": 1.325629472732544, "learning_rate": 4.7833333333333335e-05, "loss": 0.3003, "step": 287 }, { "epoch": 0.096, "grad_norm": 1.701684832572937, "learning_rate": 4.8e-05, "loss": 0.4497, "step": 288 }, { "epoch": 0.09633333333333334, "grad_norm": 1.6686456203460693, "learning_rate": 4.8166666666666674e-05, "loss": 0.3482, "step": 289 }, { "epoch": 0.09666666666666666, "grad_norm": 1.8158715963363647, "learning_rate": 4.8333333333333334e-05, "loss": 0.3567, "step": 290 }, { "epoch": 0.097, "grad_norm": 1.6466172933578491, "learning_rate": 4.85e-05, "loss": 0.3868, "step": 291 }, { "epoch": 0.09733333333333333, "grad_norm": 1.4000461101531982, "learning_rate": 4.866666666666667e-05, "loss": 0.3448, "step": 292 }, { "epoch": 0.09766666666666667, "grad_norm": 1.7131824493408203, "learning_rate": 4.883333333333334e-05, "loss": 0.3907, "step": 293 }, { "epoch": 0.098, "grad_norm": 6.926778793334961, "learning_rate": 4.9e-05, "loss": 0.3705, "step": 294 }, { "epoch": 0.09833333333333333, "grad_norm": 1.515509009361267, "learning_rate": 4.9166666666666665e-05, "loss": 0.3596, "step": 295 }, { "epoch": 0.09866666666666667, "grad_norm": 2.7844343185424805, "learning_rate": 4.933333333333334e-05, "loss": 0.3776, "step": 296 }, { "epoch": 0.099, "grad_norm": 1.605407953262329, "learning_rate": 4.9500000000000004e-05, "loss": 0.3319, "step": 297 }, { "epoch": 0.09933333333333333, "grad_norm": 1.6420544385910034, "learning_rate": 4.966666666666667e-05, "loss": 0.4242, "step": 298 }, { "epoch": 0.09966666666666667, "grad_norm": 1.577746868133545, "learning_rate": 4.9833333333333336e-05, "loss": 0.3658, "step": 299 }, { "epoch": 0.1, "grad_norm": 1.9592171907424927, "learning_rate": 5e-05, "loss": 0.3846, "step": 300 }, { "epoch": 0.10033333333333333, "grad_norm": 1.5824711322784424, "learning_rate": 4.998148148148148e-05, "loss": 0.4153, "step": 301 }, { "epoch": 0.10066666666666667, "grad_norm": 1.4897867441177368, "learning_rate": 4.9962962962962964e-05, "loss": 0.3189, "step": 302 }, { "epoch": 0.101, "grad_norm": 1.5191915035247803, "learning_rate": 4.994444444444445e-05, "loss": 0.3831, "step": 303 }, { "epoch": 0.10133333333333333, "grad_norm": 1.619132399559021, "learning_rate": 4.9925925925925926e-05, "loss": 0.3979, "step": 304 }, { "epoch": 0.10166666666666667, "grad_norm": 1.4781115055084229, "learning_rate": 4.9907407407407406e-05, "loss": 0.353, "step": 305 }, { "epoch": 0.102, "grad_norm": 1.4926246404647827, "learning_rate": 4.9888888888888894e-05, "loss": 0.3419, "step": 306 }, { "epoch": 0.10233333333333333, "grad_norm": 1.7952423095703125, "learning_rate": 4.9870370370370375e-05, "loss": 0.5152, "step": 307 }, { "epoch": 0.10266666666666667, "grad_norm": 1.4844441413879395, "learning_rate": 4.9851851851851855e-05, "loss": 0.3638, "step": 308 }, { "epoch": 0.103, "grad_norm": 1.7583948373794556, "learning_rate": 4.9833333333333336e-05, "loss": 0.412, "step": 309 }, { "epoch": 0.10333333333333333, "grad_norm": 1.615587830543518, "learning_rate": 4.981481481481482e-05, "loss": 0.3168, "step": 310 }, { "epoch": 0.10366666666666667, "grad_norm": 1.519759178161621, "learning_rate": 4.97962962962963e-05, "loss": 0.3732, "step": 311 }, { "epoch": 0.104, "grad_norm": 1.3965352773666382, "learning_rate": 4.977777777777778e-05, "loss": 0.4101, "step": 312 }, { "epoch": 0.10433333333333333, "grad_norm": 1.3635843992233276, "learning_rate": 4.975925925925926e-05, "loss": 0.3255, "step": 313 }, { "epoch": 0.10466666666666667, "grad_norm": 1.4801793098449707, "learning_rate": 4.974074074074074e-05, "loss": 0.3583, "step": 314 }, { "epoch": 0.105, "grad_norm": 1.591237187385559, "learning_rate": 4.972222222222223e-05, "loss": 0.3393, "step": 315 }, { "epoch": 0.10533333333333333, "grad_norm": 1.5205988883972168, "learning_rate": 4.970370370370371e-05, "loss": 0.4168, "step": 316 }, { "epoch": 0.10566666666666667, "grad_norm": 1.8333476781845093, "learning_rate": 4.968518518518519e-05, "loss": 0.3803, "step": 317 }, { "epoch": 0.106, "grad_norm": 1.692940592765808, "learning_rate": 4.966666666666667e-05, "loss": 0.3542, "step": 318 }, { "epoch": 0.10633333333333334, "grad_norm": 1.5380736589431763, "learning_rate": 4.964814814814815e-05, "loss": 0.4271, "step": 319 }, { "epoch": 0.10666666666666667, "grad_norm": 1.168047547340393, "learning_rate": 4.962962962962963e-05, "loss": 0.308, "step": 320 }, { "epoch": 0.107, "grad_norm": 1.681167721748352, "learning_rate": 4.961111111111111e-05, "loss": 0.4, "step": 321 }, { "epoch": 0.10733333333333334, "grad_norm": 1.6703509092330933, "learning_rate": 4.959259259259259e-05, "loss": 0.3961, "step": 322 }, { "epoch": 0.10766666666666666, "grad_norm": 1.7819141149520874, "learning_rate": 4.957407407407408e-05, "loss": 0.3836, "step": 323 }, { "epoch": 0.108, "grad_norm": 1.3892372846603394, "learning_rate": 4.955555555555556e-05, "loss": 0.3315, "step": 324 }, { "epoch": 0.10833333333333334, "grad_norm": 1.8924736976623535, "learning_rate": 4.9537037037037035e-05, "loss": 0.3776, "step": 325 }, { "epoch": 0.10866666666666666, "grad_norm": 1.8088842630386353, "learning_rate": 4.951851851851852e-05, "loss": 0.3925, "step": 326 }, { "epoch": 0.109, "grad_norm": 1.5073802471160889, "learning_rate": 4.9500000000000004e-05, "loss": 0.3759, "step": 327 }, { "epoch": 0.10933333333333334, "grad_norm": 1.6175148487091064, "learning_rate": 4.9481481481481485e-05, "loss": 0.4247, "step": 328 }, { "epoch": 0.10966666666666666, "grad_norm": 1.516506314277649, "learning_rate": 4.9462962962962965e-05, "loss": 0.3929, "step": 329 }, { "epoch": 0.11, "grad_norm": 1.4654260873794556, "learning_rate": 4.9444444444444446e-05, "loss": 0.3604, "step": 330 }, { "epoch": 0.11033333333333334, "grad_norm": 2.3211357593536377, "learning_rate": 4.942592592592593e-05, "loss": 0.387, "step": 331 }, { "epoch": 0.11066666666666666, "grad_norm": 1.5019792318344116, "learning_rate": 4.940740740740741e-05, "loss": 0.4104, "step": 332 }, { "epoch": 0.111, "grad_norm": 1.5635384321212769, "learning_rate": 4.938888888888889e-05, "loss": 0.373, "step": 333 }, { "epoch": 0.11133333333333334, "grad_norm": 1.4854447841644287, "learning_rate": 4.937037037037037e-05, "loss": 0.3901, "step": 334 }, { "epoch": 0.11166666666666666, "grad_norm": 1.634382724761963, "learning_rate": 4.935185185185186e-05, "loss": 0.4457, "step": 335 }, { "epoch": 0.112, "grad_norm": 1.4691849946975708, "learning_rate": 4.933333333333334e-05, "loss": 0.3956, "step": 336 }, { "epoch": 0.11233333333333333, "grad_norm": 1.7635351419448853, "learning_rate": 4.931481481481482e-05, "loss": 0.4459, "step": 337 }, { "epoch": 0.11266666666666666, "grad_norm": 1.4270474910736084, "learning_rate": 4.92962962962963e-05, "loss": 0.3152, "step": 338 }, { "epoch": 0.113, "grad_norm": 1.3785789012908936, "learning_rate": 4.927777777777778e-05, "loss": 0.3155, "step": 339 }, { "epoch": 0.11333333333333333, "grad_norm": 1.5080225467681885, "learning_rate": 4.925925925925926e-05, "loss": 0.4339, "step": 340 }, { "epoch": 0.11366666666666667, "grad_norm": 1.536300778388977, "learning_rate": 4.924074074074074e-05, "loss": 0.3227, "step": 341 }, { "epoch": 0.114, "grad_norm": 1.619066834449768, "learning_rate": 4.922222222222222e-05, "loss": 0.4118, "step": 342 }, { "epoch": 0.11433333333333333, "grad_norm": 1.470788598060608, "learning_rate": 4.920370370370371e-05, "loss": 0.3655, "step": 343 }, { "epoch": 0.11466666666666667, "grad_norm": 2.8463382720947266, "learning_rate": 4.918518518518519e-05, "loss": 0.3205, "step": 344 }, { "epoch": 0.115, "grad_norm": 1.6264667510986328, "learning_rate": 4.9166666666666665e-05, "loss": 0.3792, "step": 345 }, { "epoch": 0.11533333333333333, "grad_norm": 1.660156011581421, "learning_rate": 4.9148148148148145e-05, "loss": 0.451, "step": 346 }, { "epoch": 0.11566666666666667, "grad_norm": 1.513501763343811, "learning_rate": 4.912962962962963e-05, "loss": 0.3873, "step": 347 }, { "epoch": 0.116, "grad_norm": 1.311440348625183, "learning_rate": 4.9111111111111114e-05, "loss": 0.2904, "step": 348 }, { "epoch": 0.11633333333333333, "grad_norm": 1.6002171039581299, "learning_rate": 4.9092592592592595e-05, "loss": 0.3901, "step": 349 }, { "epoch": 0.11666666666666667, "grad_norm": 1.3863859176635742, "learning_rate": 4.9074074074074075e-05, "loss": 0.3675, "step": 350 }, { "epoch": 0.117, "grad_norm": 1.4766677618026733, "learning_rate": 4.905555555555556e-05, "loss": 0.3755, "step": 351 }, { "epoch": 0.11733333333333333, "grad_norm": 1.4965181350708008, "learning_rate": 4.903703703703704e-05, "loss": 0.374, "step": 352 }, { "epoch": 0.11766666666666667, "grad_norm": 1.6470006704330444, "learning_rate": 4.901851851851852e-05, "loss": 0.3664, "step": 353 }, { "epoch": 0.118, "grad_norm": 1.9289568662643433, "learning_rate": 4.9e-05, "loss": 0.4022, "step": 354 }, { "epoch": 0.11833333333333333, "grad_norm": 1.4589459896087646, "learning_rate": 4.8981481481481486e-05, "loss": 0.347, "step": 355 }, { "epoch": 0.11866666666666667, "grad_norm": 1.5202605724334717, "learning_rate": 4.896296296296297e-05, "loss": 0.358, "step": 356 }, { "epoch": 0.119, "grad_norm": 1.4946200847625732, "learning_rate": 4.894444444444445e-05, "loss": 0.3375, "step": 357 }, { "epoch": 0.11933333333333333, "grad_norm": 1.8175865411758423, "learning_rate": 4.892592592592593e-05, "loss": 0.4148, "step": 358 }, { "epoch": 0.11966666666666667, "grad_norm": 1.3258353471755981, "learning_rate": 4.890740740740741e-05, "loss": 0.3133, "step": 359 }, { "epoch": 0.12, "grad_norm": 1.7926863431930542, "learning_rate": 4.888888888888889e-05, "loss": 0.5019, "step": 360 }, { "epoch": 0.12033333333333333, "grad_norm": 1.3644227981567383, "learning_rate": 4.887037037037037e-05, "loss": 0.3788, "step": 361 }, { "epoch": 0.12066666666666667, "grad_norm": 1.3067071437835693, "learning_rate": 4.885185185185185e-05, "loss": 0.3615, "step": 362 }, { "epoch": 0.121, "grad_norm": 1.4631500244140625, "learning_rate": 4.883333333333334e-05, "loss": 0.3555, "step": 363 }, { "epoch": 0.12133333333333333, "grad_norm": 1.3096414804458618, "learning_rate": 4.881481481481482e-05, "loss": 0.3161, "step": 364 }, { "epoch": 0.12166666666666667, "grad_norm": 1.5563383102416992, "learning_rate": 4.87962962962963e-05, "loss": 0.3903, "step": 365 }, { "epoch": 0.122, "grad_norm": 1.45024573802948, "learning_rate": 4.8777777777777775e-05, "loss": 0.3335, "step": 366 }, { "epoch": 0.12233333333333334, "grad_norm": 1.3422824144363403, "learning_rate": 4.875925925925926e-05, "loss": 0.3419, "step": 367 }, { "epoch": 0.12266666666666666, "grad_norm": 1.779746651649475, "learning_rate": 4.874074074074074e-05, "loss": 0.4075, "step": 368 }, { "epoch": 0.123, "grad_norm": 1.5517817735671997, "learning_rate": 4.8722222222222224e-05, "loss": 0.3384, "step": 369 }, { "epoch": 0.12333333333333334, "grad_norm": 1.6251047849655151, "learning_rate": 4.8703703703703704e-05, "loss": 0.3878, "step": 370 }, { "epoch": 0.12366666666666666, "grad_norm": 1.40427565574646, "learning_rate": 4.868518518518519e-05, "loss": 0.3203, "step": 371 }, { "epoch": 0.124, "grad_norm": 1.3117016553878784, "learning_rate": 4.866666666666667e-05, "loss": 0.3891, "step": 372 }, { "epoch": 0.12433333333333334, "grad_norm": 1.444316029548645, "learning_rate": 4.864814814814815e-05, "loss": 0.3567, "step": 373 }, { "epoch": 0.12466666666666666, "grad_norm": 1.483818769454956, "learning_rate": 4.862962962962963e-05, "loss": 0.347, "step": 374 }, { "epoch": 0.125, "grad_norm": 5.050604820251465, "learning_rate": 4.8611111111111115e-05, "loss": 0.436, "step": 375 }, { "epoch": 0.12533333333333332, "grad_norm": 2.0448899269104004, "learning_rate": 4.8592592592592596e-05, "loss": 0.3999, "step": 376 }, { "epoch": 0.12566666666666668, "grad_norm": 1.5457038879394531, "learning_rate": 4.857407407407408e-05, "loss": 0.3809, "step": 377 }, { "epoch": 0.126, "grad_norm": 1.1272550821304321, "learning_rate": 4.855555555555556e-05, "loss": 0.2861, "step": 378 }, { "epoch": 0.12633333333333333, "grad_norm": 1.2987323999404907, "learning_rate": 4.8537037037037045e-05, "loss": 0.3667, "step": 379 }, { "epoch": 0.12666666666666668, "grad_norm": 1.317092776298523, "learning_rate": 4.851851851851852e-05, "loss": 0.3122, "step": 380 }, { "epoch": 0.127, "grad_norm": 1.9207242727279663, "learning_rate": 4.85e-05, "loss": 0.4691, "step": 381 }, { "epoch": 0.12733333333333333, "grad_norm": 1.8333582878112793, "learning_rate": 4.848148148148148e-05, "loss": 0.4399, "step": 382 }, { "epoch": 0.12766666666666668, "grad_norm": 1.4632537364959717, "learning_rate": 4.846296296296297e-05, "loss": 0.2977, "step": 383 }, { "epoch": 0.128, "grad_norm": 1.47628915309906, "learning_rate": 4.844444444444445e-05, "loss": 0.3357, "step": 384 }, { "epoch": 0.12833333333333333, "grad_norm": 1.628018856048584, "learning_rate": 4.842592592592593e-05, "loss": 0.3637, "step": 385 }, { "epoch": 0.12866666666666668, "grad_norm": 1.3261082172393799, "learning_rate": 4.840740740740741e-05, "loss": 0.3491, "step": 386 }, { "epoch": 0.129, "grad_norm": 1.5615298748016357, "learning_rate": 4.838888888888889e-05, "loss": 0.3898, "step": 387 }, { "epoch": 0.12933333333333333, "grad_norm": 1.3540629148483276, "learning_rate": 4.837037037037037e-05, "loss": 0.3469, "step": 388 }, { "epoch": 0.12966666666666668, "grad_norm": 1.8067810535430908, "learning_rate": 4.835185185185185e-05, "loss": 0.4265, "step": 389 }, { "epoch": 0.13, "grad_norm": 1.4625282287597656, "learning_rate": 4.8333333333333334e-05, "loss": 0.4109, "step": 390 }, { "epoch": 0.13033333333333333, "grad_norm": 1.2926377058029175, "learning_rate": 4.831481481481482e-05, "loss": 0.35, "step": 391 }, { "epoch": 0.13066666666666665, "grad_norm": 1.5411444902420044, "learning_rate": 4.82962962962963e-05, "loss": 0.3599, "step": 392 }, { "epoch": 0.131, "grad_norm": 1.6826238632202148, "learning_rate": 4.8277777777777776e-05, "loss": 0.5067, "step": 393 }, { "epoch": 0.13133333333333333, "grad_norm": 1.5270205736160278, "learning_rate": 4.825925925925926e-05, "loss": 0.4664, "step": 394 }, { "epoch": 0.13166666666666665, "grad_norm": 1.546836256980896, "learning_rate": 4.8240740740740744e-05, "loss": 0.3871, "step": 395 }, { "epoch": 0.132, "grad_norm": 1.5166618824005127, "learning_rate": 4.8222222222222225e-05, "loss": 0.3154, "step": 396 }, { "epoch": 0.13233333333333333, "grad_norm": 1.4706875085830688, "learning_rate": 4.8203703703703706e-05, "loss": 0.37, "step": 397 }, { "epoch": 0.13266666666666665, "grad_norm": 1.577710509300232, "learning_rate": 4.818518518518519e-05, "loss": 0.3334, "step": 398 }, { "epoch": 0.133, "grad_norm": 2.96756911277771, "learning_rate": 4.8166666666666674e-05, "loss": 0.3901, "step": 399 }, { "epoch": 0.13333333333333333, "grad_norm": 1.3939603567123413, "learning_rate": 4.814814814814815e-05, "loss": 0.3086, "step": 400 }, { "epoch": 0.13366666666666666, "grad_norm": 1.8783942461013794, "learning_rate": 4.812962962962963e-05, "loss": 0.5443, "step": 401 }, { "epoch": 0.134, "grad_norm": 1.639843225479126, "learning_rate": 4.811111111111111e-05, "loss": 0.5519, "step": 402 }, { "epoch": 0.13433333333333333, "grad_norm": 1.6600115299224854, "learning_rate": 4.80925925925926e-05, "loss": 0.3592, "step": 403 }, { "epoch": 0.13466666666666666, "grad_norm": 1.3091179132461548, "learning_rate": 4.807407407407408e-05, "loss": 0.3065, "step": 404 }, { "epoch": 0.135, "grad_norm": 3.4881818294525146, "learning_rate": 4.805555555555556e-05, "loss": 0.3254, "step": 405 }, { "epoch": 0.13533333333333333, "grad_norm": 1.6983367204666138, "learning_rate": 4.803703703703704e-05, "loss": 0.4013, "step": 406 }, { "epoch": 0.13566666666666666, "grad_norm": 1.4208776950836182, "learning_rate": 4.801851851851852e-05, "loss": 0.3775, "step": 407 }, { "epoch": 0.136, "grad_norm": 1.1817011833190918, "learning_rate": 4.8e-05, "loss": 0.3014, "step": 408 }, { "epoch": 0.13633333333333333, "grad_norm": 2.8179917335510254, "learning_rate": 4.798148148148148e-05, "loss": 0.3102, "step": 409 }, { "epoch": 0.13666666666666666, "grad_norm": 1.780457615852356, "learning_rate": 4.796296296296296e-05, "loss": 0.3795, "step": 410 }, { "epoch": 0.137, "grad_norm": 2.187234878540039, "learning_rate": 4.794444444444445e-05, "loss": 0.4098, "step": 411 }, { "epoch": 0.13733333333333334, "grad_norm": 1.4273678064346313, "learning_rate": 4.792592592592593e-05, "loss": 0.3654, "step": 412 }, { "epoch": 0.13766666666666666, "grad_norm": 1.4316853284835815, "learning_rate": 4.790740740740741e-05, "loss": 0.3317, "step": 413 }, { "epoch": 0.138, "grad_norm": 1.5158627033233643, "learning_rate": 4.7888888888888886e-05, "loss": 0.4107, "step": 414 }, { "epoch": 0.13833333333333334, "grad_norm": 1.4416333436965942, "learning_rate": 4.7870370370370373e-05, "loss": 0.356, "step": 415 }, { "epoch": 0.13866666666666666, "grad_norm": 1.600272297859192, "learning_rate": 4.7851851851851854e-05, "loss": 0.4041, "step": 416 }, { "epoch": 0.139, "grad_norm": 1.4517465829849243, "learning_rate": 4.7833333333333335e-05, "loss": 0.3554, "step": 417 }, { "epoch": 0.13933333333333334, "grad_norm": 1.8297104835510254, "learning_rate": 4.7814814814814816e-05, "loss": 0.4244, "step": 418 }, { "epoch": 0.13966666666666666, "grad_norm": 1.4831371307373047, "learning_rate": 4.77962962962963e-05, "loss": 0.3987, "step": 419 }, { "epoch": 0.14, "grad_norm": 1.6603938341140747, "learning_rate": 4.7777777777777784e-05, "loss": 0.4253, "step": 420 }, { "epoch": 0.14033333333333334, "grad_norm": 1.577906847000122, "learning_rate": 4.775925925925926e-05, "loss": 0.4154, "step": 421 }, { "epoch": 0.14066666666666666, "grad_norm": 1.594200611114502, "learning_rate": 4.774074074074074e-05, "loss": 0.3967, "step": 422 }, { "epoch": 0.141, "grad_norm": 1.3381290435791016, "learning_rate": 4.7722222222222226e-05, "loss": 0.3398, "step": 423 }, { "epoch": 0.14133333333333334, "grad_norm": 1.574758768081665, "learning_rate": 4.770370370370371e-05, "loss": 0.2969, "step": 424 }, { "epoch": 0.14166666666666666, "grad_norm": 1.4329252243041992, "learning_rate": 4.768518518518519e-05, "loss": 0.3546, "step": 425 }, { "epoch": 0.142, "grad_norm": 1.4215891361236572, "learning_rate": 4.766666666666667e-05, "loss": 0.3441, "step": 426 }, { "epoch": 0.14233333333333334, "grad_norm": 1.549372673034668, "learning_rate": 4.764814814814815e-05, "loss": 0.3625, "step": 427 }, { "epoch": 0.14266666666666666, "grad_norm": 1.610260009765625, "learning_rate": 4.762962962962963e-05, "loss": 0.3933, "step": 428 }, { "epoch": 0.143, "grad_norm": 1.4108293056488037, "learning_rate": 4.761111111111111e-05, "loss": 0.354, "step": 429 }, { "epoch": 0.14333333333333334, "grad_norm": 2.310365676879883, "learning_rate": 4.759259259259259e-05, "loss": 0.3825, "step": 430 }, { "epoch": 0.14366666666666666, "grad_norm": 1.607605218887329, "learning_rate": 4.757407407407408e-05, "loss": 0.4195, "step": 431 }, { "epoch": 0.144, "grad_norm": 1.4815714359283447, "learning_rate": 4.755555555555556e-05, "loss": 0.3548, "step": 432 }, { "epoch": 0.14433333333333334, "grad_norm": 1.4924988746643066, "learning_rate": 4.753703703703704e-05, "loss": 0.3967, "step": 433 }, { "epoch": 0.14466666666666667, "grad_norm": 2.915475368499756, "learning_rate": 4.751851851851852e-05, "loss": 0.3949, "step": 434 }, { "epoch": 0.145, "grad_norm": 1.5413134098052979, "learning_rate": 4.75e-05, "loss": 0.3973, "step": 435 }, { "epoch": 0.14533333333333334, "grad_norm": 1.9248411655426025, "learning_rate": 4.7481481481481483e-05, "loss": 0.3784, "step": 436 }, { "epoch": 0.14566666666666667, "grad_norm": 1.6248245239257812, "learning_rate": 4.7462962962962964e-05, "loss": 0.4119, "step": 437 }, { "epoch": 0.146, "grad_norm": 1.705633282661438, "learning_rate": 4.7444444444444445e-05, "loss": 0.4396, "step": 438 }, { "epoch": 0.14633333333333334, "grad_norm": 1.4687634706497192, "learning_rate": 4.742592592592593e-05, "loss": 0.3852, "step": 439 }, { "epoch": 0.14666666666666667, "grad_norm": 1.8919180631637573, "learning_rate": 4.740740740740741e-05, "loss": 0.3819, "step": 440 }, { "epoch": 0.147, "grad_norm": 1.371976375579834, "learning_rate": 4.7388888888888894e-05, "loss": 0.3571, "step": 441 }, { "epoch": 0.14733333333333334, "grad_norm": 2.8801138401031494, "learning_rate": 4.737037037037037e-05, "loss": 0.4213, "step": 442 }, { "epoch": 0.14766666666666667, "grad_norm": 1.6173559427261353, "learning_rate": 4.7351851851851856e-05, "loss": 0.3702, "step": 443 }, { "epoch": 0.148, "grad_norm": 1.2258858680725098, "learning_rate": 4.7333333333333336e-05, "loss": 0.3285, "step": 444 }, { "epoch": 0.14833333333333334, "grad_norm": 1.3034180402755737, "learning_rate": 4.731481481481482e-05, "loss": 0.3267, "step": 445 }, { "epoch": 0.14866666666666667, "grad_norm": 1.6660559177398682, "learning_rate": 4.72962962962963e-05, "loss": 0.4348, "step": 446 }, { "epoch": 0.149, "grad_norm": 1.300252079963684, "learning_rate": 4.727777777777778e-05, "loss": 0.3129, "step": 447 }, { "epoch": 0.14933333333333335, "grad_norm": 1.5774869918823242, "learning_rate": 4.7259259259259266e-05, "loss": 0.3948, "step": 448 }, { "epoch": 0.14966666666666667, "grad_norm": 1.485144853591919, "learning_rate": 4.724074074074074e-05, "loss": 0.3215, "step": 449 }, { "epoch": 0.15, "grad_norm": 1.4521360397338867, "learning_rate": 4.722222222222222e-05, "loss": 0.3585, "step": 450 }, { "epoch": 0.15033333333333335, "grad_norm": 1.3035513162612915, "learning_rate": 4.720370370370371e-05, "loss": 0.2725, "step": 451 }, { "epoch": 0.15066666666666667, "grad_norm": 1.727379322052002, "learning_rate": 4.718518518518519e-05, "loss": 0.4097, "step": 452 }, { "epoch": 0.151, "grad_norm": 2.3666672706604004, "learning_rate": 4.716666666666667e-05, "loss": 0.4662, "step": 453 }, { "epoch": 0.15133333333333332, "grad_norm": 1.654421091079712, "learning_rate": 4.714814814814815e-05, "loss": 0.3372, "step": 454 }, { "epoch": 0.15166666666666667, "grad_norm": 1.6819572448730469, "learning_rate": 4.712962962962963e-05, "loss": 0.435, "step": 455 }, { "epoch": 0.152, "grad_norm": 1.5675102472305298, "learning_rate": 4.711111111111111e-05, "loss": 0.4012, "step": 456 }, { "epoch": 0.15233333333333332, "grad_norm": 1.4625293016433716, "learning_rate": 4.709259259259259e-05, "loss": 0.3838, "step": 457 }, { "epoch": 0.15266666666666667, "grad_norm": 1.520033836364746, "learning_rate": 4.7074074074074074e-05, "loss": 0.366, "step": 458 }, { "epoch": 0.153, "grad_norm": 1.2604353427886963, "learning_rate": 4.7055555555555555e-05, "loss": 0.2488, "step": 459 }, { "epoch": 0.15333333333333332, "grad_norm": 1.4598571062088013, "learning_rate": 4.703703703703704e-05, "loss": 0.3245, "step": 460 }, { "epoch": 0.15366666666666667, "grad_norm": 1.609896183013916, "learning_rate": 4.701851851851852e-05, "loss": 0.3609, "step": 461 }, { "epoch": 0.154, "grad_norm": 1.4688657522201538, "learning_rate": 4.7e-05, "loss": 0.3607, "step": 462 }, { "epoch": 0.15433333333333332, "grad_norm": 1.243186354637146, "learning_rate": 4.6981481481481485e-05, "loss": 0.3003, "step": 463 }, { "epoch": 0.15466666666666667, "grad_norm": 1.4108368158340454, "learning_rate": 4.6962962962962966e-05, "loss": 0.3519, "step": 464 }, { "epoch": 0.155, "grad_norm": 7.958014965057373, "learning_rate": 4.6944444444444446e-05, "loss": 0.3188, "step": 465 }, { "epoch": 0.15533333333333332, "grad_norm": 1.6169638633728027, "learning_rate": 4.692592592592593e-05, "loss": 0.3719, "step": 466 }, { "epoch": 0.15566666666666668, "grad_norm": 1.5462708473205566, "learning_rate": 4.690740740740741e-05, "loss": 0.3421, "step": 467 }, { "epoch": 0.156, "grad_norm": 1.8130849599838257, "learning_rate": 4.6888888888888895e-05, "loss": 0.394, "step": 468 }, { "epoch": 0.15633333333333332, "grad_norm": 1.4210973978042603, "learning_rate": 4.687037037037037e-05, "loss": 0.4152, "step": 469 }, { "epoch": 0.15666666666666668, "grad_norm": 1.6681641340255737, "learning_rate": 4.685185185185185e-05, "loss": 0.422, "step": 470 }, { "epoch": 0.157, "grad_norm": 1.3365411758422852, "learning_rate": 4.683333333333334e-05, "loss": 0.3282, "step": 471 }, { "epoch": 0.15733333333333333, "grad_norm": 1.6300495862960815, "learning_rate": 4.681481481481482e-05, "loss": 0.3325, "step": 472 }, { "epoch": 0.15766666666666668, "grad_norm": 1.8083395957946777, "learning_rate": 4.67962962962963e-05, "loss": 0.4878, "step": 473 }, { "epoch": 0.158, "grad_norm": 2.474660634994507, "learning_rate": 4.677777777777778e-05, "loss": 0.3831, "step": 474 }, { "epoch": 0.15833333333333333, "grad_norm": 1.2663764953613281, "learning_rate": 4.675925925925926e-05, "loss": 0.2903, "step": 475 }, { "epoch": 0.15866666666666668, "grad_norm": 1.615507960319519, "learning_rate": 4.674074074074074e-05, "loss": 0.4286, "step": 476 }, { "epoch": 0.159, "grad_norm": 1.31894850730896, "learning_rate": 4.672222222222222e-05, "loss": 0.3779, "step": 477 }, { "epoch": 0.15933333333333333, "grad_norm": 1.6353154182434082, "learning_rate": 4.67037037037037e-05, "loss": 0.4092, "step": 478 }, { "epoch": 0.15966666666666668, "grad_norm": 1.4601986408233643, "learning_rate": 4.6685185185185184e-05, "loss": 0.3107, "step": 479 }, { "epoch": 0.16, "grad_norm": 1.5335056781768799, "learning_rate": 4.666666666666667e-05, "loss": 0.3519, "step": 480 }, { "epoch": 0.16033333333333333, "grad_norm": 1.3570960760116577, "learning_rate": 4.664814814814815e-05, "loss": 0.3462, "step": 481 }, { "epoch": 0.16066666666666668, "grad_norm": 1.6119030714035034, "learning_rate": 4.662962962962963e-05, "loss": 0.4134, "step": 482 }, { "epoch": 0.161, "grad_norm": 1.5040596723556519, "learning_rate": 4.6611111111111114e-05, "loss": 0.3403, "step": 483 }, { "epoch": 0.16133333333333333, "grad_norm": 1.6691622734069824, "learning_rate": 4.6592592592592595e-05, "loss": 0.3845, "step": 484 }, { "epoch": 0.16166666666666665, "grad_norm": 1.212578296661377, "learning_rate": 4.6574074074074076e-05, "loss": 0.295, "step": 485 }, { "epoch": 0.162, "grad_norm": 1.5998772382736206, "learning_rate": 4.6555555555555556e-05, "loss": 0.3452, "step": 486 }, { "epoch": 0.16233333333333333, "grad_norm": 1.5955681800842285, "learning_rate": 4.653703703703704e-05, "loss": 0.3911, "step": 487 }, { "epoch": 0.16266666666666665, "grad_norm": 1.948377013206482, "learning_rate": 4.6518518518518525e-05, "loss": 0.4885, "step": 488 }, { "epoch": 0.163, "grad_norm": 1.562285304069519, "learning_rate": 4.6500000000000005e-05, "loss": 0.354, "step": 489 }, { "epoch": 0.16333333333333333, "grad_norm": 1.3308295011520386, "learning_rate": 4.648148148148148e-05, "loss": 0.3341, "step": 490 }, { "epoch": 0.16366666666666665, "grad_norm": 1.470138430595398, "learning_rate": 4.646296296296297e-05, "loss": 0.3751, "step": 491 }, { "epoch": 0.164, "grad_norm": 1.4458322525024414, "learning_rate": 4.644444444444445e-05, "loss": 0.3457, "step": 492 }, { "epoch": 0.16433333333333333, "grad_norm": 1.457342505455017, "learning_rate": 4.642592592592593e-05, "loss": 0.3596, "step": 493 }, { "epoch": 0.16466666666666666, "grad_norm": 1.5412640571594238, "learning_rate": 4.640740740740741e-05, "loss": 0.3418, "step": 494 }, { "epoch": 0.165, "grad_norm": 1.472030520439148, "learning_rate": 4.638888888888889e-05, "loss": 0.3425, "step": 495 }, { "epoch": 0.16533333333333333, "grad_norm": 1.6183019876480103, "learning_rate": 4.637037037037038e-05, "loss": 0.3352, "step": 496 }, { "epoch": 0.16566666666666666, "grad_norm": 2.019596815109253, "learning_rate": 4.635185185185185e-05, "loss": 0.3578, "step": 497 }, { "epoch": 0.166, "grad_norm": 1.3924508094787598, "learning_rate": 4.633333333333333e-05, "loss": 0.3676, "step": 498 }, { "epoch": 0.16633333333333333, "grad_norm": 1.27180016040802, "learning_rate": 4.631481481481481e-05, "loss": 0.3179, "step": 499 }, { "epoch": 0.16666666666666666, "grad_norm": 1.225780725479126, "learning_rate": 4.62962962962963e-05, "loss": 0.3431, "step": 500 }, { "epoch": 0.167, "grad_norm": 1.793016791343689, "learning_rate": 4.627777777777778e-05, "loss": 0.4867, "step": 501 }, { "epoch": 0.16733333333333333, "grad_norm": 1.5788778066635132, "learning_rate": 4.625925925925926e-05, "loss": 0.3276, "step": 502 }, { "epoch": 0.16766666666666666, "grad_norm": 1.751562476158142, "learning_rate": 4.624074074074074e-05, "loss": 0.4539, "step": 503 }, { "epoch": 0.168, "grad_norm": 1.431057333946228, "learning_rate": 4.6222222222222224e-05, "loss": 0.3713, "step": 504 }, { "epoch": 0.16833333333333333, "grad_norm": 1.3699835538864136, "learning_rate": 4.6203703703703705e-05, "loss": 0.3447, "step": 505 }, { "epoch": 0.16866666666666666, "grad_norm": 1.5171544551849365, "learning_rate": 4.6185185185185185e-05, "loss": 0.2956, "step": 506 }, { "epoch": 0.169, "grad_norm": 1.7429660558700562, "learning_rate": 4.6166666666666666e-05, "loss": 0.3909, "step": 507 }, { "epoch": 0.16933333333333334, "grad_norm": 1.7300422191619873, "learning_rate": 4.6148148148148154e-05, "loss": 0.4494, "step": 508 }, { "epoch": 0.16966666666666666, "grad_norm": 1.264761209487915, "learning_rate": 4.6129629629629635e-05, "loss": 0.2988, "step": 509 }, { "epoch": 0.17, "grad_norm": 1.6348915100097656, "learning_rate": 4.6111111111111115e-05, "loss": 0.3799, "step": 510 }, { "epoch": 0.17033333333333334, "grad_norm": 1.5455849170684814, "learning_rate": 4.6092592592592596e-05, "loss": 0.3082, "step": 511 }, { "epoch": 0.17066666666666666, "grad_norm": 1.5002715587615967, "learning_rate": 4.607407407407408e-05, "loss": 0.388, "step": 512 }, { "epoch": 0.171, "grad_norm": 1.3733866214752197, "learning_rate": 4.605555555555556e-05, "loss": 0.2715, "step": 513 }, { "epoch": 0.17133333333333334, "grad_norm": 1.5897667407989502, "learning_rate": 4.603703703703704e-05, "loss": 0.4274, "step": 514 }, { "epoch": 0.17166666666666666, "grad_norm": 1.4934463500976562, "learning_rate": 4.601851851851852e-05, "loss": 0.3477, "step": 515 }, { "epoch": 0.172, "grad_norm": 1.6661343574523926, "learning_rate": 4.600000000000001e-05, "loss": 0.4138, "step": 516 }, { "epoch": 0.17233333333333334, "grad_norm": 1.3750795125961304, "learning_rate": 4.598148148148148e-05, "loss": 0.3704, "step": 517 }, { "epoch": 0.17266666666666666, "grad_norm": 1.6565532684326172, "learning_rate": 4.596296296296296e-05, "loss": 0.4498, "step": 518 }, { "epoch": 0.173, "grad_norm": 5.795270919799805, "learning_rate": 4.594444444444444e-05, "loss": 0.4515, "step": 519 }, { "epoch": 0.17333333333333334, "grad_norm": 17.75341033935547, "learning_rate": 4.592592592592593e-05, "loss": 0.3419, "step": 520 }, { "epoch": 0.17366666666666666, "grad_norm": 1.2986958026885986, "learning_rate": 4.590740740740741e-05, "loss": 0.3258, "step": 521 }, { "epoch": 0.174, "grad_norm": 1.4572504758834839, "learning_rate": 4.588888888888889e-05, "loss": 0.3619, "step": 522 }, { "epoch": 0.17433333333333334, "grad_norm": 1.3477206230163574, "learning_rate": 4.587037037037037e-05, "loss": 0.3474, "step": 523 }, { "epoch": 0.17466666666666666, "grad_norm": 1.4138680696487427, "learning_rate": 4.585185185185185e-05, "loss": 0.4011, "step": 524 }, { "epoch": 0.175, "grad_norm": 1.817885398864746, "learning_rate": 4.5833333333333334e-05, "loss": 0.3976, "step": 525 }, { "epoch": 0.17533333333333334, "grad_norm": 2.031548023223877, "learning_rate": 4.5814814814814815e-05, "loss": 0.3649, "step": 526 }, { "epoch": 0.17566666666666667, "grad_norm": 1.7162131071090698, "learning_rate": 4.5796296296296295e-05, "loss": 0.3296, "step": 527 }, { "epoch": 0.176, "grad_norm": 1.916621446609497, "learning_rate": 4.577777777777778e-05, "loss": 0.3943, "step": 528 }, { "epoch": 0.17633333333333334, "grad_norm": 1.6090394258499146, "learning_rate": 4.5759259259259264e-05, "loss": 0.3501, "step": 529 }, { "epoch": 0.17666666666666667, "grad_norm": 1.6718857288360596, "learning_rate": 4.5740740740740745e-05, "loss": 0.4241, "step": 530 }, { "epoch": 0.177, "grad_norm": 1.7291890382766724, "learning_rate": 4.572222222222222e-05, "loss": 0.4181, "step": 531 }, { "epoch": 0.17733333333333334, "grad_norm": 1.506325125694275, "learning_rate": 4.5703703703703706e-05, "loss": 0.3724, "step": 532 }, { "epoch": 0.17766666666666667, "grad_norm": 1.6740254163742065, "learning_rate": 4.568518518518519e-05, "loss": 0.4633, "step": 533 }, { "epoch": 0.178, "grad_norm": 1.4528924226760864, "learning_rate": 4.566666666666667e-05, "loss": 0.3473, "step": 534 }, { "epoch": 0.17833333333333334, "grad_norm": 1.6197060346603394, "learning_rate": 4.564814814814815e-05, "loss": 0.4072, "step": 535 }, { "epoch": 0.17866666666666667, "grad_norm": 1.7965662479400635, "learning_rate": 4.5629629629629636e-05, "loss": 0.4327, "step": 536 }, { "epoch": 0.179, "grad_norm": 1.403766393661499, "learning_rate": 4.561111111111112e-05, "loss": 0.3179, "step": 537 }, { "epoch": 0.17933333333333334, "grad_norm": 1.4845155477523804, "learning_rate": 4.559259259259259e-05, "loss": 0.391, "step": 538 }, { "epoch": 0.17966666666666667, "grad_norm": 1.5367820262908936, "learning_rate": 4.557407407407407e-05, "loss": 0.3359, "step": 539 }, { "epoch": 0.18, "grad_norm": 1.4138699769973755, "learning_rate": 4.555555555555556e-05, "loss": 0.3368, "step": 540 }, { "epoch": 0.18033333333333335, "grad_norm": 1.6389492750167847, "learning_rate": 4.553703703703704e-05, "loss": 0.3956, "step": 541 }, { "epoch": 0.18066666666666667, "grad_norm": 1.5073649883270264, "learning_rate": 4.551851851851852e-05, "loss": 0.4075, "step": 542 }, { "epoch": 0.181, "grad_norm": 1.344222068786621, "learning_rate": 4.55e-05, "loss": 0.3281, "step": 543 }, { "epoch": 0.18133333333333335, "grad_norm": 1.4959862232208252, "learning_rate": 4.548148148148149e-05, "loss": 0.3353, "step": 544 }, { "epoch": 0.18166666666666667, "grad_norm": 1.5007504224777222, "learning_rate": 4.546296296296296e-05, "loss": 0.4133, "step": 545 }, { "epoch": 0.182, "grad_norm": 1.6905388832092285, "learning_rate": 4.5444444444444444e-05, "loss": 0.4557, "step": 546 }, { "epoch": 0.18233333333333332, "grad_norm": 1.3356764316558838, "learning_rate": 4.5425925925925925e-05, "loss": 0.3737, "step": 547 }, { "epoch": 0.18266666666666667, "grad_norm": 1.8128896951675415, "learning_rate": 4.540740740740741e-05, "loss": 0.3902, "step": 548 }, { "epoch": 0.183, "grad_norm": 1.5806947946548462, "learning_rate": 4.538888888888889e-05, "loss": 0.3861, "step": 549 }, { "epoch": 0.18333333333333332, "grad_norm": 1.814087986946106, "learning_rate": 4.5370370370370374e-05, "loss": 0.4172, "step": 550 }, { "epoch": 0.18366666666666667, "grad_norm": 1.5783967971801758, "learning_rate": 4.5351851851851854e-05, "loss": 0.4304, "step": 551 }, { "epoch": 0.184, "grad_norm": 1.3484410047531128, "learning_rate": 4.5333333333333335e-05, "loss": 0.3362, "step": 552 }, { "epoch": 0.18433333333333332, "grad_norm": 2.0969557762145996, "learning_rate": 4.5314814814814816e-05, "loss": 0.4142, "step": 553 }, { "epoch": 0.18466666666666667, "grad_norm": 3.6122617721557617, "learning_rate": 4.52962962962963e-05, "loss": 0.2642, "step": 554 }, { "epoch": 0.185, "grad_norm": 1.289080262184143, "learning_rate": 4.527777777777778e-05, "loss": 0.3149, "step": 555 }, { "epoch": 0.18533333333333332, "grad_norm": 1.6373666524887085, "learning_rate": 4.5259259259259265e-05, "loss": 0.3945, "step": 556 }, { "epoch": 0.18566666666666667, "grad_norm": 1.1834471225738525, "learning_rate": 4.5240740740740746e-05, "loss": 0.3104, "step": 557 }, { "epoch": 0.186, "grad_norm": 1.290870189666748, "learning_rate": 4.522222222222223e-05, "loss": 0.371, "step": 558 }, { "epoch": 0.18633333333333332, "grad_norm": 1.371110200881958, "learning_rate": 4.52037037037037e-05, "loss": 0.3973, "step": 559 }, { "epoch": 0.18666666666666668, "grad_norm": 1.36427903175354, "learning_rate": 4.518518518518519e-05, "loss": 0.3147, "step": 560 }, { "epoch": 0.187, "grad_norm": 1.3381069898605347, "learning_rate": 4.516666666666667e-05, "loss": 0.3474, "step": 561 }, { "epoch": 0.18733333333333332, "grad_norm": 1.4656195640563965, "learning_rate": 4.514814814814815e-05, "loss": 0.4091, "step": 562 }, { "epoch": 0.18766666666666668, "grad_norm": 1.6770439147949219, "learning_rate": 4.512962962962963e-05, "loss": 0.2991, "step": 563 }, { "epoch": 0.188, "grad_norm": 1.3697926998138428, "learning_rate": 4.511111111111112e-05, "loss": 0.3267, "step": 564 }, { "epoch": 0.18833333333333332, "grad_norm": 1.4271165132522583, "learning_rate": 4.50925925925926e-05, "loss": 0.3689, "step": 565 }, { "epoch": 0.18866666666666668, "grad_norm": 1.3551369905471802, "learning_rate": 4.507407407407407e-05, "loss": 0.3604, "step": 566 }, { "epoch": 0.189, "grad_norm": 1.5275707244873047, "learning_rate": 4.5055555555555554e-05, "loss": 0.3704, "step": 567 }, { "epoch": 0.18933333333333333, "grad_norm": 1.5867068767547607, "learning_rate": 4.503703703703704e-05, "loss": 0.3803, "step": 568 }, { "epoch": 0.18966666666666668, "grad_norm": 1.7391343116760254, "learning_rate": 4.501851851851852e-05, "loss": 0.4101, "step": 569 }, { "epoch": 0.19, "grad_norm": 1.7914539575576782, "learning_rate": 4.5e-05, "loss": 0.4465, "step": 570 }, { "epoch": 0.19033333333333333, "grad_norm": 1.4277679920196533, "learning_rate": 4.4981481481481484e-05, "loss": 0.376, "step": 571 }, { "epoch": 0.19066666666666668, "grad_norm": 1.35780668258667, "learning_rate": 4.496296296296297e-05, "loss": 0.3722, "step": 572 }, { "epoch": 0.191, "grad_norm": 1.4040939807891846, "learning_rate": 4.4944444444444445e-05, "loss": 0.3845, "step": 573 }, { "epoch": 0.19133333333333333, "grad_norm": 1.620442271232605, "learning_rate": 4.4925925925925926e-05, "loss": 0.394, "step": 574 }, { "epoch": 0.19166666666666668, "grad_norm": 1.5137332677841187, "learning_rate": 4.490740740740741e-05, "loss": 0.4132, "step": 575 }, { "epoch": 0.192, "grad_norm": 1.3737564086914062, "learning_rate": 4.4888888888888894e-05, "loss": 0.3041, "step": 576 }, { "epoch": 0.19233333333333333, "grad_norm": 1.5032317638397217, "learning_rate": 4.4870370370370375e-05, "loss": 0.3448, "step": 577 }, { "epoch": 0.19266666666666668, "grad_norm": 1.415264368057251, "learning_rate": 4.4851851851851856e-05, "loss": 0.3625, "step": 578 }, { "epoch": 0.193, "grad_norm": 1.4844282865524292, "learning_rate": 4.483333333333333e-05, "loss": 0.3893, "step": 579 }, { "epoch": 0.19333333333333333, "grad_norm": 1.3375792503356934, "learning_rate": 4.481481481481482e-05, "loss": 0.279, "step": 580 }, { "epoch": 0.19366666666666665, "grad_norm": 1.514036774635315, "learning_rate": 4.47962962962963e-05, "loss": 0.3956, "step": 581 }, { "epoch": 0.194, "grad_norm": 1.3582748174667358, "learning_rate": 4.477777777777778e-05, "loss": 0.3355, "step": 582 }, { "epoch": 0.19433333333333333, "grad_norm": 1.6228889226913452, "learning_rate": 4.475925925925926e-05, "loss": 0.3537, "step": 583 }, { "epoch": 0.19466666666666665, "grad_norm": 1.5080145597457886, "learning_rate": 4.474074074074075e-05, "loss": 0.4108, "step": 584 }, { "epoch": 0.195, "grad_norm": 1.4736909866333008, "learning_rate": 4.472222222222223e-05, "loss": 0.3178, "step": 585 }, { "epoch": 0.19533333333333333, "grad_norm": 1.4306914806365967, "learning_rate": 4.47037037037037e-05, "loss": 0.3304, "step": 586 }, { "epoch": 0.19566666666666666, "grad_norm": 1.4883320331573486, "learning_rate": 4.468518518518518e-05, "loss": 0.4074, "step": 587 }, { "epoch": 0.196, "grad_norm": 1.4108233451843262, "learning_rate": 4.466666666666667e-05, "loss": 0.3267, "step": 588 }, { "epoch": 0.19633333333333333, "grad_norm": 2.0411906242370605, "learning_rate": 4.464814814814815e-05, "loss": 0.4153, "step": 589 }, { "epoch": 0.19666666666666666, "grad_norm": 1.8355998992919922, "learning_rate": 4.462962962962963e-05, "loss": 0.3402, "step": 590 }, { "epoch": 0.197, "grad_norm": 1.458619475364685, "learning_rate": 4.461111111111111e-05, "loss": 0.4166, "step": 591 }, { "epoch": 0.19733333333333333, "grad_norm": 1.4741239547729492, "learning_rate": 4.4592592592592594e-05, "loss": 0.3389, "step": 592 }, { "epoch": 0.19766666666666666, "grad_norm": 1.6767423152923584, "learning_rate": 4.4574074074074074e-05, "loss": 0.3909, "step": 593 }, { "epoch": 0.198, "grad_norm": 1.665139079093933, "learning_rate": 4.4555555555555555e-05, "loss": 0.3458, "step": 594 }, { "epoch": 0.19833333333333333, "grad_norm": 1.4744354486465454, "learning_rate": 4.4537037037037036e-05, "loss": 0.3492, "step": 595 }, { "epoch": 0.19866666666666666, "grad_norm": 1.5642839670181274, "learning_rate": 4.4518518518518523e-05, "loss": 0.3446, "step": 596 }, { "epoch": 0.199, "grad_norm": 1.3232685327529907, "learning_rate": 4.4500000000000004e-05, "loss": 0.3315, "step": 597 }, { "epoch": 0.19933333333333333, "grad_norm": 1.5989969968795776, "learning_rate": 4.4481481481481485e-05, "loss": 0.328, "step": 598 }, { "epoch": 0.19966666666666666, "grad_norm": 1.5295178890228271, "learning_rate": 4.4462962962962966e-05, "loss": 0.3927, "step": 599 }, { "epoch": 0.2, "grad_norm": 1.6364021301269531, "learning_rate": 4.4444444444444447e-05, "loss": 0.4419, "step": 600 }, { "epoch": 0.20033333333333334, "grad_norm": 1.3658100366592407, "learning_rate": 4.442592592592593e-05, "loss": 0.3703, "step": 601 }, { "epoch": 0.20066666666666666, "grad_norm": 1.45023512840271, "learning_rate": 4.440740740740741e-05, "loss": 0.3768, "step": 602 }, { "epoch": 0.201, "grad_norm": 1.24233877658844, "learning_rate": 4.438888888888889e-05, "loss": 0.2976, "step": 603 }, { "epoch": 0.20133333333333334, "grad_norm": 1.4358621835708618, "learning_rate": 4.4370370370370376e-05, "loss": 0.3407, "step": 604 }, { "epoch": 0.20166666666666666, "grad_norm": 1.2155948877334595, "learning_rate": 4.435185185185186e-05, "loss": 0.3248, "step": 605 }, { "epoch": 0.202, "grad_norm": 1.52995765209198, "learning_rate": 4.433333333333334e-05, "loss": 0.383, "step": 606 }, { "epoch": 0.20233333333333334, "grad_norm": 1.781554937362671, "learning_rate": 4.431481481481481e-05, "loss": 0.4049, "step": 607 }, { "epoch": 0.20266666666666666, "grad_norm": 1.6566193103790283, "learning_rate": 4.42962962962963e-05, "loss": 0.4091, "step": 608 }, { "epoch": 0.203, "grad_norm": 1.609633445739746, "learning_rate": 4.427777777777778e-05, "loss": 0.3276, "step": 609 }, { "epoch": 0.20333333333333334, "grad_norm": 2.1290884017944336, "learning_rate": 4.425925925925926e-05, "loss": 0.3703, "step": 610 }, { "epoch": 0.20366666666666666, "grad_norm": 1.4883259534835815, "learning_rate": 4.424074074074074e-05, "loss": 0.3417, "step": 611 }, { "epoch": 0.204, "grad_norm": 1.6269731521606445, "learning_rate": 4.422222222222222e-05, "loss": 0.4931, "step": 612 }, { "epoch": 0.20433333333333334, "grad_norm": 1.2305165529251099, "learning_rate": 4.420370370370371e-05, "loss": 0.3454, "step": 613 }, { "epoch": 0.20466666666666666, "grad_norm": 1.3280975818634033, "learning_rate": 4.4185185185185184e-05, "loss": 0.3098, "step": 614 }, { "epoch": 0.205, "grad_norm": 1.6180787086486816, "learning_rate": 4.4166666666666665e-05, "loss": 0.3854, "step": 615 }, { "epoch": 0.20533333333333334, "grad_norm": 1.2871187925338745, "learning_rate": 4.414814814814815e-05, "loss": 0.3057, "step": 616 }, { "epoch": 0.20566666666666666, "grad_norm": 1.5202758312225342, "learning_rate": 4.4129629629629633e-05, "loss": 0.3825, "step": 617 }, { "epoch": 0.206, "grad_norm": 1.2970737218856812, "learning_rate": 4.4111111111111114e-05, "loss": 0.2642, "step": 618 }, { "epoch": 0.20633333333333334, "grad_norm": 1.381256341934204, "learning_rate": 4.4092592592592595e-05, "loss": 0.3454, "step": 619 }, { "epoch": 0.20666666666666667, "grad_norm": 1.5311311483383179, "learning_rate": 4.4074074074074076e-05, "loss": 0.3699, "step": 620 }, { "epoch": 0.207, "grad_norm": 1.3776994943618774, "learning_rate": 4.4055555555555557e-05, "loss": 0.3086, "step": 621 }, { "epoch": 0.20733333333333334, "grad_norm": 1.3250863552093506, "learning_rate": 4.403703703703704e-05, "loss": 0.3627, "step": 622 }, { "epoch": 0.20766666666666667, "grad_norm": 1.248021125793457, "learning_rate": 4.401851851851852e-05, "loss": 0.343, "step": 623 }, { "epoch": 0.208, "grad_norm": 1.4723520278930664, "learning_rate": 4.4000000000000006e-05, "loss": 0.336, "step": 624 }, { "epoch": 0.20833333333333334, "grad_norm": 1.3077497482299805, "learning_rate": 4.3981481481481486e-05, "loss": 0.3276, "step": 625 }, { "epoch": 0.20866666666666667, "grad_norm": 1.5073587894439697, "learning_rate": 4.396296296296297e-05, "loss": 0.3799, "step": 626 }, { "epoch": 0.209, "grad_norm": 1.3228164911270142, "learning_rate": 4.394444444444445e-05, "loss": 0.3856, "step": 627 }, { "epoch": 0.20933333333333334, "grad_norm": 1.4944725036621094, "learning_rate": 4.392592592592593e-05, "loss": 0.419, "step": 628 }, { "epoch": 0.20966666666666667, "grad_norm": 1.1977301836013794, "learning_rate": 4.390740740740741e-05, "loss": 0.2991, "step": 629 }, { "epoch": 0.21, "grad_norm": 1.3055118322372437, "learning_rate": 4.388888888888889e-05, "loss": 0.3119, "step": 630 }, { "epoch": 0.21033333333333334, "grad_norm": 1.2189877033233643, "learning_rate": 4.387037037037037e-05, "loss": 0.2759, "step": 631 }, { "epoch": 0.21066666666666667, "grad_norm": 1.5441529750823975, "learning_rate": 4.385185185185185e-05, "loss": 0.4359, "step": 632 }, { "epoch": 0.211, "grad_norm": 1.2876906394958496, "learning_rate": 4.383333333333334e-05, "loss": 0.3284, "step": 633 }, { "epoch": 0.21133333333333335, "grad_norm": 1.434372067451477, "learning_rate": 4.381481481481482e-05, "loss": 0.3375, "step": 634 }, { "epoch": 0.21166666666666667, "grad_norm": 1.7254409790039062, "learning_rate": 4.3796296296296294e-05, "loss": 0.3896, "step": 635 }, { "epoch": 0.212, "grad_norm": 1.5128728151321411, "learning_rate": 4.377777777777778e-05, "loss": 0.3626, "step": 636 }, { "epoch": 0.21233333333333335, "grad_norm": 1.5368988513946533, "learning_rate": 4.375925925925926e-05, "loss": 0.4239, "step": 637 }, { "epoch": 0.21266666666666667, "grad_norm": 1.424720048904419, "learning_rate": 4.374074074074074e-05, "loss": 0.3389, "step": 638 }, { "epoch": 0.213, "grad_norm": 1.552229881286621, "learning_rate": 4.3722222222222224e-05, "loss": 0.3948, "step": 639 }, { "epoch": 0.21333333333333335, "grad_norm": 1.3225212097167969, "learning_rate": 4.3703703703703705e-05, "loss": 0.3229, "step": 640 }, { "epoch": 0.21366666666666667, "grad_norm": 1.5340272188186646, "learning_rate": 4.3685185185185186e-05, "loss": 0.353, "step": 641 }, { "epoch": 0.214, "grad_norm": 1.5016579627990723, "learning_rate": 4.3666666666666666e-05, "loss": 0.3796, "step": 642 }, { "epoch": 0.21433333333333332, "grad_norm": 1.4141838550567627, "learning_rate": 4.364814814814815e-05, "loss": 0.3579, "step": 643 }, { "epoch": 0.21466666666666667, "grad_norm": 1.5683951377868652, "learning_rate": 4.3629629629629635e-05, "loss": 0.3968, "step": 644 }, { "epoch": 0.215, "grad_norm": 1.6390215158462524, "learning_rate": 4.3611111111111116e-05, "loss": 0.3948, "step": 645 }, { "epoch": 0.21533333333333332, "grad_norm": 1.4215831756591797, "learning_rate": 4.3592592592592596e-05, "loss": 0.3268, "step": 646 }, { "epoch": 0.21566666666666667, "grad_norm": 1.5521069765090942, "learning_rate": 4.357407407407408e-05, "loss": 0.37, "step": 647 }, { "epoch": 0.216, "grad_norm": 1.6645965576171875, "learning_rate": 4.355555555555556e-05, "loss": 0.3604, "step": 648 }, { "epoch": 0.21633333333333332, "grad_norm": 2.1203622817993164, "learning_rate": 4.353703703703704e-05, "loss": 0.2886, "step": 649 }, { "epoch": 0.21666666666666667, "grad_norm": 1.6731735467910767, "learning_rate": 4.351851851851852e-05, "loss": 0.4659, "step": 650 }, { "epoch": 0.217, "grad_norm": 1.7265139818191528, "learning_rate": 4.35e-05, "loss": 0.4333, "step": 651 }, { "epoch": 0.21733333333333332, "grad_norm": 1.688616156578064, "learning_rate": 4.348148148148148e-05, "loss": 0.4951, "step": 652 }, { "epoch": 0.21766666666666667, "grad_norm": 1.463356375694275, "learning_rate": 4.346296296296297e-05, "loss": 0.4063, "step": 653 }, { "epoch": 0.218, "grad_norm": 1.7236669063568115, "learning_rate": 4.344444444444445e-05, "loss": 0.361, "step": 654 }, { "epoch": 0.21833333333333332, "grad_norm": 1.686489462852478, "learning_rate": 4.342592592592592e-05, "loss": 0.3861, "step": 655 }, { "epoch": 0.21866666666666668, "grad_norm": 1.5238269567489624, "learning_rate": 4.340740740740741e-05, "loss": 0.4135, "step": 656 }, { "epoch": 0.219, "grad_norm": 1.6874879598617554, "learning_rate": 4.338888888888889e-05, "loss": 0.3647, "step": 657 }, { "epoch": 0.21933333333333332, "grad_norm": 2.1948039531707764, "learning_rate": 4.337037037037037e-05, "loss": 0.5016, "step": 658 }, { "epoch": 0.21966666666666668, "grad_norm": 1.5895353555679321, "learning_rate": 4.335185185185185e-05, "loss": 0.446, "step": 659 }, { "epoch": 0.22, "grad_norm": 1.27193284034729, "learning_rate": 4.3333333333333334e-05, "loss": 0.3792, "step": 660 }, { "epoch": 0.22033333333333333, "grad_norm": 1.3627662658691406, "learning_rate": 4.331481481481482e-05, "loss": 0.3545, "step": 661 }, { "epoch": 0.22066666666666668, "grad_norm": 1.4695639610290527, "learning_rate": 4.3296296296296296e-05, "loss": 0.3532, "step": 662 }, { "epoch": 0.221, "grad_norm": 1.4878876209259033, "learning_rate": 4.3277777777777776e-05, "loss": 0.3545, "step": 663 }, { "epoch": 0.22133333333333333, "grad_norm": 3.1272101402282715, "learning_rate": 4.325925925925926e-05, "loss": 0.4299, "step": 664 }, { "epoch": 0.22166666666666668, "grad_norm": 1.2898375988006592, "learning_rate": 4.3240740740740745e-05, "loss": 0.3351, "step": 665 }, { "epoch": 0.222, "grad_norm": 1.2541146278381348, "learning_rate": 4.3222222222222226e-05, "loss": 0.3142, "step": 666 }, { "epoch": 0.22233333333333333, "grad_norm": 1.3727818727493286, "learning_rate": 4.3203703703703706e-05, "loss": 0.3085, "step": 667 }, { "epoch": 0.22266666666666668, "grad_norm": 1.27913236618042, "learning_rate": 4.318518518518519e-05, "loss": 0.309, "step": 668 }, { "epoch": 0.223, "grad_norm": 2.137416124343872, "learning_rate": 4.316666666666667e-05, "loss": 0.4128, "step": 669 }, { "epoch": 0.22333333333333333, "grad_norm": 1.9899588823318481, "learning_rate": 4.314814814814815e-05, "loss": 0.4631, "step": 670 }, { "epoch": 0.22366666666666668, "grad_norm": 1.641781210899353, "learning_rate": 4.312962962962963e-05, "loss": 0.3815, "step": 671 }, { "epoch": 0.224, "grad_norm": 1.4118577241897583, "learning_rate": 4.311111111111111e-05, "loss": 0.3724, "step": 672 }, { "epoch": 0.22433333333333333, "grad_norm": 1.9290391206741333, "learning_rate": 4.30925925925926e-05, "loss": 0.389, "step": 673 }, { "epoch": 0.22466666666666665, "grad_norm": 1.6977159976959229, "learning_rate": 4.307407407407408e-05, "loss": 0.3942, "step": 674 }, { "epoch": 0.225, "grad_norm": 1.6948448419570923, "learning_rate": 4.305555555555556e-05, "loss": 0.4398, "step": 675 }, { "epoch": 0.22533333333333333, "grad_norm": 1.4764955043792725, "learning_rate": 4.303703703703704e-05, "loss": 0.355, "step": 676 }, { "epoch": 0.22566666666666665, "grad_norm": 1.4608086347579956, "learning_rate": 4.301851851851852e-05, "loss": 0.3243, "step": 677 }, { "epoch": 0.226, "grad_norm": 1.37698495388031, "learning_rate": 4.3e-05, "loss": 0.3181, "step": 678 }, { "epoch": 0.22633333333333333, "grad_norm": 1.5875524282455444, "learning_rate": 4.298148148148148e-05, "loss": 0.3883, "step": 679 }, { "epoch": 0.22666666666666666, "grad_norm": 1.4747446775436401, "learning_rate": 4.296296296296296e-05, "loss": 0.3369, "step": 680 }, { "epoch": 0.227, "grad_norm": 1.5260282754898071, "learning_rate": 4.294444444444445e-05, "loss": 0.3964, "step": 681 }, { "epoch": 0.22733333333333333, "grad_norm": 1.233856201171875, "learning_rate": 4.292592592592593e-05, "loss": 0.3045, "step": 682 }, { "epoch": 0.22766666666666666, "grad_norm": 1.457231044769287, "learning_rate": 4.2907407407407406e-05, "loss": 0.3105, "step": 683 }, { "epoch": 0.228, "grad_norm": 1.7392462491989136, "learning_rate": 4.2888888888888886e-05, "loss": 0.4476, "step": 684 }, { "epoch": 0.22833333333333333, "grad_norm": 1.24375581741333, "learning_rate": 4.2870370370370374e-05, "loss": 0.299, "step": 685 }, { "epoch": 0.22866666666666666, "grad_norm": 1.4087038040161133, "learning_rate": 4.2851851851851855e-05, "loss": 0.3275, "step": 686 }, { "epoch": 0.229, "grad_norm": 1.363183617591858, "learning_rate": 4.2833333333333335e-05, "loss": 0.3409, "step": 687 }, { "epoch": 0.22933333333333333, "grad_norm": 1.5464953184127808, "learning_rate": 4.2814814814814816e-05, "loss": 0.4566, "step": 688 }, { "epoch": 0.22966666666666666, "grad_norm": 1.367520809173584, "learning_rate": 4.2796296296296304e-05, "loss": 0.3163, "step": 689 }, { "epoch": 0.23, "grad_norm": 1.3377315998077393, "learning_rate": 4.277777777777778e-05, "loss": 0.3323, "step": 690 }, { "epoch": 0.23033333333333333, "grad_norm": 1.4911507368087769, "learning_rate": 4.275925925925926e-05, "loss": 0.4372, "step": 691 }, { "epoch": 0.23066666666666666, "grad_norm": 1.4127525091171265, "learning_rate": 4.274074074074074e-05, "loss": 0.3921, "step": 692 }, { "epoch": 0.231, "grad_norm": 1.4434276819229126, "learning_rate": 4.272222222222223e-05, "loss": 0.3533, "step": 693 }, { "epoch": 0.23133333333333334, "grad_norm": 1.6668140888214111, "learning_rate": 4.270370370370371e-05, "loss": 0.415, "step": 694 }, { "epoch": 0.23166666666666666, "grad_norm": 1.5912481546401978, "learning_rate": 4.268518518518519e-05, "loss": 0.4325, "step": 695 }, { "epoch": 0.232, "grad_norm": 1.3702155351638794, "learning_rate": 4.266666666666667e-05, "loss": 0.3341, "step": 696 }, { "epoch": 0.23233333333333334, "grad_norm": 1.495927333831787, "learning_rate": 4.264814814814815e-05, "loss": 0.3677, "step": 697 }, { "epoch": 0.23266666666666666, "grad_norm": 1.3089903593063354, "learning_rate": 4.262962962962963e-05, "loss": 0.3699, "step": 698 }, { "epoch": 0.233, "grad_norm": 1.5037627220153809, "learning_rate": 4.261111111111111e-05, "loss": 0.366, "step": 699 }, { "epoch": 0.23333333333333334, "grad_norm": 1.8529783487319946, "learning_rate": 4.259259259259259e-05, "loss": 0.383, "step": 700 }, { "epoch": 0.23366666666666666, "grad_norm": 1.354643702507019, "learning_rate": 4.257407407407408e-05, "loss": 0.327, "step": 701 }, { "epoch": 0.234, "grad_norm": 1.459773063659668, "learning_rate": 4.255555555555556e-05, "loss": 0.4143, "step": 702 }, { "epoch": 0.23433333333333334, "grad_norm": 1.311944603919983, "learning_rate": 4.2537037037037035e-05, "loss": 0.3305, "step": 703 }, { "epoch": 0.23466666666666666, "grad_norm": 1.5787670612335205, "learning_rate": 4.2518518518518515e-05, "loss": 0.3847, "step": 704 }, { "epoch": 0.235, "grad_norm": 1.3665950298309326, "learning_rate": 4.25e-05, "loss": 0.3096, "step": 705 }, { "epoch": 0.23533333333333334, "grad_norm": 1.4410815238952637, "learning_rate": 4.2481481481481484e-05, "loss": 0.3479, "step": 706 }, { "epoch": 0.23566666666666666, "grad_norm": 1.341604471206665, "learning_rate": 4.2462962962962965e-05, "loss": 0.3382, "step": 707 }, { "epoch": 0.236, "grad_norm": 1.330906867980957, "learning_rate": 4.2444444444444445e-05, "loss": 0.3712, "step": 708 }, { "epoch": 0.23633333333333334, "grad_norm": 1.7482727766036987, "learning_rate": 4.242592592592593e-05, "loss": 0.3968, "step": 709 }, { "epoch": 0.23666666666666666, "grad_norm": 1.3532570600509644, "learning_rate": 4.240740740740741e-05, "loss": 0.3501, "step": 710 }, { "epoch": 0.237, "grad_norm": 1.3667083978652954, "learning_rate": 4.238888888888889e-05, "loss": 0.3082, "step": 711 }, { "epoch": 0.23733333333333334, "grad_norm": 1.3330355882644653, "learning_rate": 4.237037037037037e-05, "loss": 0.3146, "step": 712 }, { "epoch": 0.23766666666666666, "grad_norm": 1.444445013999939, "learning_rate": 4.2351851851851856e-05, "loss": 0.3238, "step": 713 }, { "epoch": 0.238, "grad_norm": 1.5447372198104858, "learning_rate": 4.233333333333334e-05, "loss": 0.3801, "step": 714 }, { "epoch": 0.23833333333333334, "grad_norm": 5.3352766036987305, "learning_rate": 4.231481481481482e-05, "loss": 0.3106, "step": 715 }, { "epoch": 0.23866666666666667, "grad_norm": 1.4652068614959717, "learning_rate": 4.22962962962963e-05, "loss": 0.4253, "step": 716 }, { "epoch": 0.239, "grad_norm": 1.372683048248291, "learning_rate": 4.227777777777778e-05, "loss": 0.341, "step": 717 }, { "epoch": 0.23933333333333334, "grad_norm": 1.4031468629837036, "learning_rate": 4.225925925925926e-05, "loss": 0.3569, "step": 718 }, { "epoch": 0.23966666666666667, "grad_norm": 1.560187578201294, "learning_rate": 4.224074074074074e-05, "loss": 0.4454, "step": 719 }, { "epoch": 0.24, "grad_norm": 1.2413548231124878, "learning_rate": 4.222222222222222e-05, "loss": 0.2795, "step": 720 }, { "epoch": 0.24033333333333334, "grad_norm": 1.4622594118118286, "learning_rate": 4.220370370370371e-05, "loss": 0.3461, "step": 721 }, { "epoch": 0.24066666666666667, "grad_norm": 1.2350109815597534, "learning_rate": 4.218518518518519e-05, "loss": 0.2967, "step": 722 }, { "epoch": 0.241, "grad_norm": 1.4473148584365845, "learning_rate": 4.216666666666667e-05, "loss": 0.3649, "step": 723 }, { "epoch": 0.24133333333333334, "grad_norm": 1.241361141204834, "learning_rate": 4.2148148148148145e-05, "loss": 0.3009, "step": 724 }, { "epoch": 0.24166666666666667, "grad_norm": 1.592885971069336, "learning_rate": 4.212962962962963e-05, "loss": 0.5231, "step": 725 }, { "epoch": 0.242, "grad_norm": 1.7029653787612915, "learning_rate": 4.211111111111111e-05, "loss": 0.4607, "step": 726 }, { "epoch": 0.24233333333333335, "grad_norm": 1.3143640756607056, "learning_rate": 4.2092592592592594e-05, "loss": 0.3629, "step": 727 }, { "epoch": 0.24266666666666667, "grad_norm": 1.3931041955947876, "learning_rate": 4.2074074074074075e-05, "loss": 0.3732, "step": 728 }, { "epoch": 0.243, "grad_norm": 1.9713157415390015, "learning_rate": 4.205555555555556e-05, "loss": 0.3102, "step": 729 }, { "epoch": 0.24333333333333335, "grad_norm": 1.3356719017028809, "learning_rate": 4.203703703703704e-05, "loss": 0.3662, "step": 730 }, { "epoch": 0.24366666666666667, "grad_norm": 1.1621766090393066, "learning_rate": 4.201851851851852e-05, "loss": 0.2984, "step": 731 }, { "epoch": 0.244, "grad_norm": 1.4896650314331055, "learning_rate": 4.2e-05, "loss": 0.3934, "step": 732 }, { "epoch": 0.24433333333333335, "grad_norm": 1.5026004314422607, "learning_rate": 4.1981481481481485e-05, "loss": 0.3615, "step": 733 }, { "epoch": 0.24466666666666667, "grad_norm": 1.551168441772461, "learning_rate": 4.1962962962962966e-05, "loss": 0.4221, "step": 734 }, { "epoch": 0.245, "grad_norm": 1.2471182346343994, "learning_rate": 4.194444444444445e-05, "loss": 0.3377, "step": 735 }, { "epoch": 0.24533333333333332, "grad_norm": 1.4817787408828735, "learning_rate": 4.192592592592593e-05, "loss": 0.4391, "step": 736 }, { "epoch": 0.24566666666666667, "grad_norm": 2.5760746002197266, "learning_rate": 4.1907407407407415e-05, "loss": 0.3658, "step": 737 }, { "epoch": 0.246, "grad_norm": 1.2824112176895142, "learning_rate": 4.188888888888889e-05, "loss": 0.3386, "step": 738 }, { "epoch": 0.24633333333333332, "grad_norm": 1.3398665189743042, "learning_rate": 4.187037037037037e-05, "loss": 0.3355, "step": 739 }, { "epoch": 0.24666666666666667, "grad_norm": 2.7086310386657715, "learning_rate": 4.185185185185185e-05, "loss": 0.3924, "step": 740 }, { "epoch": 0.247, "grad_norm": 1.4166991710662842, "learning_rate": 4.183333333333334e-05, "loss": 0.3762, "step": 741 }, { "epoch": 0.24733333333333332, "grad_norm": 1.431833028793335, "learning_rate": 4.181481481481482e-05, "loss": 0.3361, "step": 742 }, { "epoch": 0.24766666666666667, "grad_norm": 1.174967885017395, "learning_rate": 4.17962962962963e-05, "loss": 0.3243, "step": 743 }, { "epoch": 0.248, "grad_norm": 1.613420844078064, "learning_rate": 4.177777777777778e-05, "loss": 0.408, "step": 744 }, { "epoch": 0.24833333333333332, "grad_norm": 1.5392343997955322, "learning_rate": 4.175925925925926e-05, "loss": 0.3402, "step": 745 }, { "epoch": 0.24866666666666667, "grad_norm": 1.2540733814239502, "learning_rate": 4.174074074074074e-05, "loss": 0.3011, "step": 746 }, { "epoch": 0.249, "grad_norm": 1.4702844619750977, "learning_rate": 4.172222222222222e-05, "loss": 0.3892, "step": 747 }, { "epoch": 0.24933333333333332, "grad_norm": 1.2698496580123901, "learning_rate": 4.1703703703703704e-05, "loss": 0.3453, "step": 748 }, { "epoch": 0.24966666666666668, "grad_norm": 1.626663327217102, "learning_rate": 4.168518518518519e-05, "loss": 0.4104, "step": 749 }, { "epoch": 0.25, "grad_norm": 1.4430832862854004, "learning_rate": 4.166666666666667e-05, "loss": 0.36, "step": 750 }, { "epoch": 0.25033333333333335, "grad_norm": 1.447880506515503, "learning_rate": 4.164814814814815e-05, "loss": 0.3233, "step": 751 }, { "epoch": 0.25066666666666665, "grad_norm": 1.1898837089538574, "learning_rate": 4.162962962962963e-05, "loss": 0.2602, "step": 752 }, { "epoch": 0.251, "grad_norm": 1.1591498851776123, "learning_rate": 4.1611111111111114e-05, "loss": 0.281, "step": 753 }, { "epoch": 0.25133333333333335, "grad_norm": 1.4322726726531982, "learning_rate": 4.1592592592592595e-05, "loss": 0.3518, "step": 754 }, { "epoch": 0.25166666666666665, "grad_norm": 1.4136521816253662, "learning_rate": 4.1574074074074076e-05, "loss": 0.315, "step": 755 }, { "epoch": 0.252, "grad_norm": 1.5453389883041382, "learning_rate": 4.155555555555556e-05, "loss": 0.3868, "step": 756 }, { "epoch": 0.25233333333333335, "grad_norm": 1.3190627098083496, "learning_rate": 4.1537037037037044e-05, "loss": 0.3316, "step": 757 }, { "epoch": 0.25266666666666665, "grad_norm": 2.359557628631592, "learning_rate": 4.1518518518518525e-05, "loss": 0.3961, "step": 758 }, { "epoch": 0.253, "grad_norm": 1.434320092201233, "learning_rate": 4.15e-05, "loss": 0.3363, "step": 759 }, { "epoch": 0.25333333333333335, "grad_norm": 1.565841794013977, "learning_rate": 4.148148148148148e-05, "loss": 0.3125, "step": 760 }, { "epoch": 0.25366666666666665, "grad_norm": 1.6295406818389893, "learning_rate": 4.146296296296297e-05, "loss": 0.3873, "step": 761 }, { "epoch": 0.254, "grad_norm": 1.608017086982727, "learning_rate": 4.144444444444445e-05, "loss": 0.3, "step": 762 }, { "epoch": 0.25433333333333336, "grad_norm": 1.3441147804260254, "learning_rate": 4.142592592592593e-05, "loss": 0.3284, "step": 763 }, { "epoch": 0.25466666666666665, "grad_norm": 1.3225023746490479, "learning_rate": 4.140740740740741e-05, "loss": 0.3153, "step": 764 }, { "epoch": 0.255, "grad_norm": 1.2415051460266113, "learning_rate": 4.138888888888889e-05, "loss": 0.3073, "step": 765 }, { "epoch": 0.25533333333333336, "grad_norm": 1.602225422859192, "learning_rate": 4.137037037037037e-05, "loss": 0.3702, "step": 766 }, { "epoch": 0.25566666666666665, "grad_norm": 1.104784369468689, "learning_rate": 4.135185185185185e-05, "loss": 0.2982, "step": 767 }, { "epoch": 0.256, "grad_norm": 1.3152776956558228, "learning_rate": 4.133333333333333e-05, "loss": 0.3094, "step": 768 }, { "epoch": 0.25633333333333336, "grad_norm": 1.5492266416549683, "learning_rate": 4.131481481481482e-05, "loss": 0.3501, "step": 769 }, { "epoch": 0.25666666666666665, "grad_norm": 1.6950374841690063, "learning_rate": 4.12962962962963e-05, "loss": 0.3718, "step": 770 }, { "epoch": 0.257, "grad_norm": 1.4196640253067017, "learning_rate": 4.127777777777778e-05, "loss": 0.3662, "step": 771 }, { "epoch": 0.25733333333333336, "grad_norm": 1.5333114862442017, "learning_rate": 4.1259259259259256e-05, "loss": 0.3552, "step": 772 }, { "epoch": 0.25766666666666665, "grad_norm": 1.3045767545700073, "learning_rate": 4.1240740740740744e-05, "loss": 0.3391, "step": 773 }, { "epoch": 0.258, "grad_norm": 1.4657682180404663, "learning_rate": 4.1222222222222224e-05, "loss": 0.3913, "step": 774 }, { "epoch": 0.25833333333333336, "grad_norm": 1.4723056554794312, "learning_rate": 4.1203703703703705e-05, "loss": 0.4126, "step": 775 }, { "epoch": 0.25866666666666666, "grad_norm": 1.1944102048873901, "learning_rate": 4.1185185185185186e-05, "loss": 0.3006, "step": 776 }, { "epoch": 0.259, "grad_norm": 1.2445132732391357, "learning_rate": 4.116666666666667e-05, "loss": 0.2764, "step": 777 }, { "epoch": 0.25933333333333336, "grad_norm": 1.335518479347229, "learning_rate": 4.1148148148148154e-05, "loss": 0.3098, "step": 778 }, { "epoch": 0.25966666666666666, "grad_norm": 1.24089777469635, "learning_rate": 4.112962962962963e-05, "loss": 0.3322, "step": 779 }, { "epoch": 0.26, "grad_norm": 1.3913564682006836, "learning_rate": 4.111111111111111e-05, "loss": 0.3582, "step": 780 }, { "epoch": 0.26033333333333336, "grad_norm": 1.2934868335723877, "learning_rate": 4.1092592592592597e-05, "loss": 0.3316, "step": 781 }, { "epoch": 0.26066666666666666, "grad_norm": 1.701065182685852, "learning_rate": 4.107407407407408e-05, "loss": 0.4077, "step": 782 }, { "epoch": 0.261, "grad_norm": 1.7660771608352661, "learning_rate": 4.105555555555556e-05, "loss": 0.43, "step": 783 }, { "epoch": 0.2613333333333333, "grad_norm": 1.3048421144485474, "learning_rate": 4.103703703703704e-05, "loss": 0.3636, "step": 784 }, { "epoch": 0.26166666666666666, "grad_norm": 1.1929850578308105, "learning_rate": 4.101851851851852e-05, "loss": 0.3354, "step": 785 }, { "epoch": 0.262, "grad_norm": 1.207017421722412, "learning_rate": 4.1e-05, "loss": 0.3277, "step": 786 }, { "epoch": 0.2623333333333333, "grad_norm": 1.207348108291626, "learning_rate": 4.098148148148148e-05, "loss": 0.2705, "step": 787 }, { "epoch": 0.26266666666666666, "grad_norm": 1.398911476135254, "learning_rate": 4.096296296296296e-05, "loss": 0.4169, "step": 788 }, { "epoch": 0.263, "grad_norm": 1.3541525602340698, "learning_rate": 4.094444444444445e-05, "loss": 0.3539, "step": 789 }, { "epoch": 0.2633333333333333, "grad_norm": 1.4394408464431763, "learning_rate": 4.092592592592593e-05, "loss": 0.3675, "step": 790 }, { "epoch": 0.26366666666666666, "grad_norm": 1.5678784847259521, "learning_rate": 4.090740740740741e-05, "loss": 0.3822, "step": 791 }, { "epoch": 0.264, "grad_norm": 1.7356022596359253, "learning_rate": 4.088888888888889e-05, "loss": 0.4107, "step": 792 }, { "epoch": 0.2643333333333333, "grad_norm": 1.1587564945220947, "learning_rate": 4.087037037037037e-05, "loss": 0.2792, "step": 793 }, { "epoch": 0.26466666666666666, "grad_norm": 1.576454758644104, "learning_rate": 4.0851851851851853e-05, "loss": 0.3757, "step": 794 }, { "epoch": 0.265, "grad_norm": 1.5076576471328735, "learning_rate": 4.0833333333333334e-05, "loss": 0.3876, "step": 795 }, { "epoch": 0.2653333333333333, "grad_norm": 1.4706981182098389, "learning_rate": 4.0814814814814815e-05, "loss": 0.3458, "step": 796 }, { "epoch": 0.26566666666666666, "grad_norm": 1.6495285034179688, "learning_rate": 4.0796296296296296e-05, "loss": 0.369, "step": 797 }, { "epoch": 0.266, "grad_norm": 1.2885559797286987, "learning_rate": 4.0777777777777783e-05, "loss": 0.3476, "step": 798 }, { "epoch": 0.2663333333333333, "grad_norm": 1.2338265180587769, "learning_rate": 4.0759259259259264e-05, "loss": 0.351, "step": 799 }, { "epoch": 0.26666666666666666, "grad_norm": 1.3814194202423096, "learning_rate": 4.074074074074074e-05, "loss": 0.353, "step": 800 }, { "epoch": 0.267, "grad_norm": 1.3949973583221436, "learning_rate": 4.0722222222222226e-05, "loss": 0.3971, "step": 801 }, { "epoch": 0.2673333333333333, "grad_norm": 1.2781027555465698, "learning_rate": 4.0703703703703707e-05, "loss": 0.3596, "step": 802 }, { "epoch": 0.26766666666666666, "grad_norm": 1.775307536125183, "learning_rate": 4.068518518518519e-05, "loss": 0.5056, "step": 803 }, { "epoch": 0.268, "grad_norm": 1.4195681810379028, "learning_rate": 4.066666666666667e-05, "loss": 0.3162, "step": 804 }, { "epoch": 0.2683333333333333, "grad_norm": 1.6774126291275024, "learning_rate": 4.064814814814815e-05, "loss": 0.3683, "step": 805 }, { "epoch": 0.26866666666666666, "grad_norm": 1.1482571363449097, "learning_rate": 4.0629629629629636e-05, "loss": 0.34, "step": 806 }, { "epoch": 0.269, "grad_norm": 1.2635096311569214, "learning_rate": 4.061111111111111e-05, "loss": 0.3663, "step": 807 }, { "epoch": 0.2693333333333333, "grad_norm": 1.5141239166259766, "learning_rate": 4.059259259259259e-05, "loss": 0.3972, "step": 808 }, { "epoch": 0.26966666666666667, "grad_norm": 1.4469480514526367, "learning_rate": 4.057407407407408e-05, "loss": 0.3729, "step": 809 }, { "epoch": 0.27, "grad_norm": 1.3128126859664917, "learning_rate": 4.055555555555556e-05, "loss": 0.3025, "step": 810 }, { "epoch": 0.2703333333333333, "grad_norm": 1.5247198343276978, "learning_rate": 4.053703703703704e-05, "loss": 0.3752, "step": 811 }, { "epoch": 0.27066666666666667, "grad_norm": 1.475996732711792, "learning_rate": 4.051851851851852e-05, "loss": 0.3655, "step": 812 }, { "epoch": 0.271, "grad_norm": 1.3385744094848633, "learning_rate": 4.05e-05, "loss": 0.3421, "step": 813 }, { "epoch": 0.2713333333333333, "grad_norm": 1.6504689455032349, "learning_rate": 4.048148148148148e-05, "loss": 0.3838, "step": 814 }, { "epoch": 0.27166666666666667, "grad_norm": 1.456794261932373, "learning_rate": 4.0462962962962963e-05, "loss": 0.3658, "step": 815 }, { "epoch": 0.272, "grad_norm": 1.3881524801254272, "learning_rate": 4.0444444444444444e-05, "loss": 0.3343, "step": 816 }, { "epoch": 0.2723333333333333, "grad_norm": 1.5507861375808716, "learning_rate": 4.0425925925925925e-05, "loss": 0.3516, "step": 817 }, { "epoch": 0.27266666666666667, "grad_norm": 1.2345412969589233, "learning_rate": 4.040740740740741e-05, "loss": 0.2705, "step": 818 }, { "epoch": 0.273, "grad_norm": 1.2728513479232788, "learning_rate": 4.038888888888889e-05, "loss": 0.3007, "step": 819 }, { "epoch": 0.2733333333333333, "grad_norm": 1.4103991985321045, "learning_rate": 4.0370370370370374e-05, "loss": 0.3626, "step": 820 }, { "epoch": 0.27366666666666667, "grad_norm": 1.4325361251831055, "learning_rate": 4.0351851851851855e-05, "loss": 0.3785, "step": 821 }, { "epoch": 0.274, "grad_norm": 1.4200563430786133, "learning_rate": 4.0333333333333336e-05, "loss": 0.378, "step": 822 }, { "epoch": 0.2743333333333333, "grad_norm": 1.456470012664795, "learning_rate": 4.0314814814814816e-05, "loss": 0.4219, "step": 823 }, { "epoch": 0.27466666666666667, "grad_norm": 1.28714120388031, "learning_rate": 4.02962962962963e-05, "loss": 0.3838, "step": 824 }, { "epoch": 0.275, "grad_norm": 1.287011981010437, "learning_rate": 4.027777777777778e-05, "loss": 0.3253, "step": 825 }, { "epoch": 0.2753333333333333, "grad_norm": 1.292240858078003, "learning_rate": 4.0259259259259266e-05, "loss": 0.3134, "step": 826 }, { "epoch": 0.27566666666666667, "grad_norm": 1.7025339603424072, "learning_rate": 4.024074074074074e-05, "loss": 0.5296, "step": 827 }, { "epoch": 0.276, "grad_norm": 1.3449290990829468, "learning_rate": 4.022222222222222e-05, "loss": 0.333, "step": 828 }, { "epoch": 0.2763333333333333, "grad_norm": 1.5160585641860962, "learning_rate": 4.020370370370371e-05, "loss": 0.3376, "step": 829 }, { "epoch": 0.27666666666666667, "grad_norm": 1.1866682767868042, "learning_rate": 4.018518518518519e-05, "loss": 0.2871, "step": 830 }, { "epoch": 0.277, "grad_norm": 1.785448431968689, "learning_rate": 4.016666666666667e-05, "loss": 0.3198, "step": 831 }, { "epoch": 0.2773333333333333, "grad_norm": 1.6618571281433105, "learning_rate": 4.014814814814815e-05, "loss": 0.3102, "step": 832 }, { "epoch": 0.2776666666666667, "grad_norm": 1.4342378377914429, "learning_rate": 4.012962962962963e-05, "loss": 0.4192, "step": 833 }, { "epoch": 0.278, "grad_norm": 1.165028691291809, "learning_rate": 4.011111111111111e-05, "loss": 0.301, "step": 834 }, { "epoch": 0.2783333333333333, "grad_norm": 1.4417414665222168, "learning_rate": 4.009259259259259e-05, "loss": 0.2726, "step": 835 }, { "epoch": 0.2786666666666667, "grad_norm": 1.2854143381118774, "learning_rate": 4.007407407407407e-05, "loss": 0.3716, "step": 836 }, { "epoch": 0.279, "grad_norm": 1.2607567310333252, "learning_rate": 4.0055555555555554e-05, "loss": 0.3157, "step": 837 }, { "epoch": 0.2793333333333333, "grad_norm": 1.3052359819412231, "learning_rate": 4.003703703703704e-05, "loss": 0.3762, "step": 838 }, { "epoch": 0.2796666666666667, "grad_norm": 1.495180606842041, "learning_rate": 4.001851851851852e-05, "loss": 0.4062, "step": 839 }, { "epoch": 0.28, "grad_norm": 1.353929877281189, "learning_rate": 4e-05, "loss": 0.3111, "step": 840 }, { "epoch": 0.2803333333333333, "grad_norm": 1.4994372129440308, "learning_rate": 3.9981481481481484e-05, "loss": 0.3643, "step": 841 }, { "epoch": 0.2806666666666667, "grad_norm": 1.097528338432312, "learning_rate": 3.9962962962962965e-05, "loss": 0.3381, "step": 842 }, { "epoch": 0.281, "grad_norm": 1.348486065864563, "learning_rate": 3.9944444444444446e-05, "loss": 0.3263, "step": 843 }, { "epoch": 0.2813333333333333, "grad_norm": 1.4403632879257202, "learning_rate": 3.9925925925925926e-05, "loss": 0.4281, "step": 844 }, { "epoch": 0.2816666666666667, "grad_norm": 1.3258768320083618, "learning_rate": 3.990740740740741e-05, "loss": 0.3579, "step": 845 }, { "epoch": 0.282, "grad_norm": 1.3752247095108032, "learning_rate": 3.9888888888888895e-05, "loss": 0.443, "step": 846 }, { "epoch": 0.2823333333333333, "grad_norm": 1.6445602178573608, "learning_rate": 3.9870370370370376e-05, "loss": 0.3588, "step": 847 }, { "epoch": 0.2826666666666667, "grad_norm": 1.41145658493042, "learning_rate": 3.985185185185185e-05, "loss": 0.3526, "step": 848 }, { "epoch": 0.283, "grad_norm": 5.141585350036621, "learning_rate": 3.983333333333333e-05, "loss": 0.3553, "step": 849 }, { "epoch": 0.2833333333333333, "grad_norm": 1.3255246877670288, "learning_rate": 3.981481481481482e-05, "loss": 0.352, "step": 850 }, { "epoch": 0.2836666666666667, "grad_norm": 1.4084287881851196, "learning_rate": 3.97962962962963e-05, "loss": 0.3834, "step": 851 }, { "epoch": 0.284, "grad_norm": 1.3366891145706177, "learning_rate": 3.977777777777778e-05, "loss": 0.3865, "step": 852 }, { "epoch": 0.2843333333333333, "grad_norm": 1.256201148033142, "learning_rate": 3.975925925925926e-05, "loss": 0.3187, "step": 853 }, { "epoch": 0.2846666666666667, "grad_norm": 1.4136888980865479, "learning_rate": 3.974074074074075e-05, "loss": 0.3765, "step": 854 }, { "epoch": 0.285, "grad_norm": 1.1720857620239258, "learning_rate": 3.972222222222222e-05, "loss": 0.2947, "step": 855 }, { "epoch": 0.2853333333333333, "grad_norm": 1.7148245573043823, "learning_rate": 3.97037037037037e-05, "loss": 0.3416, "step": 856 }, { "epoch": 0.2856666666666667, "grad_norm": 1.4059994220733643, "learning_rate": 3.968518518518518e-05, "loss": 0.3528, "step": 857 }, { "epoch": 0.286, "grad_norm": 1.571160078048706, "learning_rate": 3.966666666666667e-05, "loss": 0.3772, "step": 858 }, { "epoch": 0.28633333333333333, "grad_norm": 1.449386715888977, "learning_rate": 3.964814814814815e-05, "loss": 0.3623, "step": 859 }, { "epoch": 0.2866666666666667, "grad_norm": 1.1920171976089478, "learning_rate": 3.962962962962963e-05, "loss": 0.2957, "step": 860 }, { "epoch": 0.287, "grad_norm": 1.3213661909103394, "learning_rate": 3.961111111111111e-05, "loss": 0.3546, "step": 861 }, { "epoch": 0.28733333333333333, "grad_norm": 1.5201573371887207, "learning_rate": 3.9592592592592594e-05, "loss": 0.3355, "step": 862 }, { "epoch": 0.2876666666666667, "grad_norm": 1.8718082904815674, "learning_rate": 3.9574074074074075e-05, "loss": 0.329, "step": 863 }, { "epoch": 0.288, "grad_norm": 1.5103901624679565, "learning_rate": 3.9555555555555556e-05, "loss": 0.3645, "step": 864 }, { "epoch": 0.28833333333333333, "grad_norm": 1.3018239736557007, "learning_rate": 3.9537037037037036e-05, "loss": 0.3111, "step": 865 }, { "epoch": 0.2886666666666667, "grad_norm": 1.6183236837387085, "learning_rate": 3.9518518518518524e-05, "loss": 0.4415, "step": 866 }, { "epoch": 0.289, "grad_norm": 1.3570756912231445, "learning_rate": 3.9500000000000005e-05, "loss": 0.294, "step": 867 }, { "epoch": 0.28933333333333333, "grad_norm": 1.2522437572479248, "learning_rate": 3.9481481481481485e-05, "loss": 0.3571, "step": 868 }, { "epoch": 0.2896666666666667, "grad_norm": 1.3651636838912964, "learning_rate": 3.946296296296296e-05, "loss": 0.3585, "step": 869 }, { "epoch": 0.29, "grad_norm": 1.2567559480667114, "learning_rate": 3.944444444444445e-05, "loss": 0.3034, "step": 870 }, { "epoch": 0.29033333333333333, "grad_norm": 1.446004867553711, "learning_rate": 3.942592592592593e-05, "loss": 0.3542, "step": 871 }, { "epoch": 0.2906666666666667, "grad_norm": 1.6699246168136597, "learning_rate": 3.940740740740741e-05, "loss": 0.3636, "step": 872 }, { "epoch": 0.291, "grad_norm": 1.4893025159835815, "learning_rate": 3.938888888888889e-05, "loss": 0.346, "step": 873 }, { "epoch": 0.29133333333333333, "grad_norm": 1.4684242010116577, "learning_rate": 3.937037037037038e-05, "loss": 0.3505, "step": 874 }, { "epoch": 0.2916666666666667, "grad_norm": 1.2339351177215576, "learning_rate": 3.935185185185186e-05, "loss": 0.3128, "step": 875 }, { "epoch": 0.292, "grad_norm": 1.173764705657959, "learning_rate": 3.933333333333333e-05, "loss": 0.2901, "step": 876 }, { "epoch": 0.29233333333333333, "grad_norm": 1.3826504945755005, "learning_rate": 3.931481481481481e-05, "loss": 0.3294, "step": 877 }, { "epoch": 0.2926666666666667, "grad_norm": 1.2246149778366089, "learning_rate": 3.92962962962963e-05, "loss": 0.3178, "step": 878 }, { "epoch": 0.293, "grad_norm": 1.195994257926941, "learning_rate": 3.927777777777778e-05, "loss": 0.3298, "step": 879 }, { "epoch": 0.29333333333333333, "grad_norm": 1.223406434059143, "learning_rate": 3.925925925925926e-05, "loss": 0.3619, "step": 880 }, { "epoch": 0.2936666666666667, "grad_norm": 1.3600610494613647, "learning_rate": 3.924074074074074e-05, "loss": 0.3787, "step": 881 }, { "epoch": 0.294, "grad_norm": 1.4605013132095337, "learning_rate": 3.922222222222223e-05, "loss": 0.4291, "step": 882 }, { "epoch": 0.29433333333333334, "grad_norm": 1.3966978788375854, "learning_rate": 3.9203703703703704e-05, "loss": 0.3685, "step": 883 }, { "epoch": 0.2946666666666667, "grad_norm": 1.7487388849258423, "learning_rate": 3.9185185185185185e-05, "loss": 0.4585, "step": 884 }, { "epoch": 0.295, "grad_norm": 1.5563944578170776, "learning_rate": 3.9166666666666665e-05, "loss": 0.3958, "step": 885 }, { "epoch": 0.29533333333333334, "grad_norm": 1.1526061296463013, "learning_rate": 3.914814814814815e-05, "loss": 0.3108, "step": 886 }, { "epoch": 0.2956666666666667, "grad_norm": 2.1721689701080322, "learning_rate": 3.9129629629629634e-05, "loss": 0.3015, "step": 887 }, { "epoch": 0.296, "grad_norm": 1.611386775970459, "learning_rate": 3.9111111111111115e-05, "loss": 0.4427, "step": 888 }, { "epoch": 0.29633333333333334, "grad_norm": 1.6230885982513428, "learning_rate": 3.909259259259259e-05, "loss": 0.3378, "step": 889 }, { "epoch": 0.2966666666666667, "grad_norm": 1.3626060485839844, "learning_rate": 3.9074074074074076e-05, "loss": 0.3879, "step": 890 }, { "epoch": 0.297, "grad_norm": 1.6999090909957886, "learning_rate": 3.905555555555556e-05, "loss": 0.4033, "step": 891 }, { "epoch": 0.29733333333333334, "grad_norm": 1.3023254871368408, "learning_rate": 3.903703703703704e-05, "loss": 0.3567, "step": 892 }, { "epoch": 0.2976666666666667, "grad_norm": 1.7830791473388672, "learning_rate": 3.901851851851852e-05, "loss": 0.3597, "step": 893 }, { "epoch": 0.298, "grad_norm": 1.5148744583129883, "learning_rate": 3.9000000000000006e-05, "loss": 0.3728, "step": 894 }, { "epoch": 0.29833333333333334, "grad_norm": 1.3890525102615356, "learning_rate": 3.898148148148149e-05, "loss": 0.3208, "step": 895 }, { "epoch": 0.2986666666666667, "grad_norm": 1.2798212766647339, "learning_rate": 3.896296296296296e-05, "loss": 0.346, "step": 896 }, { "epoch": 0.299, "grad_norm": 1.3253546953201294, "learning_rate": 3.894444444444444e-05, "loss": 0.3252, "step": 897 }, { "epoch": 0.29933333333333334, "grad_norm": 1.3032668828964233, "learning_rate": 3.892592592592593e-05, "loss": 0.3739, "step": 898 }, { "epoch": 0.2996666666666667, "grad_norm": 1.2352277040481567, "learning_rate": 3.890740740740741e-05, "loss": 0.3514, "step": 899 }, { "epoch": 0.3, "grad_norm": 1.3053611516952515, "learning_rate": 3.888888888888889e-05, "loss": 0.3875, "step": 900 }, { "epoch": 0.30033333333333334, "grad_norm": 1.0773141384124756, "learning_rate": 3.887037037037037e-05, "loss": 0.2743, "step": 901 }, { "epoch": 0.3006666666666667, "grad_norm": 1.2912036180496216, "learning_rate": 3.885185185185186e-05, "loss": 0.3447, "step": 902 }, { "epoch": 0.301, "grad_norm": 1.272647500038147, "learning_rate": 3.883333333333333e-05, "loss": 0.3419, "step": 903 }, { "epoch": 0.30133333333333334, "grad_norm": 1.4251070022583008, "learning_rate": 3.8814814814814814e-05, "loss": 0.3738, "step": 904 }, { "epoch": 0.3016666666666667, "grad_norm": 1.3882228136062622, "learning_rate": 3.8796296296296295e-05, "loss": 0.3295, "step": 905 }, { "epoch": 0.302, "grad_norm": 1.5582339763641357, "learning_rate": 3.877777777777778e-05, "loss": 0.4242, "step": 906 }, { "epoch": 0.30233333333333334, "grad_norm": 1.359479308128357, "learning_rate": 3.875925925925926e-05, "loss": 0.3797, "step": 907 }, { "epoch": 0.30266666666666664, "grad_norm": 1.6548995971679688, "learning_rate": 3.8740740740740744e-05, "loss": 0.3808, "step": 908 }, { "epoch": 0.303, "grad_norm": 1.2039756774902344, "learning_rate": 3.8722222222222225e-05, "loss": 0.3139, "step": 909 }, { "epoch": 0.30333333333333334, "grad_norm": 1.0794775485992432, "learning_rate": 3.8703703703703705e-05, "loss": 0.2616, "step": 910 }, { "epoch": 0.30366666666666664, "grad_norm": 1.4288307428359985, "learning_rate": 3.8685185185185186e-05, "loss": 0.3401, "step": 911 }, { "epoch": 0.304, "grad_norm": 1.3045710325241089, "learning_rate": 3.866666666666667e-05, "loss": 0.3058, "step": 912 }, { "epoch": 0.30433333333333334, "grad_norm": 1.2060816287994385, "learning_rate": 3.864814814814815e-05, "loss": 0.3089, "step": 913 }, { "epoch": 0.30466666666666664, "grad_norm": 1.7363193035125732, "learning_rate": 3.8629629629629635e-05, "loss": 0.3443, "step": 914 }, { "epoch": 0.305, "grad_norm": 1.6673532724380493, "learning_rate": 3.8611111111111116e-05, "loss": 0.3454, "step": 915 }, { "epoch": 0.30533333333333335, "grad_norm": 1.3578459024429321, "learning_rate": 3.85925925925926e-05, "loss": 0.3108, "step": 916 }, { "epoch": 0.30566666666666664, "grad_norm": 1.2931619882583618, "learning_rate": 3.857407407407407e-05, "loss": 0.2997, "step": 917 }, { "epoch": 0.306, "grad_norm": 1.2525206804275513, "learning_rate": 3.855555555555556e-05, "loss": 0.3154, "step": 918 }, { "epoch": 0.30633333333333335, "grad_norm": 1.3815010786056519, "learning_rate": 3.853703703703704e-05, "loss": 0.3254, "step": 919 }, { "epoch": 0.30666666666666664, "grad_norm": 1.4179706573486328, "learning_rate": 3.851851851851852e-05, "loss": 0.3767, "step": 920 }, { "epoch": 0.307, "grad_norm": 1.3598191738128662, "learning_rate": 3.85e-05, "loss": 0.3513, "step": 921 }, { "epoch": 0.30733333333333335, "grad_norm": 1.7877548933029175, "learning_rate": 3.848148148148149e-05, "loss": 0.3614, "step": 922 }, { "epoch": 0.30766666666666664, "grad_norm": 1.3656010627746582, "learning_rate": 3.846296296296297e-05, "loss": 0.3425, "step": 923 }, { "epoch": 0.308, "grad_norm": 4.808995246887207, "learning_rate": 3.844444444444444e-05, "loss": 0.307, "step": 924 }, { "epoch": 0.30833333333333335, "grad_norm": 1.1662079095840454, "learning_rate": 3.8425925925925924e-05, "loss": 0.3141, "step": 925 }, { "epoch": 0.30866666666666664, "grad_norm": 1.2092838287353516, "learning_rate": 3.840740740740741e-05, "loss": 0.3022, "step": 926 }, { "epoch": 0.309, "grad_norm": 1.454504132270813, "learning_rate": 3.838888888888889e-05, "loss": 0.3933, "step": 927 }, { "epoch": 0.30933333333333335, "grad_norm": 2.092907667160034, "learning_rate": 3.837037037037037e-05, "loss": 0.3429, "step": 928 }, { "epoch": 0.30966666666666665, "grad_norm": 1.180614948272705, "learning_rate": 3.8351851851851854e-05, "loss": 0.2756, "step": 929 }, { "epoch": 0.31, "grad_norm": 1.3005765676498413, "learning_rate": 3.8333333333333334e-05, "loss": 0.3362, "step": 930 }, { "epoch": 0.31033333333333335, "grad_norm": 1.469460129737854, "learning_rate": 3.8314814814814815e-05, "loss": 0.3987, "step": 931 }, { "epoch": 0.31066666666666665, "grad_norm": NaN, "learning_rate": 3.8314814814814815e-05, "loss": 0.3286, "step": 932 }, { "epoch": 0.311, "grad_norm": 1.983880639076233, "learning_rate": 3.8296296296296296e-05, "loss": 0.3333, "step": 933 }, { "epoch": 0.31133333333333335, "grad_norm": 1.4871864318847656, "learning_rate": 3.827777777777778e-05, "loss": 0.3111, "step": 934 }, { "epoch": 0.31166666666666665, "grad_norm": 1.5106232166290283, "learning_rate": 3.8259259259259264e-05, "loss": 0.3756, "step": 935 }, { "epoch": 0.312, "grad_norm": 1.415174126625061, "learning_rate": 3.8240740740740745e-05, "loss": 0.3393, "step": 936 }, { "epoch": 0.31233333333333335, "grad_norm": 1.444771409034729, "learning_rate": 3.8222222222222226e-05, "loss": 0.3537, "step": 937 }, { "epoch": 0.31266666666666665, "grad_norm": 1.3916597366333008, "learning_rate": 3.820370370370371e-05, "loss": 0.3592, "step": 938 }, { "epoch": 0.313, "grad_norm": 1.3703736066818237, "learning_rate": 3.818518518518519e-05, "loss": 0.3531, "step": 939 }, { "epoch": 0.31333333333333335, "grad_norm": 2.362666606903076, "learning_rate": 3.816666666666667e-05, "loss": 0.3717, "step": 940 }, { "epoch": 0.31366666666666665, "grad_norm": 1.9897328615188599, "learning_rate": 3.814814814814815e-05, "loss": 0.5176, "step": 941 }, { "epoch": 0.314, "grad_norm": 1.2957475185394287, "learning_rate": 3.812962962962963e-05, "loss": 0.332, "step": 942 }, { "epoch": 0.31433333333333335, "grad_norm": 1.3311879634857178, "learning_rate": 3.811111111111112e-05, "loss": 0.3401, "step": 943 }, { "epoch": 0.31466666666666665, "grad_norm": 2.005011558532715, "learning_rate": 3.80925925925926e-05, "loss": 0.3492, "step": 944 }, { "epoch": 0.315, "grad_norm": 1.47440505027771, "learning_rate": 3.807407407407408e-05, "loss": 0.3661, "step": 945 }, { "epoch": 0.31533333333333335, "grad_norm": 1.5715532302856445, "learning_rate": 3.805555555555555e-05, "loss": 0.2935, "step": 946 }, { "epoch": 0.31566666666666665, "grad_norm": 1.3023148775100708, "learning_rate": 3.803703703703704e-05, "loss": 0.331, "step": 947 }, { "epoch": 0.316, "grad_norm": 1.3504129648208618, "learning_rate": 3.801851851851852e-05, "loss": 0.3112, "step": 948 }, { "epoch": 0.31633333333333336, "grad_norm": 2.1642982959747314, "learning_rate": 3.8e-05, "loss": 0.3065, "step": 949 }, { "epoch": 0.31666666666666665, "grad_norm": 2.3918402194976807, "learning_rate": 3.798148148148148e-05, "loss": 0.3791, "step": 950 }, { "epoch": 0.317, "grad_norm": 1.3676456212997437, "learning_rate": 3.7962962962962964e-05, "loss": 0.3289, "step": 951 }, { "epoch": 0.31733333333333336, "grad_norm": 1.2880066633224487, "learning_rate": 3.7944444444444444e-05, "loss": 0.2805, "step": 952 }, { "epoch": 0.31766666666666665, "grad_norm": 1.68917977809906, "learning_rate": 3.7925925925925925e-05, "loss": 0.3794, "step": 953 }, { "epoch": 0.318, "grad_norm": 1.5723520517349243, "learning_rate": 3.7907407407407406e-05, "loss": 0.2986, "step": 954 }, { "epoch": 0.31833333333333336, "grad_norm": 1.8405094146728516, "learning_rate": 3.7888888888888894e-05, "loss": 0.3654, "step": 955 }, { "epoch": 0.31866666666666665, "grad_norm": 1.9899356365203857, "learning_rate": 3.7870370370370374e-05, "loss": 0.4314, "step": 956 }, { "epoch": 0.319, "grad_norm": 1.42067289352417, "learning_rate": 3.7851851851851855e-05, "loss": 0.3136, "step": 957 }, { "epoch": 0.31933333333333336, "grad_norm": 1.519590973854065, "learning_rate": 3.7833333333333336e-05, "loss": 0.3896, "step": 958 }, { "epoch": 0.31966666666666665, "grad_norm": 1.5198662281036377, "learning_rate": 3.781481481481482e-05, "loss": 0.3821, "step": 959 }, { "epoch": 0.32, "grad_norm": 1.918550729751587, "learning_rate": 3.77962962962963e-05, "loss": 0.3349, "step": 960 }, { "epoch": 0.32033333333333336, "grad_norm": 1.3605577945709229, "learning_rate": 3.777777777777778e-05, "loss": 0.3489, "step": 961 }, { "epoch": 0.32066666666666666, "grad_norm": 1.2916854619979858, "learning_rate": 3.775925925925926e-05, "loss": 0.347, "step": 962 }, { "epoch": 0.321, "grad_norm": 1.572582721710205, "learning_rate": 3.774074074074074e-05, "loss": 0.3121, "step": 963 }, { "epoch": 0.32133333333333336, "grad_norm": 1.4521883726119995, "learning_rate": 3.772222222222223e-05, "loss": 0.3555, "step": 964 }, { "epoch": 0.32166666666666666, "grad_norm": 2.1491146087646484, "learning_rate": 3.770370370370371e-05, "loss": 0.3366, "step": 965 }, { "epoch": 0.322, "grad_norm": 1.4262841939926147, "learning_rate": 3.768518518518518e-05, "loss": 0.3533, "step": 966 }, { "epoch": 0.32233333333333336, "grad_norm": 1.3143759965896606, "learning_rate": 3.766666666666667e-05, "loss": 0.4036, "step": 967 }, { "epoch": 0.32266666666666666, "grad_norm": 1.2250725030899048, "learning_rate": 3.764814814814815e-05, "loss": 0.2897, "step": 968 }, { "epoch": 0.323, "grad_norm": 1.3469847440719604, "learning_rate": 3.762962962962963e-05, "loss": 0.3312, "step": 969 }, { "epoch": 0.3233333333333333, "grad_norm": 1.8355865478515625, "learning_rate": 3.761111111111111e-05, "loss": 0.2953, "step": 970 }, { "epoch": 0.32366666666666666, "grad_norm": 1.3881330490112305, "learning_rate": 3.759259259259259e-05, "loss": 0.3115, "step": 971 }, { "epoch": 0.324, "grad_norm": 1.5569638013839722, "learning_rate": 3.757407407407408e-05, "loss": 0.4032, "step": 972 }, { "epoch": 0.3243333333333333, "grad_norm": 1.3486943244934082, "learning_rate": 3.7555555555555554e-05, "loss": 0.2901, "step": 973 }, { "epoch": 0.32466666666666666, "grad_norm": 1.3435277938842773, "learning_rate": 3.7537037037037035e-05, "loss": 0.2702, "step": 974 }, { "epoch": 0.325, "grad_norm": 1.344024419784546, "learning_rate": 3.751851851851852e-05, "loss": 0.306, "step": 975 }, { "epoch": 0.3253333333333333, "grad_norm": 1.397646188735962, "learning_rate": 3.7500000000000003e-05, "loss": 0.2537, "step": 976 }, { "epoch": 0.32566666666666666, "grad_norm": 4.373431205749512, "learning_rate": 3.7481481481481484e-05, "loss": 0.3172, "step": 977 }, { "epoch": 0.326, "grad_norm": 1.3574572801589966, "learning_rate": 3.7462962962962965e-05, "loss": 0.3017, "step": 978 }, { "epoch": 0.3263333333333333, "grad_norm": 1.3563703298568726, "learning_rate": 3.7444444444444446e-05, "loss": 0.3509, "step": 979 }, { "epoch": 0.32666666666666666, "grad_norm": 1.2914656400680542, "learning_rate": 3.742592592592593e-05, "loss": 0.3042, "step": 980 }, { "epoch": 0.327, "grad_norm": 1.3205169439315796, "learning_rate": 3.740740740740741e-05, "loss": 0.3018, "step": 981 }, { "epoch": 0.3273333333333333, "grad_norm": 1.7126083374023438, "learning_rate": 3.738888888888889e-05, "loss": 0.3478, "step": 982 }, { "epoch": 0.32766666666666666, "grad_norm": 1.3673988580703735, "learning_rate": 3.737037037037037e-05, "loss": 0.3276, "step": 983 }, { "epoch": 0.328, "grad_norm": 1.5554841756820679, "learning_rate": 3.7351851851851857e-05, "loss": 0.3449, "step": 984 }, { "epoch": 0.3283333333333333, "grad_norm": 1.2867860794067383, "learning_rate": 3.733333333333334e-05, "loss": 0.2982, "step": 985 }, { "epoch": 0.32866666666666666, "grad_norm": 1.4816596508026123, "learning_rate": 3.731481481481482e-05, "loss": 0.3259, "step": 986 }, { "epoch": 0.329, "grad_norm": 1.2446486949920654, "learning_rate": 3.72962962962963e-05, "loss": 0.3243, "step": 987 }, { "epoch": 0.3293333333333333, "grad_norm": 1.3690942525863647, "learning_rate": 3.727777777777778e-05, "loss": 0.314, "step": 988 }, { "epoch": 0.32966666666666666, "grad_norm": 1.192113995552063, "learning_rate": 3.725925925925926e-05, "loss": 0.3543, "step": 989 }, { "epoch": 0.33, "grad_norm": 1.291727900505066, "learning_rate": 3.724074074074074e-05, "loss": 0.3282, "step": 990 }, { "epoch": 0.3303333333333333, "grad_norm": 1.2864351272583008, "learning_rate": 3.722222222222222e-05, "loss": 0.3076, "step": 991 }, { "epoch": 0.33066666666666666, "grad_norm": 1.4030873775482178, "learning_rate": 3.720370370370371e-05, "loss": 0.3233, "step": 992 }, { "epoch": 0.331, "grad_norm": 1.384459137916565, "learning_rate": 3.718518518518519e-05, "loss": 0.3349, "step": 993 }, { "epoch": 0.3313333333333333, "grad_norm": 1.7232944965362549, "learning_rate": 3.7166666666666664e-05, "loss": 0.3192, "step": 994 }, { "epoch": 0.33166666666666667, "grad_norm": 1.237061619758606, "learning_rate": 3.714814814814815e-05, "loss": 0.3508, "step": 995 }, { "epoch": 0.332, "grad_norm": 1.238932490348816, "learning_rate": 3.712962962962963e-05, "loss": 0.3306, "step": 996 }, { "epoch": 0.3323333333333333, "grad_norm": 1.179057002067566, "learning_rate": 3.7111111111111113e-05, "loss": 0.258, "step": 997 }, { "epoch": 0.33266666666666667, "grad_norm": 1.2349563837051392, "learning_rate": 3.7092592592592594e-05, "loss": 0.2826, "step": 998 }, { "epoch": 0.333, "grad_norm": 1.2763677835464478, "learning_rate": 3.7074074074074075e-05, "loss": 0.3256, "step": 999 }, { "epoch": 0.3333333333333333, "grad_norm": 1.5997756719589233, "learning_rate": 3.705555555555556e-05, "loss": 0.3034, "step": 1000 } ], "logging_steps": 1.0, "max_steps": 3000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 1000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.1551494242304e+20, "train_batch_size": 34, "trial_name": null, "trial_params": null }