{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2000215656674574,
  "eval_steps": 500,
  "global_step": 3710,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.391416864351952e-05,
      "grad_norm": 53.75010299682617,
      "learning_rate": 1.0000000000000001e-07,
      "loss": 2.5864,
      "step": 1
    },
    {
      "epoch": 0.00010782833728703904,
      "grad_norm": 45.00067138671875,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 2.3757,
      "step": 2
    },
    {
      "epoch": 0.00016174250593055855,
      "grad_norm": 51.22366714477539,
      "learning_rate": 3.0000000000000004e-07,
      "loss": 2.4653,
      "step": 3
    },
    {
      "epoch": 0.00021565667457407807,
      "grad_norm": 62.225242614746094,
      "learning_rate": 4.0000000000000003e-07,
      "loss": 2.5819,
      "step": 4
    },
    {
      "epoch": 0.0002695708432175976,
      "grad_norm": 54.67008590698242,
      "learning_rate": 5.000000000000001e-07,
      "loss": 2.6368,
      "step": 5
    },
    {
      "epoch": 0.0003234850118611171,
      "grad_norm": 51.261009216308594,
      "learning_rate": 6.000000000000001e-07,
      "loss": 2.3245,
      "step": 6
    },
    {
      "epoch": 0.0003773991805046366,
      "grad_norm": 53.58714294433594,
      "learning_rate": 7.000000000000001e-07,
      "loss": 2.7622,
      "step": 7
    },
    {
      "epoch": 0.00043131334914815614,
      "grad_norm": 41.32997131347656,
      "learning_rate": 8.000000000000001e-07,
      "loss": 2.6444,
      "step": 8
    },
    {
      "epoch": 0.00048522751779167566,
      "grad_norm": 33.232242584228516,
      "learning_rate": 9.000000000000001e-07,
      "loss": 2.1475,
      "step": 9
    },
    {
      "epoch": 0.0005391416864351952,
      "grad_norm": 34.1890983581543,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 2.7256,
      "step": 10
    },
    {
      "epoch": 0.0005930558550787146,
      "grad_norm": 19.263437271118164,
      "learning_rate": 1.1e-06,
      "loss": 2.4132,
      "step": 11
    },
    {
      "epoch": 0.0006469700237222342,
      "grad_norm": 15.612638473510742,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 2.0422,
      "step": 12
    },
    {
      "epoch": 0.0007008841923657537,
      "grad_norm": 13.81751537322998,
      "learning_rate": 1.3e-06,
      "loss": 1.9663,
      "step": 13
    },
    {
      "epoch": 0.0007547983610092732,
      "grad_norm": 16.390897750854492,
      "learning_rate": 1.4000000000000001e-06,
      "loss": 2.1135,
      "step": 14
    },
    {
      "epoch": 0.0008087125296527927,
      "grad_norm": 21.830646514892578,
      "learning_rate": 1.5e-06,
      "loss": 2.217,
      "step": 15
    },
    {
      "epoch": 0.0008626266982963123,
      "grad_norm": 18.630046844482422,
      "learning_rate": 1.6000000000000001e-06,
      "loss": 2.1612,
      "step": 16
    },
    {
      "epoch": 0.0009165408669398317,
      "grad_norm": 12.403571128845215,
      "learning_rate": 1.7000000000000002e-06,
      "loss": 1.9358,
      "step": 17
    },
    {
      "epoch": 0.0009704550355833513,
      "grad_norm": 7.713366508483887,
      "learning_rate": 1.8000000000000001e-06,
      "loss": 1.8522,
      "step": 18
    },
    {
      "epoch": 0.001024369204226871,
      "grad_norm": 7.731616973876953,
      "learning_rate": 1.9000000000000002e-06,
      "loss": 1.7984,
      "step": 19
    },
    {
      "epoch": 0.0010782833728703904,
      "grad_norm": 7.5799174308776855,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 1.701,
      "step": 20
    },
    {
      "epoch": 0.0011321975415139098,
      "grad_norm": 5.5428080558776855,
      "learning_rate": 2.1000000000000002e-06,
      "loss": 1.624,
      "step": 21
    },
    {
      "epoch": 0.0011861117101574293,
      "grad_norm": 5.851474285125732,
      "learning_rate": 2.2e-06,
      "loss": 1.8064,
      "step": 22
    },
    {
      "epoch": 0.001240025878800949,
      "grad_norm": 5.243111610412598,
      "learning_rate": 2.3000000000000004e-06,
      "loss": 1.7246,
      "step": 23
    },
    {
      "epoch": 0.0012939400474444684,
      "grad_norm": 4.835971832275391,
      "learning_rate": 2.4000000000000003e-06,
      "loss": 1.763,
      "step": 24
    },
    {
      "epoch": 0.0013478542160879879,
      "grad_norm": 4.127845287322998,
      "learning_rate": 2.5e-06,
      "loss": 1.5869,
      "step": 25
    },
    {
      "epoch": 0.0014017683847315074,
      "grad_norm": 3.7648322582244873,
      "learning_rate": 2.6e-06,
      "loss": 1.5599,
      "step": 26
    },
    {
      "epoch": 0.001455682553375027,
      "grad_norm": 3.5424962043762207,
      "learning_rate": 2.7000000000000004e-06,
      "loss": 1.4703,
      "step": 27
    },
    {
      "epoch": 0.0015095967220185465,
      "grad_norm": 3.3707985877990723,
      "learning_rate": 2.8000000000000003e-06,
      "loss": 1.354,
      "step": 28
    },
    {
      "epoch": 0.001563510890662066,
      "grad_norm": 4.71254825592041,
      "learning_rate": 2.9e-06,
      "loss": 1.8162,
      "step": 29
    },
    {
      "epoch": 0.0016174250593055854,
      "grad_norm": 3.7660300731658936,
      "learning_rate": 3e-06,
      "loss": 1.5951,
      "step": 30
    },
    {
      "epoch": 0.001671339227949105,
      "grad_norm": 3.4810571670532227,
      "learning_rate": 3.1000000000000004e-06,
      "loss": 1.5183,
      "step": 31
    },
    {
      "epoch": 0.0017252533965926246,
      "grad_norm": 3.672693967819214,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 1.6374,
      "step": 32
    },
    {
      "epoch": 0.001779167565236144,
      "grad_norm": 3.3589682579040527,
      "learning_rate": 3.3000000000000006e-06,
      "loss": 1.4371,
      "step": 33
    },
    {
      "epoch": 0.0018330817338796635,
      "grad_norm": 3.6365807056427,
      "learning_rate": 3.4000000000000005e-06,
      "loss": 1.595,
      "step": 34
    },
    {
      "epoch": 0.0018869959025231832,
      "grad_norm": 3.6467039585113525,
      "learning_rate": 3.5e-06,
      "loss": 1.5714,
      "step": 35
    },
    {
      "epoch": 0.0019409100711667026,
      "grad_norm": 3.4684648513793945,
      "learning_rate": 3.6000000000000003e-06,
      "loss": 1.4897,
      "step": 36
    },
    {
      "epoch": 0.001994824239810222,
      "grad_norm": 3.70845627784729,
      "learning_rate": 3.7e-06,
      "loss": 1.5954,
      "step": 37
    },
    {
      "epoch": 0.002048738408453742,
      "grad_norm": 3.1803395748138428,
      "learning_rate": 3.8000000000000005e-06,
      "loss": 1.3976,
      "step": 38
    },
    {
      "epoch": 0.002102652577097261,
      "grad_norm": 2.851703405380249,
      "learning_rate": 3.900000000000001e-06,
      "loss": 1.1894,
      "step": 39
    },
    {
      "epoch": 0.0021565667457407807,
      "grad_norm": 2.832003593444824,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.353,
      "step": 40
    },
    {
      "epoch": 0.0022104809143843004,
      "grad_norm": 3.397498607635498,
      "learning_rate": 4.1e-06,
      "loss": 1.4541,
      "step": 41
    },
    {
      "epoch": 0.0022643950830278196,
      "grad_norm": 3.4537954330444336,
      "learning_rate": 4.2000000000000004e-06,
      "loss": 1.4475,
      "step": 42
    },
    {
      "epoch": 0.0023183092516713393,
      "grad_norm": 3.1131632328033447,
      "learning_rate": 4.3e-06,
      "loss": 1.2707,
      "step": 43
    },
    {
      "epoch": 0.0023722234203148586,
      "grad_norm": 3.0421881675720215,
      "learning_rate": 4.4e-06,
      "loss": 1.3418,
      "step": 44
    },
    {
      "epoch": 0.0024261375889583782,
      "grad_norm": 3.528514862060547,
      "learning_rate": 4.5e-06,
      "loss": 1.4432,
      "step": 45
    },
    {
      "epoch": 0.002480051757601898,
      "grad_norm": 3.6783225536346436,
      "learning_rate": 4.600000000000001e-06,
      "loss": 1.4863,
      "step": 46
    },
    {
      "epoch": 0.002533965926245417,
      "grad_norm": 2.9829189777374268,
      "learning_rate": 4.7e-06,
      "loss": 1.2856,
      "step": 47
    },
    {
      "epoch": 0.002587880094888937,
      "grad_norm": 3.4480350017547607,
      "learning_rate": 4.800000000000001e-06,
      "loss": 1.4129,
      "step": 48
    },
    {
      "epoch": 0.0026417942635324565,
      "grad_norm": 3.4247214794158936,
      "learning_rate": 4.9000000000000005e-06,
      "loss": 1.3467,
      "step": 49
    },
    {
      "epoch": 0.0026957084321759758,
      "grad_norm": 3.5268948078155518,
      "learning_rate": 5e-06,
      "loss": 1.4795,
      "step": 50
    },
    {
      "epoch": 0.0027496226008194955,
      "grad_norm": 3.3228304386138916,
      "learning_rate": 5.1e-06,
      "loss": 1.461,
      "step": 51
    },
    {
      "epoch": 0.0028035367694630147,
      "grad_norm": 3.365630865097046,
      "learning_rate": 5.2e-06,
      "loss": 1.2947,
      "step": 52
    },
    {
      "epoch": 0.0028574509381065344,
      "grad_norm": 3.4889328479766846,
      "learning_rate": 5.300000000000001e-06,
      "loss": 1.432,
      "step": 53
    },
    {
      "epoch": 0.002911365106750054,
      "grad_norm": 3.5767273902893066,
      "learning_rate": 5.400000000000001e-06,
      "loss": 1.3773,
      "step": 54
    },
    {
      "epoch": 0.0029652792753935733,
      "grad_norm": 3.499298095703125,
      "learning_rate": 5.500000000000001e-06,
      "loss": 1.4132,
      "step": 55
    },
    {
      "epoch": 0.003019193444037093,
      "grad_norm": 3.6990244388580322,
      "learning_rate": 5.600000000000001e-06,
      "loss": 1.4595,
      "step": 56
    },
    {
      "epoch": 0.0030731076126806127,
      "grad_norm": 3.0908327102661133,
      "learning_rate": 5.7e-06,
      "loss": 1.1873,
      "step": 57
    },
    {
      "epoch": 0.003127021781324132,
      "grad_norm": 3.149425745010376,
      "learning_rate": 5.8e-06,
      "loss": 1.3306,
      "step": 58
    },
    {
      "epoch": 0.0031809359499676516,
      "grad_norm": 3.193023204803467,
      "learning_rate": 5.9e-06,
      "loss": 1.3326,
      "step": 59
    },
    {
      "epoch": 0.003234850118611171,
      "grad_norm": 3.610344409942627,
      "learning_rate": 6e-06,
      "loss": 1.4527,
      "step": 60
    },
    {
      "epoch": 0.0032887642872546905,
      "grad_norm": 2.9877095222473145,
      "learning_rate": 6.1e-06,
      "loss": 1.2029,
      "step": 61
    },
    {
      "epoch": 0.00334267845589821,
      "grad_norm": 3.0241923332214355,
      "learning_rate": 6.200000000000001e-06,
      "loss": 1.3413,
      "step": 62
    },
    {
      "epoch": 0.0033965926245417295,
      "grad_norm": 3.212700366973877,
      "learning_rate": 6.300000000000001e-06,
      "loss": 1.3471,
      "step": 63
    },
    {
      "epoch": 0.003450506793185249,
      "grad_norm": 2.7138960361480713,
      "learning_rate": 6.4000000000000006e-06,
      "loss": 1.0885,
      "step": 64
    },
    {
      "epoch": 0.0035044209618287684,
      "grad_norm": 2.5690340995788574,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 1.1168,
      "step": 65
    },
    {
      "epoch": 0.003558335130472288,
      "grad_norm": 3.0344784259796143,
      "learning_rate": 6.600000000000001e-06,
      "loss": 1.2828,
      "step": 66
    },
    {
      "epoch": 0.0036122492991158077,
      "grad_norm": 3.0589816570281982,
      "learning_rate": 6.700000000000001e-06,
      "loss": 1.2604,
      "step": 67
    },
    {
      "epoch": 0.003666163467759327,
      "grad_norm": 2.676417112350464,
      "learning_rate": 6.800000000000001e-06,
      "loss": 1.1679,
      "step": 68
    },
    {
      "epoch": 0.0037200776364028467,
      "grad_norm": 2.6590960025787354,
      "learning_rate": 6.9e-06,
      "loss": 1.2283,
      "step": 69
    },
    {
      "epoch": 0.0037739918050463664,
      "grad_norm": 2.6973354816436768,
      "learning_rate": 7e-06,
      "loss": 1.2028,
      "step": 70
    },
    {
      "epoch": 0.0038279059736898856,
      "grad_norm": 2.7046608924865723,
      "learning_rate": 7.100000000000001e-06,
      "loss": 1.2629,
      "step": 71
    },
    {
      "epoch": 0.0038818201423334053,
      "grad_norm": 2.2172696590423584,
      "learning_rate": 7.2000000000000005e-06,
      "loss": 1.1367,
      "step": 72
    },
    {
      "epoch": 0.0039357343109769245,
      "grad_norm": 2.6138789653778076,
      "learning_rate": 7.3e-06,
      "loss": 1.3167,
      "step": 73
    },
    {
      "epoch": 0.003989648479620444,
      "grad_norm": 2.2926838397979736,
      "learning_rate": 7.4e-06,
      "loss": 1.2909,
      "step": 74
    },
    {
      "epoch": 0.004043562648263964,
      "grad_norm": 2.0647220611572266,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.2054,
      "step": 75
    },
    {
      "epoch": 0.004097476816907484,
      "grad_norm": 2.1190452575683594,
      "learning_rate": 7.600000000000001e-06,
      "loss": 1.1497,
      "step": 76
    },
    {
      "epoch": 0.004151390985551002,
      "grad_norm": 1.9973243474960327,
      "learning_rate": 7.7e-06,
      "loss": 1.1997,
      "step": 77
    },
    {
      "epoch": 0.004205305154194522,
      "grad_norm": 2.11751651763916,
      "learning_rate": 7.800000000000002e-06,
      "loss": 1.2181,
      "step": 78
    },
    {
      "epoch": 0.004259219322838042,
      "grad_norm": 1.8975950479507446,
      "learning_rate": 7.9e-06,
      "loss": 1.1582,
      "step": 79
    },
    {
      "epoch": 0.004313133491481561,
      "grad_norm": 1.8368147611618042,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.1389,
      "step": 80
    },
    {
      "epoch": 0.004367047660125081,
      "grad_norm": 1.7472988367080688,
      "learning_rate": 8.1e-06,
      "loss": 1.0959,
      "step": 81
    },
    {
      "epoch": 0.004420961828768601,
      "grad_norm": 1.7325443029403687,
      "learning_rate": 8.2e-06,
      "loss": 1.1847,
      "step": 82
    },
    {
      "epoch": 0.00447487599741212,
      "grad_norm": 1.6171561479568481,
      "learning_rate": 8.3e-06,
      "loss": 0.9834,
      "step": 83
    },
    {
      "epoch": 0.004528790166055639,
      "grad_norm": 1.6583327054977417,
      "learning_rate": 8.400000000000001e-06,
      "loss": 1.0413,
      "step": 84
    },
    {
      "epoch": 0.004582704334699159,
      "grad_norm": 1.8914967775344849,
      "learning_rate": 8.5e-06,
      "loss": 1.2413,
      "step": 85
    },
    {
      "epoch": 0.004636618503342679,
      "grad_norm": 1.6018317937850952,
      "learning_rate": 8.6e-06,
      "loss": 1.0577,
      "step": 86
    },
    {
      "epoch": 0.004690532671986198,
      "grad_norm": 1.9170053005218506,
      "learning_rate": 8.700000000000001e-06,
      "loss": 1.2463,
      "step": 87
    },
    {
      "epoch": 0.004744446840629717,
      "grad_norm": 1.666536569595337,
      "learning_rate": 8.8e-06,
      "loss": 1.0532,
      "step": 88
    },
    {
      "epoch": 0.004798361009273237,
      "grad_norm": 1.660115361213684,
      "learning_rate": 8.900000000000001e-06,
      "loss": 1.0514,
      "step": 89
    },
    {
      "epoch": 0.0048522751779167565,
      "grad_norm": 1.8667477369308472,
      "learning_rate": 9e-06,
      "loss": 1.2039,
      "step": 90
    },
    {
      "epoch": 0.004906189346560276,
      "grad_norm": 1.9490039348602295,
      "learning_rate": 9.100000000000001e-06,
      "loss": 1.1804,
      "step": 91
    },
    {
      "epoch": 0.004960103515203796,
      "grad_norm": 1.8415377140045166,
      "learning_rate": 9.200000000000002e-06,
      "loss": 1.1435,
      "step": 92
    },
    {
      "epoch": 0.005014017683847315,
      "grad_norm": 1.8571438789367676,
      "learning_rate": 9.3e-06,
      "loss": 1.0974,
      "step": 93
    },
    {
      "epoch": 0.005067931852490834,
      "grad_norm": 1.8480113744735718,
      "learning_rate": 9.4e-06,
      "loss": 1.149,
      "step": 94
    },
    {
      "epoch": 0.005121846021134354,
      "grad_norm": 2.003490447998047,
      "learning_rate": 9.5e-06,
      "loss": 1.1954,
      "step": 95
    },
    {
      "epoch": 0.005175760189777874,
      "grad_norm": 1.8002668619155884,
      "learning_rate": 9.600000000000001e-06,
      "loss": 0.9953,
      "step": 96
    },
    {
      "epoch": 0.005229674358421393,
      "grad_norm": 1.9040817022323608,
      "learning_rate": 9.7e-06,
      "loss": 1.1195,
      "step": 97
    },
    {
      "epoch": 0.005283588527064913,
      "grad_norm": 1.8311433792114258,
      "learning_rate": 9.800000000000001e-06,
      "loss": 1.083,
      "step": 98
    },
    {
      "epoch": 0.005337502695708432,
      "grad_norm": 1.9509624242782593,
      "learning_rate": 9.9e-06,
      "loss": 1.176,
      "step": 99
    },
    {
      "epoch": 0.0053914168643519516,
      "grad_norm": 2.0624589920043945,
      "learning_rate": 1e-05,
      "loss": 1.119,
      "step": 100
    },
    {
      "epoch": 0.005445331032995471,
      "grad_norm": 1.9618796110153198,
      "learning_rate": 9.999999995505339e-06,
      "loss": 1.1371,
      "step": 101
    },
    {
      "epoch": 0.005499245201638991,
      "grad_norm": 1.946245551109314,
      "learning_rate": 9.999999982021349e-06,
      "loss": 0.9736,
      "step": 102
    },
    {
      "epoch": 0.005553159370282511,
      "grad_norm": 1.9871301651000977,
      "learning_rate": 9.999999959548035e-06,
      "loss": 1.1077,
      "step": 103
    },
    {
      "epoch": 0.005607073538926029,
      "grad_norm": 1.86216402053833,
      "learning_rate": 9.999999928085396e-06,
      "loss": 1.0882,
      "step": 104
    },
    {
      "epoch": 0.005660987707569549,
      "grad_norm": 1.8447723388671875,
      "learning_rate": 9.999999887633432e-06,
      "loss": 1.0344,
      "step": 105
    },
    {
      "epoch": 0.005714901876213069,
      "grad_norm": 1.8345638513565063,
      "learning_rate": 9.99999983819214e-06,
      "loss": 1.1077,
      "step": 106
    },
    {
      "epoch": 0.0057688160448565885,
      "grad_norm": 1.8410178422927856,
      "learning_rate": 9.999999779761524e-06,
      "loss": 1.0824,
      "step": 107
    },
    {
      "epoch": 0.005822730213500108,
      "grad_norm": 1.5881969928741455,
      "learning_rate": 9.999999712341583e-06,
      "loss": 0.9439,
      "step": 108
    },
    {
      "epoch": 0.005876644382143627,
      "grad_norm": 1.6704047918319702,
      "learning_rate": 9.999999635932316e-06,
      "loss": 1.033,
      "step": 109
    },
    {
      "epoch": 0.005930558550787147,
      "grad_norm": 1.792449712753296,
      "learning_rate": 9.999999550533726e-06,
      "loss": 1.0279,
      "step": 110
    },
    {
      "epoch": 0.005984472719430666,
      "grad_norm": 1.6515668630599976,
      "learning_rate": 9.999999456145809e-06,
      "loss": 1.0301,
      "step": 111
    },
    {
      "epoch": 0.006038386888074186,
      "grad_norm": 1.8541395664215088,
      "learning_rate": 9.999999352768568e-06,
      "loss": 1.1057,
      "step": 112
    },
    {
      "epoch": 0.006092301056717706,
      "grad_norm": 1.6490236520767212,
      "learning_rate": 9.999999240402002e-06,
      "loss": 1.0523,
      "step": 113
    },
    {
      "epoch": 0.006146215225361225,
      "grad_norm": 1.655333161354065,
      "learning_rate": 9.999999119046113e-06,
      "loss": 1.0448,
      "step": 114
    },
    {
      "epoch": 0.006200129394004744,
      "grad_norm": 1.5721609592437744,
      "learning_rate": 9.999998988700899e-06,
      "loss": 0.9883,
      "step": 115
    },
    {
      "epoch": 0.006254043562648264,
      "grad_norm": 1.6411349773406982,
      "learning_rate": 9.99999884936636e-06,
      "loss": 1.0255,
      "step": 116
    },
    {
      "epoch": 0.0063079577312917835,
      "grad_norm": 1.6399502754211426,
      "learning_rate": 9.999998701042501e-06,
      "loss": 1.0146,
      "step": 117
    },
    {
      "epoch": 0.006361871899935303,
      "grad_norm": 1.615026831626892,
      "learning_rate": 9.999998543729316e-06,
      "loss": 1.0022,
      "step": 118
    },
    {
      "epoch": 0.006415786068578823,
      "grad_norm": 1.4867664575576782,
      "learning_rate": 9.99999837742681e-06,
      "loss": 1.0164,
      "step": 119
    },
    {
      "epoch": 0.006469700237222342,
      "grad_norm": 1.540153980255127,
      "learning_rate": 9.999998202134979e-06,
      "loss": 0.989,
      "step": 120
    },
    {
      "epoch": 0.006523614405865861,
      "grad_norm": 1.5535691976547241,
      "learning_rate": 9.999998017853825e-06,
      "loss": 0.9942,
      "step": 121
    },
    {
      "epoch": 0.006577528574509381,
      "grad_norm": 1.4892929792404175,
      "learning_rate": 9.999997824583351e-06,
      "loss": 1.0537,
      "step": 122
    },
    {
      "epoch": 0.006631442743152901,
      "grad_norm": 1.4674094915390015,
      "learning_rate": 9.999997622323554e-06,
      "loss": 1.0239,
      "step": 123
    },
    {
      "epoch": 0.00668535691179642,
      "grad_norm": 1.394027590751648,
      "learning_rate": 9.999997411074436e-06,
      "loss": 0.9781,
      "step": 124
    },
    {
      "epoch": 0.006739271080439939,
      "grad_norm": 1.372728705406189,
      "learning_rate": 9.999997190835999e-06,
      "loss": 1.0433,
      "step": 125
    },
    {
      "epoch": 0.006793185249083459,
      "grad_norm": 1.2535908222198486,
      "learning_rate": 9.999996961608238e-06,
      "loss": 0.958,
      "step": 126
    },
    {
      "epoch": 0.006847099417726979,
      "grad_norm": 1.337633490562439,
      "learning_rate": 9.999996723391158e-06,
      "loss": 1.0213,
      "step": 127
    },
    {
      "epoch": 0.006901013586370498,
      "grad_norm": 1.3640319108963013,
      "learning_rate": 9.999996476184759e-06,
      "loss": 1.0432,
      "step": 128
    },
    {
      "epoch": 0.006954927755014018,
      "grad_norm": 1.2663391828536987,
      "learning_rate": 9.99999621998904e-06,
      "loss": 1.0154,
      "step": 129
    },
    {
      "epoch": 0.007008841923657537,
      "grad_norm": 1.450737476348877,
      "learning_rate": 9.999995954804004e-06,
      "loss": 1.0074,
      "step": 130
    },
    {
      "epoch": 0.0070627560923010565,
      "grad_norm": 1.2757987976074219,
      "learning_rate": 9.999995680629649e-06,
      "loss": 0.9996,
      "step": 131
    },
    {
      "epoch": 0.007116670260944576,
      "grad_norm": 1.3978132009506226,
      "learning_rate": 9.999995397465974e-06,
      "loss": 1.04,
      "step": 132
    },
    {
      "epoch": 0.007170584429588096,
      "grad_norm": 1.3167297840118408,
      "learning_rate": 9.999995105312982e-06,
      "loss": 1.0069,
      "step": 133
    },
    {
      "epoch": 0.0072244985982316155,
      "grad_norm": 1.1626744270324707,
      "learning_rate": 9.999994804170674e-06,
      "loss": 0.9722,
      "step": 134
    },
    {
      "epoch": 0.007278412766875135,
      "grad_norm": 1.354797601699829,
      "learning_rate": 9.99999449403905e-06,
      "loss": 0.9019,
      "step": 135
    },
    {
      "epoch": 0.007332326935518654,
      "grad_norm": 1.2605732679367065,
      "learning_rate": 9.99999417491811e-06,
      "loss": 1.0038,
      "step": 136
    },
    {
      "epoch": 0.007386241104162174,
      "grad_norm": 1.3804657459259033,
      "learning_rate": 9.999993846807855e-06,
      "loss": 1.0139,
      "step": 137
    },
    {
      "epoch": 0.007440155272805693,
      "grad_norm": 1.3001742362976074,
      "learning_rate": 9.999993509708286e-06,
      "loss": 1.1436,
      "step": 138
    },
    {
      "epoch": 0.007494069441449213,
      "grad_norm": 1.2776422500610352,
      "learning_rate": 9.999993163619401e-06,
      "loss": 0.9792,
      "step": 139
    },
    {
      "epoch": 0.007547983610092733,
      "grad_norm": 1.2149187326431274,
      "learning_rate": 9.999992808541204e-06,
      "loss": 0.963,
      "step": 140
    },
    {
      "epoch": 0.0076018977787362515,
      "grad_norm": 1.341806173324585,
      "learning_rate": 9.999992444473694e-06,
      "loss": 0.9639,
      "step": 141
    },
    {
      "epoch": 0.007655811947379771,
      "grad_norm": 1.2565757036209106,
      "learning_rate": 9.999992071416874e-06,
      "loss": 0.9193,
      "step": 142
    },
    {
      "epoch": 0.007709726116023291,
      "grad_norm": 1.3059918880462646,
      "learning_rate": 9.99999168937074e-06,
      "loss": 0.9632,
      "step": 143
    },
    {
      "epoch": 0.0077636402846668106,
      "grad_norm": 1.1719332933425903,
      "learning_rate": 9.999991298335295e-06,
      "loss": 0.9687,
      "step": 144
    },
    {
      "epoch": 0.00781755445331033,
      "grad_norm": 1.125950813293457,
      "learning_rate": 9.999990898310542e-06,
      "loss": 0.968,
      "step": 145
    },
    {
      "epoch": 0.007871468621953849,
      "grad_norm": 1.2400416135787964,
      "learning_rate": 9.999990489296478e-06,
      "loss": 0.972,
      "step": 146
    },
    {
      "epoch": 0.007925382790597369,
      "grad_norm": 1.172117829322815,
      "learning_rate": 9.999990071293106e-06,
      "loss": 0.9243,
      "step": 147
    },
    {
      "epoch": 0.007979296959240888,
      "grad_norm": 1.240317463874817,
      "learning_rate": 9.999989644300427e-06,
      "loss": 1.0655,
      "step": 148
    },
    {
      "epoch": 0.008033211127884408,
      "grad_norm": 1.1535708904266357,
      "learning_rate": 9.999989208318438e-06,
      "loss": 0.9871,
      "step": 149
    },
    {
      "epoch": 0.008087125296527928,
      "grad_norm": 1.2711198329925537,
      "learning_rate": 9.999988763347145e-06,
      "loss": 1.0307,
      "step": 150
    },
    {
      "epoch": 0.008141039465171447,
      "grad_norm": 1.2345954179763794,
      "learning_rate": 9.999988309386548e-06,
      "loss": 1.1343,
      "step": 151
    },
    {
      "epoch": 0.008194953633814967,
      "grad_norm": 1.2489601373672485,
      "learning_rate": 9.999987846436645e-06,
      "loss": 1.0303,
      "step": 152
    },
    {
      "epoch": 0.008248867802458487,
      "grad_norm": 1.264240026473999,
      "learning_rate": 9.999987374497439e-06,
      "loss": 0.9562,
      "step": 153
    },
    {
      "epoch": 0.008302781971102005,
      "grad_norm": 1.2613575458526611,
      "learning_rate": 9.99998689356893e-06,
      "loss": 0.954,
      "step": 154
    },
    {
      "epoch": 0.008356696139745524,
      "grad_norm": 1.2091072797775269,
      "learning_rate": 9.999986403651116e-06,
      "loss": 1.0734,
      "step": 155
    },
    {
      "epoch": 0.008410610308389044,
      "grad_norm": 1.18421471118927,
      "learning_rate": 9.999985904744002e-06,
      "loss": 0.9167,
      "step": 156
    },
    {
      "epoch": 0.008464524477032564,
      "grad_norm": 1.0399659872055054,
      "learning_rate": 9.99998539684759e-06,
      "loss": 0.9068,
      "step": 157
    },
    {
      "epoch": 0.008518438645676083,
      "grad_norm": 1.1292288303375244,
      "learning_rate": 9.999984879961877e-06,
      "loss": 1.0027,
      "step": 158
    },
    {
      "epoch": 0.008572352814319603,
      "grad_norm": 1.2592105865478516,
      "learning_rate": 9.999984354086867e-06,
      "loss": 1.0794,
      "step": 159
    },
    {
      "epoch": 0.008626266982963123,
      "grad_norm": 1.1646504402160645,
      "learning_rate": 9.999983819222558e-06,
      "loss": 1.0468,
      "step": 160
    },
    {
      "epoch": 0.008680181151606643,
      "grad_norm": 1.156711220741272,
      "learning_rate": 9.999983275368952e-06,
      "loss": 0.9053,
      "step": 161
    },
    {
      "epoch": 0.008734095320250162,
      "grad_norm": 1.1169341802597046,
      "learning_rate": 9.999982722526051e-06,
      "loss": 0.97,
      "step": 162
    },
    {
      "epoch": 0.008788009488893682,
      "grad_norm": 1.3474149703979492,
      "learning_rate": 9.999982160693856e-06,
      "loss": 1.0221,
      "step": 163
    },
    {
      "epoch": 0.008841923657537202,
      "grad_norm": 1.2021468877792358,
      "learning_rate": 9.999981589872368e-06,
      "loss": 0.9303,
      "step": 164
    },
    {
      "epoch": 0.00889583782618072,
      "grad_norm": 1.0625534057617188,
      "learning_rate": 9.999981010061586e-06,
      "loss": 0.8765,
      "step": 165
    },
    {
      "epoch": 0.00894975199482424,
      "grad_norm": 1.2688498497009277,
      "learning_rate": 9.999980421261512e-06,
      "loss": 1.0163,
      "step": 166
    },
    {
      "epoch": 0.009003666163467759,
      "grad_norm": 1.122948408126831,
      "learning_rate": 9.999979823472148e-06,
      "loss": 0.9953,
      "step": 167
    },
    {
      "epoch": 0.009057580332111279,
      "grad_norm": 1.1817872524261475,
      "learning_rate": 9.999979216693495e-06,
      "loss": 1.0774,
      "step": 168
    },
    {
      "epoch": 0.009111494500754798,
      "grad_norm": 1.1483280658721924,
      "learning_rate": 9.999978600925553e-06,
      "loss": 1.0105,
      "step": 169
    },
    {
      "epoch": 0.009165408669398318,
      "grad_norm": 1.4039335250854492,
      "learning_rate": 9.999977976168325e-06,
      "loss": 0.944,
      "step": 170
    },
    {
      "epoch": 0.009219322838041838,
      "grad_norm": 1.1459723711013794,
      "learning_rate": 9.999977342421812e-06,
      "loss": 0.9208,
      "step": 171
    },
    {
      "epoch": 0.009273237006685357,
      "grad_norm": 1.0897774696350098,
      "learning_rate": 9.999976699686011e-06,
      "loss": 0.8719,
      "step": 172
    },
    {
      "epoch": 0.009327151175328877,
      "grad_norm": 1.206467866897583,
      "learning_rate": 9.999976047960928e-06,
      "loss": 1.0645,
      "step": 173
    },
    {
      "epoch": 0.009381065343972397,
      "grad_norm": 1.004550814628601,
      "learning_rate": 9.999975387246563e-06,
      "loss": 0.9317,
      "step": 174
    },
    {
      "epoch": 0.009434979512615916,
      "grad_norm": 1.2359992265701294,
      "learning_rate": 9.999974717542916e-06,
      "loss": 1.1136,
      "step": 175
    },
    {
      "epoch": 0.009488893681259434,
      "grad_norm": 1.1922352313995361,
      "learning_rate": 9.999974038849989e-06,
      "loss": 1.0307,
      "step": 176
    },
    {
      "epoch": 0.009542807849902954,
      "grad_norm": 1.1597613096237183,
      "learning_rate": 9.999973351167782e-06,
      "loss": 1.0275,
      "step": 177
    },
    {
      "epoch": 0.009596722018546474,
      "grad_norm": 1.172133445739746,
      "learning_rate": 9.999972654496298e-06,
      "loss": 0.9269,
      "step": 178
    },
    {
      "epoch": 0.009650636187189993,
      "grad_norm": 1.1879733800888062,
      "learning_rate": 9.999971948835538e-06,
      "loss": 0.9547,
      "step": 179
    },
    {
      "epoch": 0.009704550355833513,
      "grad_norm": 1.0029833316802979,
      "learning_rate": 9.999971234185502e-06,
      "loss": 0.8994,
      "step": 180
    },
    {
      "epoch": 0.009758464524477033,
      "grad_norm": 1.0769891738891602,
      "learning_rate": 9.999970510546194e-06,
      "loss": 0.9107,
      "step": 181
    },
    {
      "epoch": 0.009812378693120552,
      "grad_norm": 1.3288064002990723,
      "learning_rate": 9.99996977791761e-06,
      "loss": 1.0116,
      "step": 182
    },
    {
      "epoch": 0.009866292861764072,
      "grad_norm": 1.142452597618103,
      "learning_rate": 9.999969036299757e-06,
      "loss": 0.9367,
      "step": 183
    },
    {
      "epoch": 0.009920207030407592,
      "grad_norm": 1.2458518743515015,
      "learning_rate": 9.999968285692632e-06,
      "loss": 1.1398,
      "step": 184
    },
    {
      "epoch": 0.009974121199051111,
      "grad_norm": 1.3373422622680664,
      "learning_rate": 9.99996752609624e-06,
      "loss": 0.959,
      "step": 185
    },
    {
      "epoch": 0.01002803536769463,
      "grad_norm": 1.2288920879364014,
      "learning_rate": 9.99996675751058e-06,
      "loss": 0.9908,
      "step": 186
    },
    {
      "epoch": 0.010081949536338149,
      "grad_norm": 1.1954001188278198,
      "learning_rate": 9.999965979935656e-06,
      "loss": 0.9332,
      "step": 187
    },
    {
      "epoch": 0.010135863704981669,
      "grad_norm": 1.171021819114685,
      "learning_rate": 9.999965193371466e-06,
      "loss": 0.9119,
      "step": 188
    },
    {
      "epoch": 0.010189777873625188,
      "grad_norm": 1.025169014930725,
      "learning_rate": 9.999964397818013e-06,
      "loss": 0.784,
      "step": 189
    },
    {
      "epoch": 0.010243692042268708,
      "grad_norm": 1.1340326070785522,
      "learning_rate": 9.999963593275298e-06,
      "loss": 1.0036,
      "step": 190
    },
    {
      "epoch": 0.010297606210912228,
      "grad_norm": 1.0302847623825073,
      "learning_rate": 9.999962779743324e-06,
      "loss": 0.8293,
      "step": 191
    },
    {
      "epoch": 0.010351520379555747,
      "grad_norm": 1.2410109043121338,
      "learning_rate": 9.99996195722209e-06,
      "loss": 0.9507,
      "step": 192
    },
    {
      "epoch": 0.010405434548199267,
      "grad_norm": 1.2054308652877808,
      "learning_rate": 9.9999611257116e-06,
      "loss": 0.9356,
      "step": 193
    },
    {
      "epoch": 0.010459348716842787,
      "grad_norm": 1.2046679258346558,
      "learning_rate": 9.999960285211853e-06,
      "loss": 1.0638,
      "step": 194
    },
    {
      "epoch": 0.010513262885486306,
      "grad_norm": 1.4594306945800781,
      "learning_rate": 9.999959435722852e-06,
      "loss": 0.9624,
      "step": 195
    },
    {
      "epoch": 0.010567177054129826,
      "grad_norm": 1.0909247398376465,
      "learning_rate": 9.999958577244598e-06,
      "loss": 0.9503,
      "step": 196
    },
    {
      "epoch": 0.010621091222773344,
      "grad_norm": 1.1524754762649536,
      "learning_rate": 9.999957709777094e-06,
      "loss": 0.8954,
      "step": 197
    },
    {
      "epoch": 0.010675005391416864,
      "grad_norm": 1.4128906726837158,
      "learning_rate": 9.99995683332034e-06,
      "loss": 0.8903,
      "step": 198
    },
    {
      "epoch": 0.010728919560060383,
      "grad_norm": 1.1304652690887451,
      "learning_rate": 9.999955947874338e-06,
      "loss": 0.9247,
      "step": 199
    },
    {
      "epoch": 0.010782833728703903,
      "grad_norm": 1.2978957891464233,
      "learning_rate": 9.99995505343909e-06,
      "loss": 0.9473,
      "step": 200
    },
    {
      "epoch": 0.010836747897347423,
      "grad_norm": 1.0742554664611816,
      "learning_rate": 9.999954150014595e-06,
      "loss": 0.9626,
      "step": 201
    },
    {
      "epoch": 0.010890662065990942,
      "grad_norm": 1.0707745552062988,
      "learning_rate": 9.999953237600859e-06,
      "loss": 0.8721,
      "step": 202
    },
    {
      "epoch": 0.010944576234634462,
      "grad_norm": 1.17974853515625,
      "learning_rate": 9.99995231619788e-06,
      "loss": 1.0059,
      "step": 203
    },
    {
      "epoch": 0.010998490403277982,
      "grad_norm": 1.0108370780944824,
      "learning_rate": 9.999951385805662e-06,
      "loss": 0.9527,
      "step": 204
    },
    {
      "epoch": 0.011052404571921502,
      "grad_norm": 0.9983445405960083,
      "learning_rate": 9.999950446424204e-06,
      "loss": 0.7626,
      "step": 205
    },
    {
      "epoch": 0.011106318740565021,
      "grad_norm": 1.0860002040863037,
      "learning_rate": 9.99994949805351e-06,
      "loss": 0.9591,
      "step": 206
    },
    {
      "epoch": 0.01116023290920854,
      "grad_norm": 1.0447322130203247,
      "learning_rate": 9.999948540693584e-06,
      "loss": 0.9861,
      "step": 207
    },
    {
      "epoch": 0.011214147077852059,
      "grad_norm": 1.2582998275756836,
      "learning_rate": 9.999947574344423e-06,
      "loss": 0.8949,
      "step": 208
    },
    {
      "epoch": 0.011268061246495579,
      "grad_norm": 1.1507002115249634,
      "learning_rate": 9.99994659900603e-06,
      "loss": 0.918,
      "step": 209
    },
    {
      "epoch": 0.011321975415139098,
      "grad_norm": 1.135169267654419,
      "learning_rate": 9.999945614678408e-06,
      "loss": 0.9891,
      "step": 210
    },
    {
      "epoch": 0.011375889583782618,
      "grad_norm": 1.1746275424957275,
      "learning_rate": 9.999944621361558e-06,
      "loss": 1.0186,
      "step": 211
    },
    {
      "epoch": 0.011429803752426138,
      "grad_norm": 1.1137248277664185,
      "learning_rate": 9.999943619055483e-06,
      "loss": 0.9584,
      "step": 212
    },
    {
      "epoch": 0.011483717921069657,
      "grad_norm": 1.336651086807251,
      "learning_rate": 9.999942607760182e-06,
      "loss": 1.091,
      "step": 213
    },
    {
      "epoch": 0.011537632089713177,
      "grad_norm": 1.1966856718063354,
      "learning_rate": 9.999941587475658e-06,
      "loss": 0.9761,
      "step": 214
    },
    {
      "epoch": 0.011591546258356697,
      "grad_norm": 1.0843144655227661,
      "learning_rate": 9.999940558201915e-06,
      "loss": 0.8917,
      "step": 215
    },
    {
      "epoch": 0.011645460427000216,
      "grad_norm": 1.2089293003082275,
      "learning_rate": 9.999939519938953e-06,
      "loss": 0.9704,
      "step": 216
    },
    {
      "epoch": 0.011699374595643736,
      "grad_norm": 1.2409982681274414,
      "learning_rate": 9.999938472686775e-06,
      "loss": 0.9949,
      "step": 217
    },
    {
      "epoch": 0.011753288764287254,
      "grad_norm": 1.1310094594955444,
      "learning_rate": 9.99993741644538e-06,
      "loss": 0.9666,
      "step": 218
    },
    {
      "epoch": 0.011807202932930774,
      "grad_norm": 1.120510220527649,
      "learning_rate": 9.999936351214772e-06,
      "loss": 0.8844,
      "step": 219
    },
    {
      "epoch": 0.011861117101574293,
      "grad_norm": 1.0931518077850342,
      "learning_rate": 9.999935276994954e-06,
      "loss": 0.9647,
      "step": 220
    },
    {
      "epoch": 0.011915031270217813,
      "grad_norm": 1.2821122407913208,
      "learning_rate": 9.999934193785926e-06,
      "loss": 1.0533,
      "step": 221
    },
    {
      "epoch": 0.011968945438861333,
      "grad_norm": 1.183580756187439,
      "learning_rate": 9.999933101587691e-06,
      "loss": 0.9196,
      "step": 222
    },
    {
      "epoch": 0.012022859607504852,
      "grad_norm": 1.045825719833374,
      "learning_rate": 9.99993200040025e-06,
      "loss": 0.8953,
      "step": 223
    },
    {
      "epoch": 0.012076773776148372,
      "grad_norm": 1.0963969230651855,
      "learning_rate": 9.999930890223605e-06,
      "loss": 0.9723,
      "step": 224
    },
    {
      "epoch": 0.012130687944791892,
      "grad_norm": 1.0356731414794922,
      "learning_rate": 9.999929771057761e-06,
      "loss": 1.0215,
      "step": 225
    },
    {
      "epoch": 0.012184602113435411,
      "grad_norm": 1.112277626991272,
      "learning_rate": 9.999928642902717e-06,
      "loss": 0.9886,
      "step": 226
    },
    {
      "epoch": 0.012238516282078931,
      "grad_norm": 0.9969072937965393,
      "learning_rate": 9.999927505758475e-06,
      "loss": 0.8601,
      "step": 227
    },
    {
      "epoch": 0.01229243045072245,
      "grad_norm": 1.123781442642212,
      "learning_rate": 9.999926359625036e-06,
      "loss": 0.9894,
      "step": 228
    },
    {
      "epoch": 0.012346344619365969,
      "grad_norm": 1.2122100591659546,
      "learning_rate": 9.999925204502406e-06,
      "loss": 1.0783,
      "step": 229
    },
    {
      "epoch": 0.012400258788009488,
      "grad_norm": 1.1256672143936157,
      "learning_rate": 9.999924040390584e-06,
      "loss": 0.9116,
      "step": 230
    },
    {
      "epoch": 0.012454172956653008,
      "grad_norm": 1.0646952390670776,
      "learning_rate": 9.999922867289573e-06,
      "loss": 0.8993,
      "step": 231
    },
    {
      "epoch": 0.012508087125296528,
      "grad_norm": 1.194676399230957,
      "learning_rate": 9.999921685199376e-06,
      "loss": 1.0377,
      "step": 232
    },
    {
      "epoch": 0.012562001293940047,
      "grad_norm": 1.0519152879714966,
      "learning_rate": 9.999920494119992e-06,
      "loss": 0.8283,
      "step": 233
    },
    {
      "epoch": 0.012615915462583567,
      "grad_norm": 1.243249773979187,
      "learning_rate": 9.999919294051427e-06,
      "loss": 0.9741,
      "step": 234
    },
    {
      "epoch": 0.012669829631227087,
      "grad_norm": 1.1071687936782837,
      "learning_rate": 9.999918084993681e-06,
      "loss": 1.0402,
      "step": 235
    },
    {
      "epoch": 0.012723743799870606,
      "grad_norm": 1.1224809885025024,
      "learning_rate": 9.999916866946757e-06,
      "loss": 0.8793,
      "step": 236
    },
    {
      "epoch": 0.012777657968514126,
      "grad_norm": 1.0458532571792603,
      "learning_rate": 9.999915639910656e-06,
      "loss": 0.9855,
      "step": 237
    },
    {
      "epoch": 0.012831572137157646,
      "grad_norm": 1.0610811710357666,
      "learning_rate": 9.999914403885383e-06,
      "loss": 0.8092,
      "step": 238
    },
    {
      "epoch": 0.012885486305801164,
      "grad_norm": 1.2818992137908936,
      "learning_rate": 9.999913158870936e-06,
      "loss": 1.0101,
      "step": 239
    },
    {
      "epoch": 0.012939400474444683,
      "grad_norm": 1.110400915145874,
      "learning_rate": 9.999911904867319e-06,
      "loss": 0.9782,
      "step": 240
    },
    {
      "epoch": 0.012993314643088203,
      "grad_norm": 1.3290835618972778,
      "learning_rate": 9.999910641874537e-06,
      "loss": 1.0683,
      "step": 241
    },
    {
      "epoch": 0.013047228811731723,
      "grad_norm": 1.1448980569839478,
      "learning_rate": 9.999909369892588e-06,
      "loss": 0.9223,
      "step": 242
    },
    {
      "epoch": 0.013101142980375242,
      "grad_norm": 1.1710877418518066,
      "learning_rate": 9.999908088921477e-06,
      "loss": 0.8022,
      "step": 243
    },
    {
      "epoch": 0.013155057149018762,
      "grad_norm": 1.1242793798446655,
      "learning_rate": 9.999906798961207e-06,
      "loss": 0.9238,
      "step": 244
    },
    {
      "epoch": 0.013208971317662282,
      "grad_norm": 1.0338802337646484,
      "learning_rate": 9.999905500011778e-06,
      "loss": 0.8386,
      "step": 245
    },
    {
      "epoch": 0.013262885486305801,
      "grad_norm": 1.0910224914550781,
      "learning_rate": 9.999904192073193e-06,
      "loss": 0.937,
      "step": 246
    },
    {
      "epoch": 0.013316799654949321,
      "grad_norm": 1.297788143157959,
      "learning_rate": 9.999902875145453e-06,
      "loss": 0.9054,
      "step": 247
    },
    {
      "epoch": 0.01337071382359284,
      "grad_norm": 1.1317543983459473,
      "learning_rate": 9.999901549228564e-06,
      "loss": 0.9418,
      "step": 248
    },
    {
      "epoch": 0.01342462799223636,
      "grad_norm": 1.0944132804870605,
      "learning_rate": 9.999900214322526e-06,
      "loss": 0.9445,
      "step": 249
    },
    {
      "epoch": 0.013478542160879878,
      "grad_norm": 1.4942843914031982,
      "learning_rate": 9.999898870427342e-06,
      "loss": 0.8956,
      "step": 250
    },
    {
      "epoch": 0.013532456329523398,
      "grad_norm": 1.0630019903182983,
      "learning_rate": 9.999897517543013e-06,
      "loss": 0.8381,
      "step": 251
    },
    {
      "epoch": 0.013586370498166918,
      "grad_norm": 1.65073561668396,
      "learning_rate": 9.999896155669544e-06,
      "loss": 1.0148,
      "step": 252
    },
    {
      "epoch": 0.013640284666810438,
      "grad_norm": 1.035731315612793,
      "learning_rate": 9.999894784806936e-06,
      "loss": 0.8092,
      "step": 253
    },
    {
      "epoch": 0.013694198835453957,
      "grad_norm": 1.308863639831543,
      "learning_rate": 9.99989340495519e-06,
      "loss": 0.9742,
      "step": 254
    },
    {
      "epoch": 0.013748113004097477,
      "grad_norm": 1.1512938737869263,
      "learning_rate": 9.999892016114313e-06,
      "loss": 0.8747,
      "step": 255
    },
    {
      "epoch": 0.013802027172740997,
      "grad_norm": 0.9977009296417236,
      "learning_rate": 9.9998906182843e-06,
      "loss": 0.8183,
      "step": 256
    },
    {
      "epoch": 0.013855941341384516,
      "grad_norm": 1.2228175401687622,
      "learning_rate": 9.99988921146516e-06,
      "loss": 0.9917,
      "step": 257
    },
    {
      "epoch": 0.013909855510028036,
      "grad_norm": 1.0753847360610962,
      "learning_rate": 9.999887795656896e-06,
      "loss": 1.0063,
      "step": 258
    },
    {
      "epoch": 0.013963769678671556,
      "grad_norm": 1.0010429620742798,
      "learning_rate": 9.999886370859506e-06,
      "loss": 0.9315,
      "step": 259
    },
    {
      "epoch": 0.014017683847315074,
      "grad_norm": 1.2038911581039429,
      "learning_rate": 9.999884937072995e-06,
      "loss": 0.8764,
      "step": 260
    },
    {
      "epoch": 0.014071598015958593,
      "grad_norm": 1.1268917322158813,
      "learning_rate": 9.999883494297365e-06,
      "loss": 1.0059,
      "step": 261
    },
    {
      "epoch": 0.014125512184602113,
      "grad_norm": 1.1053709983825684,
      "learning_rate": 9.999882042532619e-06,
      "loss": 0.8866,
      "step": 262
    },
    {
      "epoch": 0.014179426353245633,
      "grad_norm": 1.091145396232605,
      "learning_rate": 9.999880581778758e-06,
      "loss": 1.0415,
      "step": 263
    },
    {
      "epoch": 0.014233340521889152,
      "grad_norm": 1.0019958019256592,
      "learning_rate": 9.999879112035786e-06,
      "loss": 0.8177,
      "step": 264
    },
    {
      "epoch": 0.014287254690532672,
      "grad_norm": 1.1044156551361084,
      "learning_rate": 9.999877633303708e-06,
      "loss": 0.9508,
      "step": 265
    },
    {
      "epoch": 0.014341168859176192,
      "grad_norm": 0.9750218391418457,
      "learning_rate": 9.999876145582524e-06,
      "loss": 0.8501,
      "step": 266
    },
    {
      "epoch": 0.014395083027819711,
      "grad_norm": 1.4015804529190063,
      "learning_rate": 9.999874648872235e-06,
      "loss": 0.9491,
      "step": 267
    },
    {
      "epoch": 0.014448997196463231,
      "grad_norm": 1.066422939300537,
      "learning_rate": 9.999873143172848e-06,
      "loss": 1.0104,
      "step": 268
    },
    {
      "epoch": 0.01450291136510675,
      "grad_norm": 1.1133167743682861,
      "learning_rate": 9.99987162848436e-06,
      "loss": 1.0142,
      "step": 269
    },
    {
      "epoch": 0.01455682553375027,
      "grad_norm": 1.1259140968322754,
      "learning_rate": 9.999870104806782e-06,
      "loss": 0.9803,
      "step": 270
    },
    {
      "epoch": 0.014610739702393788,
      "grad_norm": 1.0813393592834473,
      "learning_rate": 9.999868572140108e-06,
      "loss": 0.8728,
      "step": 271
    },
    {
      "epoch": 0.014664653871037308,
      "grad_norm": 0.9939939379692078,
      "learning_rate": 9.999867030484347e-06,
      "loss": 0.8826,
      "step": 272
    },
    {
      "epoch": 0.014718568039680828,
      "grad_norm": 1.0081939697265625,
      "learning_rate": 9.999865479839499e-06,
      "loss": 0.8682,
      "step": 273
    },
    {
      "epoch": 0.014772482208324347,
      "grad_norm": 1.0190658569335938,
      "learning_rate": 9.999863920205567e-06,
      "loss": 0.9094,
      "step": 274
    },
    {
      "epoch": 0.014826396376967867,
      "grad_norm": 1.0702111721038818,
      "learning_rate": 9.999862351582553e-06,
      "loss": 0.9244,
      "step": 275
    },
    {
      "epoch": 0.014880310545611387,
      "grad_norm": 1.0891972780227661,
      "learning_rate": 9.999860773970461e-06,
      "loss": 1.0318,
      "step": 276
    },
    {
      "epoch": 0.014934224714254906,
      "grad_norm": 0.9788139462471008,
      "learning_rate": 9.999859187369294e-06,
      "loss": 0.8779,
      "step": 277
    },
    {
      "epoch": 0.014988138882898426,
      "grad_norm": 1.0678125619888306,
      "learning_rate": 9.999857591779055e-06,
      "loss": 0.8962,
      "step": 278
    },
    {
      "epoch": 0.015042053051541946,
      "grad_norm": 0.9882293343544006,
      "learning_rate": 9.999855987199747e-06,
      "loss": 0.9082,
      "step": 279
    },
    {
      "epoch": 0.015095967220185465,
      "grad_norm": 0.9987571835517883,
      "learning_rate": 9.999854373631371e-06,
      "loss": 0.9708,
      "step": 280
    },
    {
      "epoch": 0.015149881388828985,
      "grad_norm": 1.0238722562789917,
      "learning_rate": 9.99985275107393e-06,
      "loss": 0.9461,
      "step": 281
    },
    {
      "epoch": 0.015203795557472503,
      "grad_norm": 0.9628013372421265,
      "learning_rate": 9.999851119527431e-06,
      "loss": 0.9412,
      "step": 282
    },
    {
      "epoch": 0.015257709726116023,
      "grad_norm": 1.0021862983703613,
      "learning_rate": 9.999849478991873e-06,
      "loss": 0.8461,
      "step": 283
    },
    {
      "epoch": 0.015311623894759542,
      "grad_norm": 0.9776142239570618,
      "learning_rate": 9.99984782946726e-06,
      "loss": 0.962,
      "step": 284
    },
    {
      "epoch": 0.015365538063403062,
      "grad_norm": 1.0114799737930298,
      "learning_rate": 9.999846170953593e-06,
      "loss": 0.8732,
      "step": 285
    },
    {
      "epoch": 0.015419452232046582,
      "grad_norm": 0.9860401749610901,
      "learning_rate": 9.999844503450879e-06,
      "loss": 0.8204,
      "step": 286
    },
    {
      "epoch": 0.015473366400690101,
      "grad_norm": 1.0743263959884644,
      "learning_rate": 9.999842826959119e-06,
      "loss": 0.9445,
      "step": 287
    },
    {
      "epoch": 0.015527280569333621,
      "grad_norm": 1.0456606149673462,
      "learning_rate": 9.999841141478315e-06,
      "loss": 0.8869,
      "step": 288
    },
    {
      "epoch": 0.01558119473797714,
      "grad_norm": 1.0299748182296753,
      "learning_rate": 9.99983944700847e-06,
      "loss": 0.9543,
      "step": 289
    },
    {
      "epoch": 0.01563510890662066,
      "grad_norm": 1.0176036357879639,
      "learning_rate": 9.99983774354959e-06,
      "loss": 0.9672,
      "step": 290
    },
    {
      "epoch": 0.01568902307526418,
      "grad_norm": 1.0023303031921387,
      "learning_rate": 9.999836031101675e-06,
      "loss": 0.9417,
      "step": 291
    },
    {
      "epoch": 0.015742937243907698,
      "grad_norm": 0.9801005721092224,
      "learning_rate": 9.99983430966473e-06,
      "loss": 0.9376,
      "step": 292
    },
    {
      "epoch": 0.01579685141255122,
      "grad_norm": 1.002906322479248,
      "learning_rate": 9.999832579238756e-06,
      "loss": 0.8973,
      "step": 293
    },
    {
      "epoch": 0.015850765581194737,
      "grad_norm": 1.0014845132827759,
      "learning_rate": 9.999830839823759e-06,
      "loss": 0.9583,
      "step": 294
    },
    {
      "epoch": 0.01590467974983826,
      "grad_norm": 1.0173449516296387,
      "learning_rate": 9.999829091419739e-06,
      "loss": 0.9006,
      "step": 295
    },
    {
      "epoch": 0.015958593918481777,
      "grad_norm": 0.9779545664787292,
      "learning_rate": 9.999827334026702e-06,
      "loss": 0.9342,
      "step": 296
    },
    {
      "epoch": 0.016012508087125298,
      "grad_norm": 0.9800315499305725,
      "learning_rate": 9.999825567644648e-06,
      "loss": 0.7948,
      "step": 297
    },
    {
      "epoch": 0.016066422255768816,
      "grad_norm": 0.9628249406814575,
      "learning_rate": 9.999823792273583e-06,
      "loss": 0.8415,
      "step": 298
    },
    {
      "epoch": 0.016120336424412334,
      "grad_norm": 1.1227449178695679,
      "learning_rate": 9.99982200791351e-06,
      "loss": 0.9646,
      "step": 299
    },
    {
      "epoch": 0.016174250593055856,
      "grad_norm": 1.1018567085266113,
      "learning_rate": 9.99982021456443e-06,
      "loss": 0.8647,
      "step": 300
    },
    {
      "epoch": 0.016228164761699373,
      "grad_norm": 1.1017298698425293,
      "learning_rate": 9.999818412226347e-06,
      "loss": 0.8708,
      "step": 301
    },
    {
      "epoch": 0.016282078930342895,
      "grad_norm": 1.084594488143921,
      "learning_rate": 9.999816600899267e-06,
      "loss": 0.9765,
      "step": 302
    },
    {
      "epoch": 0.016335993098986413,
      "grad_norm": 1.3735941648483276,
      "learning_rate": 9.99981478058319e-06,
      "loss": 1.0253,
      "step": 303
    },
    {
      "epoch": 0.016389907267629934,
      "grad_norm": 1.1644489765167236,
      "learning_rate": 9.999812951278119e-06,
      "loss": 0.8519,
      "step": 304
    },
    {
      "epoch": 0.016443821436273452,
      "grad_norm": 1.0079474449157715,
      "learning_rate": 9.99981111298406e-06,
      "loss": 0.9422,
      "step": 305
    },
    {
      "epoch": 0.016497735604916974,
      "grad_norm": 1.0046736001968384,
      "learning_rate": 9.999809265701015e-06,
      "loss": 0.7766,
      "step": 306
    },
    {
      "epoch": 0.01655164977356049,
      "grad_norm": 1.0312374830245972,
      "learning_rate": 9.999807409428987e-06,
      "loss": 0.8844,
      "step": 307
    },
    {
      "epoch": 0.01660556394220401,
      "grad_norm": 1.0419421195983887,
      "learning_rate": 9.99980554416798e-06,
      "loss": 0.8902,
      "step": 308
    },
    {
      "epoch": 0.01665947811084753,
      "grad_norm": 1.2056832313537598,
      "learning_rate": 9.999803669917996e-06,
      "loss": 0.9842,
      "step": 309
    },
    {
      "epoch": 0.01671339227949105,
      "grad_norm": 0.9645346403121948,
      "learning_rate": 9.999801786679039e-06,
      "loss": 0.7837,
      "step": 310
    },
    {
      "epoch": 0.01676730644813457,
      "grad_norm": 1.0259841680526733,
      "learning_rate": 9.999799894451115e-06,
      "loss": 0.8927,
      "step": 311
    },
    {
      "epoch": 0.016821220616778088,
      "grad_norm": 0.9932212233543396,
      "learning_rate": 9.999797993234224e-06,
      "loss": 0.815,
      "step": 312
    },
    {
      "epoch": 0.01687513478542161,
      "grad_norm": 1.0666078329086304,
      "learning_rate": 9.99979608302837e-06,
      "loss": 0.8245,
      "step": 313
    },
    {
      "epoch": 0.016929048954065128,
      "grad_norm": 0.9566568732261658,
      "learning_rate": 9.999794163833557e-06,
      "loss": 0.851,
      "step": 314
    },
    {
      "epoch": 0.01698296312270865,
      "grad_norm": 1.0056332349777222,
      "learning_rate": 9.999792235649789e-06,
      "loss": 0.8704,
      "step": 315
    },
    {
      "epoch": 0.017036877291352167,
      "grad_norm": 1.036537528038025,
      "learning_rate": 9.999790298477068e-06,
      "loss": 0.9512,
      "step": 316
    },
    {
      "epoch": 0.01709079145999569,
      "grad_norm": 1.1026023626327515,
      "learning_rate": 9.9997883523154e-06,
      "loss": 1.0007,
      "step": 317
    },
    {
      "epoch": 0.017144705628639206,
      "grad_norm": 1.006659984588623,
      "learning_rate": 9.999786397164786e-06,
      "loss": 0.8992,
      "step": 318
    },
    {
      "epoch": 0.017198619797282724,
      "grad_norm": 1.0100573301315308,
      "learning_rate": 9.99978443302523e-06,
      "loss": 0.9545,
      "step": 319
    },
    {
      "epoch": 0.017252533965926246,
      "grad_norm": 1.000086784362793,
      "learning_rate": 9.999782459896735e-06,
      "loss": 0.8732,
      "step": 320
    },
    {
      "epoch": 0.017306448134569764,
      "grad_norm": 1.2039650678634644,
      "learning_rate": 9.999780477779306e-06,
      "loss": 0.9881,
      "step": 321
    },
    {
      "epoch": 0.017360362303213285,
      "grad_norm": 1.0316474437713623,
      "learning_rate": 9.999778486672948e-06,
      "loss": 0.8686,
      "step": 322
    },
    {
      "epoch": 0.017414276471856803,
      "grad_norm": 1.1697666645050049,
      "learning_rate": 9.999776486577661e-06,
      "loss": 0.9185,
      "step": 323
    },
    {
      "epoch": 0.017468190640500324,
      "grad_norm": 0.9523053169250488,
      "learning_rate": 9.999774477493451e-06,
      "loss": 0.858,
      "step": 324
    },
    {
      "epoch": 0.017522104809143842,
      "grad_norm": 0.9660015106201172,
      "learning_rate": 9.999772459420319e-06,
      "loss": 0.9964,
      "step": 325
    },
    {
      "epoch": 0.017576018977787364,
      "grad_norm": 0.971128523349762,
      "learning_rate": 9.999770432358271e-06,
      "loss": 0.8999,
      "step": 326
    },
    {
      "epoch": 0.01762993314643088,
      "grad_norm": 1.221969485282898,
      "learning_rate": 9.999768396307312e-06,
      "loss": 0.8628,
      "step": 327
    },
    {
      "epoch": 0.017683847315074403,
      "grad_norm": 1.0868507623672485,
      "learning_rate": 9.999766351267442e-06,
      "loss": 1.0732,
      "step": 328
    },
    {
      "epoch": 0.01773776148371792,
      "grad_norm": 0.9527992606163025,
      "learning_rate": 9.999764297238666e-06,
      "loss": 0.8221,
      "step": 329
    },
    {
      "epoch": 0.01779167565236144,
      "grad_norm": 0.9969122409820557,
      "learning_rate": 9.99976223422099e-06,
      "loss": 0.9234,
      "step": 330
    },
    {
      "epoch": 0.01784558982100496,
      "grad_norm": 0.9291784763336182,
      "learning_rate": 9.999760162214415e-06,
      "loss": 0.7839,
      "step": 331
    },
    {
      "epoch": 0.01789950398964848,
      "grad_norm": 0.9766960144042969,
      "learning_rate": 9.999758081218944e-06,
      "loss": 0.7929,
      "step": 332
    },
    {
      "epoch": 0.017953418158292,
      "grad_norm": 0.9536904692649841,
      "learning_rate": 9.999755991234585e-06,
      "loss": 0.9136,
      "step": 333
    },
    {
      "epoch": 0.018007332326935518,
      "grad_norm": 1.0325372219085693,
      "learning_rate": 9.999753892261337e-06,
      "loss": 0.8367,
      "step": 334
    },
    {
      "epoch": 0.01806124649557904,
      "grad_norm": 0.9486141800880432,
      "learning_rate": 9.999751784299207e-06,
      "loss": 0.8802,
      "step": 335
    },
    {
      "epoch": 0.018115160664222557,
      "grad_norm": 0.9880577921867371,
      "learning_rate": 9.999749667348198e-06,
      "loss": 0.8597,
      "step": 336
    },
    {
      "epoch": 0.01816907483286608,
      "grad_norm": 1.043199896812439,
      "learning_rate": 9.999747541408312e-06,
      "loss": 0.9142,
      "step": 337
    },
    {
      "epoch": 0.018222989001509596,
      "grad_norm": 1.0606465339660645,
      "learning_rate": 9.999745406479554e-06,
      "loss": 0.9876,
      "step": 338
    },
    {
      "epoch": 0.018276903170153118,
      "grad_norm": 1.139449954032898,
      "learning_rate": 9.999743262561929e-06,
      "loss": 0.7773,
      "step": 339
    },
    {
      "epoch": 0.018330817338796636,
      "grad_norm": 1.1416115760803223,
      "learning_rate": 9.99974110965544e-06,
      "loss": 0.9566,
      "step": 340
    },
    {
      "epoch": 0.018384731507440154,
      "grad_norm": 1.0145153999328613,
      "learning_rate": 9.99973894776009e-06,
      "loss": 0.9543,
      "step": 341
    },
    {
      "epoch": 0.018438645676083675,
      "grad_norm": 0.950528621673584,
      "learning_rate": 9.999736776875885e-06,
      "loss": 0.8007,
      "step": 342
    },
    {
      "epoch": 0.018492559844727193,
      "grad_norm": 0.9080097079277039,
      "learning_rate": 9.999734597002826e-06,
      "loss": 0.8273,
      "step": 343
    },
    {
      "epoch": 0.018546474013370715,
      "grad_norm": 1.0038888454437256,
      "learning_rate": 9.99973240814092e-06,
      "loss": 0.9394,
      "step": 344
    },
    {
      "epoch": 0.018600388182014232,
      "grad_norm": 1.05253267288208,
      "learning_rate": 9.999730210290168e-06,
      "loss": 0.9485,
      "step": 345
    },
    {
      "epoch": 0.018654302350657754,
      "grad_norm": 0.9396592974662781,
      "learning_rate": 9.999728003450577e-06,
      "loss": 0.8943,
      "step": 346
    },
    {
      "epoch": 0.018708216519301272,
      "grad_norm": 1.149387240409851,
      "learning_rate": 9.999725787622148e-06,
      "loss": 0.8566,
      "step": 347
    },
    {
      "epoch": 0.018762130687944793,
      "grad_norm": 1.1573290824890137,
      "learning_rate": 9.999723562804887e-06,
      "loss": 0.9641,
      "step": 348
    },
    {
      "epoch": 0.01881604485658831,
      "grad_norm": 1.0217385292053223,
      "learning_rate": 9.999721328998797e-06,
      "loss": 0.9555,
      "step": 349
    },
    {
      "epoch": 0.018869959025231833,
      "grad_norm": 1.034690499305725,
      "learning_rate": 9.999719086203884e-06,
      "loss": 0.9407,
      "step": 350
    },
    {
      "epoch": 0.01892387319387535,
      "grad_norm": 0.9819002151489258,
      "learning_rate": 9.999716834420148e-06,
      "loss": 0.9104,
      "step": 351
    },
    {
      "epoch": 0.01897778736251887,
      "grad_norm": 1.0459688901901245,
      "learning_rate": 9.999714573647597e-06,
      "loss": 0.9296,
      "step": 352
    },
    {
      "epoch": 0.01903170153116239,
      "grad_norm": 0.9575183391571045,
      "learning_rate": 9.999712303886232e-06,
      "loss": 0.8517,
      "step": 353
    },
    {
      "epoch": 0.019085615699805908,
      "grad_norm": 1.0018881559371948,
      "learning_rate": 9.99971002513606e-06,
      "loss": 0.9208,
      "step": 354
    },
    {
      "epoch": 0.01913952986844943,
      "grad_norm": 1.0291972160339355,
      "learning_rate": 9.999707737397085e-06,
      "loss": 0.8765,
      "step": 355
    },
    {
      "epoch": 0.019193444037092947,
      "grad_norm": 1.0081498622894287,
      "learning_rate": 9.999705440669306e-06,
      "loss": 0.9204,
      "step": 356
    },
    {
      "epoch": 0.01924735820573647,
      "grad_norm": 0.956950843334198,
      "learning_rate": 9.999703134952733e-06,
      "loss": 0.8058,
      "step": 357
    },
    {
      "epoch": 0.019301272374379987,
      "grad_norm": 1.1130229234695435,
      "learning_rate": 9.999700820247369e-06,
      "loss": 0.8202,
      "step": 358
    },
    {
      "epoch": 0.019355186543023508,
      "grad_norm": 1.047211766242981,
      "learning_rate": 9.999698496553216e-06,
      "loss": 0.9357,
      "step": 359
    },
    {
      "epoch": 0.019409100711667026,
      "grad_norm": 1.0225415229797363,
      "learning_rate": 9.99969616387028e-06,
      "loss": 0.8306,
      "step": 360
    },
    {
      "epoch": 0.019463014880310544,
      "grad_norm": 1.060727596282959,
      "learning_rate": 9.999693822198564e-06,
      "loss": 0.9178,
      "step": 361
    },
    {
      "epoch": 0.019516929048954065,
      "grad_norm": 1.0743412971496582,
      "learning_rate": 9.999691471538074e-06,
      "loss": 0.8761,
      "step": 362
    },
    {
      "epoch": 0.019570843217597583,
      "grad_norm": 1.2229491472244263,
      "learning_rate": 9.99968911188881e-06,
      "loss": 1.0738,
      "step": 363
    },
    {
      "epoch": 0.019624757386241105,
      "grad_norm": 0.9889073967933655,
      "learning_rate": 9.999686743250783e-06,
      "loss": 0.9458,
      "step": 364
    },
    {
      "epoch": 0.019678671554884623,
      "grad_norm": 1.0398520231246948,
      "learning_rate": 9.999684365623992e-06,
      "loss": 0.9096,
      "step": 365
    },
    {
      "epoch": 0.019732585723528144,
      "grad_norm": 1.0613081455230713,
      "learning_rate": 9.999681979008442e-06,
      "loss": 0.9312,
      "step": 366
    },
    {
      "epoch": 0.019786499892171662,
      "grad_norm": 0.946211040019989,
      "learning_rate": 9.99967958340414e-06,
      "loss": 0.9208,
      "step": 367
    },
    {
      "epoch": 0.019840414060815183,
      "grad_norm": 1.1298933029174805,
      "learning_rate": 9.999677178811087e-06,
      "loss": 0.9378,
      "step": 368
    },
    {
      "epoch": 0.0198943282294587,
      "grad_norm": 1.1042351722717285,
      "learning_rate": 9.999674765229288e-06,
      "loss": 0.9487,
      "step": 369
    },
    {
      "epoch": 0.019948242398102223,
      "grad_norm": 1.0717188119888306,
      "learning_rate": 9.999672342658751e-06,
      "loss": 0.939,
      "step": 370
    },
    {
      "epoch": 0.02000215656674574,
      "grad_norm": 1.0936871767044067,
      "learning_rate": 9.999669911099474e-06,
      "loss": 1.1361,
      "step": 371
    },
    {
      "epoch": 0.02005607073538926,
      "grad_norm": 1.0650005340576172,
      "learning_rate": 9.999667470551466e-06,
      "loss": 0.9709,
      "step": 372
    },
    {
      "epoch": 0.02010998490403278,
      "grad_norm": 1.0154083967208862,
      "learning_rate": 9.999665021014731e-06,
      "loss": 0.9422,
      "step": 373
    },
    {
      "epoch": 0.020163899072676298,
      "grad_norm": 1.1382607221603394,
      "learning_rate": 9.999662562489272e-06,
      "loss": 0.984,
      "step": 374
    },
    {
      "epoch": 0.02021781324131982,
      "grad_norm": 0.9372896552085876,
      "learning_rate": 9.999660094975095e-06,
      "loss": 0.9857,
      "step": 375
    },
    {
      "epoch": 0.020271727409963337,
      "grad_norm": 1.1777011156082153,
      "learning_rate": 9.999657618472203e-06,
      "loss": 0.9731,
      "step": 376
    },
    {
      "epoch": 0.02032564157860686,
      "grad_norm": 0.9054237604141235,
      "learning_rate": 9.9996551329806e-06,
      "loss": 0.9104,
      "step": 377
    },
    {
      "epoch": 0.020379555747250377,
      "grad_norm": 0.9255661964416504,
      "learning_rate": 9.999652638500292e-06,
      "loss": 0.8632,
      "step": 378
    },
    {
      "epoch": 0.020433469915893898,
      "grad_norm": 0.9440998435020447,
      "learning_rate": 9.999650135031282e-06,
      "loss": 0.8945,
      "step": 379
    },
    {
      "epoch": 0.020487384084537416,
      "grad_norm": 0.9822732210159302,
      "learning_rate": 9.999647622573577e-06,
      "loss": 0.8874,
      "step": 380
    },
    {
      "epoch": 0.020541298253180938,
      "grad_norm": 1.1294387578964233,
      "learning_rate": 9.999645101127179e-06,
      "loss": 0.9892,
      "step": 381
    },
    {
      "epoch": 0.020595212421824455,
      "grad_norm": 1.0458290576934814,
      "learning_rate": 9.999642570692094e-06,
      "loss": 0.9163,
      "step": 382
    },
    {
      "epoch": 0.020649126590467973,
      "grad_norm": 0.8124557733535767,
      "learning_rate": 9.999640031268326e-06,
      "loss": 0.6927,
      "step": 383
    },
    {
      "epoch": 0.020703040759111495,
      "grad_norm": 1.1053259372711182,
      "learning_rate": 9.999637482855878e-06,
      "loss": 0.8651,
      "step": 384
    },
    {
      "epoch": 0.020756954927755013,
      "grad_norm": 1.1280632019042969,
      "learning_rate": 9.999634925454757e-06,
      "loss": 0.9708,
      "step": 385
    },
    {
      "epoch": 0.020810869096398534,
      "grad_norm": 0.9916180372238159,
      "learning_rate": 9.999632359064965e-06,
      "loss": 0.9081,
      "step": 386
    },
    {
      "epoch": 0.020864783265042052,
      "grad_norm": 1.0430771112442017,
      "learning_rate": 9.99962978368651e-06,
      "loss": 0.9837,
      "step": 387
    },
    {
      "epoch": 0.020918697433685574,
      "grad_norm": 1.031343698501587,
      "learning_rate": 9.999627199319398e-06,
      "loss": 0.9156,
      "step": 388
    },
    {
      "epoch": 0.02097261160232909,
      "grad_norm": 1.0157191753387451,
      "learning_rate": 9.999624605963627e-06,
      "loss": 0.9379,
      "step": 389
    },
    {
      "epoch": 0.021026525770972613,
      "grad_norm": 0.9524544477462769,
      "learning_rate": 9.999622003619204e-06,
      "loss": 0.8448,
      "step": 390
    },
    {
      "epoch": 0.02108043993961613,
      "grad_norm": 1.091670036315918,
      "learning_rate": 9.999619392286137e-06,
      "loss": 0.9794,
      "step": 391
    },
    {
      "epoch": 0.021134354108259652,
      "grad_norm": 1.0502233505249023,
      "learning_rate": 9.999616771964429e-06,
      "loss": 1.0047,
      "step": 392
    },
    {
      "epoch": 0.02118826827690317,
      "grad_norm": 1.2087476253509521,
      "learning_rate": 9.999614142654084e-06,
      "loss": 0.8964,
      "step": 393
    },
    {
      "epoch": 0.021242182445546688,
      "grad_norm": 1.0264590978622437,
      "learning_rate": 9.999611504355106e-06,
      "loss": 0.8608,
      "step": 394
    },
    {
      "epoch": 0.02129609661419021,
      "grad_norm": 0.9883281588554382,
      "learning_rate": 9.999608857067503e-06,
      "loss": 0.9109,
      "step": 395
    },
    {
      "epoch": 0.021350010782833728,
      "grad_norm": 0.9913623332977295,
      "learning_rate": 9.999606200791276e-06,
      "loss": 0.8993,
      "step": 396
    },
    {
      "epoch": 0.02140392495147725,
      "grad_norm": 1.019178867340088,
      "learning_rate": 9.999603535526432e-06,
      "loss": 0.9115,
      "step": 397
    },
    {
      "epoch": 0.021457839120120767,
      "grad_norm": 0.9756026864051819,
      "learning_rate": 9.999600861272974e-06,
      "loss": 0.834,
      "step": 398
    },
    {
      "epoch": 0.02151175328876429,
      "grad_norm": 0.9956341981887817,
      "learning_rate": 9.999598178030909e-06,
      "loss": 0.8756,
      "step": 399
    },
    {
      "epoch": 0.021565667457407806,
      "grad_norm": 1.0267717838287354,
      "learning_rate": 9.999595485800239e-06,
      "loss": 0.9427,
      "step": 400
    },
    {
      "epoch": 0.021619581626051328,
      "grad_norm": 1.061139464378357,
      "learning_rate": 9.999592784580974e-06,
      "loss": 0.9835,
      "step": 401
    },
    {
      "epoch": 0.021673495794694846,
      "grad_norm": 0.9970353245735168,
      "learning_rate": 9.999590074373114e-06,
      "loss": 0.8946,
      "step": 402
    },
    {
      "epoch": 0.021727409963338367,
      "grad_norm": 1.056242823600769,
      "learning_rate": 9.999587355176664e-06,
      "loss": 0.9076,
      "step": 403
    },
    {
      "epoch": 0.021781324131981885,
      "grad_norm": 1.0285427570343018,
      "learning_rate": 9.999584626991632e-06,
      "loss": 0.8506,
      "step": 404
    },
    {
      "epoch": 0.021835238300625403,
      "grad_norm": 1.0026901960372925,
      "learning_rate": 9.99958188981802e-06,
      "loss": 0.8457,
      "step": 405
    },
    {
      "epoch": 0.021889152469268924,
      "grad_norm": 0.8921003341674805,
      "learning_rate": 9.999579143655833e-06,
      "loss": 0.8215,
      "step": 406
    },
    {
      "epoch": 0.021943066637912442,
      "grad_norm": 1.2816855907440186,
      "learning_rate": 9.99957638850508e-06,
      "loss": 0.8779,
      "step": 407
    },
    {
      "epoch": 0.021996980806555964,
      "grad_norm": 1.4713681936264038,
      "learning_rate": 9.99957362436576e-06,
      "loss": 0.8581,
      "step": 408
    },
    {
      "epoch": 0.02205089497519948,
      "grad_norm": 1.0117568969726562,
      "learning_rate": 9.999570851237883e-06,
      "loss": 0.8865,
      "step": 409
    },
    {
      "epoch": 0.022104809143843003,
      "grad_norm": 0.9530962705612183,
      "learning_rate": 9.99956806912145e-06,
      "loss": 0.8888,
      "step": 410
    },
    {
      "epoch": 0.02215872331248652,
      "grad_norm": 0.865692675113678,
      "learning_rate": 9.99956527801647e-06,
      "loss": 0.8075,
      "step": 411
    },
    {
      "epoch": 0.022212637481130042,
      "grad_norm": 0.9613220691680908,
      "learning_rate": 9.999562477922944e-06,
      "loss": 0.9289,
      "step": 412
    },
    {
      "epoch": 0.02226655164977356,
      "grad_norm": 0.9419745802879333,
      "learning_rate": 9.99955966884088e-06,
      "loss": 0.8758,
      "step": 413
    },
    {
      "epoch": 0.02232046581841708,
      "grad_norm": 1.0120573043823242,
      "learning_rate": 9.999556850770282e-06,
      "loss": 0.9014,
      "step": 414
    },
    {
      "epoch": 0.0223743799870606,
      "grad_norm": 0.9833963513374329,
      "learning_rate": 9.999554023711155e-06,
      "loss": 0.9354,
      "step": 415
    },
    {
      "epoch": 0.022428294155704118,
      "grad_norm": 0.9058681130409241,
      "learning_rate": 9.999551187663505e-06,
      "loss": 0.9201,
      "step": 416
    },
    {
      "epoch": 0.02248220832434764,
      "grad_norm": 1.0103633403778076,
      "learning_rate": 9.999548342627334e-06,
      "loss": 0.9023,
      "step": 417
    },
    {
      "epoch": 0.022536122492991157,
      "grad_norm": 0.8671039342880249,
      "learning_rate": 9.99954548860265e-06,
      "loss": 0.7263,
      "step": 418
    },
    {
      "epoch": 0.02259003666163468,
      "grad_norm": 1.0967090129852295,
      "learning_rate": 9.999542625589461e-06,
      "loss": 1.0616,
      "step": 419
    },
    {
      "epoch": 0.022643950830278196,
      "grad_norm": 0.9032139778137207,
      "learning_rate": 9.999539753587764e-06,
      "loss": 0.782,
      "step": 420
    },
    {
      "epoch": 0.022697864998921718,
      "grad_norm": 0.9532387256622314,
      "learning_rate": 9.99953687259757e-06,
      "loss": 0.9628,
      "step": 421
    },
    {
      "epoch": 0.022751779167565236,
      "grad_norm": 0.9732246994972229,
      "learning_rate": 9.999533982618885e-06,
      "loss": 0.8682,
      "step": 422
    },
    {
      "epoch": 0.022805693336208757,
      "grad_norm": 0.9160019159317017,
      "learning_rate": 9.99953108365171e-06,
      "loss": 0.9051,
      "step": 423
    },
    {
      "epoch": 0.022859607504852275,
      "grad_norm": 1.0100488662719727,
      "learning_rate": 9.999528175696054e-06,
      "loss": 0.9836,
      "step": 424
    },
    {
      "epoch": 0.022913521673495793,
      "grad_norm": 1.0130014419555664,
      "learning_rate": 9.99952525875192e-06,
      "loss": 0.8653,
      "step": 425
    },
    {
      "epoch": 0.022967435842139314,
      "grad_norm": 0.9726247787475586,
      "learning_rate": 9.999522332819313e-06,
      "loss": 0.8761,
      "step": 426
    },
    {
      "epoch": 0.023021350010782832,
      "grad_norm": 0.9457972049713135,
      "learning_rate": 9.99951939789824e-06,
      "loss": 0.8792,
      "step": 427
    },
    {
      "epoch": 0.023075264179426354,
      "grad_norm": 1.083130121231079,
      "learning_rate": 9.999516453988706e-06,
      "loss": 0.9035,
      "step": 428
    },
    {
      "epoch": 0.023129178348069872,
      "grad_norm": 0.9195771217346191,
      "learning_rate": 9.999513501090714e-06,
      "loss": 0.8586,
      "step": 429
    },
    {
      "epoch": 0.023183092516713393,
      "grad_norm": 0.983346700668335,
      "learning_rate": 9.999510539204273e-06,
      "loss": 0.8335,
      "step": 430
    },
    {
      "epoch": 0.02323700668535691,
      "grad_norm": 1.0524029731750488,
      "learning_rate": 9.999507568329386e-06,
      "loss": 0.838,
      "step": 431
    },
    {
      "epoch": 0.023290920854000433,
      "grad_norm": 1.0267860889434814,
      "learning_rate": 9.999504588466058e-06,
      "loss": 0.9345,
      "step": 432
    },
    {
      "epoch": 0.02334483502264395,
      "grad_norm": 1.025707483291626,
      "learning_rate": 9.999501599614294e-06,
      "loss": 0.9042,
      "step": 433
    },
    {
      "epoch": 0.023398749191287472,
      "grad_norm": 0.9739174842834473,
      "learning_rate": 9.999498601774101e-06,
      "loss": 0.7433,
      "step": 434
    },
    {
      "epoch": 0.02345266335993099,
      "grad_norm": 0.9468310475349426,
      "learning_rate": 9.999495594945486e-06,
      "loss": 0.8447,
      "step": 435
    },
    {
      "epoch": 0.023506577528574508,
      "grad_norm": 0.9820529818534851,
      "learning_rate": 9.99949257912845e-06,
      "loss": 0.8842,
      "step": 436
    },
    {
      "epoch": 0.02356049169721803,
      "grad_norm": 0.998515784740448,
      "learning_rate": 9.999489554323e-06,
      "loss": 0.9226,
      "step": 437
    },
    {
      "epoch": 0.023614405865861547,
      "grad_norm": 0.9819791316986084,
      "learning_rate": 9.999486520529144e-06,
      "loss": 0.8559,
      "step": 438
    },
    {
      "epoch": 0.02366832003450507,
      "grad_norm": 0.9468326568603516,
      "learning_rate": 9.999483477746884e-06,
      "loss": 0.8064,
      "step": 439
    },
    {
      "epoch": 0.023722234203148587,
      "grad_norm": 1.0087614059448242,
      "learning_rate": 9.999480425976229e-06,
      "loss": 0.9232,
      "step": 440
    },
    {
      "epoch": 0.023776148371792108,
      "grad_norm": 0.9446098208427429,
      "learning_rate": 9.99947736521718e-06,
      "loss": 0.8511,
      "step": 441
    },
    {
      "epoch": 0.023830062540435626,
      "grad_norm": 1.0966850519180298,
      "learning_rate": 9.999474295469746e-06,
      "loss": 0.9929,
      "step": 442
    },
    {
      "epoch": 0.023883976709079147,
      "grad_norm": 0.8858770728111267,
      "learning_rate": 9.99947121673393e-06,
      "loss": 0.8492,
      "step": 443
    },
    {
      "epoch": 0.023937890877722665,
      "grad_norm": 1.083717703819275,
      "learning_rate": 9.999468129009742e-06,
      "loss": 0.9948,
      "step": 444
    },
    {
      "epoch": 0.023991805046366187,
      "grad_norm": 1.0251178741455078,
      "learning_rate": 9.999465032297184e-06,
      "loss": 0.8769,
      "step": 445
    },
    {
      "epoch": 0.024045719215009705,
      "grad_norm": 0.9331875443458557,
      "learning_rate": 9.999461926596261e-06,
      "loss": 0.8663,
      "step": 446
    },
    {
      "epoch": 0.024099633383653223,
      "grad_norm": 0.8941493034362793,
      "learning_rate": 9.999458811906979e-06,
      "loss": 0.8172,
      "step": 447
    },
    {
      "epoch": 0.024153547552296744,
      "grad_norm": 0.9978699684143066,
      "learning_rate": 9.999455688229347e-06,
      "loss": 0.9303,
      "step": 448
    },
    {
      "epoch": 0.024207461720940262,
      "grad_norm": 0.8835211992263794,
      "learning_rate": 9.999452555563366e-06,
      "loss": 0.8921,
      "step": 449
    },
    {
      "epoch": 0.024261375889583783,
      "grad_norm": 0.9061810970306396,
      "learning_rate": 9.999449413909043e-06,
      "loss": 0.8201,
      "step": 450
    },
    {
      "epoch": 0.0243152900582273,
      "grad_norm": 1.0061571598052979,
      "learning_rate": 9.999446263266385e-06,
      "loss": 0.8506,
      "step": 451
    },
    {
      "epoch": 0.024369204226870823,
      "grad_norm": 0.9286402463912964,
      "learning_rate": 9.999443103635398e-06,
      "loss": 0.8532,
      "step": 452
    },
    {
      "epoch": 0.02442311839551434,
      "grad_norm": 1.0919772386550903,
      "learning_rate": 9.999439935016087e-06,
      "loss": 0.9466,
      "step": 453
    },
    {
      "epoch": 0.024477032564157862,
      "grad_norm": 1.0552513599395752,
      "learning_rate": 9.999436757408453e-06,
      "loss": 0.8406,
      "step": 454
    },
    {
      "epoch": 0.02453094673280138,
      "grad_norm": 0.9604331851005554,
      "learning_rate": 9.999433570812511e-06,
      "loss": 0.8928,
      "step": 455
    },
    {
      "epoch": 0.0245848609014449,
      "grad_norm": 1.0126323699951172,
      "learning_rate": 9.999430375228259e-06,
      "loss": 0.924,
      "step": 456
    },
    {
      "epoch": 0.02463877507008842,
      "grad_norm": 1.0540791749954224,
      "learning_rate": 9.999427170655707e-06,
      "loss": 0.9656,
      "step": 457
    },
    {
      "epoch": 0.024692689238731937,
      "grad_norm": 0.8622417449951172,
      "learning_rate": 9.999423957094857e-06,
      "loss": 0.7428,
      "step": 458
    },
    {
      "epoch": 0.02474660340737546,
      "grad_norm": 1.106581211090088,
      "learning_rate": 9.999420734545719e-06,
      "loss": 0.9258,
      "step": 459
    },
    {
      "epoch": 0.024800517576018977,
      "grad_norm": 0.990807294845581,
      "learning_rate": 9.999417503008296e-06,
      "loss": 0.9083,
      "step": 460
    },
    {
      "epoch": 0.024854431744662498,
      "grad_norm": 0.9302589893341064,
      "learning_rate": 9.999414262482594e-06,
      "loss": 0.8654,
      "step": 461
    },
    {
      "epoch": 0.024908345913306016,
      "grad_norm": 1.0218255519866943,
      "learning_rate": 9.999411012968621e-06,
      "loss": 0.8996,
      "step": 462
    },
    {
      "epoch": 0.024962260081949537,
      "grad_norm": 0.976108193397522,
      "learning_rate": 9.99940775446638e-06,
      "loss": 0.9423,
      "step": 463
    },
    {
      "epoch": 0.025016174250593055,
      "grad_norm": 1.1027617454528809,
      "learning_rate": 9.99940448697588e-06,
      "loss": 1.0407,
      "step": 464
    },
    {
      "epoch": 0.025070088419236577,
      "grad_norm": 1.0148764848709106,
      "learning_rate": 9.999401210497122e-06,
      "loss": 0.9418,
      "step": 465
    },
    {
      "epoch": 0.025124002587880095,
      "grad_norm": 1.0120681524276733,
      "learning_rate": 9.999397925030116e-06,
      "loss": 0.92,
      "step": 466
    },
    {
      "epoch": 0.025177916756523613,
      "grad_norm": 1.1855127811431885,
      "learning_rate": 9.999394630574868e-06,
      "loss": 0.9285,
      "step": 467
    },
    {
      "epoch": 0.025231830925167134,
      "grad_norm": 1.8014320135116577,
      "learning_rate": 9.999391327131383e-06,
      "loss": 0.979,
      "step": 468
    },
    {
      "epoch": 0.025285745093810652,
      "grad_norm": 1.1568403244018555,
      "learning_rate": 9.999388014699664e-06,
      "loss": 0.9574,
      "step": 469
    },
    {
      "epoch": 0.025339659262454173,
      "grad_norm": 1.2544865608215332,
      "learning_rate": 9.99938469327972e-06,
      "loss": 0.8356,
      "step": 470
    },
    {
      "epoch": 0.02539357343109769,
      "grad_norm": 1.8647997379302979,
      "learning_rate": 9.99938136287156e-06,
      "loss": 0.9181,
      "step": 471
    },
    {
      "epoch": 0.025447487599741213,
      "grad_norm": 0.9942222237586975,
      "learning_rate": 9.999378023475184e-06,
      "loss": 0.9297,
      "step": 472
    },
    {
      "epoch": 0.02550140176838473,
      "grad_norm": 0.9839766621589661,
      "learning_rate": 9.9993746750906e-06,
      "loss": 0.9181,
      "step": 473
    },
    {
      "epoch": 0.025555315937028252,
      "grad_norm": 0.9353258609771729,
      "learning_rate": 9.999371317717817e-06,
      "loss": 0.8789,
      "step": 474
    },
    {
      "epoch": 0.02560923010567177,
      "grad_norm": 0.9256170988082886,
      "learning_rate": 9.999367951356838e-06,
      "loss": 0.8725,
      "step": 475
    },
    {
      "epoch": 0.02566314427431529,
      "grad_norm": 1.1102124452590942,
      "learning_rate": 9.999364576007669e-06,
      "loss": 0.9818,
      "step": 476
    },
    {
      "epoch": 0.02571705844295881,
      "grad_norm": 1.04171884059906,
      "learning_rate": 9.999361191670316e-06,
      "loss": 0.9275,
      "step": 477
    },
    {
      "epoch": 0.025770972611602327,
      "grad_norm": 0.9670290350914001,
      "learning_rate": 9.999357798344787e-06,
      "loss": 0.8919,
      "step": 478
    },
    {
      "epoch": 0.02582488678024585,
      "grad_norm": 1.0543723106384277,
      "learning_rate": 9.999354396031085e-06,
      "loss": 0.9356,
      "step": 479
    },
    {
      "epoch": 0.025878800948889367,
      "grad_norm": 1.1368457078933716,
      "learning_rate": 9.99935098472922e-06,
      "loss": 0.9387,
      "step": 480
    },
    {
      "epoch": 0.025932715117532888,
      "grad_norm": 1.0627872943878174,
      "learning_rate": 9.999347564439196e-06,
      "loss": 1.0047,
      "step": 481
    },
    {
      "epoch": 0.025986629286176406,
      "grad_norm": 0.9553730487823486,
      "learning_rate": 9.999344135161018e-06,
      "loss": 0.8845,
      "step": 482
    },
    {
      "epoch": 0.026040543454819928,
      "grad_norm": 0.9605830907821655,
      "learning_rate": 9.999340696894694e-06,
      "loss": 0.8816,
      "step": 483
    },
    {
      "epoch": 0.026094457623463446,
      "grad_norm": 1.0464140176773071,
      "learning_rate": 9.999337249640232e-06,
      "loss": 0.9344,
      "step": 484
    },
    {
      "epoch": 0.026148371792106967,
      "grad_norm": 1.0667988061904907,
      "learning_rate": 9.999333793397635e-06,
      "loss": 0.8834,
      "step": 485
    },
    {
      "epoch": 0.026202285960750485,
      "grad_norm": 0.8996486663818359,
      "learning_rate": 9.999330328166908e-06,
      "loss": 0.8247,
      "step": 486
    },
    {
      "epoch": 0.026256200129394006,
      "grad_norm": 1.0483838319778442,
      "learning_rate": 9.99932685394806e-06,
      "loss": 0.9414,
      "step": 487
    },
    {
      "epoch": 0.026310114298037524,
      "grad_norm": 1.2089953422546387,
      "learning_rate": 9.999323370741097e-06,
      "loss": 1.0913,
      "step": 488
    },
    {
      "epoch": 0.026364028466681042,
      "grad_norm": 1.074291467666626,
      "learning_rate": 9.999319878546025e-06,
      "loss": 0.8882,
      "step": 489
    },
    {
      "epoch": 0.026417942635324564,
      "grad_norm": 1.0076494216918945,
      "learning_rate": 9.99931637736285e-06,
      "loss": 0.8393,
      "step": 490
    },
    {
      "epoch": 0.02647185680396808,
      "grad_norm": 1.2263407707214355,
      "learning_rate": 9.99931286719158e-06,
      "loss": 0.955,
      "step": 491
    },
    {
      "epoch": 0.026525770972611603,
      "grad_norm": 0.9093664884567261,
      "learning_rate": 9.999309348032218e-06,
      "loss": 0.8366,
      "step": 492
    },
    {
      "epoch": 0.02657968514125512,
      "grad_norm": 1.0704407691955566,
      "learning_rate": 9.999305819884772e-06,
      "loss": 0.981,
      "step": 493
    },
    {
      "epoch": 0.026633599309898642,
      "grad_norm": 1.2105270624160767,
      "learning_rate": 9.999302282749249e-06,
      "loss": 0.8896,
      "step": 494
    },
    {
      "epoch": 0.02668751347854216,
      "grad_norm": 1.0142449140548706,
      "learning_rate": 9.999298736625654e-06,
      "loss": 0.8627,
      "step": 495
    },
    {
      "epoch": 0.02674142764718568,
      "grad_norm": 1.0887057781219482,
      "learning_rate": 9.999295181513994e-06,
      "loss": 0.8884,
      "step": 496
    },
    {
      "epoch": 0.0267953418158292,
      "grad_norm": 0.9958952069282532,
      "learning_rate": 9.999291617414277e-06,
      "loss": 0.7768,
      "step": 497
    },
    {
      "epoch": 0.02684925598447272,
      "grad_norm": 0.8576722741127014,
      "learning_rate": 9.999288044326508e-06,
      "loss": 0.715,
      "step": 498
    },
    {
      "epoch": 0.02690317015311624,
      "grad_norm": 1.058148741722107,
      "learning_rate": 9.999284462250691e-06,
      "loss": 0.8693,
      "step": 499
    },
    {
      "epoch": 0.026957084321759757,
      "grad_norm": 0.9429569244384766,
      "learning_rate": 9.999280871186837e-06,
      "loss": 0.8883,
      "step": 500
    },
    {
      "epoch": 0.02701099849040328,
      "grad_norm": 0.9450993537902832,
      "learning_rate": 9.999277271134948e-06,
      "loss": 0.9376,
      "step": 501
    },
    {
      "epoch": 0.027064912659046796,
      "grad_norm": 1.0307891368865967,
      "learning_rate": 9.999273662095035e-06,
      "loss": 0.9098,
      "step": 502
    },
    {
      "epoch": 0.027118826827690318,
      "grad_norm": 0.9515891671180725,
      "learning_rate": 9.999270044067101e-06,
      "loss": 0.8854,
      "step": 503
    },
    {
      "epoch": 0.027172740996333836,
      "grad_norm": 1.1173255443572998,
      "learning_rate": 9.999266417051154e-06,
      "loss": 0.7977,
      "step": 504
    },
    {
      "epoch": 0.027226655164977357,
      "grad_norm": 1.028194785118103,
      "learning_rate": 9.9992627810472e-06,
      "loss": 0.9585,
      "step": 505
    },
    {
      "epoch": 0.027280569333620875,
      "grad_norm": 1.0855528116226196,
      "learning_rate": 9.999259136055245e-06,
      "loss": 0.9807,
      "step": 506
    },
    {
      "epoch": 0.027334483502264396,
      "grad_norm": 1.1148236989974976,
      "learning_rate": 9.999255482075298e-06,
      "loss": 0.9672,
      "step": 507
    },
    {
      "epoch": 0.027388397670907914,
      "grad_norm": 0.9697713255882263,
      "learning_rate": 9.999251819107364e-06,
      "loss": 0.9073,
      "step": 508
    },
    {
      "epoch": 0.027442311839551436,
      "grad_norm": 0.9802384972572327,
      "learning_rate": 9.999248147151448e-06,
      "loss": 0.8704,
      "step": 509
    },
    {
      "epoch": 0.027496226008194954,
      "grad_norm": 0.963330090045929,
      "learning_rate": 9.999244466207559e-06,
      "loss": 0.9312,
      "step": 510
    },
    {
      "epoch": 0.02755014017683847,
      "grad_norm": 0.8776309490203857,
      "learning_rate": 9.999240776275703e-06,
      "loss": 0.8068,
      "step": 511
    },
    {
      "epoch": 0.027604054345481993,
      "grad_norm": 1.1159353256225586,
      "learning_rate": 9.999237077355886e-06,
      "loss": 0.8164,
      "step": 512
    },
    {
      "epoch": 0.02765796851412551,
      "grad_norm": 1.004232406616211,
      "learning_rate": 9.999233369448115e-06,
      "loss": 0.8666,
      "step": 513
    },
    {
      "epoch": 0.027711882682769032,
      "grad_norm": 1.0300110578536987,
      "learning_rate": 9.999229652552395e-06,
      "loss": 0.8774,
      "step": 514
    },
    {
      "epoch": 0.02776579685141255,
      "grad_norm": 0.8823155164718628,
      "learning_rate": 9.999225926668736e-06,
      "loss": 0.7579,
      "step": 515
    },
    {
      "epoch": 0.027819711020056072,
      "grad_norm": 0.938956618309021,
      "learning_rate": 9.999222191797144e-06,
      "loss": 0.8749,
      "step": 516
    },
    {
      "epoch": 0.02787362518869959,
      "grad_norm": 0.9111800789833069,
      "learning_rate": 9.999218447937624e-06,
      "loss": 0.8915,
      "step": 517
    },
    {
      "epoch": 0.02792753935734311,
      "grad_norm": 0.971813440322876,
      "learning_rate": 9.999214695090182e-06,
      "loss": 0.9038,
      "step": 518
    },
    {
      "epoch": 0.02798145352598663,
      "grad_norm": 0.9159868359565735,
      "learning_rate": 9.999210933254828e-06,
      "loss": 0.8726,
      "step": 519
    },
    {
      "epoch": 0.028035367694630147,
      "grad_norm": 1.0223439931869507,
      "learning_rate": 9.999207162431566e-06,
      "loss": 0.8738,
      "step": 520
    },
    {
      "epoch": 0.02808928186327367,
      "grad_norm": 0.9844004511833191,
      "learning_rate": 9.999203382620404e-06,
      "loss": 0.8815,
      "step": 521
    },
    {
      "epoch": 0.028143196031917186,
      "grad_norm": 1.1636719703674316,
      "learning_rate": 9.99919959382135e-06,
      "loss": 0.8781,
      "step": 522
    },
    {
      "epoch": 0.028197110200560708,
      "grad_norm": 0.9637702703475952,
      "learning_rate": 9.999195796034407e-06,
      "loss": 0.8491,
      "step": 523
    },
    {
      "epoch": 0.028251024369204226,
      "grad_norm": 0.975931704044342,
      "learning_rate": 9.999191989259584e-06,
      "loss": 0.9983,
      "step": 524
    },
    {
      "epoch": 0.028304938537847747,
      "grad_norm": 0.9855527877807617,
      "learning_rate": 9.999188173496889e-06,
      "loss": 0.9587,
      "step": 525
    },
    {
      "epoch": 0.028358852706491265,
      "grad_norm": 0.9925652742385864,
      "learning_rate": 9.99918434874633e-06,
      "loss": 0.8408,
      "step": 526
    },
    {
      "epoch": 0.028412766875134787,
      "grad_norm": 0.9272180795669556,
      "learning_rate": 9.999180515007908e-06,
      "loss": 0.8267,
      "step": 527
    },
    {
      "epoch": 0.028466681043778305,
      "grad_norm": 1.161076307296753,
      "learning_rate": 9.999176672281636e-06,
      "loss": 0.9282,
      "step": 528
    },
    {
      "epoch": 0.028520595212421826,
      "grad_norm": 0.8953909277915955,
      "learning_rate": 9.99917282056752e-06,
      "loss": 0.8078,
      "step": 529
    },
    {
      "epoch": 0.028574509381065344,
      "grad_norm": 0.9194382429122925,
      "learning_rate": 9.999168959865562e-06,
      "loss": 0.8385,
      "step": 530
    },
    {
      "epoch": 0.028628423549708862,
      "grad_norm": 1.0351816415786743,
      "learning_rate": 9.999165090175775e-06,
      "loss": 0.8155,
      "step": 531
    },
    {
      "epoch": 0.028682337718352383,
      "grad_norm": 0.9233224391937256,
      "learning_rate": 9.999161211498163e-06,
      "loss": 0.8825,
      "step": 532
    },
    {
      "epoch": 0.0287362518869959,
      "grad_norm": 1.0415356159210205,
      "learning_rate": 9.999157323832732e-06,
      "loss": 0.7844,
      "step": 533
    },
    {
      "epoch": 0.028790166055639423,
      "grad_norm": 1.0329923629760742,
      "learning_rate": 9.999153427179492e-06,
      "loss": 0.893,
      "step": 534
    },
    {
      "epoch": 0.02884408022428294,
      "grad_norm": 1.237291932106018,
      "learning_rate": 9.999149521538448e-06,
      "loss": 0.9786,
      "step": 535
    },
    {
      "epoch": 0.028897994392926462,
      "grad_norm": 0.9952654242515564,
      "learning_rate": 9.999145606909607e-06,
      "loss": 0.9262,
      "step": 536
    },
    {
      "epoch": 0.02895190856156998,
      "grad_norm": 1.016533374786377,
      "learning_rate": 9.999141683292977e-06,
      "loss": 0.9854,
      "step": 537
    },
    {
      "epoch": 0.0290058227302135,
      "grad_norm": 1.0334454774856567,
      "learning_rate": 9.999137750688564e-06,
      "loss": 0.8928,
      "step": 538
    },
    {
      "epoch": 0.02905973689885702,
      "grad_norm": 0.941662609577179,
      "learning_rate": 9.999133809096374e-06,
      "loss": 0.8698,
      "step": 539
    },
    {
      "epoch": 0.02911365106750054,
      "grad_norm": 0.9454428553581238,
      "learning_rate": 9.999129858516418e-06,
      "loss": 0.9261,
      "step": 540
    },
    {
      "epoch": 0.02916756523614406,
      "grad_norm": 1.0921217203140259,
      "learning_rate": 9.9991258989487e-06,
      "loss": 0.9163,
      "step": 541
    },
    {
      "epoch": 0.029221479404787577,
      "grad_norm": 0.8999170064926147,
      "learning_rate": 9.999121930393227e-06,
      "loss": 0.883,
      "step": 542
    },
    {
      "epoch": 0.029275393573431098,
      "grad_norm": 0.9732702970504761,
      "learning_rate": 9.999117952850009e-06,
      "loss": 0.9168,
      "step": 543
    },
    {
      "epoch": 0.029329307742074616,
      "grad_norm": 1.00196373462677,
      "learning_rate": 9.99911396631905e-06,
      "loss": 0.826,
      "step": 544
    },
    {
      "epoch": 0.029383221910718137,
      "grad_norm": 0.9776156544685364,
      "learning_rate": 9.999109970800358e-06,
      "loss": 0.8176,
      "step": 545
    },
    {
      "epoch": 0.029437136079361655,
      "grad_norm": 1.0503387451171875,
      "learning_rate": 9.99910596629394e-06,
      "loss": 0.8617,
      "step": 546
    },
    {
      "epoch": 0.029491050248005177,
      "grad_norm": 0.9195687174797058,
      "learning_rate": 9.999101952799805e-06,
      "loss": 0.8224,
      "step": 547
    },
    {
      "epoch": 0.029544964416648695,
      "grad_norm": 0.8746809959411621,
      "learning_rate": 9.999097930317959e-06,
      "loss": 0.8407,
      "step": 548
    },
    {
      "epoch": 0.029598878585292216,
      "grad_norm": 0.9035898447036743,
      "learning_rate": 9.999093898848407e-06,
      "loss": 0.8344,
      "step": 549
    },
    {
      "epoch": 0.029652792753935734,
      "grad_norm": 0.8764795064926147,
      "learning_rate": 9.99908985839116e-06,
      "loss": 0.8323,
      "step": 550
    },
    {
      "epoch": 0.029706706922579255,
      "grad_norm": 0.9654614329338074,
      "learning_rate": 9.999085808946224e-06,
      "loss": 0.8696,
      "step": 551
    },
    {
      "epoch": 0.029760621091222773,
      "grad_norm": 1.1295796632766724,
      "learning_rate": 9.999081750513606e-06,
      "loss": 0.9608,
      "step": 552
    },
    {
      "epoch": 0.02981453525986629,
      "grad_norm": 0.9591107368469238,
      "learning_rate": 9.999077683093313e-06,
      "loss": 0.8762,
      "step": 553
    },
    {
      "epoch": 0.029868449428509813,
      "grad_norm": 0.8287899494171143,
      "learning_rate": 9.999073606685353e-06,
      "loss": 0.7265,
      "step": 554
    },
    {
      "epoch": 0.02992236359715333,
      "grad_norm": 0.9429282546043396,
      "learning_rate": 9.99906952128973e-06,
      "loss": 0.8835,
      "step": 555
    },
    {
      "epoch": 0.029976277765796852,
      "grad_norm": 0.9617370963096619,
      "learning_rate": 9.999065426906459e-06,
      "loss": 0.9138,
      "step": 556
    },
    {
      "epoch": 0.03003019193444037,
      "grad_norm": 1.2346372604370117,
      "learning_rate": 9.999061323535538e-06,
      "loss": 0.831,
      "step": 557
    },
    {
      "epoch": 0.03008410610308389,
      "grad_norm": 1.2413623332977295,
      "learning_rate": 9.999057211176982e-06,
      "loss": 1.0211,
      "step": 558
    },
    {
      "epoch": 0.03013802027172741,
      "grad_norm": 0.98906010389328,
      "learning_rate": 9.999053089830794e-06,
      "loss": 0.7821,
      "step": 559
    },
    {
      "epoch": 0.03019193444037093,
      "grad_norm": 0.96706622838974,
      "learning_rate": 9.999048959496983e-06,
      "loss": 0.8593,
      "step": 560
    },
    {
      "epoch": 0.03024584860901445,
      "grad_norm": 0.9400071501731873,
      "learning_rate": 9.999044820175556e-06,
      "loss": 0.8731,
      "step": 561
    },
    {
      "epoch": 0.03029976277765797,
      "grad_norm": 1.1276499032974243,
      "learning_rate": 9.999040671866522e-06,
      "loss": 0.86,
      "step": 562
    },
    {
      "epoch": 0.030353676946301488,
      "grad_norm": 0.8859087228775024,
      "learning_rate": 9.999036514569885e-06,
      "loss": 0.8274,
      "step": 563
    },
    {
      "epoch": 0.030407591114945006,
      "grad_norm": 1.1617575883865356,
      "learning_rate": 9.999032348285656e-06,
      "loss": 1.0519,
      "step": 564
    },
    {
      "epoch": 0.030461505283588527,
      "grad_norm": 0.9717594385147095,
      "learning_rate": 9.99902817301384e-06,
      "loss": 0.9276,
      "step": 565
    },
    {
      "epoch": 0.030515419452232045,
      "grad_norm": 1.000722050666809,
      "learning_rate": 9.999023988754446e-06,
      "loss": 0.8714,
      "step": 566
    },
    {
      "epoch": 0.030569333620875567,
      "grad_norm": 1.1744625568389893,
      "learning_rate": 9.999019795507481e-06,
      "loss": 1.0087,
      "step": 567
    },
    {
      "epoch": 0.030623247789519085,
      "grad_norm": 1.0199978351593018,
      "learning_rate": 9.999015593272953e-06,
      "loss": 0.8537,
      "step": 568
    },
    {
      "epoch": 0.030677161958162606,
      "grad_norm": 0.9232216477394104,
      "learning_rate": 9.999011382050869e-06,
      "loss": 0.8488,
      "step": 569
    },
    {
      "epoch": 0.030731076126806124,
      "grad_norm": 0.9905959367752075,
      "learning_rate": 9.99900716184124e-06,
      "loss": 0.9048,
      "step": 570
    },
    {
      "epoch": 0.030784990295449646,
      "grad_norm": 0.9921644330024719,
      "learning_rate": 9.999002932644066e-06,
      "loss": 0.9294,
      "step": 571
    },
    {
      "epoch": 0.030838904464093164,
      "grad_norm": 1.1583740711212158,
      "learning_rate": 9.99899869445936e-06,
      "loss": 0.727,
      "step": 572
    },
    {
      "epoch": 0.03089281863273668,
      "grad_norm": 0.906736433506012,
      "learning_rate": 9.998994447287127e-06,
      "loss": 0.7889,
      "step": 573
    },
    {
      "epoch": 0.030946732801380203,
      "grad_norm": 0.9060770869255066,
      "learning_rate": 9.998990191127379e-06,
      "loss": 0.8493,
      "step": 574
    },
    {
      "epoch": 0.03100064697002372,
      "grad_norm": 0.9094041585922241,
      "learning_rate": 9.99898592598012e-06,
      "loss": 0.8604,
      "step": 575
    },
    {
      "epoch": 0.031054561138667242,
      "grad_norm": 1.0964977741241455,
      "learning_rate": 9.998981651845358e-06,
      "loss": 0.8481,
      "step": 576
    },
    {
      "epoch": 0.03110847530731076,
      "grad_norm": 0.9509627223014832,
      "learning_rate": 9.998977368723102e-06,
      "loss": 0.8601,
      "step": 577
    },
    {
      "epoch": 0.03116238947595428,
      "grad_norm": 1.0108642578125,
      "learning_rate": 9.998973076613359e-06,
      "loss": 0.9076,
      "step": 578
    },
    {
      "epoch": 0.0312163036445978,
      "grad_norm": 1.0268129110336304,
      "learning_rate": 9.998968775516136e-06,
      "loss": 0.8273,
      "step": 579
    },
    {
      "epoch": 0.03127021781324132,
      "grad_norm": 0.968941867351532,
      "learning_rate": 9.99896446543144e-06,
      "loss": 0.8859,
      "step": 580
    },
    {
      "epoch": 0.03132413198188484,
      "grad_norm": 0.936779260635376,
      "learning_rate": 9.998960146359283e-06,
      "loss": 0.8589,
      "step": 581
    },
    {
      "epoch": 0.03137804615052836,
      "grad_norm": 0.9675167202949524,
      "learning_rate": 9.998955818299667e-06,
      "loss": 0.973,
      "step": 582
    },
    {
      "epoch": 0.03143196031917188,
      "grad_norm": 0.9475553035736084,
      "learning_rate": 9.998951481252604e-06,
      "loss": 0.8936,
      "step": 583
    },
    {
      "epoch": 0.031485874487815396,
      "grad_norm": 0.9130968451499939,
      "learning_rate": 9.9989471352181e-06,
      "loss": 0.7668,
      "step": 584
    },
    {
      "epoch": 0.031539788656458914,
      "grad_norm": 0.8890071511268616,
      "learning_rate": 9.998942780196164e-06,
      "loss": 0.8971,
      "step": 585
    },
    {
      "epoch": 0.03159370282510244,
      "grad_norm": 0.9298738837242126,
      "learning_rate": 9.998938416186803e-06,
      "loss": 0.9313,
      "step": 586
    },
    {
      "epoch": 0.03164761699374596,
      "grad_norm": 1.0683361291885376,
      "learning_rate": 9.998934043190025e-06,
      "loss": 0.9018,
      "step": 587
    },
    {
      "epoch": 0.031701531162389475,
      "grad_norm": 0.939253568649292,
      "learning_rate": 9.99892966120584e-06,
      "loss": 0.9119,
      "step": 588
    },
    {
      "epoch": 0.03175544533103299,
      "grad_norm": 0.9245349764823914,
      "learning_rate": 9.99892527023425e-06,
      "loss": 0.9258,
      "step": 589
    },
    {
      "epoch": 0.03180935949967652,
      "grad_norm": 0.9318797588348389,
      "learning_rate": 9.998920870275267e-06,
      "loss": 0.9557,
      "step": 590
    },
    {
      "epoch": 0.031863273668320036,
      "grad_norm": 0.8909592628479004,
      "learning_rate": 9.998916461328899e-06,
      "loss": 0.8122,
      "step": 591
    },
    {
      "epoch": 0.031917187836963554,
      "grad_norm": 1.0637080669403076,
      "learning_rate": 9.998912043395154e-06,
      "loss": 0.9517,
      "step": 592
    },
    {
      "epoch": 0.03197110200560707,
      "grad_norm": 0.881934642791748,
      "learning_rate": 9.99890761647404e-06,
      "loss": 0.8729,
      "step": 593
    },
    {
      "epoch": 0.032025016174250596,
      "grad_norm": 0.8882094025611877,
      "learning_rate": 9.998903180565562e-06,
      "loss": 0.7943,
      "step": 594
    },
    {
      "epoch": 0.032078930342894114,
      "grad_norm": 0.965085506439209,
      "learning_rate": 9.99889873566973e-06,
      "loss": 0.8894,
      "step": 595
    },
    {
      "epoch": 0.03213284451153763,
      "grad_norm": 0.9679432511329651,
      "learning_rate": 9.998894281786556e-06,
      "loss": 0.854,
      "step": 596
    },
    {
      "epoch": 0.03218675868018115,
      "grad_norm": 1.4454354047775269,
      "learning_rate": 9.998889818916043e-06,
      "loss": 0.9944,
      "step": 597
    },
    {
      "epoch": 0.03224067284882467,
      "grad_norm": 0.9369311928749084,
      "learning_rate": 9.998885347058198e-06,
      "loss": 0.8699,
      "step": 598
    },
    {
      "epoch": 0.03229458701746819,
      "grad_norm": 0.9014303088188171,
      "learning_rate": 9.998880866213033e-06,
      "loss": 0.8735,
      "step": 599
    },
    {
      "epoch": 0.03234850118611171,
      "grad_norm": 0.989251971244812,
      "learning_rate": 9.998876376380555e-06,
      "loss": 0.8872,
      "step": 600
    },
    {
      "epoch": 0.03240241535475523,
      "grad_norm": 1.0256885290145874,
      "learning_rate": 9.99887187756077e-06,
      "loss": 0.8787,
      "step": 601
    },
    {
      "epoch": 0.03245632952339875,
      "grad_norm": 0.9560148119926453,
      "learning_rate": 9.998867369753688e-06,
      "loss": 0.8301,
      "step": 602
    },
    {
      "epoch": 0.03251024369204227,
      "grad_norm": 1.044754147529602,
      "learning_rate": 9.998862852959316e-06,
      "loss": 0.9286,
      "step": 603
    },
    {
      "epoch": 0.03256415786068579,
      "grad_norm": 0.8769629597663879,
      "learning_rate": 9.998858327177665e-06,
      "loss": 0.7927,
      "step": 604
    },
    {
      "epoch": 0.03261807202932931,
      "grad_norm": 0.9217430949211121,
      "learning_rate": 9.99885379240874e-06,
      "loss": 0.8327,
      "step": 605
    },
    {
      "epoch": 0.032671986197972826,
      "grad_norm": 0.8202590942382812,
      "learning_rate": 9.99884924865255e-06,
      "loss": 0.7269,
      "step": 606
    },
    {
      "epoch": 0.032725900366616344,
      "grad_norm": 0.9598796367645264,
      "learning_rate": 9.998844695909102e-06,
      "loss": 0.9329,
      "step": 607
    },
    {
      "epoch": 0.03277981453525987,
      "grad_norm": 1.1016643047332764,
      "learning_rate": 9.998840134178407e-06,
      "loss": 0.9836,
      "step": 608
    },
    {
      "epoch": 0.032833728703903386,
      "grad_norm": 0.9639281630516052,
      "learning_rate": 9.998835563460471e-06,
      "loss": 0.8475,
      "step": 609
    },
    {
      "epoch": 0.032887642872546904,
      "grad_norm": 0.9266204833984375,
      "learning_rate": 9.998830983755304e-06,
      "loss": 0.7307,
      "step": 610
    },
    {
      "epoch": 0.03294155704119042,
      "grad_norm": 0.9282877445220947,
      "learning_rate": 9.99882639506291e-06,
      "loss": 0.8163,
      "step": 611
    },
    {
      "epoch": 0.03299547120983395,
      "grad_norm": 0.8939738869667053,
      "learning_rate": 9.998821797383302e-06,
      "loss": 0.6902,
      "step": 612
    },
    {
      "epoch": 0.033049385378477465,
      "grad_norm": 0.9041041731834412,
      "learning_rate": 9.998817190716488e-06,
      "loss": 0.8735,
      "step": 613
    },
    {
      "epoch": 0.03310329954712098,
      "grad_norm": 0.9973318576812744,
      "learning_rate": 9.998812575062473e-06,
      "loss": 0.9017,
      "step": 614
    },
    {
      "epoch": 0.0331572137157645,
      "grad_norm": 1.0416412353515625,
      "learning_rate": 9.998807950421268e-06,
      "loss": 0.9293,
      "step": 615
    },
    {
      "epoch": 0.03321112788440802,
      "grad_norm": 0.8686584234237671,
      "learning_rate": 9.998803316792882e-06,
      "loss": 0.8585,
      "step": 616
    },
    {
      "epoch": 0.033265042053051544,
      "grad_norm": 0.9907833337783813,
      "learning_rate": 9.998798674177319e-06,
      "loss": 0.9264,
      "step": 617
    },
    {
      "epoch": 0.03331895622169506,
      "grad_norm": 0.9927001595497131,
      "learning_rate": 9.998794022574592e-06,
      "loss": 0.895,
      "step": 618
    },
    {
      "epoch": 0.03337287039033858,
      "grad_norm": 0.9314623475074768,
      "learning_rate": 9.998789361984707e-06,
      "loss": 0.8353,
      "step": 619
    },
    {
      "epoch": 0.0334267845589821,
      "grad_norm": 0.9768248796463013,
      "learning_rate": 9.998784692407673e-06,
      "loss": 0.8917,
      "step": 620
    },
    {
      "epoch": 0.03348069872762562,
      "grad_norm": 0.9487942457199097,
      "learning_rate": 9.998780013843498e-06,
      "loss": 0.9022,
      "step": 621
    },
    {
      "epoch": 0.03353461289626914,
      "grad_norm": 1.0376895666122437,
      "learning_rate": 9.99877532629219e-06,
      "loss": 0.7692,
      "step": 622
    },
    {
      "epoch": 0.03358852706491266,
      "grad_norm": 1.021345853805542,
      "learning_rate": 9.99877062975376e-06,
      "loss": 1.0386,
      "step": 623
    },
    {
      "epoch": 0.033642441233556176,
      "grad_norm": 0.9979421496391296,
      "learning_rate": 9.998765924228214e-06,
      "loss": 0.9209,
      "step": 624
    },
    {
      "epoch": 0.0336963554021997,
      "grad_norm": 0.8552166819572449,
      "learning_rate": 9.998761209715559e-06,
      "loss": 0.8765,
      "step": 625
    },
    {
      "epoch": 0.03375026957084322,
      "grad_norm": 0.9737898707389832,
      "learning_rate": 9.998756486215809e-06,
      "loss": 0.7459,
      "step": 626
    },
    {
      "epoch": 0.03380418373948674,
      "grad_norm": 1.1067259311676025,
      "learning_rate": 9.998751753728967e-06,
      "loss": 0.8582,
      "step": 627
    },
    {
      "epoch": 0.033858097908130255,
      "grad_norm": 1.0689613819122314,
      "learning_rate": 9.998747012255044e-06,
      "loss": 0.8523,
      "step": 628
    },
    {
      "epoch": 0.03391201207677377,
      "grad_norm": 1.1880419254302979,
      "learning_rate": 9.998742261794048e-06,
      "loss": 0.9085,
      "step": 629
    },
    {
      "epoch": 0.0339659262454173,
      "grad_norm": 0.9569217562675476,
      "learning_rate": 9.998737502345987e-06,
      "loss": 0.9112,
      "step": 630
    },
    {
      "epoch": 0.034019840414060816,
      "grad_norm": 0.9955928921699524,
      "learning_rate": 9.99873273391087e-06,
      "loss": 0.9166,
      "step": 631
    },
    {
      "epoch": 0.034073754582704334,
      "grad_norm": 0.8906963467597961,
      "learning_rate": 9.998727956488708e-06,
      "loss": 0.882,
      "step": 632
    },
    {
      "epoch": 0.03412766875134785,
      "grad_norm": 0.9241589307785034,
      "learning_rate": 9.998723170079506e-06,
      "loss": 0.8488,
      "step": 633
    },
    {
      "epoch": 0.03418158291999138,
      "grad_norm": 0.9666005969047546,
      "learning_rate": 9.998718374683271e-06,
      "loss": 0.8432,
      "step": 634
    },
    {
      "epoch": 0.034235497088634895,
      "grad_norm": 0.9036918878555298,
      "learning_rate": 9.998713570300018e-06,
      "loss": 0.7979,
      "step": 635
    },
    {
      "epoch": 0.03428941125727841,
      "grad_norm": 0.8946508765220642,
      "learning_rate": 9.998708756929751e-06,
      "loss": 0.8854,
      "step": 636
    },
    {
      "epoch": 0.03434332542592193,
      "grad_norm": 1.0300164222717285,
      "learning_rate": 9.99870393457248e-06,
      "loss": 0.9116,
      "step": 637
    },
    {
      "epoch": 0.03439723959456545,
      "grad_norm": 1.0635035037994385,
      "learning_rate": 9.998699103228214e-06,
      "loss": 0.9138,
      "step": 638
    },
    {
      "epoch": 0.03445115376320897,
      "grad_norm": 1.0362621545791626,
      "learning_rate": 9.998694262896962e-06,
      "loss": 1.0177,
      "step": 639
    },
    {
      "epoch": 0.03450506793185249,
      "grad_norm": 0.9081454873085022,
      "learning_rate": 9.99868941357873e-06,
      "loss": 0.7802,
      "step": 640
    },
    {
      "epoch": 0.03455898210049601,
      "grad_norm": 0.9943915605545044,
      "learning_rate": 9.998684555273529e-06,
      "loss": 0.9356,
      "step": 641
    },
    {
      "epoch": 0.03461289626913953,
      "grad_norm": 0.9647786021232605,
      "learning_rate": 9.998679687981367e-06,
      "loss": 0.741,
      "step": 642
    },
    {
      "epoch": 0.03466681043778305,
      "grad_norm": 0.9655315279960632,
      "learning_rate": 9.998674811702255e-06,
      "loss": 0.8644,
      "step": 643
    },
    {
      "epoch": 0.03472072460642657,
      "grad_norm": 0.9162091612815857,
      "learning_rate": 9.998669926436197e-06,
      "loss": 0.8383,
      "step": 644
    },
    {
      "epoch": 0.03477463877507009,
      "grad_norm": 0.9509754776954651,
      "learning_rate": 9.998665032183207e-06,
      "loss": 0.8066,
      "step": 645
    },
    {
      "epoch": 0.034828552943713606,
      "grad_norm": 1.0545740127563477,
      "learning_rate": 9.998660128943292e-06,
      "loss": 0.8455,
      "step": 646
    },
    {
      "epoch": 0.03488246711235713,
      "grad_norm": 1.0928760766983032,
      "learning_rate": 9.998655216716458e-06,
      "loss": 0.8708,
      "step": 647
    },
    {
      "epoch": 0.03493638128100065,
      "grad_norm": 0.9743762016296387,
      "learning_rate": 9.998650295502717e-06,
      "loss": 0.878,
      "step": 648
    },
    {
      "epoch": 0.03499029544964417,
      "grad_norm": 1.016741156578064,
      "learning_rate": 9.998645365302077e-06,
      "loss": 0.867,
      "step": 649
    },
    {
      "epoch": 0.035044209618287685,
      "grad_norm": 1.125252366065979,
      "learning_rate": 9.998640426114548e-06,
      "loss": 0.9443,
      "step": 650
    },
    {
      "epoch": 0.0350981237869312,
      "grad_norm": 0.9555762410163879,
      "learning_rate": 9.998635477940135e-06,
      "loss": 0.8353,
      "step": 651
    },
    {
      "epoch": 0.03515203795557473,
      "grad_norm": 0.930173397064209,
      "learning_rate": 9.998630520778851e-06,
      "loss": 0.8383,
      "step": 652
    },
    {
      "epoch": 0.035205952124218245,
      "grad_norm": 1.1592127084732056,
      "learning_rate": 9.998625554630704e-06,
      "loss": 0.9708,
      "step": 653
    },
    {
      "epoch": 0.03525986629286176,
      "grad_norm": 0.9333894848823547,
      "learning_rate": 9.998620579495701e-06,
      "loss": 0.9055,
      "step": 654
    },
    {
      "epoch": 0.03531378046150528,
      "grad_norm": 0.9495646357536316,
      "learning_rate": 9.998615595373853e-06,
      "loss": 0.7993,
      "step": 655
    },
    {
      "epoch": 0.035367694630148806,
      "grad_norm": 1.0919233560562134,
      "learning_rate": 9.99861060226517e-06,
      "loss": 0.8852,
      "step": 656
    },
    {
      "epoch": 0.035421608798792324,
      "grad_norm": 0.907940685749054,
      "learning_rate": 9.998605600169657e-06,
      "loss": 0.8294,
      "step": 657
    },
    {
      "epoch": 0.03547552296743584,
      "grad_norm": 1.0423756837844849,
      "learning_rate": 9.998600589087328e-06,
      "loss": 0.8758,
      "step": 658
    },
    {
      "epoch": 0.03552943713607936,
      "grad_norm": 1.0387269258499146,
      "learning_rate": 9.998595569018186e-06,
      "loss": 0.9099,
      "step": 659
    },
    {
      "epoch": 0.03558335130472288,
      "grad_norm": 0.9186104536056519,
      "learning_rate": 9.998590539962245e-06,
      "loss": 0.9025,
      "step": 660
    },
    {
      "epoch": 0.0356372654733664,
      "grad_norm": 1.0173289775848389,
      "learning_rate": 9.998585501919514e-06,
      "loss": 0.8468,
      "step": 661
    },
    {
      "epoch": 0.03569117964200992,
      "grad_norm": 0.9579570889472961,
      "learning_rate": 9.998580454889996e-06,
      "loss": 0.8542,
      "step": 662
    },
    {
      "epoch": 0.03574509381065344,
      "grad_norm": 1.093515396118164,
      "learning_rate": 9.99857539887371e-06,
      "loss": 0.8932,
      "step": 663
    },
    {
      "epoch": 0.03579900797929696,
      "grad_norm": 1.0651243925094604,
      "learning_rate": 9.998570333870656e-06,
      "loss": 0.8822,
      "step": 664
    },
    {
      "epoch": 0.03585292214794048,
      "grad_norm": 0.973278284072876,
      "learning_rate": 9.998565259880845e-06,
      "loss": 0.8724,
      "step": 665
    },
    {
      "epoch": 0.035906836316584,
      "grad_norm": 0.961321234703064,
      "learning_rate": 9.998560176904291e-06,
      "loss": 0.947,
      "step": 666
    },
    {
      "epoch": 0.03596075048522752,
      "grad_norm": 1.0216654539108276,
      "learning_rate": 9.998555084940999e-06,
      "loss": 0.8528,
      "step": 667
    },
    {
      "epoch": 0.036014664653871035,
      "grad_norm": 0.9917817711830139,
      "learning_rate": 9.99854998399098e-06,
      "loss": 0.8608,
      "step": 668
    },
    {
      "epoch": 0.03606857882251455,
      "grad_norm": 1.0164326429367065,
      "learning_rate": 9.998544874054243e-06,
      "loss": 0.8752,
      "step": 669
    },
    {
      "epoch": 0.03612249299115808,
      "grad_norm": 0.9181317687034607,
      "learning_rate": 9.998539755130793e-06,
      "loss": 0.8032,
      "step": 670
    },
    {
      "epoch": 0.036176407159801596,
      "grad_norm": 1.0100011825561523,
      "learning_rate": 9.998534627220646e-06,
      "loss": 0.9205,
      "step": 671
    },
    {
      "epoch": 0.036230321328445114,
      "grad_norm": 0.9306463599205017,
      "learning_rate": 9.998529490323807e-06,
      "loss": 0.8209,
      "step": 672
    },
    {
      "epoch": 0.03628423549708863,
      "grad_norm": 1.8988754749298096,
      "learning_rate": 9.998524344440286e-06,
      "loss": 0.8455,
      "step": 673
    },
    {
      "epoch": 0.03633814966573216,
      "grad_norm": 0.9742317795753479,
      "learning_rate": 9.998519189570091e-06,
      "loss": 0.8733,
      "step": 674
    },
    {
      "epoch": 0.036392063834375675,
      "grad_norm": 0.9334224462509155,
      "learning_rate": 9.998514025713234e-06,
      "loss": 0.8761,
      "step": 675
    },
    {
      "epoch": 0.03644597800301919,
      "grad_norm": 0.9729838371276855,
      "learning_rate": 9.998508852869724e-06,
      "loss": 0.8916,
      "step": 676
    },
    {
      "epoch": 0.03649989217166271,
      "grad_norm": 0.9721505641937256,
      "learning_rate": 9.998503671039568e-06,
      "loss": 0.8735,
      "step": 677
    },
    {
      "epoch": 0.036553806340306236,
      "grad_norm": 0.9600850939750671,
      "learning_rate": 9.998498480222775e-06,
      "loss": 0.9157,
      "step": 678
    },
    {
      "epoch": 0.036607720508949754,
      "grad_norm": 0.9010732173919678,
      "learning_rate": 9.998493280419358e-06,
      "loss": 0.9215,
      "step": 679
    },
    {
      "epoch": 0.03666163467759327,
      "grad_norm": 0.8708087801933289,
      "learning_rate": 9.998488071629324e-06,
      "loss": 0.7218,
      "step": 680
    },
    {
      "epoch": 0.03671554884623679,
      "grad_norm": 0.9739180207252502,
      "learning_rate": 9.998482853852682e-06,
      "loss": 0.8845,
      "step": 681
    },
    {
      "epoch": 0.03676946301488031,
      "grad_norm": 0.9823595881462097,
      "learning_rate": 9.998477627089443e-06,
      "loss": 0.896,
      "step": 682
    },
    {
      "epoch": 0.03682337718352383,
      "grad_norm": 0.9629859328269958,
      "learning_rate": 9.998472391339612e-06,
      "loss": 0.8636,
      "step": 683
    },
    {
      "epoch": 0.03687729135216735,
      "grad_norm": 0.8644251823425293,
      "learning_rate": 9.998467146603206e-06,
      "loss": 0.9124,
      "step": 684
    },
    {
      "epoch": 0.03693120552081087,
      "grad_norm": 0.8987632989883423,
      "learning_rate": 9.99846189288023e-06,
      "loss": 0.801,
      "step": 685
    },
    {
      "epoch": 0.036985119689454386,
      "grad_norm": 0.9017630219459534,
      "learning_rate": 9.99845663017069e-06,
      "loss": 0.8675,
      "step": 686
    },
    {
      "epoch": 0.03703903385809791,
      "grad_norm": 0.8905850648880005,
      "learning_rate": 9.998451358474603e-06,
      "loss": 0.8512,
      "step": 687
    },
    {
      "epoch": 0.03709294802674143,
      "grad_norm": 0.9807800650596619,
      "learning_rate": 9.998446077791972e-06,
      "loss": 0.9258,
      "step": 688
    },
    {
      "epoch": 0.03714686219538495,
      "grad_norm": 0.8916336894035339,
      "learning_rate": 9.99844078812281e-06,
      "loss": 0.8236,
      "step": 689
    },
    {
      "epoch": 0.037200776364028465,
      "grad_norm": 0.9330187439918518,
      "learning_rate": 9.998435489467126e-06,
      "loss": 0.7812,
      "step": 690
    },
    {
      "epoch": 0.03725469053267198,
      "grad_norm": 0.9859142899513245,
      "learning_rate": 9.99843018182493e-06,
      "loss": 0.8699,
      "step": 691
    },
    {
      "epoch": 0.03730860470131551,
      "grad_norm": 0.9277002215385437,
      "learning_rate": 9.998424865196228e-06,
      "loss": 0.9276,
      "step": 692
    },
    {
      "epoch": 0.037362518869959026,
      "grad_norm": 0.9764281511306763,
      "learning_rate": 9.998419539581034e-06,
      "loss": 0.9482,
      "step": 693
    },
    {
      "epoch": 0.037416433038602544,
      "grad_norm": 1.0108616352081299,
      "learning_rate": 9.998414204979357e-06,
      "loss": 0.8582,
      "step": 694
    },
    {
      "epoch": 0.03747034720724606,
      "grad_norm": 1.2767362594604492,
      "learning_rate": 9.998408861391202e-06,
      "loss": 0.7833,
      "step": 695
    },
    {
      "epoch": 0.03752426137588959,
      "grad_norm": 0.8874560594558716,
      "learning_rate": 9.998403508816585e-06,
      "loss": 0.8935,
      "step": 696
    },
    {
      "epoch": 0.037578175544533104,
      "grad_norm": 0.8549458980560303,
      "learning_rate": 9.998398147255511e-06,
      "loss": 0.7747,
      "step": 697
    },
    {
      "epoch": 0.03763208971317662,
      "grad_norm": 0.9971988201141357,
      "learning_rate": 9.998392776707993e-06,
      "loss": 0.753,
      "step": 698
    },
    {
      "epoch": 0.03768600388182014,
      "grad_norm": 0.9822113513946533,
      "learning_rate": 9.998387397174037e-06,
      "loss": 0.9121,
      "step": 699
    },
    {
      "epoch": 0.037739918050463665,
      "grad_norm": 0.996151864528656,
      "learning_rate": 9.998382008653656e-06,
      "loss": 0.9356,
      "step": 700
    },
    {
      "epoch": 0.03779383221910718,
      "grad_norm": 1.7505156993865967,
      "learning_rate": 9.998376611146857e-06,
      "loss": 0.8351,
      "step": 701
    },
    {
      "epoch": 0.0378477463877507,
      "grad_norm": 1.070356011390686,
      "learning_rate": 9.998371204653651e-06,
      "loss": 0.9153,
      "step": 702
    },
    {
      "epoch": 0.03790166055639422,
      "grad_norm": 0.9383741617202759,
      "learning_rate": 9.998365789174048e-06,
      "loss": 0.8904,
      "step": 703
    },
    {
      "epoch": 0.03795557472503774,
      "grad_norm": 0.8444882035255432,
      "learning_rate": 9.998360364708058e-06,
      "loss": 0.8243,
      "step": 704
    },
    {
      "epoch": 0.03800948889368126,
      "grad_norm": 1.0012257099151611,
      "learning_rate": 9.99835493125569e-06,
      "loss": 0.9439,
      "step": 705
    },
    {
      "epoch": 0.03806340306232478,
      "grad_norm": 0.9745193719863892,
      "learning_rate": 9.998349488816954e-06,
      "loss": 0.8667,
      "step": 706
    },
    {
      "epoch": 0.0381173172309683,
      "grad_norm": 0.8363852500915527,
      "learning_rate": 9.998344037391859e-06,
      "loss": 0.8082,
      "step": 707
    },
    {
      "epoch": 0.038171231399611816,
      "grad_norm": 0.9389918446540833,
      "learning_rate": 9.998338576980417e-06,
      "loss": 0.8113,
      "step": 708
    },
    {
      "epoch": 0.03822514556825534,
      "grad_norm": 0.9216110110282898,
      "learning_rate": 9.998333107582635e-06,
      "loss": 0.8179,
      "step": 709
    },
    {
      "epoch": 0.03827905973689886,
      "grad_norm": 1.0292471647262573,
      "learning_rate": 9.998327629198526e-06,
      "loss": 0.8605,
      "step": 710
    },
    {
      "epoch": 0.03833297390554238,
      "grad_norm": 0.9812708497047424,
      "learning_rate": 9.998322141828097e-06,
      "loss": 0.9279,
      "step": 711
    },
    {
      "epoch": 0.038386888074185894,
      "grad_norm": 0.8186620473861694,
      "learning_rate": 9.998316645471358e-06,
      "loss": 0.7877,
      "step": 712
    },
    {
      "epoch": 0.03844080224282941,
      "grad_norm": 1.034134864807129,
      "learning_rate": 9.99831114012832e-06,
      "loss": 0.9867,
      "step": 713
    },
    {
      "epoch": 0.03849471641147294,
      "grad_norm": 1.1604938507080078,
      "learning_rate": 9.998305625798993e-06,
      "loss": 0.9134,
      "step": 714
    },
    {
      "epoch": 0.038548630580116455,
      "grad_norm": 0.8452483415603638,
      "learning_rate": 9.998300102483388e-06,
      "loss": 0.8732,
      "step": 715
    },
    {
      "epoch": 0.03860254474875997,
      "grad_norm": 0.8881269693374634,
      "learning_rate": 9.998294570181512e-06,
      "loss": 0.847,
      "step": 716
    },
    {
      "epoch": 0.03865645891740349,
      "grad_norm": 0.8822013735771179,
      "learning_rate": 9.998289028893375e-06,
      "loss": 0.8404,
      "step": 717
    },
    {
      "epoch": 0.038710373086047016,
      "grad_norm": 1.0011916160583496,
      "learning_rate": 9.998283478618991e-06,
      "loss": 0.8133,
      "step": 718
    },
    {
      "epoch": 0.038764287254690534,
      "grad_norm": 1.0004018545150757,
      "learning_rate": 9.998277919358367e-06,
      "loss": 0.9556,
      "step": 719
    },
    {
      "epoch": 0.03881820142333405,
      "grad_norm": 0.8176954984664917,
      "learning_rate": 9.998272351111513e-06,
      "loss": 0.7977,
      "step": 720
    },
    {
      "epoch": 0.03887211559197757,
      "grad_norm": 0.9160690307617188,
      "learning_rate": 9.99826677387844e-06,
      "loss": 0.9239,
      "step": 721
    },
    {
      "epoch": 0.03892602976062109,
      "grad_norm": 1.2158405780792236,
      "learning_rate": 9.998261187659157e-06,
      "loss": 0.9023,
      "step": 722
    },
    {
      "epoch": 0.03897994392926461,
      "grad_norm": 0.9564448595046997,
      "learning_rate": 9.998255592453674e-06,
      "loss": 0.8585,
      "step": 723
    },
    {
      "epoch": 0.03903385809790813,
      "grad_norm": 0.8902252316474915,
      "learning_rate": 9.998249988262002e-06,
      "loss": 0.8388,
      "step": 724
    },
    {
      "epoch": 0.03908777226655165,
      "grad_norm": 0.8738620281219482,
      "learning_rate": 9.998244375084152e-06,
      "loss": 0.9545,
      "step": 725
    },
    {
      "epoch": 0.03914168643519517,
      "grad_norm": 0.9670735001564026,
      "learning_rate": 9.99823875292013e-06,
      "loss": 0.8335,
      "step": 726
    },
    {
      "epoch": 0.03919560060383869,
      "grad_norm": 0.8719429969787598,
      "learning_rate": 9.998233121769952e-06,
      "loss": 0.8546,
      "step": 727
    },
    {
      "epoch": 0.03924951477248221,
      "grad_norm": 1.318429708480835,
      "learning_rate": 9.998227481633622e-06,
      "loss": 1.0658,
      "step": 728
    },
    {
      "epoch": 0.03930342894112573,
      "grad_norm": 0.962630569934845,
      "learning_rate": 9.998221832511155e-06,
      "loss": 0.9049,
      "step": 729
    },
    {
      "epoch": 0.039357343109769245,
      "grad_norm": 0.9639857411384583,
      "learning_rate": 9.998216174402558e-06,
      "loss": 0.9114,
      "step": 730
    },
    {
      "epoch": 0.03941125727841277,
      "grad_norm": 1.1621571779251099,
      "learning_rate": 9.998210507307843e-06,
      "loss": 0.8776,
      "step": 731
    },
    {
      "epoch": 0.03946517144705629,
      "grad_norm": 1.170089840888977,
      "learning_rate": 9.998204831227019e-06,
      "loss": 0.9928,
      "step": 732
    },
    {
      "epoch": 0.039519085615699806,
      "grad_norm": 0.8257297873497009,
      "learning_rate": 9.998199146160098e-06,
      "loss": 0.7885,
      "step": 733
    },
    {
      "epoch": 0.039572999784343324,
      "grad_norm": 0.8887513279914856,
      "learning_rate": 9.998193452107088e-06,
      "loss": 0.8389,
      "step": 734
    },
    {
      "epoch": 0.03962691395298684,
      "grad_norm": 0.9321185350418091,
      "learning_rate": 9.998187749068001e-06,
      "loss": 0.9083,
      "step": 735
    },
    {
      "epoch": 0.03968082812163037,
      "grad_norm": 0.9926772713661194,
      "learning_rate": 9.998182037042847e-06,
      "loss": 0.9102,
      "step": 736
    },
    {
      "epoch": 0.039734742290273885,
      "grad_norm": 1.0760009288787842,
      "learning_rate": 9.998176316031634e-06,
      "loss": 0.7781,
      "step": 737
    },
    {
      "epoch": 0.0397886564589174,
      "grad_norm": 1.0998133420944214,
      "learning_rate": 9.998170586034376e-06,
      "loss": 0.9725,
      "step": 738
    },
    {
      "epoch": 0.03984257062756092,
      "grad_norm": 0.9367475509643555,
      "learning_rate": 9.99816484705108e-06,
      "loss": 0.8277,
      "step": 739
    },
    {
      "epoch": 0.039896484796204446,
      "grad_norm": 0.942954957485199,
      "learning_rate": 9.998159099081758e-06,
      "loss": 0.8542,
      "step": 740
    },
    {
      "epoch": 0.039950398964847963,
      "grad_norm": 0.9841166138648987,
      "learning_rate": 9.998153342126421e-06,
      "loss": 0.9179,
      "step": 741
    },
    {
      "epoch": 0.04000431313349148,
      "grad_norm": 0.9215245246887207,
      "learning_rate": 9.998147576185077e-06,
      "loss": 0.8899,
      "step": 742
    },
    {
      "epoch": 0.040058227302135,
      "grad_norm": 1.0368192195892334,
      "learning_rate": 9.998141801257739e-06,
      "loss": 0.9828,
      "step": 743
    },
    {
      "epoch": 0.04011214147077852,
      "grad_norm": 0.9696660041809082,
      "learning_rate": 9.998136017344416e-06,
      "loss": 0.9431,
      "step": 744
    },
    {
      "epoch": 0.04016605563942204,
      "grad_norm": 1.111257791519165,
      "learning_rate": 9.998130224445117e-06,
      "loss": 0.9666,
      "step": 745
    },
    {
      "epoch": 0.04021996980806556,
      "grad_norm": 0.9260644316673279,
      "learning_rate": 9.998124422559856e-06,
      "loss": 0.8941,
      "step": 746
    },
    {
      "epoch": 0.04027388397670908,
      "grad_norm": 0.8622020483016968,
      "learning_rate": 9.99811861168864e-06,
      "loss": 0.8148,
      "step": 747
    },
    {
      "epoch": 0.040327798145352596,
      "grad_norm": 0.8767471313476562,
      "learning_rate": 9.998112791831483e-06,
      "loss": 0.7093,
      "step": 748
    },
    {
      "epoch": 0.04038171231399612,
      "grad_norm": 0.902917206287384,
      "learning_rate": 9.998106962988391e-06,
      "loss": 0.7677,
      "step": 749
    },
    {
      "epoch": 0.04043562648263964,
      "grad_norm": 1.351694941520691,
      "learning_rate": 9.998101125159377e-06,
      "loss": 1.0382,
      "step": 750
    },
    {
      "epoch": 0.04048954065128316,
      "grad_norm": 0.8547930121421814,
      "learning_rate": 9.998095278344452e-06,
      "loss": 0.7974,
      "step": 751
    },
    {
      "epoch": 0.040543454819926675,
      "grad_norm": 0.941149115562439,
      "learning_rate": 9.998089422543626e-06,
      "loss": 0.8518,
      "step": 752
    },
    {
      "epoch": 0.0405973689885702,
      "grad_norm": 0.8671521544456482,
      "learning_rate": 9.998083557756908e-06,
      "loss": 0.8049,
      "step": 753
    },
    {
      "epoch": 0.04065128315721372,
      "grad_norm": 0.9877942800521851,
      "learning_rate": 9.998077683984311e-06,
      "loss": 0.8874,
      "step": 754
    },
    {
      "epoch": 0.040705197325857236,
      "grad_norm": 1.2130393981933594,
      "learning_rate": 9.998071801225843e-06,
      "loss": 0.9794,
      "step": 755
    },
    {
      "epoch": 0.040759111494500753,
      "grad_norm": 0.9422823786735535,
      "learning_rate": 9.998065909481518e-06,
      "loss": 0.899,
      "step": 756
    },
    {
      "epoch": 0.04081302566314427,
      "grad_norm": 0.9770492911338806,
      "learning_rate": 9.998060008751343e-06,
      "loss": 0.8434,
      "step": 757
    },
    {
      "epoch": 0.040866939831787796,
      "grad_norm": 0.9227531552314758,
      "learning_rate": 9.998054099035332e-06,
      "loss": 0.8797,
      "step": 758
    },
    {
      "epoch": 0.040920854000431314,
      "grad_norm": 1.0452102422714233,
      "learning_rate": 9.998048180333492e-06,
      "loss": 0.8702,
      "step": 759
    },
    {
      "epoch": 0.04097476816907483,
      "grad_norm": 1.034125566482544,
      "learning_rate": 9.998042252645837e-06,
      "loss": 0.9041,
      "step": 760
    },
    {
      "epoch": 0.04102868233771835,
      "grad_norm": 0.886029064655304,
      "learning_rate": 9.998036315972375e-06,
      "loss": 0.7805,
      "step": 761
    },
    {
      "epoch": 0.041082596506361875,
      "grad_norm": 0.9845888614654541,
      "learning_rate": 9.998030370313116e-06,
      "loss": 0.9836,
      "step": 762
    },
    {
      "epoch": 0.04113651067500539,
      "grad_norm": 0.9223973155021667,
      "learning_rate": 9.998024415668075e-06,
      "loss": 0.768,
      "step": 763
    },
    {
      "epoch": 0.04119042484364891,
      "grad_norm": 1.0607362985610962,
      "learning_rate": 9.99801845203726e-06,
      "loss": 0.865,
      "step": 764
    },
    {
      "epoch": 0.04124433901229243,
      "grad_norm": 0.9620907306671143,
      "learning_rate": 9.998012479420683e-06,
      "loss": 0.7645,
      "step": 765
    },
    {
      "epoch": 0.04129825318093595,
      "grad_norm": 0.9490310549736023,
      "learning_rate": 9.99800649781835e-06,
      "loss": 0.9124,
      "step": 766
    },
    {
      "epoch": 0.04135216734957947,
      "grad_norm": 0.9684557914733887,
      "learning_rate": 9.99800050723028e-06,
      "loss": 0.876,
      "step": 767
    },
    {
      "epoch": 0.04140608151822299,
      "grad_norm": 0.9633080959320068,
      "learning_rate": 9.997994507656476e-06,
      "loss": 0.8976,
      "step": 768
    },
    {
      "epoch": 0.04145999568686651,
      "grad_norm": 0.9495208263397217,
      "learning_rate": 9.997988499096953e-06,
      "loss": 0.9049,
      "step": 769
    },
    {
      "epoch": 0.041513909855510026,
      "grad_norm": 1.0614326000213623,
      "learning_rate": 9.997982481551721e-06,
      "loss": 0.905,
      "step": 770
    },
    {
      "epoch": 0.04156782402415355,
      "grad_norm": 0.820672869682312,
      "learning_rate": 9.99797645502079e-06,
      "loss": 0.8306,
      "step": 771
    },
    {
      "epoch": 0.04162173819279707,
      "grad_norm": 0.9719771146774292,
      "learning_rate": 9.997970419504171e-06,
      "loss": 0.828,
      "step": 772
    },
    {
      "epoch": 0.041675652361440586,
      "grad_norm": 0.893326997756958,
      "learning_rate": 9.997964375001875e-06,
      "loss": 0.8416,
      "step": 773
    },
    {
      "epoch": 0.041729566530084104,
      "grad_norm": 0.858121395111084,
      "learning_rate": 9.997958321513915e-06,
      "loss": 0.8779,
      "step": 774
    },
    {
      "epoch": 0.04178348069872762,
      "grad_norm": 0.9703636765480042,
      "learning_rate": 9.997952259040297e-06,
      "loss": 0.8623,
      "step": 775
    },
    {
      "epoch": 0.04183739486737115,
      "grad_norm": 0.9626398086547852,
      "learning_rate": 9.997946187581039e-06,
      "loss": 0.8309,
      "step": 776
    },
    {
      "epoch": 0.041891309036014665,
      "grad_norm": 0.9132344722747803,
      "learning_rate": 9.997940107136143e-06,
      "loss": 0.8798,
      "step": 777
    },
    {
      "epoch": 0.04194522320465818,
      "grad_norm": 0.9608821272850037,
      "learning_rate": 9.997934017705629e-06,
      "loss": 0.8764,
      "step": 778
    },
    {
      "epoch": 0.0419991373733017,
      "grad_norm": 1.0852513313293457,
      "learning_rate": 9.997927919289501e-06,
      "loss": 0.8908,
      "step": 779
    },
    {
      "epoch": 0.042053051541945226,
      "grad_norm": 0.9690573215484619,
      "learning_rate": 9.997921811887774e-06,
      "loss": 0.8556,
      "step": 780
    },
    {
      "epoch": 0.042106965710588744,
      "grad_norm": 0.9107050895690918,
      "learning_rate": 9.997915695500458e-06,
      "loss": 0.9249,
      "step": 781
    },
    {
      "epoch": 0.04216087987923226,
      "grad_norm": 1.029974102973938,
      "learning_rate": 9.997909570127564e-06,
      "loss": 0.8369,
      "step": 782
    },
    {
      "epoch": 0.04221479404787578,
      "grad_norm": 0.8179258704185486,
      "learning_rate": 9.997903435769101e-06,
      "loss": 0.7729,
      "step": 783
    },
    {
      "epoch": 0.042268708216519305,
      "grad_norm": 1.0664961338043213,
      "learning_rate": 9.997897292425082e-06,
      "loss": 0.8815,
      "step": 784
    },
    {
      "epoch": 0.04232262238516282,
      "grad_norm": 0.9794465899467468,
      "learning_rate": 9.997891140095519e-06,
      "loss": 0.9244,
      "step": 785
    },
    {
      "epoch": 0.04237653655380634,
      "grad_norm": 0.875953197479248,
      "learning_rate": 9.99788497878042e-06,
      "loss": 0.9191,
      "step": 786
    },
    {
      "epoch": 0.04243045072244986,
      "grad_norm": 0.9880902767181396,
      "learning_rate": 9.9978788084798e-06,
      "loss": 0.8639,
      "step": 787
    },
    {
      "epoch": 0.042484364891093376,
      "grad_norm": 1.0391566753387451,
      "learning_rate": 9.997872629193666e-06,
      "loss": 0.9943,
      "step": 788
    },
    {
      "epoch": 0.0425382790597369,
      "grad_norm": 0.9321290850639343,
      "learning_rate": 9.997866440922033e-06,
      "loss": 0.7809,
      "step": 789
    },
    {
      "epoch": 0.04259219322838042,
      "grad_norm": 0.8898556232452393,
      "learning_rate": 9.99786024366491e-06,
      "loss": 0.9353,
      "step": 790
    },
    {
      "epoch": 0.04264610739702394,
      "grad_norm": 1.1177983283996582,
      "learning_rate": 9.997854037422306e-06,
      "loss": 0.8157,
      "step": 791
    },
    {
      "epoch": 0.042700021565667455,
      "grad_norm": 0.8821296691894531,
      "learning_rate": 9.997847822194236e-06,
      "loss": 0.8729,
      "step": 792
    },
    {
      "epoch": 0.04275393573431098,
      "grad_norm": 0.8545325398445129,
      "learning_rate": 9.997841597980709e-06,
      "loss": 0.8415,
      "step": 793
    },
    {
      "epoch": 0.0428078499029545,
      "grad_norm": 0.9313606023788452,
      "learning_rate": 9.997835364781739e-06,
      "loss": 0.8411,
      "step": 794
    },
    {
      "epoch": 0.042861764071598016,
      "grad_norm": 0.9587781429290771,
      "learning_rate": 9.997829122597332e-06,
      "loss": 0.8086,
      "step": 795
    },
    {
      "epoch": 0.042915678240241534,
      "grad_norm": 0.9708360433578491,
      "learning_rate": 9.997822871427504e-06,
      "loss": 0.8715,
      "step": 796
    },
    {
      "epoch": 0.04296959240888505,
      "grad_norm": 0.8868080973625183,
      "learning_rate": 9.997816611272265e-06,
      "loss": 0.8549,
      "step": 797
    },
    {
      "epoch": 0.04302350657752858,
      "grad_norm": 0.9147778153419495,
      "learning_rate": 9.997810342131624e-06,
      "loss": 0.7854,
      "step": 798
    },
    {
      "epoch": 0.043077420746172095,
      "grad_norm": 0.9853960275650024,
      "learning_rate": 9.997804064005596e-06,
      "loss": 0.8243,
      "step": 799
    },
    {
      "epoch": 0.04313133491481561,
      "grad_norm": 1.0076130628585815,
      "learning_rate": 9.997797776894189e-06,
      "loss": 0.9077,
      "step": 800
    },
    {
      "epoch": 0.04318524908345913,
      "grad_norm": 0.9694076776504517,
      "learning_rate": 9.997791480797417e-06,
      "loss": 0.8767,
      "step": 801
    },
    {
      "epoch": 0.043239163252102655,
      "grad_norm": 1.114001750946045,
      "learning_rate": 9.99778517571529e-06,
      "loss": 0.8211,
      "step": 802
    },
    {
      "epoch": 0.04329307742074617,
      "grad_norm": 0.9701128005981445,
      "learning_rate": 9.997778861647817e-06,
      "loss": 0.9084,
      "step": 803
    },
    {
      "epoch": 0.04334699158938969,
      "grad_norm": 0.868299126625061,
      "learning_rate": 9.997772538595015e-06,
      "loss": 0.7556,
      "step": 804
    },
    {
      "epoch": 0.04340090575803321,
      "grad_norm": 0.9160446524620056,
      "learning_rate": 9.997766206556888e-06,
      "loss": 0.821,
      "step": 805
    },
    {
      "epoch": 0.043454819926676734,
      "grad_norm": 0.934198260307312,
      "learning_rate": 9.997759865533454e-06,
      "loss": 0.9113,
      "step": 806
    },
    {
      "epoch": 0.04350873409532025,
      "grad_norm": 0.8949079513549805,
      "learning_rate": 9.997753515524722e-06,
      "loss": 0.7821,
      "step": 807
    },
    {
      "epoch": 0.04356264826396377,
      "grad_norm": 0.9035944938659668,
      "learning_rate": 9.997747156530702e-06,
      "loss": 0.8233,
      "step": 808
    },
    {
      "epoch": 0.04361656243260729,
      "grad_norm": 0.9681552052497864,
      "learning_rate": 9.99774078855141e-06,
      "loss": 0.9241,
      "step": 809
    },
    {
      "epoch": 0.043670476601250806,
      "grad_norm": 0.906092643737793,
      "learning_rate": 9.99773441158685e-06,
      "loss": 0.8948,
      "step": 810
    },
    {
      "epoch": 0.04372439076989433,
      "grad_norm": 0.9229143261909485,
      "learning_rate": 9.997728025637039e-06,
      "loss": 0.8897,
      "step": 811
    },
    {
      "epoch": 0.04377830493853785,
      "grad_norm": 0.9263061881065369,
      "learning_rate": 9.997721630701986e-06,
      "loss": 0.7923,
      "step": 812
    },
    {
      "epoch": 0.04383221910718137,
      "grad_norm": 0.8474372029304504,
      "learning_rate": 9.997715226781706e-06,
      "loss": 0.796,
      "step": 813
    },
    {
      "epoch": 0.043886133275824885,
      "grad_norm": 0.9960548877716064,
      "learning_rate": 9.997708813876206e-06,
      "loss": 0.9166,
      "step": 814
    },
    {
      "epoch": 0.04394004744446841,
      "grad_norm": 0.9843032956123352,
      "learning_rate": 9.997702391985499e-06,
      "loss": 0.9354,
      "step": 815
    },
    {
      "epoch": 0.04399396161311193,
      "grad_norm": 0.9313154220581055,
      "learning_rate": 9.997695961109599e-06,
      "loss": 0.8972,
      "step": 816
    },
    {
      "epoch": 0.044047875781755445,
      "grad_norm": 0.8846973180770874,
      "learning_rate": 9.997689521248515e-06,
      "loss": 0.8599,
      "step": 817
    },
    {
      "epoch": 0.04410178995039896,
      "grad_norm": 0.8113641738891602,
      "learning_rate": 9.99768307240226e-06,
      "loss": 0.8509,
      "step": 818
    },
    {
      "epoch": 0.04415570411904248,
      "grad_norm": 1.0659984350204468,
      "learning_rate": 9.997676614570844e-06,
      "loss": 0.938,
      "step": 819
    },
    {
      "epoch": 0.044209618287686006,
      "grad_norm": 0.9183745384216309,
      "learning_rate": 9.99767014775428e-06,
      "loss": 0.8761,
      "step": 820
    },
    {
      "epoch": 0.044263532456329524,
      "grad_norm": 0.87090003490448,
      "learning_rate": 9.997663671952578e-06,
      "loss": 0.8535,
      "step": 821
    },
    {
      "epoch": 0.04431744662497304,
      "grad_norm": 0.9857214093208313,
      "learning_rate": 9.997657187165753e-06,
      "loss": 0.9434,
      "step": 822
    },
    {
      "epoch": 0.04437136079361656,
      "grad_norm": 1.0443209409713745,
      "learning_rate": 9.997650693393812e-06,
      "loss": 0.8994,
      "step": 823
    },
    {
      "epoch": 0.044425274962260085,
      "grad_norm": 0.8348391652107239,
      "learning_rate": 9.99764419063677e-06,
      "loss": 0.8383,
      "step": 824
    },
    {
      "epoch": 0.0444791891309036,
      "grad_norm": 1.2708821296691895,
      "learning_rate": 9.997637678894639e-06,
      "loss": 0.8733,
      "step": 825
    },
    {
      "epoch": 0.04453310329954712,
      "grad_norm": 0.9863126277923584,
      "learning_rate": 9.997631158167428e-06,
      "loss": 0.9364,
      "step": 826
    },
    {
      "epoch": 0.04458701746819064,
      "grad_norm": 1.0223352909088135,
      "learning_rate": 9.99762462845515e-06,
      "loss": 0.9139,
      "step": 827
    },
    {
      "epoch": 0.04464093163683416,
      "grad_norm": 0.8559738397598267,
      "learning_rate": 9.997618089757818e-06,
      "loss": 0.7461,
      "step": 828
    },
    {
      "epoch": 0.04469484580547768,
      "grad_norm": 0.9347368478775024,
      "learning_rate": 9.997611542075442e-06,
      "loss": 0.9275,
      "step": 829
    },
    {
      "epoch": 0.0447487599741212,
      "grad_norm": 1.0208019018173218,
      "learning_rate": 9.997604985408036e-06,
      "loss": 0.8338,
      "step": 830
    },
    {
      "epoch": 0.04480267414276472,
      "grad_norm": 0.9792174100875854,
      "learning_rate": 9.997598419755607e-06,
      "loss": 0.9437,
      "step": 831
    },
    {
      "epoch": 0.044856588311408235,
      "grad_norm": 0.851665198802948,
      "learning_rate": 9.997591845118173e-06,
      "loss": 0.8008,
      "step": 832
    },
    {
      "epoch": 0.04491050248005176,
      "grad_norm": 0.9315025806427002,
      "learning_rate": 9.997585261495742e-06,
      "loss": 0.8389,
      "step": 833
    },
    {
      "epoch": 0.04496441664869528,
      "grad_norm": 0.9658921360969543,
      "learning_rate": 9.997578668888326e-06,
      "loss": 0.9252,
      "step": 834
    },
    {
      "epoch": 0.045018330817338796,
      "grad_norm": 0.8989397287368774,
      "learning_rate": 9.997572067295938e-06,
      "loss": 0.8648,
      "step": 835
    },
    {
      "epoch": 0.045072244985982314,
      "grad_norm": 0.8874988555908203,
      "learning_rate": 9.99756545671859e-06,
      "loss": 0.7801,
      "step": 836
    },
    {
      "epoch": 0.04512615915462584,
      "grad_norm": 0.9186223745346069,
      "learning_rate": 9.997558837156293e-06,
      "loss": 0.767,
      "step": 837
    },
    {
      "epoch": 0.04518007332326936,
      "grad_norm": 1.163044810295105,
      "learning_rate": 9.997552208609059e-06,
      "loss": 0.8938,
      "step": 838
    },
    {
      "epoch": 0.045233987491912875,
      "grad_norm": 0.8315468430519104,
      "learning_rate": 9.997545571076901e-06,
      "loss": 0.725,
      "step": 839
    },
    {
      "epoch": 0.04528790166055639,
      "grad_norm": 1.0088660717010498,
      "learning_rate": 9.99753892455983e-06,
      "loss": 0.8533,
      "step": 840
    },
    {
      "epoch": 0.04534181582919991,
      "grad_norm": 0.9268692135810852,
      "learning_rate": 9.997532269057857e-06,
      "loss": 0.8739,
      "step": 841
    },
    {
      "epoch": 0.045395729997843436,
      "grad_norm": 1.0793242454528809,
      "learning_rate": 9.997525604570995e-06,
      "loss": 0.9605,
      "step": 842
    },
    {
      "epoch": 0.045449644166486954,
      "grad_norm": 1.101798176765442,
      "learning_rate": 9.997518931099258e-06,
      "loss": 0.9525,
      "step": 843
    },
    {
      "epoch": 0.04550355833513047,
      "grad_norm": 0.9046466946601868,
      "learning_rate": 9.997512248642654e-06,
      "loss": 0.8853,
      "step": 844
    },
    {
      "epoch": 0.04555747250377399,
      "grad_norm": 0.9629097580909729,
      "learning_rate": 9.997505557201198e-06,
      "loss": 0.8882,
      "step": 845
    },
    {
      "epoch": 0.045611386672417514,
      "grad_norm": 1.1880977153778076,
      "learning_rate": 9.997498856774898e-06,
      "loss": 0.8812,
      "step": 846
    },
    {
      "epoch": 0.04566530084106103,
      "grad_norm": 0.8678451180458069,
      "learning_rate": 9.997492147363772e-06,
      "loss": 0.887,
      "step": 847
    },
    {
      "epoch": 0.04571921500970455,
      "grad_norm": 1.3359739780426025,
      "learning_rate": 9.99748542896783e-06,
      "loss": 0.8141,
      "step": 848
    },
    {
      "epoch": 0.04577312917834807,
      "grad_norm": 0.9263296127319336,
      "learning_rate": 9.99747870158708e-06,
      "loss": 0.9357,
      "step": 849
    },
    {
      "epoch": 0.045827043346991586,
      "grad_norm": 0.9199776649475098,
      "learning_rate": 9.997471965221541e-06,
      "loss": 0.8352,
      "step": 850
    },
    {
      "epoch": 0.04588095751563511,
      "grad_norm": 0.8880730867385864,
      "learning_rate": 9.997465219871218e-06,
      "loss": 0.7802,
      "step": 851
    },
    {
      "epoch": 0.04593487168427863,
      "grad_norm": 0.8561250567436218,
      "learning_rate": 9.99745846553613e-06,
      "loss": 0.7987,
      "step": 852
    },
    {
      "epoch": 0.04598878585292215,
      "grad_norm": 0.8975661396980286,
      "learning_rate": 9.997451702216283e-06,
      "loss": 0.8325,
      "step": 853
    },
    {
      "epoch": 0.046042700021565665,
      "grad_norm": 0.9350215196609497,
      "learning_rate": 9.997444929911693e-06,
      "loss": 0.7708,
      "step": 854
    },
    {
      "epoch": 0.04609661419020919,
      "grad_norm": 1.0229014158248901,
      "learning_rate": 9.99743814862237e-06,
      "loss": 0.9643,
      "step": 855
    },
    {
      "epoch": 0.04615052835885271,
      "grad_norm": 0.9249217510223389,
      "learning_rate": 9.997431358348329e-06,
      "loss": 0.8411,
      "step": 856
    },
    {
      "epoch": 0.046204442527496226,
      "grad_norm": 0.9823042154312134,
      "learning_rate": 9.99742455908958e-06,
      "loss": 0.9406,
      "step": 857
    },
    {
      "epoch": 0.046258356696139744,
      "grad_norm": 1.2525794506072998,
      "learning_rate": 9.997417750846134e-06,
      "loss": 0.8507,
      "step": 858
    },
    {
      "epoch": 0.04631227086478327,
      "grad_norm": 0.9583309888839722,
      "learning_rate": 9.997410933618006e-06,
      "loss": 0.8504,
      "step": 859
    },
    {
      "epoch": 0.046366185033426786,
      "grad_norm": 0.9264401793479919,
      "learning_rate": 9.997404107405207e-06,
      "loss": 0.8595,
      "step": 860
    },
    {
      "epoch": 0.046420099202070304,
      "grad_norm": 0.9833316206932068,
      "learning_rate": 9.99739727220775e-06,
      "loss": 0.9025,
      "step": 861
    },
    {
      "epoch": 0.04647401337071382,
      "grad_norm": 1.0220664739608765,
      "learning_rate": 9.997390428025645e-06,
      "loss": 0.8671,
      "step": 862
    },
    {
      "epoch": 0.04652792753935734,
      "grad_norm": 1.0774664878845215,
      "learning_rate": 9.997383574858908e-06,
      "loss": 0.8463,
      "step": 863
    },
    {
      "epoch": 0.046581841708000865,
      "grad_norm": 0.8821879029273987,
      "learning_rate": 9.997376712707547e-06,
      "loss": 0.7565,
      "step": 864
    },
    {
      "epoch": 0.04663575587664438,
      "grad_norm": 0.9233925938606262,
      "learning_rate": 9.997369841571577e-06,
      "loss": 0.9151,
      "step": 865
    },
    {
      "epoch": 0.0466896700452879,
      "grad_norm": 1.0006109476089478,
      "learning_rate": 9.997362961451015e-06,
      "loss": 0.8339,
      "step": 866
    },
    {
      "epoch": 0.04674358421393142,
      "grad_norm": 0.865035891532898,
      "learning_rate": 9.997356072345863e-06,
      "loss": 0.8997,
      "step": 867
    },
    {
      "epoch": 0.046797498382574944,
      "grad_norm": 1.0450654029846191,
      "learning_rate": 9.99734917425614e-06,
      "loss": 0.7966,
      "step": 868
    },
    {
      "epoch": 0.04685141255121846,
      "grad_norm": 0.8878824710845947,
      "learning_rate": 9.997342267181857e-06,
      "loss": 0.831,
      "step": 869
    },
    {
      "epoch": 0.04690532671986198,
      "grad_norm": 1.0056546926498413,
      "learning_rate": 9.997335351123028e-06,
      "loss": 0.8178,
      "step": 870
    },
    {
      "epoch": 0.0469592408885055,
      "grad_norm": 1.0531659126281738,
      "learning_rate": 9.997328426079661e-06,
      "loss": 0.7773,
      "step": 871
    },
    {
      "epoch": 0.047013155057149016,
      "grad_norm": 0.911021888256073,
      "learning_rate": 9.997321492051775e-06,
      "loss": 0.9001,
      "step": 872
    },
    {
      "epoch": 0.04706706922579254,
      "grad_norm": 0.920103132724762,
      "learning_rate": 9.997314549039379e-06,
      "loss": 0.7222,
      "step": 873
    },
    {
      "epoch": 0.04712098339443606,
      "grad_norm": 0.9449265599250793,
      "learning_rate": 9.997307597042483e-06,
      "loss": 0.9197,
      "step": 874
    },
    {
      "epoch": 0.047174897563079576,
      "grad_norm": 1.013066291809082,
      "learning_rate": 9.997300636061103e-06,
      "loss": 0.8854,
      "step": 875
    },
    {
      "epoch": 0.047228811731723094,
      "grad_norm": 0.8990256786346436,
      "learning_rate": 9.99729366609525e-06,
      "loss": 0.81,
      "step": 876
    },
    {
      "epoch": 0.04728272590036662,
      "grad_norm": 1.0211769342422485,
      "learning_rate": 9.997286687144938e-06,
      "loss": 0.8335,
      "step": 877
    },
    {
      "epoch": 0.04733664006901014,
      "grad_norm": 1.14606773853302,
      "learning_rate": 9.997279699210178e-06,
      "loss": 1.0956,
      "step": 878
    },
    {
      "epoch": 0.047390554237653655,
      "grad_norm": 0.982725977897644,
      "learning_rate": 9.997272702290981e-06,
      "loss": 0.8289,
      "step": 879
    },
    {
      "epoch": 0.04744446840629717,
      "grad_norm": 0.8667361736297607,
      "learning_rate": 9.997265696387364e-06,
      "loss": 0.8056,
      "step": 880
    },
    {
      "epoch": 0.04749838257494069,
      "grad_norm": 0.9029837250709534,
      "learning_rate": 9.997258681499338e-06,
      "loss": 0.8461,
      "step": 881
    },
    {
      "epoch": 0.047552296743584216,
      "grad_norm": 0.8767060041427612,
      "learning_rate": 9.997251657626915e-06,
      "loss": 0.8162,
      "step": 882
    },
    {
      "epoch": 0.047606210912227734,
      "grad_norm": 1.4750713109970093,
      "learning_rate": 9.997244624770104e-06,
      "loss": 0.8677,
      "step": 883
    },
    {
      "epoch": 0.04766012508087125,
      "grad_norm": 1.001286506652832,
      "learning_rate": 9.997237582928924e-06,
      "loss": 0.7673,
      "step": 884
    },
    {
      "epoch": 0.04771403924951477,
      "grad_norm": 0.9560269713401794,
      "learning_rate": 9.997230532103384e-06,
      "loss": 0.8597,
      "step": 885
    },
    {
      "epoch": 0.047767953418158295,
      "grad_norm": 0.834237277507782,
      "learning_rate": 9.997223472293499e-06,
      "loss": 0.7629,
      "step": 886
    },
    {
      "epoch": 0.04782186758680181,
      "grad_norm": 0.9642406702041626,
      "learning_rate": 9.997216403499278e-06,
      "loss": 0.83,
      "step": 887
    },
    {
      "epoch": 0.04787578175544533,
      "grad_norm": 1.2931480407714844,
      "learning_rate": 9.997209325720736e-06,
      "loss": 1.0333,
      "step": 888
    },
    {
      "epoch": 0.04792969592408885,
      "grad_norm": 0.8024531602859497,
      "learning_rate": 9.997202238957886e-06,
      "loss": 0.7166,
      "step": 889
    },
    {
      "epoch": 0.04798361009273237,
      "grad_norm": 0.9585899710655212,
      "learning_rate": 9.997195143210741e-06,
      "loss": 0.8099,
      "step": 890
    },
    {
      "epoch": 0.04803752426137589,
      "grad_norm": 0.9917063117027283,
      "learning_rate": 9.997188038479313e-06,
      "loss": 0.8486,
      "step": 891
    },
    {
      "epoch": 0.04809143843001941,
      "grad_norm": 1.6290080547332764,
      "learning_rate": 9.997180924763616e-06,
      "loss": 0.863,
      "step": 892
    },
    {
      "epoch": 0.04814535259866293,
      "grad_norm": 0.9488585591316223,
      "learning_rate": 9.99717380206366e-06,
      "loss": 0.8277,
      "step": 893
    },
    {
      "epoch": 0.048199266767306445,
      "grad_norm": 1.0710817575454712,
      "learning_rate": 9.997166670379459e-06,
      "loss": 0.8898,
      "step": 894
    },
    {
      "epoch": 0.04825318093594997,
      "grad_norm": 0.9916248917579651,
      "learning_rate": 9.997159529711026e-06,
      "loss": 0.9144,
      "step": 895
    },
    {
      "epoch": 0.04830709510459349,
      "grad_norm": 1.0074565410614014,
      "learning_rate": 9.997152380058378e-06,
      "loss": 0.8391,
      "step": 896
    },
    {
      "epoch": 0.048361009273237006,
      "grad_norm": 1.0258312225341797,
      "learning_rate": 9.99714522142152e-06,
      "loss": 0.973,
      "step": 897
    },
    {
      "epoch": 0.048414923441880524,
      "grad_norm": 0.9497826099395752,
      "learning_rate": 9.99713805380047e-06,
      "loss": 0.9221,
      "step": 898
    },
    {
      "epoch": 0.04846883761052405,
      "grad_norm": 0.9103115200996399,
      "learning_rate": 9.99713087719524e-06,
      "loss": 0.7942,
      "step": 899
    },
    {
      "epoch": 0.04852275177916757,
      "grad_norm": 0.9810470938682556,
      "learning_rate": 9.997123691605843e-06,
      "loss": 0.8673,
      "step": 900
    },
    {
      "epoch": 0.048576665947811085,
      "grad_norm": 1.0422937870025635,
      "learning_rate": 9.997116497032291e-06,
      "loss": 0.9263,
      "step": 901
    },
    {
      "epoch": 0.0486305801164546,
      "grad_norm": 0.8522017002105713,
      "learning_rate": 9.997109293474596e-06,
      "loss": 0.8296,
      "step": 902
    },
    {
      "epoch": 0.04868449428509812,
      "grad_norm": 0.818270742893219,
      "learning_rate": 9.997102080932775e-06,
      "loss": 0.7898,
      "step": 903
    },
    {
      "epoch": 0.048738408453741645,
      "grad_norm": 0.9286766648292542,
      "learning_rate": 9.997094859406838e-06,
      "loss": 0.8751,
      "step": 904
    },
    {
      "epoch": 0.04879232262238516,
      "grad_norm": 1.0779087543487549,
      "learning_rate": 9.997087628896797e-06,
      "loss": 0.8377,
      "step": 905
    },
    {
      "epoch": 0.04884623679102868,
      "grad_norm": 0.8711867928504944,
      "learning_rate": 9.997080389402667e-06,
      "loss": 0.8547,
      "step": 906
    },
    {
      "epoch": 0.0489001509596722,
      "grad_norm": 0.8919721245765686,
      "learning_rate": 9.99707314092446e-06,
      "loss": 0.8178,
      "step": 907
    },
    {
      "epoch": 0.048954065128315724,
      "grad_norm": 0.9084917306900024,
      "learning_rate": 9.997065883462192e-06,
      "loss": 0.8618,
      "step": 908
    },
    {
      "epoch": 0.04900797929695924,
      "grad_norm": 0.869216799736023,
      "learning_rate": 9.997058617015871e-06,
      "loss": 0.8636,
      "step": 909
    },
    {
      "epoch": 0.04906189346560276,
      "grad_norm": 0.9376553893089294,
      "learning_rate": 9.997051341585513e-06,
      "loss": 0.8986,
      "step": 910
    },
    {
      "epoch": 0.04911580763424628,
      "grad_norm": 0.9041107892990112,
      "learning_rate": 9.99704405717113e-06,
      "loss": 0.817,
      "step": 911
    },
    {
      "epoch": 0.0491697218028898,
      "grad_norm": 0.9530431628227234,
      "learning_rate": 9.997036763772737e-06,
      "loss": 0.9464,
      "step": 912
    },
    {
      "epoch": 0.04922363597153332,
      "grad_norm": 0.9601117968559265,
      "learning_rate": 9.997029461390344e-06,
      "loss": 0.9014,
      "step": 913
    },
    {
      "epoch": 0.04927755014017684,
      "grad_norm": 0.9162781834602356,
      "learning_rate": 9.997022150023968e-06,
      "loss": 0.8851,
      "step": 914
    },
    {
      "epoch": 0.04933146430882036,
      "grad_norm": 0.9514605402946472,
      "learning_rate": 9.99701482967362e-06,
      "loss": 0.8975,
      "step": 915
    },
    {
      "epoch": 0.049385378477463875,
      "grad_norm": 0.897203803062439,
      "learning_rate": 9.997007500339313e-06,
      "loss": 0.8371,
      "step": 916
    },
    {
      "epoch": 0.0494392926461074,
      "grad_norm": 0.9372673630714417,
      "learning_rate": 9.99700016202106e-06,
      "loss": 0.9432,
      "step": 917
    },
    {
      "epoch": 0.04949320681475092,
      "grad_norm": 0.8993443846702576,
      "learning_rate": 9.996992814718875e-06,
      "loss": 0.8528,
      "step": 918
    },
    {
      "epoch": 0.049547120983394435,
      "grad_norm": 0.9300720691680908,
      "learning_rate": 9.996985458432771e-06,
      "loss": 0.873,
      "step": 919
    },
    {
      "epoch": 0.04960103515203795,
      "grad_norm": 0.9311426281929016,
      "learning_rate": 9.996978093162761e-06,
      "loss": 0.9092,
      "step": 920
    },
    {
      "epoch": 0.04965494932068148,
      "grad_norm": 0.9244507551193237,
      "learning_rate": 9.996970718908859e-06,
      "loss": 0.764,
      "step": 921
    },
    {
      "epoch": 0.049708863489324996,
      "grad_norm": 0.915512204170227,
      "learning_rate": 9.996963335671074e-06,
      "loss": 0.8328,
      "step": 922
    },
    {
      "epoch": 0.049762777657968514,
      "grad_norm": 0.889994740486145,
      "learning_rate": 9.996955943449426e-06,
      "loss": 0.8491,
      "step": 923
    },
    {
      "epoch": 0.04981669182661203,
      "grad_norm": 0.8676478266716003,
      "learning_rate": 9.996948542243925e-06,
      "loss": 0.7677,
      "step": 924
    },
    {
      "epoch": 0.04987060599525555,
      "grad_norm": 0.9795013070106506,
      "learning_rate": 9.996941132054586e-06,
      "loss": 0.9279,
      "step": 925
    },
    {
      "epoch": 0.049924520163899075,
      "grad_norm": 0.940078854560852,
      "learning_rate": 9.996933712881419e-06,
      "loss": 0.8685,
      "step": 926
    },
    {
      "epoch": 0.04997843433254259,
      "grad_norm": 0.9440926313400269,
      "learning_rate": 9.996926284724437e-06,
      "loss": 0.9634,
      "step": 927
    },
    {
      "epoch": 0.05003234850118611,
      "grad_norm": 0.9120537638664246,
      "learning_rate": 9.99691884758366e-06,
      "loss": 0.7656,
      "step": 928
    },
    {
      "epoch": 0.05008626266982963,
      "grad_norm": 1.1514596939086914,
      "learning_rate": 9.996911401459093e-06,
      "loss": 0.864,
      "step": 929
    },
    {
      "epoch": 0.050140176838473154,
      "grad_norm": 0.8924434185028076,
      "learning_rate": 9.996903946350756e-06,
      "loss": 0.877,
      "step": 930
    },
    {
      "epoch": 0.05019409100711667,
      "grad_norm": 0.9884456992149353,
      "learning_rate": 9.996896482258657e-06,
      "loss": 0.94,
      "step": 931
    },
    {
      "epoch": 0.05024800517576019,
      "grad_norm": 0.9282665252685547,
      "learning_rate": 9.996889009182814e-06,
      "loss": 0.8443,
      "step": 932
    },
    {
      "epoch": 0.05030191934440371,
      "grad_norm": 1.1029064655303955,
      "learning_rate": 9.996881527123237e-06,
      "loss": 0.9168,
      "step": 933
    },
    {
      "epoch": 0.050355833513047225,
      "grad_norm": 0.839625358581543,
      "learning_rate": 9.996874036079942e-06,
      "loss": 0.8261,
      "step": 934
    },
    {
      "epoch": 0.05040974768169075,
      "grad_norm": 0.8612869381904602,
      "learning_rate": 9.996866536052942e-06,
      "loss": 0.8197,
      "step": 935
    },
    {
      "epoch": 0.05046366185033427,
      "grad_norm": 0.9483891129493713,
      "learning_rate": 9.996859027042249e-06,
      "loss": 0.8374,
      "step": 936
    },
    {
      "epoch": 0.050517576018977786,
      "grad_norm": 0.9374566674232483,
      "learning_rate": 9.996851509047877e-06,
      "loss": 0.8884,
      "step": 937
    },
    {
      "epoch": 0.050571490187621304,
      "grad_norm": 0.9164647459983826,
      "learning_rate": 9.99684398206984e-06,
      "loss": 0.8419,
      "step": 938
    },
    {
      "epoch": 0.05062540435626483,
      "grad_norm": 1.0109184980392456,
      "learning_rate": 9.996836446108153e-06,
      "loss": 0.8912,
      "step": 939
    },
    {
      "epoch": 0.05067931852490835,
      "grad_norm": 0.8549674153327942,
      "learning_rate": 9.996828901162825e-06,
      "loss": 0.8043,
      "step": 940
    },
    {
      "epoch": 0.050733232693551865,
      "grad_norm": 0.9618684649467468,
      "learning_rate": 9.996821347233875e-06,
      "loss": 0.8246,
      "step": 941
    },
    {
      "epoch": 0.05078714686219538,
      "grad_norm": 0.9777100682258606,
      "learning_rate": 9.996813784321314e-06,
      "loss": 0.887,
      "step": 942
    },
    {
      "epoch": 0.05084106103083891,
      "grad_norm": 0.8675182461738586,
      "learning_rate": 9.996806212425157e-06,
      "loss": 0.7584,
      "step": 943
    },
    {
      "epoch": 0.050894975199482426,
      "grad_norm": 0.9174523949623108,
      "learning_rate": 9.996798631545414e-06,
      "loss": 0.8911,
      "step": 944
    },
    {
      "epoch": 0.050948889368125944,
      "grad_norm": 0.9269078373908997,
      "learning_rate": 9.996791041682101e-06,
      "loss": 0.8049,
      "step": 945
    },
    {
      "epoch": 0.05100280353676946,
      "grad_norm": 0.8447721600532532,
      "learning_rate": 9.996783442835233e-06,
      "loss": 0.7781,
      "step": 946
    },
    {
      "epoch": 0.05105671770541298,
      "grad_norm": 0.9178231954574585,
      "learning_rate": 9.99677583500482e-06,
      "loss": 0.8107,
      "step": 947
    },
    {
      "epoch": 0.051110631874056504,
      "grad_norm": 0.8741039633750916,
      "learning_rate": 9.996768218190879e-06,
      "loss": 0.9278,
      "step": 948
    },
    {
      "epoch": 0.05116454604270002,
      "grad_norm": 0.7997228503227234,
      "learning_rate": 9.996760592393425e-06,
      "loss": 0.7706,
      "step": 949
    },
    {
      "epoch": 0.05121846021134354,
      "grad_norm": 1.003300428390503,
      "learning_rate": 9.996752957612468e-06,
      "loss": 0.8464,
      "step": 950
    },
    {
      "epoch": 0.05127237437998706,
      "grad_norm": 0.9237748980522156,
      "learning_rate": 9.996745313848021e-06,
      "loss": 0.9088,
      "step": 951
    },
    {
      "epoch": 0.05132628854863058,
      "grad_norm": 0.8565654754638672,
      "learning_rate": 9.996737661100103e-06,
      "loss": 0.8208,
      "step": 952
    },
    {
      "epoch": 0.0513802027172741,
      "grad_norm": 1.0590770244598389,
      "learning_rate": 9.996729999368722e-06,
      "loss": 0.9272,
      "step": 953
    },
    {
      "epoch": 0.05143411688591762,
      "grad_norm": 0.8888198733329773,
      "learning_rate": 9.996722328653897e-06,
      "loss": 0.8264,
      "step": 954
    },
    {
      "epoch": 0.05148803105456114,
      "grad_norm": 0.9211130142211914,
      "learning_rate": 9.996714648955636e-06,
      "loss": 0.8807,
      "step": 955
    },
    {
      "epoch": 0.051541945223204655,
      "grad_norm": 1.0241321325302124,
      "learning_rate": 9.996706960273958e-06,
      "loss": 0.7638,
      "step": 956
    },
    {
      "epoch": 0.05159585939184818,
      "grad_norm": 0.903762698173523,
      "learning_rate": 9.996699262608875e-06,
      "loss": 0.8583,
      "step": 957
    },
    {
      "epoch": 0.0516497735604917,
      "grad_norm": 0.9271189570426941,
      "learning_rate": 9.9966915559604e-06,
      "loss": 0.8341,
      "step": 958
    },
    {
      "epoch": 0.051703687729135216,
      "grad_norm": 0.865260899066925,
      "learning_rate": 9.996683840328546e-06,
      "loss": 0.9136,
      "step": 959
    },
    {
      "epoch": 0.051757601897778734,
      "grad_norm": 0.8903625011444092,
      "learning_rate": 9.996676115713332e-06,
      "loss": 0.8706,
      "step": 960
    },
    {
      "epoch": 0.05181151606642226,
      "grad_norm": 0.9228227138519287,
      "learning_rate": 9.996668382114765e-06,
      "loss": 0.8825,
      "step": 961
    },
    {
      "epoch": 0.051865430235065776,
      "grad_norm": 0.9146421551704407,
      "learning_rate": 9.996660639532863e-06,
      "loss": 0.8347,
      "step": 962
    },
    {
      "epoch": 0.051919344403709294,
      "grad_norm": 0.9010991454124451,
      "learning_rate": 9.99665288796764e-06,
      "loss": 0.8016,
      "step": 963
    },
    {
      "epoch": 0.05197325857235281,
      "grad_norm": 0.8763105869293213,
      "learning_rate": 9.996645127419107e-06,
      "loss": 0.8651,
      "step": 964
    },
    {
      "epoch": 0.05202717274099634,
      "grad_norm": 0.9506256580352783,
      "learning_rate": 9.996637357887281e-06,
      "loss": 0.9429,
      "step": 965
    },
    {
      "epoch": 0.052081086909639855,
      "grad_norm": 0.9484269022941589,
      "learning_rate": 9.996629579372175e-06,
      "loss": 0.855,
      "step": 966
    },
    {
      "epoch": 0.05213500107828337,
      "grad_norm": 0.8970646262168884,
      "learning_rate": 9.996621791873804e-06,
      "loss": 0.8611,
      "step": 967
    },
    {
      "epoch": 0.05218891524692689,
      "grad_norm": 0.8925203680992126,
      "learning_rate": 9.99661399539218e-06,
      "loss": 0.8206,
      "step": 968
    },
    {
      "epoch": 0.05224282941557041,
      "grad_norm": 1.069669246673584,
      "learning_rate": 9.996606189927318e-06,
      "loss": 0.876,
      "step": 969
    },
    {
      "epoch": 0.052296743584213934,
      "grad_norm": 0.8456307649612427,
      "learning_rate": 9.996598375479232e-06,
      "loss": 0.7514,
      "step": 970
    },
    {
      "epoch": 0.05235065775285745,
      "grad_norm": 0.9182801246643066,
      "learning_rate": 9.996590552047936e-06,
      "loss": 0.8915,
      "step": 971
    },
    {
      "epoch": 0.05240457192150097,
      "grad_norm": 0.7616676688194275,
      "learning_rate": 9.996582719633445e-06,
      "loss": 0.7106,
      "step": 972
    },
    {
      "epoch": 0.05245848609014449,
      "grad_norm": 0.8873127102851868,
      "learning_rate": 9.99657487823577e-06,
      "loss": 0.9171,
      "step": 973
    },
    {
      "epoch": 0.05251240025878801,
      "grad_norm": 0.9724618792533875,
      "learning_rate": 9.996567027854929e-06,
      "loss": 0.9765,
      "step": 974
    },
    {
      "epoch": 0.05256631442743153,
      "grad_norm": 0.9106513857841492,
      "learning_rate": 9.996559168490933e-06,
      "loss": 0.8332,
      "step": 975
    },
    {
      "epoch": 0.05262022859607505,
      "grad_norm": 0.8551159501075745,
      "learning_rate": 9.996551300143798e-06,
      "loss": 0.8128,
      "step": 976
    },
    {
      "epoch": 0.052674142764718566,
      "grad_norm": 0.9829822182655334,
      "learning_rate": 9.996543422813539e-06,
      "loss": 0.9088,
      "step": 977
    },
    {
      "epoch": 0.052728056933362084,
      "grad_norm": 0.8281888961791992,
      "learning_rate": 9.996535536500166e-06,
      "loss": 0.8338,
      "step": 978
    },
    {
      "epoch": 0.05278197110200561,
      "grad_norm": 0.951319694519043,
      "learning_rate": 9.9965276412037e-06,
      "loss": 0.9359,
      "step": 979
    },
    {
      "epoch": 0.05283588527064913,
      "grad_norm": 0.841390073299408,
      "learning_rate": 9.996519736924148e-06,
      "loss": 0.7952,
      "step": 980
    },
    {
      "epoch": 0.052889799439292645,
      "grad_norm": 0.8847686648368835,
      "learning_rate": 9.996511823661528e-06,
      "loss": 0.8435,
      "step": 981
    },
    {
      "epoch": 0.05294371360793616,
      "grad_norm": 0.9261316061019897,
      "learning_rate": 9.996503901415855e-06,
      "loss": 0.8646,
      "step": 982
    },
    {
      "epoch": 0.05299762777657969,
      "grad_norm": 0.9366586804389954,
      "learning_rate": 9.99649597018714e-06,
      "loss": 0.8586,
      "step": 983
    },
    {
      "epoch": 0.053051541945223206,
      "grad_norm": 0.8916764259338379,
      "learning_rate": 9.9964880299754e-06,
      "loss": 0.8215,
      "step": 984
    },
    {
      "epoch": 0.053105456113866724,
      "grad_norm": 0.9496534466743469,
      "learning_rate": 9.996480080780648e-06,
      "loss": 0.7984,
      "step": 985
    },
    {
      "epoch": 0.05315937028251024,
      "grad_norm": 0.9736526608467102,
      "learning_rate": 9.9964721226029e-06,
      "loss": 0.7881,
      "step": 986
    },
    {
      "epoch": 0.05321328445115376,
      "grad_norm": 0.9533856511116028,
      "learning_rate": 9.996464155442167e-06,
      "loss": 0.9855,
      "step": 987
    },
    {
      "epoch": 0.053267198619797285,
      "grad_norm": 0.9656437039375305,
      "learning_rate": 9.996456179298467e-06,
      "loss": 0.9571,
      "step": 988
    },
    {
      "epoch": 0.0533211127884408,
      "grad_norm": 0.8887313008308411,
      "learning_rate": 9.996448194171813e-06,
      "loss": 0.9381,
      "step": 989
    },
    {
      "epoch": 0.05337502695708432,
      "grad_norm": 1.0181535482406616,
      "learning_rate": 9.996440200062217e-06,
      "loss": 0.8834,
      "step": 990
    },
    {
      "epoch": 0.05342894112572784,
      "grad_norm": 0.9083503484725952,
      "learning_rate": 9.996432196969696e-06,
      "loss": 0.9733,
      "step": 991
    },
    {
      "epoch": 0.05348285529437136,
      "grad_norm": 0.9051093459129333,
      "learning_rate": 9.996424184894264e-06,
      "loss": 0.8531,
      "step": 992
    },
    {
      "epoch": 0.05353676946301488,
      "grad_norm": 1.0264357328414917,
      "learning_rate": 9.996416163835935e-06,
      "loss": 0.9212,
      "step": 993
    },
    {
      "epoch": 0.0535906836316584,
      "grad_norm": 1.0350812673568726,
      "learning_rate": 9.996408133794726e-06,
      "loss": 0.7843,
      "step": 994
    },
    {
      "epoch": 0.05364459780030192,
      "grad_norm": 0.9610341787338257,
      "learning_rate": 9.996400094770647e-06,
      "loss": 0.8561,
      "step": 995
    },
    {
      "epoch": 0.05369851196894544,
      "grad_norm": 0.8123961687088013,
      "learning_rate": 9.996392046763714e-06,
      "loss": 0.8296,
      "step": 996
    },
    {
      "epoch": 0.05375242613758896,
      "grad_norm": 0.9337920546531677,
      "learning_rate": 9.996383989773942e-06,
      "loss": 0.8525,
      "step": 997
    },
    {
      "epoch": 0.05380634030623248,
      "grad_norm": 1.1319444179534912,
      "learning_rate": 9.996375923801347e-06,
      "loss": 0.9127,
      "step": 998
    },
    {
      "epoch": 0.053860254474875996,
      "grad_norm": 0.8506798148155212,
      "learning_rate": 9.996367848845941e-06,
      "loss": 0.884,
      "step": 999
    },
    {
      "epoch": 0.053914168643519514,
      "grad_norm": 0.8248615860939026,
      "learning_rate": 9.996359764907739e-06,
      "loss": 0.7579,
      "step": 1000
    },
    {
      "epoch": 0.05396808281216304,
      "grad_norm": 0.9258946180343628,
      "learning_rate": 9.996351671986756e-06,
      "loss": 0.8632,
      "step": 1001
    },
    {
      "epoch": 0.05402199698080656,
      "grad_norm": 0.8891279101371765,
      "learning_rate": 9.996343570083006e-06,
      "loss": 0.8758,
      "step": 1002
    },
    {
      "epoch": 0.054075911149450075,
      "grad_norm": 0.9592086672782898,
      "learning_rate": 9.996335459196505e-06,
      "loss": 0.8962,
      "step": 1003
    },
    {
      "epoch": 0.05412982531809359,
      "grad_norm": 0.8937798738479614,
      "learning_rate": 9.996327339327267e-06,
      "loss": 0.8434,
      "step": 1004
    },
    {
      "epoch": 0.05418373948673712,
      "grad_norm": 0.9602083563804626,
      "learning_rate": 9.996319210475307e-06,
      "loss": 0.9692,
      "step": 1005
    },
    {
      "epoch": 0.054237653655380635,
      "grad_norm": 0.870637834072113,
      "learning_rate": 9.996311072640637e-06,
      "loss": 0.9146,
      "step": 1006
    },
    {
      "epoch": 0.05429156782402415,
      "grad_norm": 0.9330273866653442,
      "learning_rate": 9.996302925823276e-06,
      "loss": 0.8584,
      "step": 1007
    },
    {
      "epoch": 0.05434548199266767,
      "grad_norm": 0.8185963034629822,
      "learning_rate": 9.996294770023234e-06,
      "loss": 0.7854,
      "step": 1008
    },
    {
      "epoch": 0.05439939616131119,
      "grad_norm": 0.8727489113807678,
      "learning_rate": 9.996286605240528e-06,
      "loss": 0.7388,
      "step": 1009
    },
    {
      "epoch": 0.054453310329954714,
      "grad_norm": 1.0858477354049683,
      "learning_rate": 9.996278431475172e-06,
      "loss": 0.9201,
      "step": 1010
    },
    {
      "epoch": 0.05450722449859823,
      "grad_norm": 0.9749255776405334,
      "learning_rate": 9.996270248727184e-06,
      "loss": 0.9041,
      "step": 1011
    },
    {
      "epoch": 0.05456113866724175,
      "grad_norm": 0.9460576176643372,
      "learning_rate": 9.996262056996575e-06,
      "loss": 0.8553,
      "step": 1012
    },
    {
      "epoch": 0.05461505283588527,
      "grad_norm": 0.9379808306694031,
      "learning_rate": 9.99625385628336e-06,
      "loss": 0.9253,
      "step": 1013
    },
    {
      "epoch": 0.05466896700452879,
      "grad_norm": 0.8154170513153076,
      "learning_rate": 9.996245646587553e-06,
      "loss": 0.8703,
      "step": 1014
    },
    {
      "epoch": 0.05472288117317231,
      "grad_norm": 0.9122161269187927,
      "learning_rate": 9.996237427909172e-06,
      "loss": 0.7734,
      "step": 1015
    },
    {
      "epoch": 0.05477679534181583,
      "grad_norm": 0.9049486517906189,
      "learning_rate": 9.996229200248228e-06,
      "loss": 0.8991,
      "step": 1016
    },
    {
      "epoch": 0.05483070951045935,
      "grad_norm": 0.9244295358657837,
      "learning_rate": 9.996220963604741e-06,
      "loss": 0.8514,
      "step": 1017
    },
    {
      "epoch": 0.05488462367910287,
      "grad_norm": 0.9817934036254883,
      "learning_rate": 9.99621271797872e-06,
      "loss": 0.8641,
      "step": 1018
    },
    {
      "epoch": 0.05493853784774639,
      "grad_norm": 0.9253972768783569,
      "learning_rate": 9.996204463370182e-06,
      "loss": 0.9199,
      "step": 1019
    },
    {
      "epoch": 0.05499245201638991,
      "grad_norm": 0.9114319682121277,
      "learning_rate": 9.996196199779145e-06,
      "loss": 0.8063,
      "step": 1020
    },
    {
      "epoch": 0.055046366185033425,
      "grad_norm": 0.9643195867538452,
      "learning_rate": 9.996187927205619e-06,
      "loss": 0.9668,
      "step": 1021
    },
    {
      "epoch": 0.05510028035367694,
      "grad_norm": 0.8127598166465759,
      "learning_rate": 9.996179645649622e-06,
      "loss": 0.764,
      "step": 1022
    },
    {
      "epoch": 0.05515419452232047,
      "grad_norm": 0.8728108406066895,
      "learning_rate": 9.996171355111167e-06,
      "loss": 0.7703,
      "step": 1023
    },
    {
      "epoch": 0.055208108690963986,
      "grad_norm": 0.8554317355155945,
      "learning_rate": 9.996163055590269e-06,
      "loss": 0.8266,
      "step": 1024
    },
    {
      "epoch": 0.055262022859607504,
      "grad_norm": 0.7951076030731201,
      "learning_rate": 9.996154747086946e-06,
      "loss": 0.7601,
      "step": 1025
    },
    {
      "epoch": 0.05531593702825102,
      "grad_norm": 0.8916927576065063,
      "learning_rate": 9.996146429601208e-06,
      "loss": 0.8936,
      "step": 1026
    },
    {
      "epoch": 0.05536985119689455,
      "grad_norm": 1.0242576599121094,
      "learning_rate": 9.996138103133075e-06,
      "loss": 0.8868,
      "step": 1027
    },
    {
      "epoch": 0.055423765365538065,
      "grad_norm": 0.9273019433021545,
      "learning_rate": 9.996129767682557e-06,
      "loss": 0.8622,
      "step": 1028
    },
    {
      "epoch": 0.05547767953418158,
      "grad_norm": 0.9547039866447449,
      "learning_rate": 9.996121423249673e-06,
      "loss": 0.7814,
      "step": 1029
    },
    {
      "epoch": 0.0555315937028251,
      "grad_norm": 0.8750621676445007,
      "learning_rate": 9.996113069834437e-06,
      "loss": 0.7717,
      "step": 1030
    },
    {
      "epoch": 0.05558550787146862,
      "grad_norm": 0.9547988176345825,
      "learning_rate": 9.996104707436862e-06,
      "loss": 0.8877,
      "step": 1031
    },
    {
      "epoch": 0.055639422040112144,
      "grad_norm": 0.8856480717658997,
      "learning_rate": 9.996096336056966e-06,
      "loss": 0.7927,
      "step": 1032
    },
    {
      "epoch": 0.05569333620875566,
      "grad_norm": 0.8311342000961304,
      "learning_rate": 9.99608795569476e-06,
      "loss": 0.7847,
      "step": 1033
    },
    {
      "epoch": 0.05574725037739918,
      "grad_norm": 1.0720731019973755,
      "learning_rate": 9.996079566350266e-06,
      "loss": 0.9243,
      "step": 1034
    },
    {
      "epoch": 0.0558011645460427,
      "grad_norm": 0.9498684406280518,
      "learning_rate": 9.996071168023491e-06,
      "loss": 0.8605,
      "step": 1035
    },
    {
      "epoch": 0.05585507871468622,
      "grad_norm": 0.9043952822685242,
      "learning_rate": 9.996062760714456e-06,
      "loss": 0.8488,
      "step": 1036
    },
    {
      "epoch": 0.05590899288332974,
      "grad_norm": 0.8051116466522217,
      "learning_rate": 9.996054344423173e-06,
      "loss": 0.8275,
      "step": 1037
    },
    {
      "epoch": 0.05596290705197326,
      "grad_norm": 0.857120156288147,
      "learning_rate": 9.996045919149658e-06,
      "loss": 0.8837,
      "step": 1038
    },
    {
      "epoch": 0.056016821220616776,
      "grad_norm": 0.8810911774635315,
      "learning_rate": 9.996037484893926e-06,
      "loss": 0.8179,
      "step": 1039
    },
    {
      "epoch": 0.056070735389260294,
      "grad_norm": 0.8783093690872192,
      "learning_rate": 9.996029041655994e-06,
      "loss": 0.7734,
      "step": 1040
    },
    {
      "epoch": 0.05612464955790382,
      "grad_norm": 0.9281952977180481,
      "learning_rate": 9.996020589435874e-06,
      "loss": 0.8747,
      "step": 1041
    },
    {
      "epoch": 0.05617856372654734,
      "grad_norm": 0.8307299613952637,
      "learning_rate": 9.996012128233583e-06,
      "loss": 0.8055,
      "step": 1042
    },
    {
      "epoch": 0.056232477895190855,
      "grad_norm": 0.9520873427391052,
      "learning_rate": 9.996003658049136e-06,
      "loss": 0.8181,
      "step": 1043
    },
    {
      "epoch": 0.05628639206383437,
      "grad_norm": 0.8753806948661804,
      "learning_rate": 9.995995178882549e-06,
      "loss": 0.808,
      "step": 1044
    },
    {
      "epoch": 0.0563403062324779,
      "grad_norm": 1.067691683769226,
      "learning_rate": 9.995986690733836e-06,
      "loss": 0.8048,
      "step": 1045
    },
    {
      "epoch": 0.056394220401121416,
      "grad_norm": 0.8575261235237122,
      "learning_rate": 9.995978193603013e-06,
      "loss": 0.9231,
      "step": 1046
    },
    {
      "epoch": 0.056448134569764934,
      "grad_norm": 0.9857104420661926,
      "learning_rate": 9.995969687490096e-06,
      "loss": 0.8883,
      "step": 1047
    },
    {
      "epoch": 0.05650204873840845,
      "grad_norm": 0.9203484654426575,
      "learning_rate": 9.995961172395098e-06,
      "loss": 0.7634,
      "step": 1048
    },
    {
      "epoch": 0.056555962907051976,
      "grad_norm": 0.8741904497146606,
      "learning_rate": 9.995952648318036e-06,
      "loss": 0.8061,
      "step": 1049
    },
    {
      "epoch": 0.056609877075695494,
      "grad_norm": 0.9495588541030884,
      "learning_rate": 9.995944115258925e-06,
      "loss": 0.8922,
      "step": 1050
    },
    {
      "epoch": 0.05666379124433901,
      "grad_norm": 0.9306020140647888,
      "learning_rate": 9.99593557321778e-06,
      "loss": 0.8454,
      "step": 1051
    },
    {
      "epoch": 0.05671770541298253,
      "grad_norm": 0.9457784295082092,
      "learning_rate": 9.995927022194615e-06,
      "loss": 0.8701,
      "step": 1052
    },
    {
      "epoch": 0.05677161958162605,
      "grad_norm": 0.88719242811203,
      "learning_rate": 9.99591846218945e-06,
      "loss": 0.8416,
      "step": 1053
    },
    {
      "epoch": 0.05682553375026957,
      "grad_norm": 0.8740848302841187,
      "learning_rate": 9.995909893202296e-06,
      "loss": 0.7962,
      "step": 1054
    },
    {
      "epoch": 0.05687944791891309,
      "grad_norm": 1.0149377584457397,
      "learning_rate": 9.99590131523317e-06,
      "loss": 0.8352,
      "step": 1055
    },
    {
      "epoch": 0.05693336208755661,
      "grad_norm": 0.9014917016029358,
      "learning_rate": 9.995892728282088e-06,
      "loss": 0.9244,
      "step": 1056
    },
    {
      "epoch": 0.05698727625620013,
      "grad_norm": 0.9351898431777954,
      "learning_rate": 9.995884132349062e-06,
      "loss": 0.865,
      "step": 1057
    },
    {
      "epoch": 0.05704119042484365,
      "grad_norm": 0.8656749129295349,
      "learning_rate": 9.995875527434113e-06,
      "loss": 0.8836,
      "step": 1058
    },
    {
      "epoch": 0.05709510459348717,
      "grad_norm": 0.9120789170265198,
      "learning_rate": 9.995866913537254e-06,
      "loss": 0.8772,
      "step": 1059
    },
    {
      "epoch": 0.05714901876213069,
      "grad_norm": 1.0019149780273438,
      "learning_rate": 9.995858290658497e-06,
      "loss": 0.9338,
      "step": 1060
    },
    {
      "epoch": 0.057202932930774206,
      "grad_norm": 0.8492977023124695,
      "learning_rate": 9.995849658797863e-06,
      "loss": 0.742,
      "step": 1061
    },
    {
      "epoch": 0.057256847099417724,
      "grad_norm": 1.000607967376709,
      "learning_rate": 9.995841017955363e-06,
      "loss": 0.8498,
      "step": 1062
    },
    {
      "epoch": 0.05731076126806125,
      "grad_norm": 1.0268487930297852,
      "learning_rate": 9.995832368131016e-06,
      "loss": 0.8937,
      "step": 1063
    },
    {
      "epoch": 0.057364675436704766,
      "grad_norm": 0.9388830661773682,
      "learning_rate": 9.995823709324836e-06,
      "loss": 0.877,
      "step": 1064
    },
    {
      "epoch": 0.057418589605348284,
      "grad_norm": 0.9747199416160583,
      "learning_rate": 9.99581504153684e-06,
      "loss": 0.8436,
      "step": 1065
    },
    {
      "epoch": 0.0574725037739918,
      "grad_norm": 0.9125073552131653,
      "learning_rate": 9.99580636476704e-06,
      "loss": 0.8853,
      "step": 1066
    },
    {
      "epoch": 0.05752641794263533,
      "grad_norm": 0.8910282254219055,
      "learning_rate": 9.995797679015455e-06,
      "loss": 0.8566,
      "step": 1067
    },
    {
      "epoch": 0.057580332111278845,
      "grad_norm": 0.8546010255813599,
      "learning_rate": 9.995788984282101e-06,
      "loss": 0.8209,
      "step": 1068
    },
    {
      "epoch": 0.05763424627992236,
      "grad_norm": 0.9205883145332336,
      "learning_rate": 9.99578028056699e-06,
      "loss": 0.7814,
      "step": 1069
    },
    {
      "epoch": 0.05768816044856588,
      "grad_norm": 0.9627780914306641,
      "learning_rate": 9.995771567870142e-06,
      "loss": 0.8686,
      "step": 1070
    },
    {
      "epoch": 0.057742074617209406,
      "grad_norm": 0.9917465448379517,
      "learning_rate": 9.995762846191569e-06,
      "loss": 0.9672,
      "step": 1071
    },
    {
      "epoch": 0.057795988785852924,
      "grad_norm": 0.9396706223487854,
      "learning_rate": 9.995754115531288e-06,
      "loss": 0.8631,
      "step": 1072
    },
    {
      "epoch": 0.05784990295449644,
      "grad_norm": 0.8310922980308533,
      "learning_rate": 9.995745375889317e-06,
      "loss": 0.8637,
      "step": 1073
    },
    {
      "epoch": 0.05790381712313996,
      "grad_norm": 0.9085954427719116,
      "learning_rate": 9.995736627265667e-06,
      "loss": 0.8821,
      "step": 1074
    },
    {
      "epoch": 0.05795773129178348,
      "grad_norm": 0.8529816269874573,
      "learning_rate": 9.995727869660357e-06,
      "loss": 0.8426,
      "step": 1075
    },
    {
      "epoch": 0.058011645460427,
      "grad_norm": 0.8288499116897583,
      "learning_rate": 9.995719103073403e-06,
      "loss": 0.8415,
      "step": 1076
    },
    {
      "epoch": 0.05806555962907052,
      "grad_norm": 0.9105609059333801,
      "learning_rate": 9.995710327504819e-06,
      "loss": 0.7683,
      "step": 1077
    },
    {
      "epoch": 0.05811947379771404,
      "grad_norm": 0.9578274488449097,
      "learning_rate": 9.995701542954622e-06,
      "loss": 0.8796,
      "step": 1078
    },
    {
      "epoch": 0.058173387966357556,
      "grad_norm": 0.8542460799217224,
      "learning_rate": 9.995692749422827e-06,
      "loss": 0.8363,
      "step": 1079
    },
    {
      "epoch": 0.05822730213500108,
      "grad_norm": 0.8723183274269104,
      "learning_rate": 9.99568394690945e-06,
      "loss": 0.8434,
      "step": 1080
    },
    {
      "epoch": 0.0582812163036446,
      "grad_norm": 0.9157887697219849,
      "learning_rate": 9.995675135414507e-06,
      "loss": 0.6532,
      "step": 1081
    },
    {
      "epoch": 0.05833513047228812,
      "grad_norm": 0.9055691361427307,
      "learning_rate": 9.995666314938014e-06,
      "loss": 0.8762,
      "step": 1082
    },
    {
      "epoch": 0.058389044640931635,
      "grad_norm": 0.8224693536758423,
      "learning_rate": 9.995657485479987e-06,
      "loss": 0.7976,
      "step": 1083
    },
    {
      "epoch": 0.05844295880957515,
      "grad_norm": 0.925414502620697,
      "learning_rate": 9.995648647040441e-06,
      "loss": 0.8673,
      "step": 1084
    },
    {
      "epoch": 0.05849687297821868,
      "grad_norm": 0.9194141626358032,
      "learning_rate": 9.995639799619395e-06,
      "loss": 0.7916,
      "step": 1085
    },
    {
      "epoch": 0.058550787146862196,
      "grad_norm": 1.08795166015625,
      "learning_rate": 9.995630943216859e-06,
      "loss": 0.9135,
      "step": 1086
    },
    {
      "epoch": 0.058604701315505714,
      "grad_norm": 0.9648925065994263,
      "learning_rate": 9.995622077832854e-06,
      "loss": 0.8442,
      "step": 1087
    },
    {
      "epoch": 0.05865861548414923,
      "grad_norm": 1.0012339353561401,
      "learning_rate": 9.995613203467394e-06,
      "loss": 0.9543,
      "step": 1088
    },
    {
      "epoch": 0.05871252965279276,
      "grad_norm": 0.9333881735801697,
      "learning_rate": 9.995604320120496e-06,
      "loss": 0.9267,
      "step": 1089
    },
    {
      "epoch": 0.058766443821436275,
      "grad_norm": 0.8566498160362244,
      "learning_rate": 9.995595427792173e-06,
      "loss": 0.8539,
      "step": 1090
    },
    {
      "epoch": 0.05882035799007979,
      "grad_norm": 0.8766364455223083,
      "learning_rate": 9.995586526482446e-06,
      "loss": 0.9293,
      "step": 1091
    },
    {
      "epoch": 0.05887427215872331,
      "grad_norm": 0.9181047677993774,
      "learning_rate": 9.995577616191326e-06,
      "loss": 0.8333,
      "step": 1092
    },
    {
      "epoch": 0.05892818632736683,
      "grad_norm": 0.8831031918525696,
      "learning_rate": 9.995568696918833e-06,
      "loss": 0.8016,
      "step": 1093
    },
    {
      "epoch": 0.05898210049601035,
      "grad_norm": 0.8618754148483276,
      "learning_rate": 9.99555976866498e-06,
      "loss": 0.8988,
      "step": 1094
    },
    {
      "epoch": 0.05903601466465387,
      "grad_norm": 0.9083183407783508,
      "learning_rate": 9.995550831429785e-06,
      "loss": 0.8626,
      "step": 1095
    },
    {
      "epoch": 0.05908992883329739,
      "grad_norm": 0.8423884510993958,
      "learning_rate": 9.995541885213262e-06,
      "loss": 0.9121,
      "step": 1096
    },
    {
      "epoch": 0.05914384300194091,
      "grad_norm": 0.7747607827186584,
      "learning_rate": 9.99553293001543e-06,
      "loss": 0.8087,
      "step": 1097
    },
    {
      "epoch": 0.05919775717058443,
      "grad_norm": 0.8828368186950684,
      "learning_rate": 9.995523965836302e-06,
      "loss": 0.8284,
      "step": 1098
    },
    {
      "epoch": 0.05925167133922795,
      "grad_norm": 0.9448524713516235,
      "learning_rate": 9.995514992675896e-06,
      "loss": 0.9565,
      "step": 1099
    },
    {
      "epoch": 0.05930558550787147,
      "grad_norm": 0.8967006206512451,
      "learning_rate": 9.99550601053423e-06,
      "loss": 0.8412,
      "step": 1100
    },
    {
      "epoch": 0.059359499676514986,
      "grad_norm": 0.9394551515579224,
      "learning_rate": 9.995497019411315e-06,
      "loss": 0.929,
      "step": 1101
    },
    {
      "epoch": 0.05941341384515851,
      "grad_norm": 0.9002842903137207,
      "learning_rate": 9.995488019307172e-06,
      "loss": 0.734,
      "step": 1102
    },
    {
      "epoch": 0.05946732801380203,
      "grad_norm": 1.3590562343597412,
      "learning_rate": 9.995479010221816e-06,
      "loss": 0.8843,
      "step": 1103
    },
    {
      "epoch": 0.05952124218244555,
      "grad_norm": 1.041528582572937,
      "learning_rate": 9.99546999215526e-06,
      "loss": 0.9001,
      "step": 1104
    },
    {
      "epoch": 0.059575156351089065,
      "grad_norm": 0.9846720099449158,
      "learning_rate": 9.995460965107524e-06,
      "loss": 0.8174,
      "step": 1105
    },
    {
      "epoch": 0.05962907051973258,
      "grad_norm": 0.9171685576438904,
      "learning_rate": 9.995451929078624e-06,
      "loss": 0.8756,
      "step": 1106
    },
    {
      "epoch": 0.05968298468837611,
      "grad_norm": 0.9155516028404236,
      "learning_rate": 9.995442884068574e-06,
      "loss": 0.7327,
      "step": 1107
    },
    {
      "epoch": 0.059736898857019625,
      "grad_norm": 0.8734007477760315,
      "learning_rate": 9.99543383007739e-06,
      "loss": 0.8385,
      "step": 1108
    },
    {
      "epoch": 0.05979081302566314,
      "grad_norm": 0.8580977320671082,
      "learning_rate": 9.99542476710509e-06,
      "loss": 0.885,
      "step": 1109
    },
    {
      "epoch": 0.05984472719430666,
      "grad_norm": 0.8499299883842468,
      "learning_rate": 9.995415695151692e-06,
      "loss": 0.8323,
      "step": 1110
    },
    {
      "epoch": 0.059898641362950186,
      "grad_norm": 0.8348694443702698,
      "learning_rate": 9.99540661421721e-06,
      "loss": 0.7947,
      "step": 1111
    },
    {
      "epoch": 0.059952555531593704,
      "grad_norm": 0.8865199685096741,
      "learning_rate": 9.99539752430166e-06,
      "loss": 0.9363,
      "step": 1112
    },
    {
      "epoch": 0.06000646970023722,
      "grad_norm": 0.9492315649986267,
      "learning_rate": 9.995388425405059e-06,
      "loss": 0.913,
      "step": 1113
    },
    {
      "epoch": 0.06006038386888074,
      "grad_norm": 0.938252329826355,
      "learning_rate": 9.995379317527422e-06,
      "loss": 0.861,
      "step": 1114
    },
    {
      "epoch": 0.06011429803752426,
      "grad_norm": 1.2601032257080078,
      "learning_rate": 9.995370200668768e-06,
      "loss": 0.9435,
      "step": 1115
    },
    {
      "epoch": 0.06016821220616778,
      "grad_norm": 0.915830671787262,
      "learning_rate": 9.995361074829112e-06,
      "loss": 0.9372,
      "step": 1116
    },
    {
      "epoch": 0.0602221263748113,
      "grad_norm": 1.4548465013504028,
      "learning_rate": 9.995351940008473e-06,
      "loss": 0.9055,
      "step": 1117
    },
    {
      "epoch": 0.06027604054345482,
      "grad_norm": 0.9090906381607056,
      "learning_rate": 9.995342796206861e-06,
      "loss": 0.8849,
      "step": 1118
    },
    {
      "epoch": 0.06032995471209834,
      "grad_norm": 0.9860616326332092,
      "learning_rate": 9.995333643424298e-06,
      "loss": 0.8304,
      "step": 1119
    },
    {
      "epoch": 0.06038386888074186,
      "grad_norm": 0.8320879340171814,
      "learning_rate": 9.9953244816608e-06,
      "loss": 0.8432,
      "step": 1120
    },
    {
      "epoch": 0.06043778304938538,
      "grad_norm": 0.8633564114570618,
      "learning_rate": 9.995315310916381e-06,
      "loss": 0.7461,
      "step": 1121
    },
    {
      "epoch": 0.0604916972180289,
      "grad_norm": 0.881287693977356,
      "learning_rate": 9.995306131191059e-06,
      "loss": 0.8512,
      "step": 1122
    },
    {
      "epoch": 0.060545611386672415,
      "grad_norm": 0.8888201713562012,
      "learning_rate": 9.99529694248485e-06,
      "loss": 0.8416,
      "step": 1123
    },
    {
      "epoch": 0.06059952555531594,
      "grad_norm": 0.8073605895042419,
      "learning_rate": 9.99528774479777e-06,
      "loss": 0.8369,
      "step": 1124
    },
    {
      "epoch": 0.06065343972395946,
      "grad_norm": 0.9260549545288086,
      "learning_rate": 9.995278538129837e-06,
      "loss": 0.8548,
      "step": 1125
    },
    {
      "epoch": 0.060707353892602976,
      "grad_norm": 0.9169156551361084,
      "learning_rate": 9.99526932248107e-06,
      "loss": 0.9149,
      "step": 1126
    },
    {
      "epoch": 0.060761268061246494,
      "grad_norm": 0.8481706380844116,
      "learning_rate": 9.995260097851478e-06,
      "loss": 0.8591,
      "step": 1127
    },
    {
      "epoch": 0.06081518222989001,
      "grad_norm": 0.8934486508369446,
      "learning_rate": 9.995250864241085e-06,
      "loss": 0.9322,
      "step": 1128
    },
    {
      "epoch": 0.06086909639853354,
      "grad_norm": 0.947390615940094,
      "learning_rate": 9.995241621649902e-06,
      "loss": 1.0015,
      "step": 1129
    },
    {
      "epoch": 0.060923010567177055,
      "grad_norm": 0.9185096025466919,
      "learning_rate": 9.995232370077949e-06,
      "loss": 0.9293,
      "step": 1130
    },
    {
      "epoch": 0.06097692473582057,
      "grad_norm": 0.9517882466316223,
      "learning_rate": 9.995223109525245e-06,
      "loss": 0.8673,
      "step": 1131
    },
    {
      "epoch": 0.06103083890446409,
      "grad_norm": 1.065699815750122,
      "learning_rate": 9.9952138399918e-06,
      "loss": 0.9144,
      "step": 1132
    },
    {
      "epoch": 0.061084753073107616,
      "grad_norm": 0.9048404693603516,
      "learning_rate": 9.995204561477635e-06,
      "loss": 0.7773,
      "step": 1133
    },
    {
      "epoch": 0.061138667241751134,
      "grad_norm": 1.104457139968872,
      "learning_rate": 9.995195273982768e-06,
      "loss": 0.8847,
      "step": 1134
    },
    {
      "epoch": 0.06119258141039465,
      "grad_norm": 0.9009587168693542,
      "learning_rate": 9.995185977507212e-06,
      "loss": 0.8118,
      "step": 1135
    },
    {
      "epoch": 0.06124649557903817,
      "grad_norm": 1.0740209817886353,
      "learning_rate": 9.995176672050983e-06,
      "loss": 0.9173,
      "step": 1136
    },
    {
      "epoch": 0.06130040974768169,
      "grad_norm": 0.9820743203163147,
      "learning_rate": 9.995167357614104e-06,
      "loss": 0.8555,
      "step": 1137
    },
    {
      "epoch": 0.06135432391632521,
      "grad_norm": 0.9250825047492981,
      "learning_rate": 9.995158034196586e-06,
      "loss": 0.8771,
      "step": 1138
    },
    {
      "epoch": 0.06140823808496873,
      "grad_norm": 0.8952597379684448,
      "learning_rate": 9.995148701798447e-06,
      "loss": 0.8598,
      "step": 1139
    },
    {
      "epoch": 0.06146215225361225,
      "grad_norm": 0.8485212922096252,
      "learning_rate": 9.995139360419706e-06,
      "loss": 0.8557,
      "step": 1140
    },
    {
      "epoch": 0.061516066422255766,
      "grad_norm": 0.9676715731620789,
      "learning_rate": 9.995130010060377e-06,
      "loss": 0.7748,
      "step": 1141
    },
    {
      "epoch": 0.06156998059089929,
      "grad_norm": 0.7896347045898438,
      "learning_rate": 9.995120650720478e-06,
      "loss": 0.6183,
      "step": 1142
    },
    {
      "epoch": 0.06162389475954281,
      "grad_norm": 0.8746615052223206,
      "learning_rate": 9.995111282400024e-06,
      "loss": 0.8321,
      "step": 1143
    },
    {
      "epoch": 0.06167780892818633,
      "grad_norm": 0.9029875993728638,
      "learning_rate": 9.995101905099036e-06,
      "loss": 0.8686,
      "step": 1144
    },
    {
      "epoch": 0.061731723096829845,
      "grad_norm": 0.9529547095298767,
      "learning_rate": 9.995092518817528e-06,
      "loss": 0.8878,
      "step": 1145
    },
    {
      "epoch": 0.06178563726547336,
      "grad_norm": 0.8280455470085144,
      "learning_rate": 9.995083123555517e-06,
      "loss": 0.8232,
      "step": 1146
    },
    {
      "epoch": 0.06183955143411689,
      "grad_norm": 0.908881664276123,
      "learning_rate": 9.995073719313021e-06,
      "loss": 0.8387,
      "step": 1147
    },
    {
      "epoch": 0.061893465602760406,
      "grad_norm": 0.9137653708457947,
      "learning_rate": 9.995064306090055e-06,
      "loss": 0.8943,
      "step": 1148
    },
    {
      "epoch": 0.061947379771403924,
      "grad_norm": 0.863861620426178,
      "learning_rate": 9.995054883886639e-06,
      "loss": 0.7435,
      "step": 1149
    },
    {
      "epoch": 0.06200129394004744,
      "grad_norm": 0.8534915447235107,
      "learning_rate": 9.995045452702786e-06,
      "loss": 0.941,
      "step": 1150
    },
    {
      "epoch": 0.06205520810869097,
      "grad_norm": 0.9469791650772095,
      "learning_rate": 9.995036012538515e-06,
      "loss": 0.9137,
      "step": 1151
    },
    {
      "epoch": 0.062109122277334484,
      "grad_norm": 0.9044890999794006,
      "learning_rate": 9.995026563393844e-06,
      "loss": 0.9117,
      "step": 1152
    },
    {
      "epoch": 0.062163036445978,
      "grad_norm": 0.989772379398346,
      "learning_rate": 9.995017105268789e-06,
      "loss": 0.8306,
      "step": 1153
    },
    {
      "epoch": 0.06221695061462152,
      "grad_norm": 0.8586496114730835,
      "learning_rate": 9.995007638163365e-06,
      "loss": 0.8012,
      "step": 1154
    },
    {
      "epoch": 0.062270864783265045,
      "grad_norm": 0.9221116304397583,
      "learning_rate": 9.994998162077594e-06,
      "loss": 0.7935,
      "step": 1155
    },
    {
      "epoch": 0.06232477895190856,
      "grad_norm": 0.9453061819076538,
      "learning_rate": 9.994988677011489e-06,
      "loss": 0.8257,
      "step": 1156
    },
    {
      "epoch": 0.06237869312055208,
      "grad_norm": 0.8065335154533386,
      "learning_rate": 9.994979182965065e-06,
      "loss": 0.86,
      "step": 1157
    },
    {
      "epoch": 0.0624326072891956,
      "grad_norm": 0.9597793817520142,
      "learning_rate": 9.994969679938346e-06,
      "loss": 0.862,
      "step": 1158
    },
    {
      "epoch": 0.06248652145783912,
      "grad_norm": 0.9118353128433228,
      "learning_rate": 9.994960167931342e-06,
      "loss": 0.8925,
      "step": 1159
    },
    {
      "epoch": 0.06254043562648263,
      "grad_norm": 1.0216273069381714,
      "learning_rate": 9.994950646944077e-06,
      "loss": 0.7078,
      "step": 1160
    },
    {
      "epoch": 0.06259434979512615,
      "grad_norm": 0.960182785987854,
      "learning_rate": 9.994941116976562e-06,
      "loss": 0.8936,
      "step": 1161
    },
    {
      "epoch": 0.06264826396376968,
      "grad_norm": 0.9551856517791748,
      "learning_rate": 9.994931578028817e-06,
      "loss": 0.8053,
      "step": 1162
    },
    {
      "epoch": 0.0627021781324132,
      "grad_norm": 0.9419867992401123,
      "learning_rate": 9.994922030100857e-06,
      "loss": 0.8333,
      "step": 1163
    },
    {
      "epoch": 0.06275609230105672,
      "grad_norm": 0.9780306816101074,
      "learning_rate": 9.994912473192702e-06,
      "loss": 0.88,
      "step": 1164
    },
    {
      "epoch": 0.06281000646970024,
      "grad_norm": 0.9320577383041382,
      "learning_rate": 9.99490290730437e-06,
      "loss": 0.8859,
      "step": 1165
    },
    {
      "epoch": 0.06286392063834376,
      "grad_norm": 0.7692422270774841,
      "learning_rate": 9.994893332435874e-06,
      "loss": 0.8093,
      "step": 1166
    },
    {
      "epoch": 0.06291783480698727,
      "grad_norm": 1.0622048377990723,
      "learning_rate": 9.994883748587234e-06,
      "loss": 0.8959,
      "step": 1167
    },
    {
      "epoch": 0.06297174897563079,
      "grad_norm": 0.9598555564880371,
      "learning_rate": 9.994874155758467e-06,
      "loss": 0.8153,
      "step": 1168
    },
    {
      "epoch": 0.06302566314427431,
      "grad_norm": 0.9207014441490173,
      "learning_rate": 9.994864553949591e-06,
      "loss": 0.9383,
      "step": 1169
    },
    {
      "epoch": 0.06307957731291783,
      "grad_norm": 1.0074093341827393,
      "learning_rate": 9.99485494316062e-06,
      "loss": 0.9999,
      "step": 1170
    },
    {
      "epoch": 0.06313349148156136,
      "grad_norm": 0.8454248905181885,
      "learning_rate": 9.994845323391575e-06,
      "loss": 0.7946,
      "step": 1171
    },
    {
      "epoch": 0.06318740565020488,
      "grad_norm": 0.847578763961792,
      "learning_rate": 9.99483569464247e-06,
      "loss": 0.7144,
      "step": 1172
    },
    {
      "epoch": 0.0632413198188484,
      "grad_norm": 0.9083126187324524,
      "learning_rate": 9.994826056913325e-06,
      "loss": 0.774,
      "step": 1173
    },
    {
      "epoch": 0.06329523398749191,
      "grad_norm": 0.8995345830917358,
      "learning_rate": 9.994816410204158e-06,
      "loss": 0.8995,
      "step": 1174
    },
    {
      "epoch": 0.06334914815613543,
      "grad_norm": 1.0547746419906616,
      "learning_rate": 9.994806754514983e-06,
      "loss": 0.8142,
      "step": 1175
    },
    {
      "epoch": 0.06340306232477895,
      "grad_norm": 0.946854829788208,
      "learning_rate": 9.99479708984582e-06,
      "loss": 0.8639,
      "step": 1176
    },
    {
      "epoch": 0.06345697649342247,
      "grad_norm": 0.8746247291564941,
      "learning_rate": 9.994787416196683e-06,
      "loss": 0.8601,
      "step": 1177
    },
    {
      "epoch": 0.06351089066206599,
      "grad_norm": 0.9075024127960205,
      "learning_rate": 9.994777733567595e-06,
      "loss": 0.7969,
      "step": 1178
    },
    {
      "epoch": 0.0635648048307095,
      "grad_norm": 0.9435486197471619,
      "learning_rate": 9.994768041958569e-06,
      "loss": 0.8199,
      "step": 1179
    },
    {
      "epoch": 0.06361871899935304,
      "grad_norm": 0.8597564697265625,
      "learning_rate": 9.994758341369624e-06,
      "loss": 0.8791,
      "step": 1180
    },
    {
      "epoch": 0.06367263316799655,
      "grad_norm": 0.7960480451583862,
      "learning_rate": 9.994748631800777e-06,
      "loss": 0.8035,
      "step": 1181
    },
    {
      "epoch": 0.06372654733664007,
      "grad_norm": 1.1984984874725342,
      "learning_rate": 9.994738913252045e-06,
      "loss": 0.7372,
      "step": 1182
    },
    {
      "epoch": 0.06378046150528359,
      "grad_norm": 0.8532997369766235,
      "learning_rate": 9.994729185723446e-06,
      "loss": 0.9094,
      "step": 1183
    },
    {
      "epoch": 0.06383437567392711,
      "grad_norm": 0.8327267169952393,
      "learning_rate": 9.994719449214999e-06,
      "loss": 0.809,
      "step": 1184
    },
    {
      "epoch": 0.06388828984257063,
      "grad_norm": 0.9086306691169739,
      "learning_rate": 9.99470970372672e-06,
      "loss": 0.8278,
      "step": 1185
    },
    {
      "epoch": 0.06394220401121414,
      "grad_norm": 0.8422104716300964,
      "learning_rate": 9.994699949258626e-06,
      "loss": 0.7754,
      "step": 1186
    },
    {
      "epoch": 0.06399611817985766,
      "grad_norm": 1.0434929132461548,
      "learning_rate": 9.994690185810733e-06,
      "loss": 0.908,
      "step": 1187
    },
    {
      "epoch": 0.06405003234850119,
      "grad_norm": 1.1625720262527466,
      "learning_rate": 9.994680413383064e-06,
      "loss": 0.8814,
      "step": 1188
    },
    {
      "epoch": 0.06410394651714471,
      "grad_norm": 0.9940767288208008,
      "learning_rate": 9.994670631975631e-06,
      "loss": 0.7846,
      "step": 1189
    },
    {
      "epoch": 0.06415786068578823,
      "grad_norm": 0.8356907963752747,
      "learning_rate": 9.994660841588457e-06,
      "loss": 0.798,
      "step": 1190
    },
    {
      "epoch": 0.06421177485443175,
      "grad_norm": 0.830348014831543,
      "learning_rate": 9.994651042221552e-06,
      "loss": 0.7875,
      "step": 1191
    },
    {
      "epoch": 0.06426568902307526,
      "grad_norm": 1.1060880422592163,
      "learning_rate": 9.994641233874943e-06,
      "loss": 0.8893,
      "step": 1192
    },
    {
      "epoch": 0.06431960319171878,
      "grad_norm": 0.9319590926170349,
      "learning_rate": 9.994631416548637e-06,
      "loss": 0.791,
      "step": 1193
    },
    {
      "epoch": 0.0643735173603623,
      "grad_norm": 0.8345780968666077,
      "learning_rate": 9.994621590242661e-06,
      "loss": 0.8213,
      "step": 1194
    },
    {
      "epoch": 0.06442743152900582,
      "grad_norm": 0.9848359227180481,
      "learning_rate": 9.99461175495703e-06,
      "loss": 0.735,
      "step": 1195
    },
    {
      "epoch": 0.06448134569764934,
      "grad_norm": 0.9134055972099304,
      "learning_rate": 9.994601910691758e-06,
      "loss": 0.8415,
      "step": 1196
    },
    {
      "epoch": 0.06453525986629287,
      "grad_norm": 0.8084586262702942,
      "learning_rate": 9.994592057446866e-06,
      "loss": 0.8702,
      "step": 1197
    },
    {
      "epoch": 0.06458917403493639,
      "grad_norm": 0.9168767333030701,
      "learning_rate": 9.994582195222371e-06,
      "loss": 0.8921,
      "step": 1198
    },
    {
      "epoch": 0.0646430882035799,
      "grad_norm": 0.8380446434020996,
      "learning_rate": 9.994572324018292e-06,
      "loss": 0.7705,
      "step": 1199
    },
    {
      "epoch": 0.06469700237222342,
      "grad_norm": 0.8120049238204956,
      "learning_rate": 9.994562443834646e-06,
      "loss": 0.7576,
      "step": 1200
    },
    {
      "epoch": 0.06475091654086694,
      "grad_norm": 0.9559764266014099,
      "learning_rate": 9.994552554671448e-06,
      "loss": 0.8427,
      "step": 1201
    },
    {
      "epoch": 0.06480483070951046,
      "grad_norm": 0.9473673105239868,
      "learning_rate": 9.99454265652872e-06,
      "loss": 0.9988,
      "step": 1202
    },
    {
      "epoch": 0.06485874487815398,
      "grad_norm": 1.0704870223999023,
      "learning_rate": 9.994532749406477e-06,
      "loss": 0.9499,
      "step": 1203
    },
    {
      "epoch": 0.0649126590467975,
      "grad_norm": 0.9905646443367004,
      "learning_rate": 9.994522833304738e-06,
      "loss": 0.8801,
      "step": 1204
    },
    {
      "epoch": 0.06496657321544101,
      "grad_norm": 1.194190502166748,
      "learning_rate": 9.99451290822352e-06,
      "loss": 0.9051,
      "step": 1205
    },
    {
      "epoch": 0.06502048738408454,
      "grad_norm": 0.8571314811706543,
      "learning_rate": 9.994502974162843e-06,
      "loss": 0.8131,
      "step": 1206
    },
    {
      "epoch": 0.06507440155272806,
      "grad_norm": 0.9769417643547058,
      "learning_rate": 9.994493031122721e-06,
      "loss": 0.8524,
      "step": 1207
    },
    {
      "epoch": 0.06512831572137158,
      "grad_norm": 0.8106759786605835,
      "learning_rate": 9.994483079103176e-06,
      "loss": 0.8142,
      "step": 1208
    },
    {
      "epoch": 0.0651822298900151,
      "grad_norm": 0.8817846775054932,
      "learning_rate": 9.994473118104223e-06,
      "loss": 0.9076,
      "step": 1209
    },
    {
      "epoch": 0.06523614405865862,
      "grad_norm": 0.8271930813789368,
      "learning_rate": 9.994463148125882e-06,
      "loss": 0.7914,
      "step": 1210
    },
    {
      "epoch": 0.06529005822730213,
      "grad_norm": 0.9060614705085754,
      "learning_rate": 9.994453169168169e-06,
      "loss": 0.8375,
      "step": 1211
    },
    {
      "epoch": 0.06534397239594565,
      "grad_norm": 0.880614697933197,
      "learning_rate": 9.994443181231103e-06,
      "loss": 0.7751,
      "step": 1212
    },
    {
      "epoch": 0.06539788656458917,
      "grad_norm": 0.9420819282531738,
      "learning_rate": 9.994433184314702e-06,
      "loss": 0.8532,
      "step": 1213
    },
    {
      "epoch": 0.06545180073323269,
      "grad_norm": 0.8587054014205933,
      "learning_rate": 9.994423178418984e-06,
      "loss": 0.8804,
      "step": 1214
    },
    {
      "epoch": 0.06550571490187622,
      "grad_norm": 0.9624550938606262,
      "learning_rate": 9.994413163543965e-06,
      "loss": 0.9782,
      "step": 1215
    },
    {
      "epoch": 0.06555962907051974,
      "grad_norm": 0.9458224773406982,
      "learning_rate": 9.994403139689665e-06,
      "loss": 0.8274,
      "step": 1216
    },
    {
      "epoch": 0.06561354323916326,
      "grad_norm": 1.0417940616607666,
      "learning_rate": 9.994393106856104e-06,
      "loss": 0.9065,
      "step": 1217
    },
    {
      "epoch": 0.06566745740780677,
      "grad_norm": 1.0225417613983154,
      "learning_rate": 9.994383065043296e-06,
      "loss": 0.8642,
      "step": 1218
    },
    {
      "epoch": 0.06572137157645029,
      "grad_norm": 0.9015594720840454,
      "learning_rate": 9.994373014251261e-06,
      "loss": 0.8775,
      "step": 1219
    },
    {
      "epoch": 0.06577528574509381,
      "grad_norm": 0.8473883271217346,
      "learning_rate": 9.994362954480018e-06,
      "loss": 0.8566,
      "step": 1220
    },
    {
      "epoch": 0.06582919991373733,
      "grad_norm": 0.8571242690086365,
      "learning_rate": 9.994352885729584e-06,
      "loss": 0.8502,
      "step": 1221
    },
    {
      "epoch": 0.06588311408238084,
      "grad_norm": 0.8793268799781799,
      "learning_rate": 9.994342807999977e-06,
      "loss": 0.9062,
      "step": 1222
    },
    {
      "epoch": 0.06593702825102436,
      "grad_norm": 0.8866230249404907,
      "learning_rate": 9.994332721291214e-06,
      "loss": 0.9026,
      "step": 1223
    },
    {
      "epoch": 0.0659909424196679,
      "grad_norm": 0.9135996103286743,
      "learning_rate": 9.994322625603314e-06,
      "loss": 0.8558,
      "step": 1224
    },
    {
      "epoch": 0.06604485658831141,
      "grad_norm": 0.9904530048370361,
      "learning_rate": 9.994312520936297e-06,
      "loss": 0.8823,
      "step": 1225
    },
    {
      "epoch": 0.06609877075695493,
      "grad_norm": 0.8590260148048401,
      "learning_rate": 9.99430240729018e-06,
      "loss": 0.8344,
      "step": 1226
    },
    {
      "epoch": 0.06615268492559845,
      "grad_norm": 1.1669397354125977,
      "learning_rate": 9.99429228466498e-06,
      "loss": 0.9459,
      "step": 1227
    },
    {
      "epoch": 0.06620659909424197,
      "grad_norm": 0.9290857315063477,
      "learning_rate": 9.994282153060715e-06,
      "loss": 0.8723,
      "step": 1228
    },
    {
      "epoch": 0.06626051326288548,
      "grad_norm": 0.9619696140289307,
      "learning_rate": 9.994272012477405e-06,
      "loss": 0.8986,
      "step": 1229
    },
    {
      "epoch": 0.066314427431529,
      "grad_norm": 0.8312071561813354,
      "learning_rate": 9.994261862915068e-06,
      "loss": 0.7291,
      "step": 1230
    },
    {
      "epoch": 0.06636834160017252,
      "grad_norm": 1.0099300146102905,
      "learning_rate": 9.994251704373721e-06,
      "loss": 0.8725,
      "step": 1231
    },
    {
      "epoch": 0.06642225576881604,
      "grad_norm": 0.8522336483001709,
      "learning_rate": 9.994241536853384e-06,
      "loss": 0.8656,
      "step": 1232
    },
    {
      "epoch": 0.06647616993745957,
      "grad_norm": 0.919360339641571,
      "learning_rate": 9.994231360354074e-06,
      "loss": 0.8854,
      "step": 1233
    },
    {
      "epoch": 0.06653008410610309,
      "grad_norm": 0.8002495169639587,
      "learning_rate": 9.994221174875809e-06,
      "loss": 0.7879,
      "step": 1234
    },
    {
      "epoch": 0.0665839982747466,
      "grad_norm": 0.9539757370948792,
      "learning_rate": 9.994210980418607e-06,
      "loss": 0.9027,
      "step": 1235
    },
    {
      "epoch": 0.06663791244339012,
      "grad_norm": 0.9222649335861206,
      "learning_rate": 9.99420077698249e-06,
      "loss": 0.7611,
      "step": 1236
    },
    {
      "epoch": 0.06669182661203364,
      "grad_norm": 0.8629900813102722,
      "learning_rate": 9.994190564567472e-06,
      "loss": 0.8122,
      "step": 1237
    },
    {
      "epoch": 0.06674574078067716,
      "grad_norm": 0.8339203000068665,
      "learning_rate": 9.994180343173574e-06,
      "loss": 0.7873,
      "step": 1238
    },
    {
      "epoch": 0.06679965494932068,
      "grad_norm": 0.8844656348228455,
      "learning_rate": 9.994170112800812e-06,
      "loss": 0.8176,
      "step": 1239
    },
    {
      "epoch": 0.0668535691179642,
      "grad_norm": 1.0024579763412476,
      "learning_rate": 9.994159873449206e-06,
      "loss": 0.844,
      "step": 1240
    },
    {
      "epoch": 0.06690748328660773,
      "grad_norm": 0.8317261338233948,
      "learning_rate": 9.994149625118774e-06,
      "loss": 0.9103,
      "step": 1241
    },
    {
      "epoch": 0.06696139745525125,
      "grad_norm": 0.8915300965309143,
      "learning_rate": 9.994139367809534e-06,
      "loss": 0.9084,
      "step": 1242
    },
    {
      "epoch": 0.06701531162389476,
      "grad_norm": 0.9270803332328796,
      "learning_rate": 9.994129101521506e-06,
      "loss": 0.7634,
      "step": 1243
    },
    {
      "epoch": 0.06706922579253828,
      "grad_norm": 0.9891652464866638,
      "learning_rate": 9.994118826254708e-06,
      "loss": 0.9776,
      "step": 1244
    },
    {
      "epoch": 0.0671231399611818,
      "grad_norm": 0.7778229713439941,
      "learning_rate": 9.994108542009156e-06,
      "loss": 0.7481,
      "step": 1245
    },
    {
      "epoch": 0.06717705412982532,
      "grad_norm": 0.8451201319694519,
      "learning_rate": 9.994098248784872e-06,
      "loss": 0.8012,
      "step": 1246
    },
    {
      "epoch": 0.06723096829846884,
      "grad_norm": 0.8115825057029724,
      "learning_rate": 9.994087946581873e-06,
      "loss": 0.874,
      "step": 1247
    },
    {
      "epoch": 0.06728488246711235,
      "grad_norm": 0.815934419631958,
      "learning_rate": 9.994077635400175e-06,
      "loss": 0.8114,
      "step": 1248
    },
    {
      "epoch": 0.06733879663575587,
      "grad_norm": 1.1179388761520386,
      "learning_rate": 9.9940673152398e-06,
      "loss": 0.9078,
      "step": 1249
    },
    {
      "epoch": 0.0673927108043994,
      "grad_norm": 0.9235454201698303,
      "learning_rate": 9.994056986100767e-06,
      "loss": 0.7511,
      "step": 1250
    },
    {
      "epoch": 0.06744662497304292,
      "grad_norm": 0.8568270206451416,
      "learning_rate": 9.994046647983093e-06,
      "loss": 0.7805,
      "step": 1251
    },
    {
      "epoch": 0.06750053914168644,
      "grad_norm": 1.1337388753890991,
      "learning_rate": 9.994036300886796e-06,
      "loss": 0.8835,
      "step": 1252
    },
    {
      "epoch": 0.06755445331032996,
      "grad_norm": 0.9154239892959595,
      "learning_rate": 9.994025944811896e-06,
      "loss": 0.8804,
      "step": 1253
    },
    {
      "epoch": 0.06760836747897347,
      "grad_norm": 0.8301606774330139,
      "learning_rate": 9.99401557975841e-06,
      "loss": 0.7905,
      "step": 1254
    },
    {
      "epoch": 0.06766228164761699,
      "grad_norm": 0.9907017350196838,
      "learning_rate": 9.994005205726358e-06,
      "loss": 0.9091,
      "step": 1255
    },
    {
      "epoch": 0.06771619581626051,
      "grad_norm": 0.8883876204490662,
      "learning_rate": 9.993994822715758e-06,
      "loss": 0.8815,
      "step": 1256
    },
    {
      "epoch": 0.06777010998490403,
      "grad_norm": 0.9746614098548889,
      "learning_rate": 9.993984430726627e-06,
      "loss": 0.7897,
      "step": 1257
    },
    {
      "epoch": 0.06782402415354755,
      "grad_norm": 0.9773344993591309,
      "learning_rate": 9.993974029758988e-06,
      "loss": 0.8499,
      "step": 1258
    },
    {
      "epoch": 0.06787793832219108,
      "grad_norm": 0.9552164077758789,
      "learning_rate": 9.993963619812856e-06,
      "loss": 0.711,
      "step": 1259
    },
    {
      "epoch": 0.0679318524908346,
      "grad_norm": 0.9146968126296997,
      "learning_rate": 9.993953200888252e-06,
      "loss": 0.9016,
      "step": 1260
    },
    {
      "epoch": 0.06798576665947811,
      "grad_norm": 0.924244225025177,
      "learning_rate": 9.993942772985192e-06,
      "loss": 0.7534,
      "step": 1261
    },
    {
      "epoch": 0.06803968082812163,
      "grad_norm": 1.2963265180587769,
      "learning_rate": 9.993932336103699e-06,
      "loss": 0.9409,
      "step": 1262
    },
    {
      "epoch": 0.06809359499676515,
      "grad_norm": 0.7954462766647339,
      "learning_rate": 9.993921890243788e-06,
      "loss": 0.7669,
      "step": 1263
    },
    {
      "epoch": 0.06814750916540867,
      "grad_norm": 0.9115849137306213,
      "learning_rate": 9.993911435405478e-06,
      "loss": 0.7567,
      "step": 1264
    },
    {
      "epoch": 0.06820142333405219,
      "grad_norm": 1.0030237436294556,
      "learning_rate": 9.99390097158879e-06,
      "loss": 0.8952,
      "step": 1265
    },
    {
      "epoch": 0.0682553375026957,
      "grad_norm": 0.8897690773010254,
      "learning_rate": 9.993890498793742e-06,
      "loss": 0.7993,
      "step": 1266
    },
    {
      "epoch": 0.06830925167133922,
      "grad_norm": 0.9283807277679443,
      "learning_rate": 9.993880017020349e-06,
      "loss": 0.8808,
      "step": 1267
    },
    {
      "epoch": 0.06836316583998275,
      "grad_norm": 0.848922848701477,
      "learning_rate": 9.993869526268637e-06,
      "loss": 0.7979,
      "step": 1268
    },
    {
      "epoch": 0.06841708000862627,
      "grad_norm": 0.8896105289459229,
      "learning_rate": 9.993859026538618e-06,
      "loss": 0.8886,
      "step": 1269
    },
    {
      "epoch": 0.06847099417726979,
      "grad_norm": 0.8602685928344727,
      "learning_rate": 9.993848517830318e-06,
      "loss": 0.8209,
      "step": 1270
    },
    {
      "epoch": 0.06852490834591331,
      "grad_norm": 0.9300077557563782,
      "learning_rate": 9.99383800014375e-06,
      "loss": 0.9261,
      "step": 1271
    },
    {
      "epoch": 0.06857882251455683,
      "grad_norm": 0.8691270351409912,
      "learning_rate": 9.993827473478934e-06,
      "loss": 0.9217,
      "step": 1272
    },
    {
      "epoch": 0.06863273668320034,
      "grad_norm": 0.7943814992904663,
      "learning_rate": 9.99381693783589e-06,
      "loss": 0.8557,
      "step": 1273
    },
    {
      "epoch": 0.06868665085184386,
      "grad_norm": 0.9060125946998596,
      "learning_rate": 9.993806393214638e-06,
      "loss": 0.8314,
      "step": 1274
    },
    {
      "epoch": 0.06874056502048738,
      "grad_norm": 0.8014434576034546,
      "learning_rate": 9.993795839615194e-06,
      "loss": 0.8047,
      "step": 1275
    },
    {
      "epoch": 0.0687944791891309,
      "grad_norm": 1.0498815774917603,
      "learning_rate": 9.993785277037578e-06,
      "loss": 0.7125,
      "step": 1276
    },
    {
      "epoch": 0.06884839335777443,
      "grad_norm": 0.8868438005447388,
      "learning_rate": 9.993774705481812e-06,
      "loss": 0.8594,
      "step": 1277
    },
    {
      "epoch": 0.06890230752641795,
      "grad_norm": 0.8213896155357361,
      "learning_rate": 9.993764124947911e-06,
      "loss": 0.7995,
      "step": 1278
    },
    {
      "epoch": 0.06895622169506146,
      "grad_norm": 0.9007741212844849,
      "learning_rate": 9.993753535435895e-06,
      "loss": 0.8982,
      "step": 1279
    },
    {
      "epoch": 0.06901013586370498,
      "grad_norm": 0.8377478122711182,
      "learning_rate": 9.993742936945785e-06,
      "loss": 0.7387,
      "step": 1280
    },
    {
      "epoch": 0.0690640500323485,
      "grad_norm": 0.8009492754936218,
      "learning_rate": 9.993732329477598e-06,
      "loss": 0.8079,
      "step": 1281
    },
    {
      "epoch": 0.06911796420099202,
      "grad_norm": 0.8478789925575256,
      "learning_rate": 9.993721713031354e-06,
      "loss": 0.8682,
      "step": 1282
    },
    {
      "epoch": 0.06917187836963554,
      "grad_norm": 0.7498561143875122,
      "learning_rate": 9.993711087607072e-06,
      "loss": 0.8107,
      "step": 1283
    },
    {
      "epoch": 0.06922579253827905,
      "grad_norm": 0.8972634077072144,
      "learning_rate": 9.99370045320477e-06,
      "loss": 0.8494,
      "step": 1284
    },
    {
      "epoch": 0.06927970670692257,
      "grad_norm": 0.942449152469635,
      "learning_rate": 9.99368980982447e-06,
      "loss": 0.8487,
      "step": 1285
    },
    {
      "epoch": 0.0693336208755661,
      "grad_norm": 0.8752795457839966,
      "learning_rate": 9.993679157466188e-06,
      "loss": 0.8859,
      "step": 1286
    },
    {
      "epoch": 0.06938753504420962,
      "grad_norm": 0.8289507031440735,
      "learning_rate": 9.993668496129945e-06,
      "loss": 0.8726,
      "step": 1287
    },
    {
      "epoch": 0.06944144921285314,
      "grad_norm": 0.9452151656150818,
      "learning_rate": 9.993657825815759e-06,
      "loss": 0.9266,
      "step": 1288
    },
    {
      "epoch": 0.06949536338149666,
      "grad_norm": 0.8697348237037659,
      "learning_rate": 9.993647146523651e-06,
      "loss": 0.8946,
      "step": 1289
    },
    {
      "epoch": 0.06954927755014018,
      "grad_norm": 0.8712061643600464,
      "learning_rate": 9.993636458253637e-06,
      "loss": 0.8551,
      "step": 1290
    },
    {
      "epoch": 0.0696031917187837,
      "grad_norm": 0.9295617938041687,
      "learning_rate": 9.993625761005739e-06,
      "loss": 0.8963,
      "step": 1291
    },
    {
      "epoch": 0.06965710588742721,
      "grad_norm": 0.9441055059432983,
      "learning_rate": 9.993615054779975e-06,
      "loss": 0.9567,
      "step": 1292
    },
    {
      "epoch": 0.06971102005607073,
      "grad_norm": 0.8742032051086426,
      "learning_rate": 9.993604339576365e-06,
      "loss": 0.8341,
      "step": 1293
    },
    {
      "epoch": 0.06976493422471426,
      "grad_norm": 0.8596220016479492,
      "learning_rate": 9.993593615394928e-06,
      "loss": 0.8576,
      "step": 1294
    },
    {
      "epoch": 0.06981884839335778,
      "grad_norm": 0.8011770844459534,
      "learning_rate": 9.993582882235682e-06,
      "loss": 0.7317,
      "step": 1295
    },
    {
      "epoch": 0.0698727625620013,
      "grad_norm": 0.8578245043754578,
      "learning_rate": 9.993572140098648e-06,
      "loss": 0.8853,
      "step": 1296
    },
    {
      "epoch": 0.06992667673064482,
      "grad_norm": 1.1155178546905518,
      "learning_rate": 9.993561388983845e-06,
      "loss": 0.8199,
      "step": 1297
    },
    {
      "epoch": 0.06998059089928833,
      "grad_norm": 1.035699486732483,
      "learning_rate": 9.993550628891293e-06,
      "loss": 0.9498,
      "step": 1298
    },
    {
      "epoch": 0.07003450506793185,
      "grad_norm": 0.8635748028755188,
      "learning_rate": 9.99353985982101e-06,
      "loss": 0.8741,
      "step": 1299
    },
    {
      "epoch": 0.07008841923657537,
      "grad_norm": 0.8650850653648376,
      "learning_rate": 9.993529081773016e-06,
      "loss": 0.7337,
      "step": 1300
    },
    {
      "epoch": 0.07014233340521889,
      "grad_norm": 0.8334539532661438,
      "learning_rate": 9.99351829474733e-06,
      "loss": 0.8927,
      "step": 1301
    },
    {
      "epoch": 0.0701962475738624,
      "grad_norm": 0.9150926470756531,
      "learning_rate": 9.993507498743971e-06,
      "loss": 0.8464,
      "step": 1302
    },
    {
      "epoch": 0.07025016174250594,
      "grad_norm": 0.8916522860527039,
      "learning_rate": 9.993496693762958e-06,
      "loss": 0.7899,
      "step": 1303
    },
    {
      "epoch": 0.07030407591114946,
      "grad_norm": 1.0224976539611816,
      "learning_rate": 9.993485879804314e-06,
      "loss": 0.8256,
      "step": 1304
    },
    {
      "epoch": 0.07035799007979297,
      "grad_norm": 0.921816885471344,
      "learning_rate": 9.993475056868054e-06,
      "loss": 0.7944,
      "step": 1305
    },
    {
      "epoch": 0.07041190424843649,
      "grad_norm": 0.8775705099105835,
      "learning_rate": 9.9934642249542e-06,
      "loss": 0.9098,
      "step": 1306
    },
    {
      "epoch": 0.07046581841708001,
      "grad_norm": 0.9802567362785339,
      "learning_rate": 9.99345338406277e-06,
      "loss": 0.9756,
      "step": 1307
    },
    {
      "epoch": 0.07051973258572353,
      "grad_norm": 0.9785491228103638,
      "learning_rate": 9.993442534193786e-06,
      "loss": 1.0017,
      "step": 1308
    },
    {
      "epoch": 0.07057364675436704,
      "grad_norm": 0.8796840906143188,
      "learning_rate": 9.993431675347265e-06,
      "loss": 0.7202,
      "step": 1309
    },
    {
      "epoch": 0.07062756092301056,
      "grad_norm": 0.878099799156189,
      "learning_rate": 9.993420807523227e-06,
      "loss": 0.8655,
      "step": 1310
    },
    {
      "epoch": 0.07068147509165408,
      "grad_norm": 0.8361509442329407,
      "learning_rate": 9.99340993072169e-06,
      "loss": 0.8522,
      "step": 1311
    },
    {
      "epoch": 0.07073538926029761,
      "grad_norm": 0.8556873798370361,
      "learning_rate": 9.99339904494268e-06,
      "loss": 0.8603,
      "step": 1312
    },
    {
      "epoch": 0.07078930342894113,
      "grad_norm": 0.8434461355209351,
      "learning_rate": 9.993388150186208e-06,
      "loss": 0.8571,
      "step": 1313
    },
    {
      "epoch": 0.07084321759758465,
      "grad_norm": 0.8545907139778137,
      "learning_rate": 9.9933772464523e-06,
      "loss": 0.8145,
      "step": 1314
    },
    {
      "epoch": 0.07089713176622817,
      "grad_norm": 0.9502561092376709,
      "learning_rate": 9.993366333740971e-06,
      "loss": 0.8068,
      "step": 1315
    },
    {
      "epoch": 0.07095104593487168,
      "grad_norm": 0.848628580570221,
      "learning_rate": 9.993355412052244e-06,
      "loss": 0.8793,
      "step": 1316
    },
    {
      "epoch": 0.0710049601035152,
      "grad_norm": 0.9699797630310059,
      "learning_rate": 9.993344481386137e-06,
      "loss": 0.9904,
      "step": 1317
    },
    {
      "epoch": 0.07105887427215872,
      "grad_norm": 0.8888396620750427,
      "learning_rate": 9.993333541742671e-06,
      "loss": 0.8363,
      "step": 1318
    },
    {
      "epoch": 0.07111278844080224,
      "grad_norm": 0.8805423974990845,
      "learning_rate": 9.993322593121863e-06,
      "loss": 0.8905,
      "step": 1319
    },
    {
      "epoch": 0.07116670260944576,
      "grad_norm": 0.8875272274017334,
      "learning_rate": 9.993311635523736e-06,
      "loss": 0.7717,
      "step": 1320
    },
    {
      "epoch": 0.07122061677808929,
      "grad_norm": 0.8853299617767334,
      "learning_rate": 9.993300668948308e-06,
      "loss": 0.9077,
      "step": 1321
    },
    {
      "epoch": 0.0712745309467328,
      "grad_norm": 0.8847644329071045,
      "learning_rate": 9.993289693395599e-06,
      "loss": 0.8362,
      "step": 1322
    },
    {
      "epoch": 0.07132844511537632,
      "grad_norm": 0.9531683325767517,
      "learning_rate": 9.993278708865629e-06,
      "loss": 0.8848,
      "step": 1323
    },
    {
      "epoch": 0.07138235928401984,
      "grad_norm": 0.8573325276374817,
      "learning_rate": 9.993267715358414e-06,
      "loss": 0.8367,
      "step": 1324
    },
    {
      "epoch": 0.07143627345266336,
      "grad_norm": 0.8920298218727112,
      "learning_rate": 9.99325671287398e-06,
      "loss": 0.8838,
      "step": 1325
    },
    {
      "epoch": 0.07149018762130688,
      "grad_norm": 0.8472782969474792,
      "learning_rate": 9.993245701412343e-06,
      "loss": 0.8313,
      "step": 1326
    },
    {
      "epoch": 0.0715441017899504,
      "grad_norm": 1.047664761543274,
      "learning_rate": 9.993234680973525e-06,
      "loss": 0.8663,
      "step": 1327
    },
    {
      "epoch": 0.07159801595859391,
      "grad_norm": 0.9395570158958435,
      "learning_rate": 9.993223651557542e-06,
      "loss": 0.7703,
      "step": 1328
    },
    {
      "epoch": 0.07165193012723743,
      "grad_norm": 0.9125472903251648,
      "learning_rate": 9.993212613164419e-06,
      "loss": 0.9335,
      "step": 1329
    },
    {
      "epoch": 0.07170584429588096,
      "grad_norm": 0.9043323397636414,
      "learning_rate": 9.993201565794172e-06,
      "loss": 0.9185,
      "step": 1330
    },
    {
      "epoch": 0.07175975846452448,
      "grad_norm": 0.8764339089393616,
      "learning_rate": 9.993190509446821e-06,
      "loss": 0.8807,
      "step": 1331
    },
    {
      "epoch": 0.071813672633168,
      "grad_norm": 0.9123268723487854,
      "learning_rate": 9.99317944412239e-06,
      "loss": 0.8134,
      "step": 1332
    },
    {
      "epoch": 0.07186758680181152,
      "grad_norm": 0.9625567197799683,
      "learning_rate": 9.993168369820892e-06,
      "loss": 0.8132,
      "step": 1333
    },
    {
      "epoch": 0.07192150097045504,
      "grad_norm": 0.880536675453186,
      "learning_rate": 9.993157286542352e-06,
      "loss": 0.8107,
      "step": 1334
    },
    {
      "epoch": 0.07197541513909855,
      "grad_norm": 0.9165224432945251,
      "learning_rate": 9.99314619428679e-06,
      "loss": 0.8376,
      "step": 1335
    },
    {
      "epoch": 0.07202932930774207,
      "grad_norm": 0.8278066515922546,
      "learning_rate": 9.993135093054223e-06,
      "loss": 0.8075,
      "step": 1336
    },
    {
      "epoch": 0.07208324347638559,
      "grad_norm": 0.9237795472145081,
      "learning_rate": 9.993123982844674e-06,
      "loss": 0.7838,
      "step": 1337
    },
    {
      "epoch": 0.0721371576450291,
      "grad_norm": 0.8200939297676086,
      "learning_rate": 9.993112863658161e-06,
      "loss": 0.8475,
      "step": 1338
    },
    {
      "epoch": 0.07219107181367264,
      "grad_norm": 0.8505958318710327,
      "learning_rate": 9.993101735494704e-06,
      "loss": 0.7891,
      "step": 1339
    },
    {
      "epoch": 0.07224498598231616,
      "grad_norm": 0.8407264351844788,
      "learning_rate": 9.993090598354323e-06,
      "loss": 0.8128,
      "step": 1340
    },
    {
      "epoch": 0.07229890015095967,
      "grad_norm": 0.8039887547492981,
      "learning_rate": 9.993079452237038e-06,
      "loss": 0.8504,
      "step": 1341
    },
    {
      "epoch": 0.07235281431960319,
      "grad_norm": 0.7590643167495728,
      "learning_rate": 9.993068297142871e-06,
      "loss": 0.7402,
      "step": 1342
    },
    {
      "epoch": 0.07240672848824671,
      "grad_norm": 0.7866249680519104,
      "learning_rate": 9.993057133071842e-06,
      "loss": 0.7076,
      "step": 1343
    },
    {
      "epoch": 0.07246064265689023,
      "grad_norm": 0.9846029281616211,
      "learning_rate": 9.993045960023967e-06,
      "loss": 0.9179,
      "step": 1344
    },
    {
      "epoch": 0.07251455682553375,
      "grad_norm": 0.8918319940567017,
      "learning_rate": 9.99303477799927e-06,
      "loss": 0.8087,
      "step": 1345
    },
    {
      "epoch": 0.07256847099417726,
      "grad_norm": 0.8407700061798096,
      "learning_rate": 9.99302358699777e-06,
      "loss": 0.7272,
      "step": 1346
    },
    {
      "epoch": 0.0726223851628208,
      "grad_norm": 0.9637326598167419,
      "learning_rate": 9.993012387019486e-06,
      "loss": 0.8613,
      "step": 1347
    },
    {
      "epoch": 0.07267629933146431,
      "grad_norm": 0.8362317681312561,
      "learning_rate": 9.99300117806444e-06,
      "loss": 0.917,
      "step": 1348
    },
    {
      "epoch": 0.07273021350010783,
      "grad_norm": 0.8584982752799988,
      "learning_rate": 9.992989960132651e-06,
      "loss": 0.8857,
      "step": 1349
    },
    {
      "epoch": 0.07278412766875135,
      "grad_norm": 0.8341198563575745,
      "learning_rate": 9.992978733224139e-06,
      "loss": 0.802,
      "step": 1350
    },
    {
      "epoch": 0.07283804183739487,
      "grad_norm": 1.6860167980194092,
      "learning_rate": 9.992967497338926e-06,
      "loss": 0.8789,
      "step": 1351
    },
    {
      "epoch": 0.07289195600603839,
      "grad_norm": 0.8399189114570618,
      "learning_rate": 9.99295625247703e-06,
      "loss": 0.6338,
      "step": 1352
    },
    {
      "epoch": 0.0729458701746819,
      "grad_norm": 0.9616976976394653,
      "learning_rate": 9.992944998638473e-06,
      "loss": 0.9735,
      "step": 1353
    },
    {
      "epoch": 0.07299978434332542,
      "grad_norm": 0.8592861890792847,
      "learning_rate": 9.992933735823272e-06,
      "loss": 0.8159,
      "step": 1354
    },
    {
      "epoch": 0.07305369851196894,
      "grad_norm": 0.8448725342750549,
      "learning_rate": 9.992922464031451e-06,
      "loss": 0.7942,
      "step": 1355
    },
    {
      "epoch": 0.07310761268061247,
      "grad_norm": 0.8015927672386169,
      "learning_rate": 9.99291118326303e-06,
      "loss": 0.7429,
      "step": 1356
    },
    {
      "epoch": 0.07316152684925599,
      "grad_norm": 0.8255912065505981,
      "learning_rate": 9.992899893518025e-06,
      "loss": 0.8532,
      "step": 1357
    },
    {
      "epoch": 0.07321544101789951,
      "grad_norm": 0.8764085173606873,
      "learning_rate": 9.992888594796462e-06,
      "loss": 0.7989,
      "step": 1358
    },
    {
      "epoch": 0.07326935518654303,
      "grad_norm": 0.8405522704124451,
      "learning_rate": 9.992877287098357e-06,
      "loss": 0.8709,
      "step": 1359
    },
    {
      "epoch": 0.07332326935518654,
      "grad_norm": 0.8657836318016052,
      "learning_rate": 9.992865970423733e-06,
      "loss": 0.8236,
      "step": 1360
    },
    {
      "epoch": 0.07337718352383006,
      "grad_norm": 0.8817959427833557,
      "learning_rate": 9.992854644772609e-06,
      "loss": 0.902,
      "step": 1361
    },
    {
      "epoch": 0.07343109769247358,
      "grad_norm": 0.8290701508522034,
      "learning_rate": 9.992843310145006e-06,
      "loss": 0.8454,
      "step": 1362
    },
    {
      "epoch": 0.0734850118611171,
      "grad_norm": 0.9637642502784729,
      "learning_rate": 9.992831966540946e-06,
      "loss": 0.9414,
      "step": 1363
    },
    {
      "epoch": 0.07353892602976062,
      "grad_norm": 0.9220197200775146,
      "learning_rate": 9.992820613960446e-06,
      "loss": 0.9827,
      "step": 1364
    },
    {
      "epoch": 0.07359284019840415,
      "grad_norm": 0.9008362889289856,
      "learning_rate": 9.992809252403526e-06,
      "loss": 0.8388,
      "step": 1365
    },
    {
      "epoch": 0.07364675436704766,
      "grad_norm": 0.9517331123352051,
      "learning_rate": 9.992797881870212e-06,
      "loss": 0.8758,
      "step": 1366
    },
    {
      "epoch": 0.07370066853569118,
      "grad_norm": 0.7811571359634399,
      "learning_rate": 9.992786502360517e-06,
      "loss": 0.6984,
      "step": 1367
    },
    {
      "epoch": 0.0737545827043347,
      "grad_norm": 0.9887184500694275,
      "learning_rate": 9.992775113874466e-06,
      "loss": 0.7832,
      "step": 1368
    },
    {
      "epoch": 0.07380849687297822,
      "grad_norm": 1.025869607925415,
      "learning_rate": 9.99276371641208e-06,
      "loss": 0.8417,
      "step": 1369
    },
    {
      "epoch": 0.07386241104162174,
      "grad_norm": 0.8479165434837341,
      "learning_rate": 9.99275230997338e-06,
      "loss": 0.7862,
      "step": 1370
    },
    {
      "epoch": 0.07391632521026525,
      "grad_norm": 0.9213555455207825,
      "learning_rate": 9.992740894558381e-06,
      "loss": 0.915,
      "step": 1371
    },
    {
      "epoch": 0.07397023937890877,
      "grad_norm": 0.832306444644928,
      "learning_rate": 9.992729470167109e-06,
      "loss": 0.7566,
      "step": 1372
    },
    {
      "epoch": 0.07402415354755229,
      "grad_norm": 1.0360348224639893,
      "learning_rate": 9.992718036799583e-06,
      "loss": 0.9096,
      "step": 1373
    },
    {
      "epoch": 0.07407806771619582,
      "grad_norm": 0.8898483514785767,
      "learning_rate": 9.992706594455823e-06,
      "loss": 0.8738,
      "step": 1374
    },
    {
      "epoch": 0.07413198188483934,
      "grad_norm": 0.8813758492469788,
      "learning_rate": 9.992695143135849e-06,
      "loss": 0.8736,
      "step": 1375
    },
    {
      "epoch": 0.07418589605348286,
      "grad_norm": 1.1480571031570435,
      "learning_rate": 9.992683682839683e-06,
      "loss": 0.915,
      "step": 1376
    },
    {
      "epoch": 0.07423981022212638,
      "grad_norm": 0.8588376641273499,
      "learning_rate": 9.992672213567345e-06,
      "loss": 0.8295,
      "step": 1377
    },
    {
      "epoch": 0.0742937243907699,
      "grad_norm": 0.8729918599128723,
      "learning_rate": 9.992660735318858e-06,
      "loss": 0.9058,
      "step": 1378
    },
    {
      "epoch": 0.07434763855941341,
      "grad_norm": 0.7953224778175354,
      "learning_rate": 9.992649248094236e-06,
      "loss": 0.7857,
      "step": 1379
    },
    {
      "epoch": 0.07440155272805693,
      "grad_norm": 0.8485717177391052,
      "learning_rate": 9.992637751893508e-06,
      "loss": 0.7641,
      "step": 1380
    },
    {
      "epoch": 0.07445546689670045,
      "grad_norm": 0.8630878329277039,
      "learning_rate": 9.99262624671669e-06,
      "loss": 0.8624,
      "step": 1381
    },
    {
      "epoch": 0.07450938106534397,
      "grad_norm": 0.8655185103416443,
      "learning_rate": 9.992614732563802e-06,
      "loss": 0.8428,
      "step": 1382
    },
    {
      "epoch": 0.0745632952339875,
      "grad_norm": 0.7875732779502869,
      "learning_rate": 9.992603209434868e-06,
      "loss": 0.7272,
      "step": 1383
    },
    {
      "epoch": 0.07461720940263102,
      "grad_norm": 0.875879168510437,
      "learning_rate": 9.992591677329905e-06,
      "loss": 0.8539,
      "step": 1384
    },
    {
      "epoch": 0.07467112357127453,
      "grad_norm": 0.8618319034576416,
      "learning_rate": 9.992580136248934e-06,
      "loss": 0.879,
      "step": 1385
    },
    {
      "epoch": 0.07472503773991805,
      "grad_norm": 0.8695591688156128,
      "learning_rate": 9.992568586191981e-06,
      "loss": 0.8477,
      "step": 1386
    },
    {
      "epoch": 0.07477895190856157,
      "grad_norm": 0.8539825677871704,
      "learning_rate": 9.992557027159062e-06,
      "loss": 0.7347,
      "step": 1387
    },
    {
      "epoch": 0.07483286607720509,
      "grad_norm": 0.9625217914581299,
      "learning_rate": 9.992545459150197e-06,
      "loss": 0.8561,
      "step": 1388
    },
    {
      "epoch": 0.0748867802458486,
      "grad_norm": 0.9862298369407654,
      "learning_rate": 9.992533882165409e-06,
      "loss": 0.9583,
      "step": 1389
    },
    {
      "epoch": 0.07494069441449212,
      "grad_norm": 0.8217719793319702,
      "learning_rate": 9.99252229620472e-06,
      "loss": 0.7995,
      "step": 1390
    },
    {
      "epoch": 0.07499460858313564,
      "grad_norm": 0.8668621182441711,
      "learning_rate": 9.992510701268147e-06,
      "loss": 0.8484,
      "step": 1391
    },
    {
      "epoch": 0.07504852275177917,
      "grad_norm": 0.8549453616142273,
      "learning_rate": 9.992499097355716e-06,
      "loss": 0.8552,
      "step": 1392
    },
    {
      "epoch": 0.07510243692042269,
      "grad_norm": 0.8262618184089661,
      "learning_rate": 9.992487484467444e-06,
      "loss": 0.7054,
      "step": 1393
    },
    {
      "epoch": 0.07515635108906621,
      "grad_norm": 0.8524961471557617,
      "learning_rate": 9.992475862603352e-06,
      "loss": 0.8231,
      "step": 1394
    },
    {
      "epoch": 0.07521026525770973,
      "grad_norm": 0.7805570363998413,
      "learning_rate": 9.99246423176346e-06,
      "loss": 0.7778,
      "step": 1395
    },
    {
      "epoch": 0.07526417942635324,
      "grad_norm": 0.950484037399292,
      "learning_rate": 9.992452591947794e-06,
      "loss": 0.8662,
      "step": 1396
    },
    {
      "epoch": 0.07531809359499676,
      "grad_norm": 0.8746458888053894,
      "learning_rate": 9.99244094315637e-06,
      "loss": 0.7854,
      "step": 1397
    },
    {
      "epoch": 0.07537200776364028,
      "grad_norm": 0.9450538754463196,
      "learning_rate": 9.992429285389212e-06,
      "loss": 0.954,
      "step": 1398
    },
    {
      "epoch": 0.0754259219322838,
      "grad_norm": 0.9048300385475159,
      "learning_rate": 9.992417618646337e-06,
      "loss": 0.8915,
      "step": 1399
    },
    {
      "epoch": 0.07547983610092733,
      "grad_norm": 0.8735381364822388,
      "learning_rate": 9.99240594292777e-06,
      "loss": 0.8391,
      "step": 1400
    },
    {
      "epoch": 0.07553375026957085,
      "grad_norm": 1.0980675220489502,
      "learning_rate": 9.99239425823353e-06,
      "loss": 0.8892,
      "step": 1401
    },
    {
      "epoch": 0.07558766443821437,
      "grad_norm": 0.9016425013542175,
      "learning_rate": 9.992382564563638e-06,
      "loss": 0.8192,
      "step": 1402
    },
    {
      "epoch": 0.07564157860685788,
      "grad_norm": 0.801419198513031,
      "learning_rate": 9.992370861918117e-06,
      "loss": 0.7914,
      "step": 1403
    },
    {
      "epoch": 0.0756954927755014,
      "grad_norm": 0.9043407440185547,
      "learning_rate": 9.992359150296985e-06,
      "loss": 0.8767,
      "step": 1404
    },
    {
      "epoch": 0.07574940694414492,
      "grad_norm": 0.9703086018562317,
      "learning_rate": 9.992347429700266e-06,
      "loss": 0.9173,
      "step": 1405
    },
    {
      "epoch": 0.07580332111278844,
      "grad_norm": 0.8154104351997375,
      "learning_rate": 9.992335700127978e-06,
      "loss": 0.8453,
      "step": 1406
    },
    {
      "epoch": 0.07585723528143196,
      "grad_norm": 0.8551482558250427,
      "learning_rate": 9.992323961580146e-06,
      "loss": 0.9132,
      "step": 1407
    },
    {
      "epoch": 0.07591114945007547,
      "grad_norm": 0.9425063729286194,
      "learning_rate": 9.992312214056785e-06,
      "loss": 0.8171,
      "step": 1408
    },
    {
      "epoch": 0.075965063618719,
      "grad_norm": 0.8958794474601746,
      "learning_rate": 9.992300457557922e-06,
      "loss": 0.7983,
      "step": 1409
    },
    {
      "epoch": 0.07601897778736252,
      "grad_norm": 0.873874843120575,
      "learning_rate": 9.992288692083579e-06,
      "loss": 0.798,
      "step": 1410
    },
    {
      "epoch": 0.07607289195600604,
      "grad_norm": 0.7951189279556274,
      "learning_rate": 9.99227691763377e-06,
      "loss": 0.8671,
      "step": 1411
    },
    {
      "epoch": 0.07612680612464956,
      "grad_norm": 0.8073802590370178,
      "learning_rate": 9.992265134208522e-06,
      "loss": 0.8214,
      "step": 1412
    },
    {
      "epoch": 0.07618072029329308,
      "grad_norm": 0.918222188949585,
      "learning_rate": 9.992253341807854e-06,
      "loss": 0.807,
      "step": 1413
    },
    {
      "epoch": 0.0762346344619366,
      "grad_norm": 0.834381103515625,
      "learning_rate": 9.992241540431789e-06,
      "loss": 0.8737,
      "step": 1414
    },
    {
      "epoch": 0.07628854863058011,
      "grad_norm": 0.808437168598175,
      "learning_rate": 9.992229730080347e-06,
      "loss": 0.7982,
      "step": 1415
    },
    {
      "epoch": 0.07634246279922363,
      "grad_norm": 0.7868708968162537,
      "learning_rate": 9.992217910753547e-06,
      "loss": 0.7071,
      "step": 1416
    },
    {
      "epoch": 0.07639637696786715,
      "grad_norm": 0.8445919156074524,
      "learning_rate": 9.992206082451416e-06,
      "loss": 0.8353,
      "step": 1417
    },
    {
      "epoch": 0.07645029113651068,
      "grad_norm": 0.8283419609069824,
      "learning_rate": 9.992194245173969e-06,
      "loss": 0.867,
      "step": 1418
    },
    {
      "epoch": 0.0765042053051542,
      "grad_norm": 0.8390635251998901,
      "learning_rate": 9.99218239892123e-06,
      "loss": 0.822,
      "step": 1419
    },
    {
      "epoch": 0.07655811947379772,
      "grad_norm": 0.9037001132965088,
      "learning_rate": 9.992170543693222e-06,
      "loss": 0.8759,
      "step": 1420
    },
    {
      "epoch": 0.07661203364244124,
      "grad_norm": 0.9708169102668762,
      "learning_rate": 9.992158679489965e-06,
      "loss": 0.875,
      "step": 1421
    },
    {
      "epoch": 0.07666594781108475,
      "grad_norm": 0.8712205290794373,
      "learning_rate": 9.992146806311479e-06,
      "loss": 0.8711,
      "step": 1422
    },
    {
      "epoch": 0.07671986197972827,
      "grad_norm": 0.953936755657196,
      "learning_rate": 9.992134924157786e-06,
      "loss": 0.8117,
      "step": 1423
    },
    {
      "epoch": 0.07677377614837179,
      "grad_norm": 1.3178669214248657,
      "learning_rate": 9.992123033028908e-06,
      "loss": 0.8932,
      "step": 1424
    },
    {
      "epoch": 0.0768276903170153,
      "grad_norm": 0.8657799959182739,
      "learning_rate": 9.992111132924867e-06,
      "loss": 0.8429,
      "step": 1425
    },
    {
      "epoch": 0.07688160448565882,
      "grad_norm": 0.8979378938674927,
      "learning_rate": 9.992099223845681e-06,
      "loss": 0.9165,
      "step": 1426
    },
    {
      "epoch": 0.07693551865430236,
      "grad_norm": 0.797493040561676,
      "learning_rate": 9.992087305791376e-06,
      "loss": 0.8139,
      "step": 1427
    },
    {
      "epoch": 0.07698943282294587,
      "grad_norm": 0.9762497544288635,
      "learning_rate": 9.99207537876197e-06,
      "loss": 0.8006,
      "step": 1428
    },
    {
      "epoch": 0.07704334699158939,
      "grad_norm": 0.9322238564491272,
      "learning_rate": 9.992063442757487e-06,
      "loss": 0.8708,
      "step": 1429
    },
    {
      "epoch": 0.07709726116023291,
      "grad_norm": 0.9208402037620544,
      "learning_rate": 9.992051497777947e-06,
      "loss": 0.9137,
      "step": 1430
    },
    {
      "epoch": 0.07715117532887643,
      "grad_norm": 0.9262849688529968,
      "learning_rate": 9.99203954382337e-06,
      "loss": 0.8043,
      "step": 1431
    },
    {
      "epoch": 0.07720508949751995,
      "grad_norm": 1.0556507110595703,
      "learning_rate": 9.992027580893781e-06,
      "loss": 0.8321,
      "step": 1432
    },
    {
      "epoch": 0.07725900366616346,
      "grad_norm": 1.0503417253494263,
      "learning_rate": 9.9920156089892e-06,
      "loss": 0.8875,
      "step": 1433
    },
    {
      "epoch": 0.07731291783480698,
      "grad_norm": 0.8772387504577637,
      "learning_rate": 9.992003628109647e-06,
      "loss": 0.7407,
      "step": 1434
    },
    {
      "epoch": 0.0773668320034505,
      "grad_norm": 0.942286491394043,
      "learning_rate": 9.991991638255146e-06,
      "loss": 0.8493,
      "step": 1435
    },
    {
      "epoch": 0.07742074617209403,
      "grad_norm": 0.8584794998168945,
      "learning_rate": 9.991979639425717e-06,
      "loss": 0.8003,
      "step": 1436
    },
    {
      "epoch": 0.07747466034073755,
      "grad_norm": 0.8247780203819275,
      "learning_rate": 9.99196763162138e-06,
      "loss": 0.9156,
      "step": 1437
    },
    {
      "epoch": 0.07752857450938107,
      "grad_norm": 0.859018862247467,
      "learning_rate": 9.99195561484216e-06,
      "loss": 0.8255,
      "step": 1438
    },
    {
      "epoch": 0.07758248867802459,
      "grad_norm": 0.9073282480239868,
      "learning_rate": 9.991943589088078e-06,
      "loss": 0.903,
      "step": 1439
    },
    {
      "epoch": 0.0776364028466681,
      "grad_norm": 0.9324385523796082,
      "learning_rate": 9.991931554359154e-06,
      "loss": 0.8618,
      "step": 1440
    },
    {
      "epoch": 0.07769031701531162,
      "grad_norm": 0.8038938045501709,
      "learning_rate": 9.991919510655409e-06,
      "loss": 0.7545,
      "step": 1441
    },
    {
      "epoch": 0.07774423118395514,
      "grad_norm": 0.7999526858329773,
      "learning_rate": 9.991907457976866e-06,
      "loss": 0.6804,
      "step": 1442
    },
    {
      "epoch": 0.07779814535259866,
      "grad_norm": 1.0165048837661743,
      "learning_rate": 9.991895396323548e-06,
      "loss": 0.7664,
      "step": 1443
    },
    {
      "epoch": 0.07785205952124218,
      "grad_norm": 0.9513073563575745,
      "learning_rate": 9.991883325695475e-06,
      "loss": 0.8115,
      "step": 1444
    },
    {
      "epoch": 0.07790597368988571,
      "grad_norm": 1.0391769409179688,
      "learning_rate": 9.991871246092669e-06,
      "loss": 0.9197,
      "step": 1445
    },
    {
      "epoch": 0.07795988785852923,
      "grad_norm": 0.8990768194198608,
      "learning_rate": 9.991859157515151e-06,
      "loss": 0.9507,
      "step": 1446
    },
    {
      "epoch": 0.07801380202717274,
      "grad_norm": 0.9990912079811096,
      "learning_rate": 9.991847059962945e-06,
      "loss": 0.7951,
      "step": 1447
    },
    {
      "epoch": 0.07806771619581626,
      "grad_norm": 1.0030032396316528,
      "learning_rate": 9.99183495343607e-06,
      "loss": 0.7237,
      "step": 1448
    },
    {
      "epoch": 0.07812163036445978,
      "grad_norm": 0.889561116695404,
      "learning_rate": 9.991822837934551e-06,
      "loss": 0.9061,
      "step": 1449
    },
    {
      "epoch": 0.0781755445331033,
      "grad_norm": 0.8766982555389404,
      "learning_rate": 9.991810713458405e-06,
      "loss": 0.7952,
      "step": 1450
    },
    {
      "epoch": 0.07822945870174682,
      "grad_norm": 0.9144406914710999,
      "learning_rate": 9.991798580007658e-06,
      "loss": 0.9235,
      "step": 1451
    },
    {
      "epoch": 0.07828337287039033,
      "grad_norm": 0.895516037940979,
      "learning_rate": 9.99178643758233e-06,
      "loss": 0.9469,
      "step": 1452
    },
    {
      "epoch": 0.07833728703903386,
      "grad_norm": 0.8802943229675293,
      "learning_rate": 9.991774286182443e-06,
      "loss": 0.8548,
      "step": 1453
    },
    {
      "epoch": 0.07839120120767738,
      "grad_norm": 1.2773913145065308,
      "learning_rate": 9.99176212580802e-06,
      "loss": 0.794,
      "step": 1454
    },
    {
      "epoch": 0.0784451153763209,
      "grad_norm": 0.9501168131828308,
      "learning_rate": 9.99174995645908e-06,
      "loss": 0.8711,
      "step": 1455
    },
    {
      "epoch": 0.07849902954496442,
      "grad_norm": 0.9047390222549438,
      "learning_rate": 9.991737778135649e-06,
      "loss": 0.8419,
      "step": 1456
    },
    {
      "epoch": 0.07855294371360794,
      "grad_norm": 0.9492837190628052,
      "learning_rate": 9.991725590837747e-06,
      "loss": 0.9832,
      "step": 1457
    },
    {
      "epoch": 0.07860685788225145,
      "grad_norm": 0.9585106372833252,
      "learning_rate": 9.991713394565394e-06,
      "loss": 0.8393,
      "step": 1458
    },
    {
      "epoch": 0.07866077205089497,
      "grad_norm": 0.9568297266960144,
      "learning_rate": 9.991701189318615e-06,
      "loss": 0.8711,
      "step": 1459
    },
    {
      "epoch": 0.07871468621953849,
      "grad_norm": 0.9201347231864929,
      "learning_rate": 9.991688975097429e-06,
      "loss": 0.7947,
      "step": 1460
    },
    {
      "epoch": 0.07876860038818201,
      "grad_norm": 0.8375768661499023,
      "learning_rate": 9.99167675190186e-06,
      "loss": 0.8051,
      "step": 1461
    },
    {
      "epoch": 0.07882251455682554,
      "grad_norm": 0.8397765755653381,
      "learning_rate": 9.99166451973193e-06,
      "loss": 0.7727,
      "step": 1462
    },
    {
      "epoch": 0.07887642872546906,
      "grad_norm": 0.8697947859764099,
      "learning_rate": 9.99165227858766e-06,
      "loss": 0.8171,
      "step": 1463
    },
    {
      "epoch": 0.07893034289411258,
      "grad_norm": 0.8894750475883484,
      "learning_rate": 9.991640028469073e-06,
      "loss": 0.8773,
      "step": 1464
    },
    {
      "epoch": 0.0789842570627561,
      "grad_norm": 0.8817871809005737,
      "learning_rate": 9.991627769376189e-06,
      "loss": 0.8983,
      "step": 1465
    },
    {
      "epoch": 0.07903817123139961,
      "grad_norm": 0.9241123795509338,
      "learning_rate": 9.99161550130903e-06,
      "loss": 0.8967,
      "step": 1466
    },
    {
      "epoch": 0.07909208540004313,
      "grad_norm": 0.852982223033905,
      "learning_rate": 9.991603224267623e-06,
      "loss": 0.9054,
      "step": 1467
    },
    {
      "epoch": 0.07914599956868665,
      "grad_norm": 0.7719098925590515,
      "learning_rate": 9.991590938251986e-06,
      "loss": 0.7845,
      "step": 1468
    },
    {
      "epoch": 0.07919991373733017,
      "grad_norm": 0.8700329661369324,
      "learning_rate": 9.99157864326214e-06,
      "loss": 0.9664,
      "step": 1469
    },
    {
      "epoch": 0.07925382790597368,
      "grad_norm": 0.880553126335144,
      "learning_rate": 9.991566339298112e-06,
      "loss": 0.8803,
      "step": 1470
    },
    {
      "epoch": 0.07930774207461722,
      "grad_norm": 0.9425762295722961,
      "learning_rate": 9.991554026359918e-06,
      "loss": 0.8259,
      "step": 1471
    },
    {
      "epoch": 0.07936165624326073,
      "grad_norm": 0.8611294031143188,
      "learning_rate": 9.991541704447585e-06,
      "loss": 0.8693,
      "step": 1472
    },
    {
      "epoch": 0.07941557041190425,
      "grad_norm": 0.856023907661438,
      "learning_rate": 9.99152937356113e-06,
      "loss": 0.7073,
      "step": 1473
    },
    {
      "epoch": 0.07946948458054777,
      "grad_norm": 0.7763693332672119,
      "learning_rate": 9.991517033700582e-06,
      "loss": 0.6815,
      "step": 1474
    },
    {
      "epoch": 0.07952339874919129,
      "grad_norm": 0.8417321443557739,
      "learning_rate": 9.991504684865959e-06,
      "loss": 0.8239,
      "step": 1475
    },
    {
      "epoch": 0.0795773129178348,
      "grad_norm": 0.9151323437690735,
      "learning_rate": 9.991492327057282e-06,
      "loss": 0.8327,
      "step": 1476
    },
    {
      "epoch": 0.07963122708647832,
      "grad_norm": 0.8285405039787292,
      "learning_rate": 9.991479960274576e-06,
      "loss": 0.8623,
      "step": 1477
    },
    {
      "epoch": 0.07968514125512184,
      "grad_norm": 0.8204792141914368,
      "learning_rate": 9.991467584517863e-06,
      "loss": 0.8494,
      "step": 1478
    },
    {
      "epoch": 0.07973905542376536,
      "grad_norm": 0.8516230583190918,
      "learning_rate": 9.991455199787164e-06,
      "loss": 0.8219,
      "step": 1479
    },
    {
      "epoch": 0.07979296959240889,
      "grad_norm": 0.9418333172798157,
      "learning_rate": 9.991442806082501e-06,
      "loss": 0.9293,
      "step": 1480
    },
    {
      "epoch": 0.07984688376105241,
      "grad_norm": 0.8852763175964355,
      "learning_rate": 9.991430403403898e-06,
      "loss": 0.8124,
      "step": 1481
    },
    {
      "epoch": 0.07990079792969593,
      "grad_norm": 0.8435791730880737,
      "learning_rate": 9.991417991751376e-06,
      "loss": 0.8634,
      "step": 1482
    },
    {
      "epoch": 0.07995471209833944,
      "grad_norm": 0.7795083522796631,
      "learning_rate": 9.991405571124957e-06,
      "loss": 0.802,
      "step": 1483
    },
    {
      "epoch": 0.08000862626698296,
      "grad_norm": 0.8102303743362427,
      "learning_rate": 9.991393141524663e-06,
      "loss": 0.7492,
      "step": 1484
    },
    {
      "epoch": 0.08006254043562648,
      "grad_norm": 0.8433593511581421,
      "learning_rate": 9.99138070295052e-06,
      "loss": 0.7926,
      "step": 1485
    },
    {
      "epoch": 0.08011645460427,
      "grad_norm": 0.8992267847061157,
      "learning_rate": 9.991368255402546e-06,
      "loss": 0.7859,
      "step": 1486
    },
    {
      "epoch": 0.08017036877291352,
      "grad_norm": 0.8748059868812561,
      "learning_rate": 9.991355798880765e-06,
      "loss": 0.8245,
      "step": 1487
    },
    {
      "epoch": 0.08022428294155703,
      "grad_norm": 0.8456832766532898,
      "learning_rate": 9.9913433333852e-06,
      "loss": 0.9009,
      "step": 1488
    },
    {
      "epoch": 0.08027819711020057,
      "grad_norm": 0.8582474589347839,
      "learning_rate": 9.991330858915873e-06,
      "loss": 0.7607,
      "step": 1489
    },
    {
      "epoch": 0.08033211127884408,
      "grad_norm": 0.8157060146331787,
      "learning_rate": 9.991318375472807e-06,
      "loss": 0.8426,
      "step": 1490
    },
    {
      "epoch": 0.0803860254474876,
      "grad_norm": 0.7474784851074219,
      "learning_rate": 9.991305883056021e-06,
      "loss": 0.8014,
      "step": 1491
    },
    {
      "epoch": 0.08043993961613112,
      "grad_norm": 0.8432475924491882,
      "learning_rate": 9.991293381665543e-06,
      "loss": 0.8254,
      "step": 1492
    },
    {
      "epoch": 0.08049385378477464,
      "grad_norm": 0.8733057379722595,
      "learning_rate": 9.991280871301392e-06,
      "loss": 0.8694,
      "step": 1493
    },
    {
      "epoch": 0.08054776795341816,
      "grad_norm": 0.8694074153900146,
      "learning_rate": 9.991268351963592e-06,
      "loss": 0.7306,
      "step": 1494
    },
    {
      "epoch": 0.08060168212206167,
      "grad_norm": 0.8981258869171143,
      "learning_rate": 9.991255823652162e-06,
      "loss": 0.7821,
      "step": 1495
    },
    {
      "epoch": 0.08065559629070519,
      "grad_norm": 0.9740719795227051,
      "learning_rate": 9.99124328636713e-06,
      "loss": 0.7678,
      "step": 1496
    },
    {
      "epoch": 0.08070951045934871,
      "grad_norm": 0.8847763538360596,
      "learning_rate": 9.991230740108515e-06,
      "loss": 0.73,
      "step": 1497
    },
    {
      "epoch": 0.08076342462799224,
      "grad_norm": 0.8909339308738708,
      "learning_rate": 9.99121818487634e-06,
      "loss": 0.7713,
      "step": 1498
    },
    {
      "epoch": 0.08081733879663576,
      "grad_norm": 0.8183975219726562,
      "learning_rate": 9.991205620670626e-06,
      "loss": 0.8234,
      "step": 1499
    },
    {
      "epoch": 0.08087125296527928,
      "grad_norm": 1.241355299949646,
      "learning_rate": 9.991193047491399e-06,
      "loss": 0.8135,
      "step": 1500
    },
    {
      "epoch": 0.0809251671339228,
      "grad_norm": 0.9039500951766968,
      "learning_rate": 9.991180465338682e-06,
      "loss": 0.8642,
      "step": 1501
    },
    {
      "epoch": 0.08097908130256631,
      "grad_norm": 1.1762068271636963,
      "learning_rate": 9.991167874212493e-06,
      "loss": 0.7892,
      "step": 1502
    },
    {
      "epoch": 0.08103299547120983,
      "grad_norm": 0.8402833938598633,
      "learning_rate": 9.991155274112857e-06,
      "loss": 0.9054,
      "step": 1503
    },
    {
      "epoch": 0.08108690963985335,
      "grad_norm": 0.9271976351737976,
      "learning_rate": 9.991142665039799e-06,
      "loss": 0.8902,
      "step": 1504
    },
    {
      "epoch": 0.08114082380849687,
      "grad_norm": 0.9105845093727112,
      "learning_rate": 9.991130046993337e-06,
      "loss": 0.8522,
      "step": 1505
    },
    {
      "epoch": 0.0811947379771404,
      "grad_norm": 0.8248290419578552,
      "learning_rate": 9.991117419973499e-06,
      "loss": 0.882,
      "step": 1506
    },
    {
      "epoch": 0.08124865214578392,
      "grad_norm": 1.0726820230484009,
      "learning_rate": 9.991104783980305e-06,
      "loss": 0.8001,
      "step": 1507
    },
    {
      "epoch": 0.08130256631442744,
      "grad_norm": 1.296281337738037,
      "learning_rate": 9.991092139013776e-06,
      "loss": 1.0022,
      "step": 1508
    },
    {
      "epoch": 0.08135648048307095,
      "grad_norm": 1.7287628650665283,
      "learning_rate": 9.991079485073938e-06,
      "loss": 0.914,
      "step": 1509
    },
    {
      "epoch": 0.08141039465171447,
      "grad_norm": 0.8731694221496582,
      "learning_rate": 9.991066822160813e-06,
      "loss": 0.8672,
      "step": 1510
    },
    {
      "epoch": 0.08146430882035799,
      "grad_norm": 0.875747799873352,
      "learning_rate": 9.99105415027442e-06,
      "loss": 0.8044,
      "step": 1511
    },
    {
      "epoch": 0.08151822298900151,
      "grad_norm": 0.9055120348930359,
      "learning_rate": 9.991041469414787e-06,
      "loss": 0.8312,
      "step": 1512
    },
    {
      "epoch": 0.08157213715764502,
      "grad_norm": 0.8849499821662903,
      "learning_rate": 9.991028779581935e-06,
      "loss": 0.889,
      "step": 1513
    },
    {
      "epoch": 0.08162605132628854,
      "grad_norm": 0.9549855589866638,
      "learning_rate": 9.991016080775884e-06,
      "loss": 0.8929,
      "step": 1514
    },
    {
      "epoch": 0.08167996549493207,
      "grad_norm": 0.8395527005195618,
      "learning_rate": 9.991003372996662e-06,
      "loss": 0.6774,
      "step": 1515
    },
    {
      "epoch": 0.08173387966357559,
      "grad_norm": 0.7791672945022583,
      "learning_rate": 9.990990656244287e-06,
      "loss": 0.7178,
      "step": 1516
    },
    {
      "epoch": 0.08178779383221911,
      "grad_norm": 0.91841721534729,
      "learning_rate": 9.990977930518785e-06,
      "loss": 0.8372,
      "step": 1517
    },
    {
      "epoch": 0.08184170800086263,
      "grad_norm": 0.923937976360321,
      "learning_rate": 9.990965195820178e-06,
      "loss": 0.8467,
      "step": 1518
    },
    {
      "epoch": 0.08189562216950615,
      "grad_norm": 0.9804415106773376,
      "learning_rate": 9.990952452148488e-06,
      "loss": 0.9281,
      "step": 1519
    },
    {
      "epoch": 0.08194953633814966,
      "grad_norm": 0.9396255016326904,
      "learning_rate": 9.99093969950374e-06,
      "loss": 0.8606,
      "step": 1520
    },
    {
      "epoch": 0.08200345050679318,
      "grad_norm": 0.8492118120193481,
      "learning_rate": 9.990926937885953e-06,
      "loss": 0.8253,
      "step": 1521
    },
    {
      "epoch": 0.0820573646754367,
      "grad_norm": 0.8482204079627991,
      "learning_rate": 9.990914167295154e-06,
      "loss": 0.7361,
      "step": 1522
    },
    {
      "epoch": 0.08211127884408022,
      "grad_norm": 1.1302778720855713,
      "learning_rate": 9.990901387731365e-06,
      "loss": 0.7511,
      "step": 1523
    },
    {
      "epoch": 0.08216519301272375,
      "grad_norm": 0.9285756945610046,
      "learning_rate": 9.990888599194607e-06,
      "loss": 0.8329,
      "step": 1524
    },
    {
      "epoch": 0.08221910718136727,
      "grad_norm": 0.8932104110717773,
      "learning_rate": 9.990875801684905e-06,
      "loss": 0.8146,
      "step": 1525
    },
    {
      "epoch": 0.08227302135001079,
      "grad_norm": 0.8232647180557251,
      "learning_rate": 9.990862995202282e-06,
      "loss": 0.763,
      "step": 1526
    },
    {
      "epoch": 0.0823269355186543,
      "grad_norm": 0.8582163453102112,
      "learning_rate": 9.990850179746759e-06,
      "loss": 0.7675,
      "step": 1527
    },
    {
      "epoch": 0.08238084968729782,
      "grad_norm": 0.9890977144241333,
      "learning_rate": 9.990837355318362e-06,
      "loss": 0.8438,
      "step": 1528
    },
    {
      "epoch": 0.08243476385594134,
      "grad_norm": 0.9228235483169556,
      "learning_rate": 9.990824521917113e-06,
      "loss": 0.9324,
      "step": 1529
    },
    {
      "epoch": 0.08248867802458486,
      "grad_norm": 0.8286252617835999,
      "learning_rate": 9.990811679543033e-06,
      "loss": 0.872,
      "step": 1530
    },
    {
      "epoch": 0.08254259219322838,
      "grad_norm": 0.8546530604362488,
      "learning_rate": 9.990798828196146e-06,
      "loss": 0.7256,
      "step": 1531
    },
    {
      "epoch": 0.0825965063618719,
      "grad_norm": 0.8240640759468079,
      "learning_rate": 9.990785967876478e-06,
      "loss": 0.8083,
      "step": 1532
    },
    {
      "epoch": 0.08265042053051543,
      "grad_norm": 0.8650565147399902,
      "learning_rate": 9.99077309858405e-06,
      "loss": 0.8274,
      "step": 1533
    },
    {
      "epoch": 0.08270433469915894,
      "grad_norm": 0.7865849137306213,
      "learning_rate": 9.990760220318884e-06,
      "loss": 0.7978,
      "step": 1534
    },
    {
      "epoch": 0.08275824886780246,
      "grad_norm": 0.8567995429039001,
      "learning_rate": 9.990747333081005e-06,
      "loss": 0.8172,
      "step": 1535
    },
    {
      "epoch": 0.08281216303644598,
      "grad_norm": 0.8242521286010742,
      "learning_rate": 9.990734436870435e-06,
      "loss": 0.8045,
      "step": 1536
    },
    {
      "epoch": 0.0828660772050895,
      "grad_norm": 0.801266074180603,
      "learning_rate": 9.990721531687197e-06,
      "loss": 0.8312,
      "step": 1537
    },
    {
      "epoch": 0.08291999137373302,
      "grad_norm": 0.8027862906455994,
      "learning_rate": 9.990708617531314e-06,
      "loss": 0.7227,
      "step": 1538
    },
    {
      "epoch": 0.08297390554237653,
      "grad_norm": 1.0332401990890503,
      "learning_rate": 9.990695694402811e-06,
      "loss": 0.9091,
      "step": 1539
    },
    {
      "epoch": 0.08302781971102005,
      "grad_norm": 0.8537373542785645,
      "learning_rate": 9.99068276230171e-06,
      "loss": 0.7573,
      "step": 1540
    },
    {
      "epoch": 0.08308173387966357,
      "grad_norm": 0.8734087944030762,
      "learning_rate": 9.990669821228037e-06,
      "loss": 0.901,
      "step": 1541
    },
    {
      "epoch": 0.0831356480483071,
      "grad_norm": 0.8546577095985413,
      "learning_rate": 9.99065687118181e-06,
      "loss": 0.8294,
      "step": 1542
    },
    {
      "epoch": 0.08318956221695062,
      "grad_norm": 0.9555438756942749,
      "learning_rate": 9.990643912163055e-06,
      "loss": 0.83,
      "step": 1543
    },
    {
      "epoch": 0.08324347638559414,
      "grad_norm": 0.8778670430183411,
      "learning_rate": 9.990630944171798e-06,
      "loss": 0.8694,
      "step": 1544
    },
    {
      "epoch": 0.08329739055423765,
      "grad_norm": 0.973791241645813,
      "learning_rate": 9.990617967208058e-06,
      "loss": 0.8348,
      "step": 1545
    },
    {
      "epoch": 0.08335130472288117,
      "grad_norm": 0.7933714389801025,
      "learning_rate": 9.990604981271858e-06,
      "loss": 0.8208,
      "step": 1546
    },
    {
      "epoch": 0.08340521889152469,
      "grad_norm": 0.9328469634056091,
      "learning_rate": 9.990591986363226e-06,
      "loss": 0.8188,
      "step": 1547
    },
    {
      "epoch": 0.08345913306016821,
      "grad_norm": 0.8217103481292725,
      "learning_rate": 9.990578982482183e-06,
      "loss": 0.7948,
      "step": 1548
    },
    {
      "epoch": 0.08351304722881173,
      "grad_norm": 0.8556894659996033,
      "learning_rate": 9.990565969628749e-06,
      "loss": 0.8129,
      "step": 1549
    },
    {
      "epoch": 0.08356696139745524,
      "grad_norm": 0.901633083820343,
      "learning_rate": 9.990552947802954e-06,
      "loss": 0.9025,
      "step": 1550
    },
    {
      "epoch": 0.08362087556609878,
      "grad_norm": 0.9021494388580322,
      "learning_rate": 9.990539917004815e-06,
      "loss": 0.8882,
      "step": 1551
    },
    {
      "epoch": 0.0836747897347423,
      "grad_norm": 0.8187722563743591,
      "learning_rate": 9.990526877234359e-06,
      "loss": 0.7385,
      "step": 1552
    },
    {
      "epoch": 0.08372870390338581,
      "grad_norm": 0.9237630367279053,
      "learning_rate": 9.990513828491609e-06,
      "loss": 0.851,
      "step": 1553
    },
    {
      "epoch": 0.08378261807202933,
      "grad_norm": 1.1868582963943481,
      "learning_rate": 9.990500770776589e-06,
      "loss": 0.7701,
      "step": 1554
    },
    {
      "epoch": 0.08383653224067285,
      "grad_norm": 0.9831421971321106,
      "learning_rate": 9.990487704089322e-06,
      "loss": 0.836,
      "step": 1555
    },
    {
      "epoch": 0.08389044640931637,
      "grad_norm": 0.9255663752555847,
      "learning_rate": 9.99047462842983e-06,
      "loss": 0.7916,
      "step": 1556
    },
    {
      "epoch": 0.08394436057795988,
      "grad_norm": 1.0069084167480469,
      "learning_rate": 9.990461543798137e-06,
      "loss": 0.8652,
      "step": 1557
    },
    {
      "epoch": 0.0839982747466034,
      "grad_norm": 0.943044900894165,
      "learning_rate": 9.990448450194267e-06,
      "loss": 0.9511,
      "step": 1558
    },
    {
      "epoch": 0.08405218891524693,
      "grad_norm": 0.9996150135993958,
      "learning_rate": 9.990435347618246e-06,
      "loss": 0.8751,
      "step": 1559
    },
    {
      "epoch": 0.08410610308389045,
      "grad_norm": 0.9531681537628174,
      "learning_rate": 9.990422236070094e-06,
      "loss": 0.8988,
      "step": 1560
    },
    {
      "epoch": 0.08416001725253397,
      "grad_norm": 0.9504678249359131,
      "learning_rate": 9.990409115549837e-06,
      "loss": 0.808,
      "step": 1561
    },
    {
      "epoch": 0.08421393142117749,
      "grad_norm": 0.9796282052993774,
      "learning_rate": 9.990395986057496e-06,
      "loss": 0.778,
      "step": 1562
    },
    {
      "epoch": 0.084267845589821,
      "grad_norm": 0.8871618509292603,
      "learning_rate": 9.990382847593096e-06,
      "loss": 0.8945,
      "step": 1563
    },
    {
      "epoch": 0.08432175975846452,
      "grad_norm": 0.8253110647201538,
      "learning_rate": 9.990369700156662e-06,
      "loss": 0.8206,
      "step": 1564
    },
    {
      "epoch": 0.08437567392710804,
      "grad_norm": 0.8799824118614197,
      "learning_rate": 9.990356543748216e-06,
      "loss": 0.7665,
      "step": 1565
    },
    {
      "epoch": 0.08442958809575156,
      "grad_norm": 0.8275637626647949,
      "learning_rate": 9.990343378367782e-06,
      "loss": 0.8468,
      "step": 1566
    },
    {
      "epoch": 0.08448350226439508,
      "grad_norm": 1.0431691408157349,
      "learning_rate": 9.990330204015382e-06,
      "loss": 0.8539,
      "step": 1567
    },
    {
      "epoch": 0.08453741643303861,
      "grad_norm": 1.298999547958374,
      "learning_rate": 9.990317020691043e-06,
      "loss": 0.8989,
      "step": 1568
    },
    {
      "epoch": 0.08459133060168213,
      "grad_norm": 0.865868866443634,
      "learning_rate": 9.990303828394787e-06,
      "loss": 0.8296,
      "step": 1569
    },
    {
      "epoch": 0.08464524477032564,
      "grad_norm": 0.9162652492523193,
      "learning_rate": 9.990290627126637e-06,
      "loss": 0.8617,
      "step": 1570
    },
    {
      "epoch": 0.08469915893896916,
      "grad_norm": 0.9753283858299255,
      "learning_rate": 9.990277416886618e-06,
      "loss": 0.8082,
      "step": 1571
    },
    {
      "epoch": 0.08475307310761268,
      "grad_norm": 0.9561176300048828,
      "learning_rate": 9.990264197674754e-06,
      "loss": 0.8678,
      "step": 1572
    },
    {
      "epoch": 0.0848069872762562,
      "grad_norm": 0.833341658115387,
      "learning_rate": 9.990250969491067e-06,
      "loss": 0.8164,
      "step": 1573
    },
    {
      "epoch": 0.08486090144489972,
      "grad_norm": 0.9928603172302246,
      "learning_rate": 9.990237732335581e-06,
      "loss": 0.6889,
      "step": 1574
    },
    {
      "epoch": 0.08491481561354323,
      "grad_norm": 1.0163367986679077,
      "learning_rate": 9.990224486208322e-06,
      "loss": 0.8278,
      "step": 1575
    },
    {
      "epoch": 0.08496872978218675,
      "grad_norm": 0.9905970096588135,
      "learning_rate": 9.990211231109312e-06,
      "loss": 0.8094,
      "step": 1576
    },
    {
      "epoch": 0.08502264395083028,
      "grad_norm": 0.9112648963928223,
      "learning_rate": 9.990197967038574e-06,
      "loss": 0.8782,
      "step": 1577
    },
    {
      "epoch": 0.0850765581194738,
      "grad_norm": 1.1176974773406982,
      "learning_rate": 9.990184693996136e-06,
      "loss": 0.8826,
      "step": 1578
    },
    {
      "epoch": 0.08513047228811732,
      "grad_norm": 0.7696222066879272,
      "learning_rate": 9.990171411982016e-06,
      "loss": 0.8025,
      "step": 1579
    },
    {
      "epoch": 0.08518438645676084,
      "grad_norm": 0.9288634061813354,
      "learning_rate": 9.990158120996242e-06,
      "loss": 0.8777,
      "step": 1580
    },
    {
      "epoch": 0.08523830062540436,
      "grad_norm": 0.9235022068023682,
      "learning_rate": 9.990144821038839e-06,
      "loss": 0.9339,
      "step": 1581
    },
    {
      "epoch": 0.08529221479404787,
      "grad_norm": 0.9124205708503723,
      "learning_rate": 9.990131512109826e-06,
      "loss": 0.8368,
      "step": 1582
    },
    {
      "epoch": 0.08534612896269139,
      "grad_norm": 0.8409048914909363,
      "learning_rate": 9.990118194209229e-06,
      "loss": 0.7772,
      "step": 1583
    },
    {
      "epoch": 0.08540004313133491,
      "grad_norm": 0.8279136419296265,
      "learning_rate": 9.990104867337074e-06,
      "loss": 0.738,
      "step": 1584
    },
    {
      "epoch": 0.08545395729997843,
      "grad_norm": 0.8895745873451233,
      "learning_rate": 9.990091531493382e-06,
      "loss": 0.7669,
      "step": 1585
    },
    {
      "epoch": 0.08550787146862196,
      "grad_norm": 0.9280734062194824,
      "learning_rate": 9.99007818667818e-06,
      "loss": 0.9052,
      "step": 1586
    },
    {
      "epoch": 0.08556178563726548,
      "grad_norm": 0.7676610350608826,
      "learning_rate": 9.990064832891491e-06,
      "loss": 0.807,
      "step": 1587
    },
    {
      "epoch": 0.085615699805909,
      "grad_norm": 0.9035676121711731,
      "learning_rate": 9.990051470133337e-06,
      "loss": 0.8848,
      "step": 1588
    },
    {
      "epoch": 0.08566961397455251,
      "grad_norm": 1.0960334539413452,
      "learning_rate": 9.990038098403742e-06,
      "loss": 0.8279,
      "step": 1589
    },
    {
      "epoch": 0.08572352814319603,
      "grad_norm": 0.87922203540802,
      "learning_rate": 9.990024717702736e-06,
      "loss": 0.8325,
      "step": 1590
    },
    {
      "epoch": 0.08577744231183955,
      "grad_norm": 0.922815203666687,
      "learning_rate": 9.990011328030335e-06,
      "loss": 0.881,
      "step": 1591
    },
    {
      "epoch": 0.08583135648048307,
      "grad_norm": 0.9880780577659607,
      "learning_rate": 9.989997929386567e-06,
      "loss": 0.7506,
      "step": 1592
    },
    {
      "epoch": 0.08588527064912659,
      "grad_norm": 0.8827483057975769,
      "learning_rate": 9.989984521771456e-06,
      "loss": 0.8961,
      "step": 1593
    },
    {
      "epoch": 0.0859391848177701,
      "grad_norm": 0.8395072817802429,
      "learning_rate": 9.989971105185026e-06,
      "loss": 0.8564,
      "step": 1594
    },
    {
      "epoch": 0.08599309898641364,
      "grad_norm": 0.8731534481048584,
      "learning_rate": 9.989957679627302e-06,
      "loss": 0.8209,
      "step": 1595
    },
    {
      "epoch": 0.08604701315505715,
      "grad_norm": 0.7969424724578857,
      "learning_rate": 9.989944245098305e-06,
      "loss": 0.8031,
      "step": 1596
    },
    {
      "epoch": 0.08610092732370067,
      "grad_norm": 0.8420547246932983,
      "learning_rate": 9.989930801598062e-06,
      "loss": 0.8027,
      "step": 1597
    },
    {
      "epoch": 0.08615484149234419,
      "grad_norm": 0.7900253534317017,
      "learning_rate": 9.989917349126597e-06,
      "loss": 0.8246,
      "step": 1598
    },
    {
      "epoch": 0.08620875566098771,
      "grad_norm": 0.8860716819763184,
      "learning_rate": 9.989903887683934e-06,
      "loss": 0.7846,
      "step": 1599
    },
    {
      "epoch": 0.08626266982963122,
      "grad_norm": 0.907744288444519,
      "learning_rate": 9.989890417270097e-06,
      "loss": 0.7813,
      "step": 1600
    },
    {
      "epoch": 0.08631658399827474,
      "grad_norm": 0.764076828956604,
      "learning_rate": 9.989876937885108e-06,
      "loss": 0.7953,
      "step": 1601
    },
    {
      "epoch": 0.08637049816691826,
      "grad_norm": 1.0143790245056152,
      "learning_rate": 9.989863449528994e-06,
      "loss": 0.8854,
      "step": 1602
    },
    {
      "epoch": 0.08642441233556178,
      "grad_norm": 0.8605815172195435,
      "learning_rate": 9.989849952201779e-06,
      "loss": 0.9289,
      "step": 1603
    },
    {
      "epoch": 0.08647832650420531,
      "grad_norm": 0.8897641897201538,
      "learning_rate": 9.989836445903487e-06,
      "loss": 0.8659,
      "step": 1604
    },
    {
      "epoch": 0.08653224067284883,
      "grad_norm": 0.8893518447875977,
      "learning_rate": 9.989822930634141e-06,
      "loss": 0.8724,
      "step": 1605
    },
    {
      "epoch": 0.08658615484149235,
      "grad_norm": 0.8152129054069519,
      "learning_rate": 9.989809406393767e-06,
      "loss": 0.8321,
      "step": 1606
    },
    {
      "epoch": 0.08664006901013586,
      "grad_norm": 0.8394732475280762,
      "learning_rate": 9.98979587318239e-06,
      "loss": 0.8074,
      "step": 1607
    },
    {
      "epoch": 0.08669398317877938,
      "grad_norm": 0.8038346767425537,
      "learning_rate": 9.989782331000031e-06,
      "loss": 0.8132,
      "step": 1608
    },
    {
      "epoch": 0.0867478973474229,
      "grad_norm": 0.8574134111404419,
      "learning_rate": 9.989768779846717e-06,
      "loss": 0.8191,
      "step": 1609
    },
    {
      "epoch": 0.08680181151606642,
      "grad_norm": 1.0049889087677002,
      "learning_rate": 9.989755219722472e-06,
      "loss": 0.8771,
      "step": 1610
    },
    {
      "epoch": 0.08685572568470994,
      "grad_norm": 0.9765112996101379,
      "learning_rate": 9.989741650627319e-06,
      "loss": 0.839,
      "step": 1611
    },
    {
      "epoch": 0.08690963985335347,
      "grad_norm": 0.9430082440376282,
      "learning_rate": 9.989728072561284e-06,
      "loss": 1.0316,
      "step": 1612
    },
    {
      "epoch": 0.08696355402199699,
      "grad_norm": 0.841590404510498,
      "learning_rate": 9.989714485524391e-06,
      "loss": 0.8727,
      "step": 1613
    },
    {
      "epoch": 0.0870174681906405,
      "grad_norm": 0.9475975632667542,
      "learning_rate": 9.989700889516664e-06,
      "loss": 0.8131,
      "step": 1614
    },
    {
      "epoch": 0.08707138235928402,
      "grad_norm": 0.8059530258178711,
      "learning_rate": 9.98968728453813e-06,
      "loss": 0.8297,
      "step": 1615
    },
    {
      "epoch": 0.08712529652792754,
      "grad_norm": 0.8513601422309875,
      "learning_rate": 9.989673670588808e-06,
      "loss": 0.8016,
      "step": 1616
    },
    {
      "epoch": 0.08717921069657106,
      "grad_norm": 0.8434658646583557,
      "learning_rate": 9.989660047668728e-06,
      "loss": 0.866,
      "step": 1617
    },
    {
      "epoch": 0.08723312486521458,
      "grad_norm": 0.9081484079360962,
      "learning_rate": 9.989646415777912e-06,
      "loss": 0.816,
      "step": 1618
    },
    {
      "epoch": 0.0872870390338581,
      "grad_norm": 0.7941877841949463,
      "learning_rate": 9.989632774916385e-06,
      "loss": 0.7191,
      "step": 1619
    },
    {
      "epoch": 0.08734095320250161,
      "grad_norm": 0.8800172209739685,
      "learning_rate": 9.98961912508417e-06,
      "loss": 0.8135,
      "step": 1620
    },
    {
      "epoch": 0.08739486737114514,
      "grad_norm": 0.7940575480461121,
      "learning_rate": 9.989605466281292e-06,
      "loss": 0.8124,
      "step": 1621
    },
    {
      "epoch": 0.08744878153978866,
      "grad_norm": 0.9570618271827698,
      "learning_rate": 9.989591798507779e-06,
      "loss": 0.9043,
      "step": 1622
    },
    {
      "epoch": 0.08750269570843218,
      "grad_norm": 0.8635395169258118,
      "learning_rate": 9.98957812176365e-06,
      "loss": 0.835,
      "step": 1623
    },
    {
      "epoch": 0.0875566098770757,
      "grad_norm": 0.8289955258369446,
      "learning_rate": 9.989564436048932e-06,
      "loss": 0.8265,
      "step": 1624
    },
    {
      "epoch": 0.08761052404571922,
      "grad_norm": 0.9519028663635254,
      "learning_rate": 9.989550741363654e-06,
      "loss": 0.8127,
      "step": 1625
    },
    {
      "epoch": 0.08766443821436273,
      "grad_norm": 0.9611422419548035,
      "learning_rate": 9.989537037707834e-06,
      "loss": 0.8422,
      "step": 1626
    },
    {
      "epoch": 0.08771835238300625,
      "grad_norm": 0.8824746608734131,
      "learning_rate": 9.9895233250815e-06,
      "loss": 0.8669,
      "step": 1627
    },
    {
      "epoch": 0.08777226655164977,
      "grad_norm": 0.8402838706970215,
      "learning_rate": 9.989509603484676e-06,
      "loss": 0.8072,
      "step": 1628
    },
    {
      "epoch": 0.08782618072029329,
      "grad_norm": 0.7537099719047546,
      "learning_rate": 9.989495872917386e-06,
      "loss": 0.7127,
      "step": 1629
    },
    {
      "epoch": 0.08788009488893682,
      "grad_norm": 0.78285151720047,
      "learning_rate": 9.989482133379656e-06,
      "loss": 0.819,
      "step": 1630
    },
    {
      "epoch": 0.08793400905758034,
      "grad_norm": 0.9339445233345032,
      "learning_rate": 9.98946838487151e-06,
      "loss": 0.8694,
      "step": 1631
    },
    {
      "epoch": 0.08798792322622385,
      "grad_norm": 0.8022040128707886,
      "learning_rate": 9.989454627392973e-06,
      "loss": 0.7601,
      "step": 1632
    },
    {
      "epoch": 0.08804183739486737,
      "grad_norm": 0.8593827486038208,
      "learning_rate": 9.98944086094407e-06,
      "loss": 0.8536,
      "step": 1633
    },
    {
      "epoch": 0.08809575156351089,
      "grad_norm": 0.8415039777755737,
      "learning_rate": 9.989427085524824e-06,
      "loss": 0.9027,
      "step": 1634
    },
    {
      "epoch": 0.08814966573215441,
      "grad_norm": 0.9551103711128235,
      "learning_rate": 9.989413301135263e-06,
      "loss": 0.8063,
      "step": 1635
    },
    {
      "epoch": 0.08820357990079793,
      "grad_norm": 0.8554351925849915,
      "learning_rate": 9.989399507775407e-06,
      "loss": 0.7694,
      "step": 1636
    },
    {
      "epoch": 0.08825749406944144,
      "grad_norm": 0.8688547015190125,
      "learning_rate": 9.989385705445285e-06,
      "loss": 0.8862,
      "step": 1637
    },
    {
      "epoch": 0.08831140823808496,
      "grad_norm": 0.816558837890625,
      "learning_rate": 9.98937189414492e-06,
      "loss": 0.7302,
      "step": 1638
    },
    {
      "epoch": 0.0883653224067285,
      "grad_norm": 0.8164445757865906,
      "learning_rate": 9.989358073874337e-06,
      "loss": 0.8724,
      "step": 1639
    },
    {
      "epoch": 0.08841923657537201,
      "grad_norm": 0.8909460306167603,
      "learning_rate": 9.989344244633564e-06,
      "loss": 0.7618,
      "step": 1640
    },
    {
      "epoch": 0.08847315074401553,
      "grad_norm": 1.0117470026016235,
      "learning_rate": 9.98933040642262e-06,
      "loss": 0.8191,
      "step": 1641
    },
    {
      "epoch": 0.08852706491265905,
      "grad_norm": 0.8317937850952148,
      "learning_rate": 9.989316559241533e-06,
      "loss": 0.8339,
      "step": 1642
    },
    {
      "epoch": 0.08858097908130257,
      "grad_norm": 0.7955135107040405,
      "learning_rate": 9.98930270309033e-06,
      "loss": 0.7799,
      "step": 1643
    },
    {
      "epoch": 0.08863489324994608,
      "grad_norm": 0.996306300163269,
      "learning_rate": 9.98928883796903e-06,
      "loss": 0.8547,
      "step": 1644
    },
    {
      "epoch": 0.0886888074185896,
      "grad_norm": 0.9679511189460754,
      "learning_rate": 9.989274963877664e-06,
      "loss": 1.0831,
      "step": 1645
    },
    {
      "epoch": 0.08874272158723312,
      "grad_norm": 0.8471615314483643,
      "learning_rate": 9.989261080816253e-06,
      "loss": 0.7765,
      "step": 1646
    },
    {
      "epoch": 0.08879663575587664,
      "grad_norm": 0.8662555813789368,
      "learning_rate": 9.989247188784826e-06,
      "loss": 0.8894,
      "step": 1647
    },
    {
      "epoch": 0.08885054992452017,
      "grad_norm": 0.9549373388290405,
      "learning_rate": 9.989233287783402e-06,
      "loss": 0.8341,
      "step": 1648
    },
    {
      "epoch": 0.08890446409316369,
      "grad_norm": 0.8179014325141907,
      "learning_rate": 9.989219377812014e-06,
      "loss": 0.8653,
      "step": 1649
    },
    {
      "epoch": 0.0889583782618072,
      "grad_norm": 0.9237802624702454,
      "learning_rate": 9.989205458870678e-06,
      "loss": 0.8206,
      "step": 1650
    },
    {
      "epoch": 0.08901229243045072,
      "grad_norm": 0.940217137336731,
      "learning_rate": 9.989191530959426e-06,
      "loss": 0.8695,
      "step": 1651
    },
    {
      "epoch": 0.08906620659909424,
      "grad_norm": 0.9200409054756165,
      "learning_rate": 9.98917759407828e-06,
      "loss": 0.7984,
      "step": 1652
    },
    {
      "epoch": 0.08912012076773776,
      "grad_norm": 0.9270562529563904,
      "learning_rate": 9.989163648227265e-06,
      "loss": 0.8265,
      "step": 1653
    },
    {
      "epoch": 0.08917403493638128,
      "grad_norm": 0.9945223331451416,
      "learning_rate": 9.989149693406408e-06,
      "loss": 0.84,
      "step": 1654
    },
    {
      "epoch": 0.0892279491050248,
      "grad_norm": 0.826195478439331,
      "learning_rate": 9.98913572961573e-06,
      "loss": 0.7862,
      "step": 1655
    },
    {
      "epoch": 0.08928186327366831,
      "grad_norm": 0.9132022857666016,
      "learning_rate": 9.989121756855263e-06,
      "loss": 0.826,
      "step": 1656
    },
    {
      "epoch": 0.08933577744231185,
      "grad_norm": 0.8559401631355286,
      "learning_rate": 9.989107775125023e-06,
      "loss": 0.8007,
      "step": 1657
    },
    {
      "epoch": 0.08938969161095536,
      "grad_norm": 0.8000867366790771,
      "learning_rate": 9.989093784425044e-06,
      "loss": 0.7547,
      "step": 1658
    },
    {
      "epoch": 0.08944360577959888,
      "grad_norm": 0.7761433720588684,
      "learning_rate": 9.989079784755346e-06,
      "loss": 0.8083,
      "step": 1659
    },
    {
      "epoch": 0.0894975199482424,
      "grad_norm": 0.8072230815887451,
      "learning_rate": 9.989065776115956e-06,
      "loss": 0.892,
      "step": 1660
    },
    {
      "epoch": 0.08955143411688592,
      "grad_norm": 0.9021360874176025,
      "learning_rate": 9.989051758506898e-06,
      "loss": 0.8715,
      "step": 1661
    },
    {
      "epoch": 0.08960534828552943,
      "grad_norm": 0.7585147023200989,
      "learning_rate": 9.989037731928197e-06,
      "loss": 0.7115,
      "step": 1662
    },
    {
      "epoch": 0.08965926245417295,
      "grad_norm": 0.9388399124145508,
      "learning_rate": 9.98902369637988e-06,
      "loss": 0.8976,
      "step": 1663
    },
    {
      "epoch": 0.08971317662281647,
      "grad_norm": 0.8454418778419495,
      "learning_rate": 9.989009651861972e-06,
      "loss": 0.8063,
      "step": 1664
    },
    {
      "epoch": 0.08976709079146,
      "grad_norm": 0.82308030128479,
      "learning_rate": 9.988995598374496e-06,
      "loss": 0.8044,
      "step": 1665
    },
    {
      "epoch": 0.08982100496010352,
      "grad_norm": 1.006800651550293,
      "learning_rate": 9.98898153591748e-06,
      "loss": 0.8609,
      "step": 1666
    },
    {
      "epoch": 0.08987491912874704,
      "grad_norm": 0.8325724601745605,
      "learning_rate": 9.988967464490947e-06,
      "loss": 0.8295,
      "step": 1667
    },
    {
      "epoch": 0.08992883329739056,
      "grad_norm": 0.7575547695159912,
      "learning_rate": 9.988953384094923e-06,
      "loss": 0.8252,
      "step": 1668
    },
    {
      "epoch": 0.08998274746603407,
      "grad_norm": 0.869877278804779,
      "learning_rate": 9.988939294729436e-06,
      "loss": 0.8304,
      "step": 1669
    },
    {
      "epoch": 0.09003666163467759,
      "grad_norm": 0.7840037941932678,
      "learning_rate": 9.988925196394508e-06,
      "loss": 0.7742,
      "step": 1670
    },
    {
      "epoch": 0.09009057580332111,
      "grad_norm": 0.8044409155845642,
      "learning_rate": 9.988911089090163e-06,
      "loss": 0.8371,
      "step": 1671
    },
    {
      "epoch": 0.09014448997196463,
      "grad_norm": 0.8635613322257996,
      "learning_rate": 9.988896972816431e-06,
      "loss": 0.7693,
      "step": 1672
    },
    {
      "epoch": 0.09019840414060815,
      "grad_norm": 0.7780656814575195,
      "learning_rate": 9.988882847573335e-06,
      "loss": 0.841,
      "step": 1673
    },
    {
      "epoch": 0.09025231830925168,
      "grad_norm": 0.8938048481941223,
      "learning_rate": 9.9888687133609e-06,
      "loss": 0.8149,
      "step": 1674
    },
    {
      "epoch": 0.0903062324778952,
      "grad_norm": 0.8432002663612366,
      "learning_rate": 9.988854570179152e-06,
      "loss": 0.853,
      "step": 1675
    },
    {
      "epoch": 0.09036014664653871,
      "grad_norm": 0.8222450613975525,
      "learning_rate": 9.988840418028118e-06,
      "loss": 0.897,
      "step": 1676
    },
    {
      "epoch": 0.09041406081518223,
      "grad_norm": 0.8370371460914612,
      "learning_rate": 9.98882625690782e-06,
      "loss": 0.8288,
      "step": 1677
    },
    {
      "epoch": 0.09046797498382575,
      "grad_norm": 0.8510713577270508,
      "learning_rate": 9.988812086818285e-06,
      "loss": 0.7637,
      "step": 1678
    },
    {
      "epoch": 0.09052188915246927,
      "grad_norm": 0.8271141648292542,
      "learning_rate": 9.98879790775954e-06,
      "loss": 0.853,
      "step": 1679
    },
    {
      "epoch": 0.09057580332111279,
      "grad_norm": 1.0627025365829468,
      "learning_rate": 9.988783719731607e-06,
      "loss": 0.7569,
      "step": 1680
    },
    {
      "epoch": 0.0906297174897563,
      "grad_norm": 0.880283534526825,
      "learning_rate": 9.988769522734517e-06,
      "loss": 0.8362,
      "step": 1681
    },
    {
      "epoch": 0.09068363165839982,
      "grad_norm": 0.8721734881401062,
      "learning_rate": 9.988755316768288e-06,
      "loss": 0.8585,
      "step": 1682
    },
    {
      "epoch": 0.09073754582704335,
      "grad_norm": 0.8830682039260864,
      "learning_rate": 9.988741101832952e-06,
      "loss": 0.8853,
      "step": 1683
    },
    {
      "epoch": 0.09079145999568687,
      "grad_norm": 0.7676220536231995,
      "learning_rate": 9.988726877928534e-06,
      "loss": 0.7832,
      "step": 1684
    },
    {
      "epoch": 0.09084537416433039,
      "grad_norm": 0.866149365901947,
      "learning_rate": 9.988712645055055e-06,
      "loss": 0.8534,
      "step": 1685
    },
    {
      "epoch": 0.09089928833297391,
      "grad_norm": 0.8467028141021729,
      "learning_rate": 9.988698403212546e-06,
      "loss": 0.8637,
      "step": 1686
    },
    {
      "epoch": 0.09095320250161743,
      "grad_norm": 0.913436770439148,
      "learning_rate": 9.988684152401028e-06,
      "loss": 0.855,
      "step": 1687
    },
    {
      "epoch": 0.09100711667026094,
      "grad_norm": 0.8307977914810181,
      "learning_rate": 9.98866989262053e-06,
      "loss": 0.8538,
      "step": 1688
    },
    {
      "epoch": 0.09106103083890446,
      "grad_norm": 1.13442862033844,
      "learning_rate": 9.988655623871075e-06,
      "loss": 0.8129,
      "step": 1689
    },
    {
      "epoch": 0.09111494500754798,
      "grad_norm": 0.8950080871582031,
      "learning_rate": 9.988641346152692e-06,
      "loss": 0.8674,
      "step": 1690
    },
    {
      "epoch": 0.0911688591761915,
      "grad_norm": 0.9107043147087097,
      "learning_rate": 9.988627059465403e-06,
      "loss": 0.9507,
      "step": 1691
    },
    {
      "epoch": 0.09122277334483503,
      "grad_norm": 0.8210874795913696,
      "learning_rate": 9.988612763809237e-06,
      "loss": 0.8913,
      "step": 1692
    },
    {
      "epoch": 0.09127668751347855,
      "grad_norm": 1.0306476354599,
      "learning_rate": 9.988598459184217e-06,
      "loss": 0.8589,
      "step": 1693
    },
    {
      "epoch": 0.09133060168212206,
      "grad_norm": 0.7582615613937378,
      "learning_rate": 9.98858414559037e-06,
      "loss": 0.7482,
      "step": 1694
    },
    {
      "epoch": 0.09138451585076558,
      "grad_norm": 0.8572216629981995,
      "learning_rate": 9.98856982302772e-06,
      "loss": 0.822,
      "step": 1695
    },
    {
      "epoch": 0.0914384300194091,
      "grad_norm": 0.9358139038085938,
      "learning_rate": 9.988555491496297e-06,
      "loss": 0.8298,
      "step": 1696
    },
    {
      "epoch": 0.09149234418805262,
      "grad_norm": 0.8705672025680542,
      "learning_rate": 9.988541150996123e-06,
      "loss": 0.8818,
      "step": 1697
    },
    {
      "epoch": 0.09154625835669614,
      "grad_norm": 0.9081273674964905,
      "learning_rate": 9.988526801527224e-06,
      "loss": 0.8994,
      "step": 1698
    },
    {
      "epoch": 0.09160017252533965,
      "grad_norm": 0.7358905076980591,
      "learning_rate": 9.988512443089627e-06,
      "loss": 0.7752,
      "step": 1699
    },
    {
      "epoch": 0.09165408669398317,
      "grad_norm": 0.8570963740348816,
      "learning_rate": 9.988498075683357e-06,
      "loss": 0.908,
      "step": 1700
    },
    {
      "epoch": 0.0917080008626267,
      "grad_norm": 0.8998208045959473,
      "learning_rate": 9.988483699308442e-06,
      "loss": 0.8561,
      "step": 1701
    },
    {
      "epoch": 0.09176191503127022,
      "grad_norm": 0.7481779456138611,
      "learning_rate": 9.988469313964903e-06,
      "loss": 0.7184,
      "step": 1702
    },
    {
      "epoch": 0.09181582919991374,
      "grad_norm": 1.052809238433838,
      "learning_rate": 9.988454919652772e-06,
      "loss": 0.8579,
      "step": 1703
    },
    {
      "epoch": 0.09186974336855726,
      "grad_norm": 0.8492130637168884,
      "learning_rate": 9.988440516372071e-06,
      "loss": 0.8796,
      "step": 1704
    },
    {
      "epoch": 0.09192365753720078,
      "grad_norm": 0.884483277797699,
      "learning_rate": 9.988426104122826e-06,
      "loss": 0.8781,
      "step": 1705
    },
    {
      "epoch": 0.0919775717058443,
      "grad_norm": 0.8844857811927795,
      "learning_rate": 9.988411682905065e-06,
      "loss": 0.8981,
      "step": 1706
    },
    {
      "epoch": 0.09203148587448781,
      "grad_norm": 0.906216025352478,
      "learning_rate": 9.988397252718811e-06,
      "loss": 0.8741,
      "step": 1707
    },
    {
      "epoch": 0.09208540004313133,
      "grad_norm": 0.8565787076950073,
      "learning_rate": 9.988382813564092e-06,
      "loss": 0.7358,
      "step": 1708
    },
    {
      "epoch": 0.09213931421177485,
      "grad_norm": 0.8036391139030457,
      "learning_rate": 9.988368365440935e-06,
      "loss": 0.7966,
      "step": 1709
    },
    {
      "epoch": 0.09219322838041838,
      "grad_norm": 1.1708556413650513,
      "learning_rate": 9.988353908349361e-06,
      "loss": 0.8385,
      "step": 1710
    },
    {
      "epoch": 0.0922471425490619,
      "grad_norm": 0.8536746501922607,
      "learning_rate": 9.988339442289403e-06,
      "loss": 0.7387,
      "step": 1711
    },
    {
      "epoch": 0.09230105671770542,
      "grad_norm": 0.8376518487930298,
      "learning_rate": 9.988324967261083e-06,
      "loss": 0.8537,
      "step": 1712
    },
    {
      "epoch": 0.09235497088634893,
      "grad_norm": 0.8793227672576904,
      "learning_rate": 9.988310483264426e-06,
      "loss": 0.8028,
      "step": 1713
    },
    {
      "epoch": 0.09240888505499245,
      "grad_norm": 0.8186830282211304,
      "learning_rate": 9.98829599029946e-06,
      "loss": 0.8478,
      "step": 1714
    },
    {
      "epoch": 0.09246279922363597,
      "grad_norm": 0.8845428824424744,
      "learning_rate": 9.98828148836621e-06,
      "loss": 0.8524,
      "step": 1715
    },
    {
      "epoch": 0.09251671339227949,
      "grad_norm": 1.0494492053985596,
      "learning_rate": 9.988266977464704e-06,
      "loss": 0.8542,
      "step": 1716
    },
    {
      "epoch": 0.092570627560923,
      "grad_norm": 0.8876493573188782,
      "learning_rate": 9.988252457594966e-06,
      "loss": 0.8989,
      "step": 1717
    },
    {
      "epoch": 0.09262454172956654,
      "grad_norm": 0.8787088394165039,
      "learning_rate": 9.988237928757024e-06,
      "loss": 0.8214,
      "step": 1718
    },
    {
      "epoch": 0.09267845589821005,
      "grad_norm": 1.069684624671936,
      "learning_rate": 9.988223390950901e-06,
      "loss": 0.9714,
      "step": 1719
    },
    {
      "epoch": 0.09273237006685357,
      "grad_norm": 0.7957501411437988,
      "learning_rate": 9.988208844176626e-06,
      "loss": 0.7562,
      "step": 1720
    },
    {
      "epoch": 0.09278628423549709,
      "grad_norm": 0.8354908227920532,
      "learning_rate": 9.988194288434225e-06,
      "loss": 0.7494,
      "step": 1721
    },
    {
      "epoch": 0.09284019840414061,
      "grad_norm": 0.8205936551094055,
      "learning_rate": 9.988179723723722e-06,
      "loss": 0.7727,
      "step": 1722
    },
    {
      "epoch": 0.09289411257278413,
      "grad_norm": 0.8364951014518738,
      "learning_rate": 9.988165150045146e-06,
      "loss": 0.861,
      "step": 1723
    },
    {
      "epoch": 0.09294802674142764,
      "grad_norm": 0.8664119243621826,
      "learning_rate": 9.98815056739852e-06,
      "loss": 0.8512,
      "step": 1724
    },
    {
      "epoch": 0.09300194091007116,
      "grad_norm": 0.9565482139587402,
      "learning_rate": 9.988135975783874e-06,
      "loss": 0.8606,
      "step": 1725
    },
    {
      "epoch": 0.09305585507871468,
      "grad_norm": 0.8696085214614868,
      "learning_rate": 9.988121375201232e-06,
      "loss": 0.8614,
      "step": 1726
    },
    {
      "epoch": 0.09310976924735821,
      "grad_norm": 0.8623467683792114,
      "learning_rate": 9.98810676565062e-06,
      "loss": 0.8547,
      "step": 1727
    },
    {
      "epoch": 0.09316368341600173,
      "grad_norm": 0.8284831047058105,
      "learning_rate": 9.988092147132064e-06,
      "loss": 0.8376,
      "step": 1728
    },
    {
      "epoch": 0.09321759758464525,
      "grad_norm": 0.7768245339393616,
      "learning_rate": 9.988077519645591e-06,
      "loss": 0.7472,
      "step": 1729
    },
    {
      "epoch": 0.09327151175328877,
      "grad_norm": 1.221225619316101,
      "learning_rate": 9.988062883191228e-06,
      "loss": 0.9052,
      "step": 1730
    },
    {
      "epoch": 0.09332542592193228,
      "grad_norm": 1.0027954578399658,
      "learning_rate": 9.988048237769002e-06,
      "loss": 0.9411,
      "step": 1731
    },
    {
      "epoch": 0.0933793400905758,
      "grad_norm": 0.8029824495315552,
      "learning_rate": 9.988033583378937e-06,
      "loss": 0.8141,
      "step": 1732
    },
    {
      "epoch": 0.09343325425921932,
      "grad_norm": 0.8081389665603638,
      "learning_rate": 9.98801892002106e-06,
      "loss": 0.7977,
      "step": 1733
    },
    {
      "epoch": 0.09348716842786284,
      "grad_norm": 0.887438952922821,
      "learning_rate": 9.988004247695398e-06,
      "loss": 0.8574,
      "step": 1734
    },
    {
      "epoch": 0.09354108259650636,
      "grad_norm": 0.887238085269928,
      "learning_rate": 9.987989566401977e-06,
      "loss": 0.9041,
      "step": 1735
    },
    {
      "epoch": 0.09359499676514989,
      "grad_norm": 0.9135997891426086,
      "learning_rate": 9.987974876140822e-06,
      "loss": 0.738,
      "step": 1736
    },
    {
      "epoch": 0.0936489109337934,
      "grad_norm": 0.7749861478805542,
      "learning_rate": 9.987960176911964e-06,
      "loss": 0.773,
      "step": 1737
    },
    {
      "epoch": 0.09370282510243692,
      "grad_norm": 0.7850096225738525,
      "learning_rate": 9.987945468715425e-06,
      "loss": 0.7924,
      "step": 1738
    },
    {
      "epoch": 0.09375673927108044,
      "grad_norm": 0.8044145107269287,
      "learning_rate": 9.987930751551231e-06,
      "loss": 0.8196,
      "step": 1739
    },
    {
      "epoch": 0.09381065343972396,
      "grad_norm": 0.8781464695930481,
      "learning_rate": 9.987916025419413e-06,
      "loss": 0.9337,
      "step": 1740
    },
    {
      "epoch": 0.09386456760836748,
      "grad_norm": 1.0839952230453491,
      "learning_rate": 9.987901290319993e-06,
      "loss": 0.8092,
      "step": 1741
    },
    {
      "epoch": 0.093918481777011,
      "grad_norm": 0.7910736203193665,
      "learning_rate": 9.987886546253e-06,
      "loss": 0.8775,
      "step": 1742
    },
    {
      "epoch": 0.09397239594565451,
      "grad_norm": 0.887287974357605,
      "learning_rate": 9.98787179321846e-06,
      "loss": 0.8271,
      "step": 1743
    },
    {
      "epoch": 0.09402631011429803,
      "grad_norm": 1.1318427324295044,
      "learning_rate": 9.987857031216397e-06,
      "loss": 0.8328,
      "step": 1744
    },
    {
      "epoch": 0.09408022428294156,
      "grad_norm": 0.8660401105880737,
      "learning_rate": 9.987842260246842e-06,
      "loss": 0.8647,
      "step": 1745
    },
    {
      "epoch": 0.09413413845158508,
      "grad_norm": 0.9396790266036987,
      "learning_rate": 9.98782748030982e-06,
      "loss": 0.9373,
      "step": 1746
    },
    {
      "epoch": 0.0941880526202286,
      "grad_norm": 0.8715323209762573,
      "learning_rate": 9.987812691405353e-06,
      "loss": 0.8621,
      "step": 1747
    },
    {
      "epoch": 0.09424196678887212,
      "grad_norm": 0.7882347106933594,
      "learning_rate": 9.987797893533475e-06,
      "loss": 0.7283,
      "step": 1748
    },
    {
      "epoch": 0.09429588095751563,
      "grad_norm": 0.9641733765602112,
      "learning_rate": 9.987783086694208e-06,
      "loss": 0.8038,
      "step": 1749
    },
    {
      "epoch": 0.09434979512615915,
      "grad_norm": 0.8808518648147583,
      "learning_rate": 9.98776827088758e-06,
      "loss": 0.8072,
      "step": 1750
    },
    {
      "epoch": 0.09440370929480267,
      "grad_norm": 0.7720713019371033,
      "learning_rate": 9.987753446113618e-06,
      "loss": 0.7786,
      "step": 1751
    },
    {
      "epoch": 0.09445762346344619,
      "grad_norm": 1.0507936477661133,
      "learning_rate": 9.987738612372346e-06,
      "loss": 0.9302,
      "step": 1752
    },
    {
      "epoch": 0.0945115376320897,
      "grad_norm": 0.7705017328262329,
      "learning_rate": 9.987723769663795e-06,
      "loss": 0.7366,
      "step": 1753
    },
    {
      "epoch": 0.09456545180073324,
      "grad_norm": 0.82464200258255,
      "learning_rate": 9.987708917987989e-06,
      "loss": 0.8063,
      "step": 1754
    },
    {
      "epoch": 0.09461936596937676,
      "grad_norm": 0.9387272000312805,
      "learning_rate": 9.987694057344953e-06,
      "loss": 0.8108,
      "step": 1755
    },
    {
      "epoch": 0.09467328013802027,
      "grad_norm": 0.9161933064460754,
      "learning_rate": 9.987679187734717e-06,
      "loss": 0.8331,
      "step": 1756
    },
    {
      "epoch": 0.09472719430666379,
      "grad_norm": 0.9379769563674927,
      "learning_rate": 9.987664309157306e-06,
      "loss": 0.9064,
      "step": 1757
    },
    {
      "epoch": 0.09478110847530731,
      "grad_norm": 0.9597976803779602,
      "learning_rate": 9.987649421612748e-06,
      "loss": 0.7785,
      "step": 1758
    },
    {
      "epoch": 0.09483502264395083,
      "grad_norm": 0.8689720630645752,
      "learning_rate": 9.98763452510107e-06,
      "loss": 0.7828,
      "step": 1759
    },
    {
      "epoch": 0.09488893681259435,
      "grad_norm": 0.9207726716995239,
      "learning_rate": 9.987619619622296e-06,
      "loss": 0.7853,
      "step": 1760
    },
    {
      "epoch": 0.09494285098123786,
      "grad_norm": 0.8130320310592651,
      "learning_rate": 9.987604705176455e-06,
      "loss": 0.858,
      "step": 1761
    },
    {
      "epoch": 0.09499676514988138,
      "grad_norm": 0.9004638195037842,
      "learning_rate": 9.987589781763574e-06,
      "loss": 0.8148,
      "step": 1762
    },
    {
      "epoch": 0.09505067931852491,
      "grad_norm": 0.8554181456565857,
      "learning_rate": 9.987574849383678e-06,
      "loss": 0.8103,
      "step": 1763
    },
    {
      "epoch": 0.09510459348716843,
      "grad_norm": 0.9148527979850769,
      "learning_rate": 9.987559908036797e-06,
      "loss": 0.9467,
      "step": 1764
    },
    {
      "epoch": 0.09515850765581195,
      "grad_norm": 0.890083909034729,
      "learning_rate": 9.987544957722956e-06,
      "loss": 0.8338,
      "step": 1765
    },
    {
      "epoch": 0.09521242182445547,
      "grad_norm": 0.8118012547492981,
      "learning_rate": 9.98752999844218e-06,
      "loss": 0.8355,
      "step": 1766
    },
    {
      "epoch": 0.09526633599309899,
      "grad_norm": 0.8115151524543762,
      "learning_rate": 9.987515030194498e-06,
      "loss": 0.9172,
      "step": 1767
    },
    {
      "epoch": 0.0953202501617425,
      "grad_norm": 0.8750082850456238,
      "learning_rate": 9.987500052979938e-06,
      "loss": 0.8301,
      "step": 1768
    },
    {
      "epoch": 0.09537416433038602,
      "grad_norm": 0.9008756875991821,
      "learning_rate": 9.987485066798525e-06,
      "loss": 0.8642,
      "step": 1769
    },
    {
      "epoch": 0.09542807849902954,
      "grad_norm": 0.8335922956466675,
      "learning_rate": 9.987470071650287e-06,
      "loss": 0.8466,
      "step": 1770
    },
    {
      "epoch": 0.09548199266767307,
      "grad_norm": 0.8604272603988647,
      "learning_rate": 9.987455067535249e-06,
      "loss": 0.8801,
      "step": 1771
    },
    {
      "epoch": 0.09553590683631659,
      "grad_norm": 0.889854371547699,
      "learning_rate": 9.98744005445344e-06,
      "loss": 0.8804,
      "step": 1772
    },
    {
      "epoch": 0.09558982100496011,
      "grad_norm": 0.8756876587867737,
      "learning_rate": 9.987425032404887e-06,
      "loss": 0.8367,
      "step": 1773
    },
    {
      "epoch": 0.09564373517360363,
      "grad_norm": 0.9071298837661743,
      "learning_rate": 9.987410001389616e-06,
      "loss": 0.8875,
      "step": 1774
    },
    {
      "epoch": 0.09569764934224714,
      "grad_norm": 0.8214284777641296,
      "learning_rate": 9.987394961407654e-06,
      "loss": 0.7859,
      "step": 1775
    },
    {
      "epoch": 0.09575156351089066,
      "grad_norm": 0.940034806728363,
      "learning_rate": 9.98737991245903e-06,
      "loss": 0.8272,
      "step": 1776
    },
    {
      "epoch": 0.09580547767953418,
      "grad_norm": 0.8156501054763794,
      "learning_rate": 9.987364854543768e-06,
      "loss": 0.7831,
      "step": 1777
    },
    {
      "epoch": 0.0958593918481777,
      "grad_norm": 0.8450450301170349,
      "learning_rate": 9.987349787661898e-06,
      "loss": 0.7888,
      "step": 1778
    },
    {
      "epoch": 0.09591330601682121,
      "grad_norm": 0.8143148422241211,
      "learning_rate": 9.987334711813446e-06,
      "loss": 0.7593,
      "step": 1779
    },
    {
      "epoch": 0.09596722018546475,
      "grad_norm": 1.0489457845687866,
      "learning_rate": 9.987319626998437e-06,
      "loss": 0.8248,
      "step": 1780
    },
    {
      "epoch": 0.09602113435410826,
      "grad_norm": 0.9584689140319824,
      "learning_rate": 9.987304533216901e-06,
      "loss": 0.9025,
      "step": 1781
    },
    {
      "epoch": 0.09607504852275178,
      "grad_norm": 0.8366501331329346,
      "learning_rate": 9.987289430468862e-06,
      "loss": 0.7513,
      "step": 1782
    },
    {
      "epoch": 0.0961289626913953,
      "grad_norm": 0.9896461963653564,
      "learning_rate": 9.987274318754352e-06,
      "loss": 0.8598,
      "step": 1783
    },
    {
      "epoch": 0.09618287686003882,
      "grad_norm": 1.1904568672180176,
      "learning_rate": 9.987259198073396e-06,
      "loss": 0.9143,
      "step": 1784
    },
    {
      "epoch": 0.09623679102868234,
      "grad_norm": 0.8100086450576782,
      "learning_rate": 9.987244068426019e-06,
      "loss": 0.7733,
      "step": 1785
    },
    {
      "epoch": 0.09629070519732585,
      "grad_norm": 0.7814387083053589,
      "learning_rate": 9.987228929812249e-06,
      "loss": 0.7735,
      "step": 1786
    },
    {
      "epoch": 0.09634461936596937,
      "grad_norm": 0.8880924582481384,
      "learning_rate": 9.987213782232115e-06,
      "loss": 0.8377,
      "step": 1787
    },
    {
      "epoch": 0.09639853353461289,
      "grad_norm": 0.8739203810691833,
      "learning_rate": 9.987198625685643e-06,
      "loss": 0.8851,
      "step": 1788
    },
    {
      "epoch": 0.09645244770325642,
      "grad_norm": 0.8984062671661377,
      "learning_rate": 9.987183460172861e-06,
      "loss": 0.8773,
      "step": 1789
    },
    {
      "epoch": 0.09650636187189994,
      "grad_norm": 1.2485296726226807,
      "learning_rate": 9.987168285693795e-06,
      "loss": 0.787,
      "step": 1790
    },
    {
      "epoch": 0.09656027604054346,
      "grad_norm": 0.8414161205291748,
      "learning_rate": 9.987153102248474e-06,
      "loss": 0.7895,
      "step": 1791
    },
    {
      "epoch": 0.09661419020918698,
      "grad_norm": 0.7895180583000183,
      "learning_rate": 9.987137909836924e-06,
      "loss": 0.7592,
      "step": 1792
    },
    {
      "epoch": 0.0966681043778305,
      "grad_norm": 1.0752787590026855,
      "learning_rate": 9.987122708459173e-06,
      "loss": 0.8472,
      "step": 1793
    },
    {
      "epoch": 0.09672201854647401,
      "grad_norm": 0.9069424271583557,
      "learning_rate": 9.987107498115247e-06,
      "loss": 0.8746,
      "step": 1794
    },
    {
      "epoch": 0.09677593271511753,
      "grad_norm": 0.8566716909408569,
      "learning_rate": 9.987092278805175e-06,
      "loss": 0.7604,
      "step": 1795
    },
    {
      "epoch": 0.09682984688376105,
      "grad_norm": 0.833852231502533,
      "learning_rate": 9.987077050528983e-06,
      "loss": 0.8645,
      "step": 1796
    },
    {
      "epoch": 0.09688376105240457,
      "grad_norm": 0.8439596891403198,
      "learning_rate": 9.9870618132867e-06,
      "loss": 0.7673,
      "step": 1797
    },
    {
      "epoch": 0.0969376752210481,
      "grad_norm": 0.9743669629096985,
      "learning_rate": 9.987046567078352e-06,
      "loss": 0.7754,
      "step": 1798
    },
    {
      "epoch": 0.09699158938969162,
      "grad_norm": 0.9291634559631348,
      "learning_rate": 9.987031311903968e-06,
      "loss": 0.8431,
      "step": 1799
    },
    {
      "epoch": 0.09704550355833513,
      "grad_norm": 1.169450283050537,
      "learning_rate": 9.987016047763571e-06,
      "loss": 0.9321,
      "step": 1800
    },
    {
      "epoch": 0.09709941772697865,
      "grad_norm": 0.7758163809776306,
      "learning_rate": 9.987000774657195e-06,
      "loss": 0.7832,
      "step": 1801
    },
    {
      "epoch": 0.09715333189562217,
      "grad_norm": 0.9673672914505005,
      "learning_rate": 9.986985492584863e-06,
      "loss": 0.9822,
      "step": 1802
    },
    {
      "epoch": 0.09720724606426569,
      "grad_norm": 1.1516417264938354,
      "learning_rate": 9.986970201546605e-06,
      "loss": 0.9956,
      "step": 1803
    },
    {
      "epoch": 0.0972611602329092,
      "grad_norm": 0.9660587906837463,
      "learning_rate": 9.986954901542445e-06,
      "loss": 0.8248,
      "step": 1804
    },
    {
      "epoch": 0.09731507440155272,
      "grad_norm": 0.9452739953994751,
      "learning_rate": 9.986939592572413e-06,
      "loss": 0.8805,
      "step": 1805
    },
    {
      "epoch": 0.09736898857019624,
      "grad_norm": 0.9339364171028137,
      "learning_rate": 9.986924274636538e-06,
      "loss": 0.8819,
      "step": 1806
    },
    {
      "epoch": 0.09742290273883977,
      "grad_norm": 0.9344542026519775,
      "learning_rate": 9.986908947734844e-06,
      "loss": 0.8531,
      "step": 1807
    },
    {
      "epoch": 0.09747681690748329,
      "grad_norm": 0.8910528421401978,
      "learning_rate": 9.986893611867362e-06,
      "loss": 0.8949,
      "step": 1808
    },
    {
      "epoch": 0.09753073107612681,
      "grad_norm": 0.8484895825386047,
      "learning_rate": 9.986878267034115e-06,
      "loss": 0.8028,
      "step": 1809
    },
    {
      "epoch": 0.09758464524477033,
      "grad_norm": 1.0784810781478882,
      "learning_rate": 9.986862913235135e-06,
      "loss": 0.9564,
      "step": 1810
    },
    {
      "epoch": 0.09763855941341384,
      "grad_norm": 0.8350296020507812,
      "learning_rate": 9.98684755047045e-06,
      "loss": 0.8672,
      "step": 1811
    },
    {
      "epoch": 0.09769247358205736,
      "grad_norm": 0.8558050990104675,
      "learning_rate": 9.986832178740084e-06,
      "loss": 0.8538,
      "step": 1812
    },
    {
      "epoch": 0.09774638775070088,
      "grad_norm": 0.8633396029472351,
      "learning_rate": 9.986816798044066e-06,
      "loss": 0.8356,
      "step": 1813
    },
    {
      "epoch": 0.0978003019193444,
      "grad_norm": 0.8256344199180603,
      "learning_rate": 9.986801408382424e-06,
      "loss": 0.7552,
      "step": 1814
    },
    {
      "epoch": 0.09785421608798792,
      "grad_norm": 0.872844398021698,
      "learning_rate": 9.986786009755186e-06,
      "loss": 0.9153,
      "step": 1815
    },
    {
      "epoch": 0.09790813025663145,
      "grad_norm": 0.842241108417511,
      "learning_rate": 9.986770602162378e-06,
      "loss": 0.7965,
      "step": 1816
    },
    {
      "epoch": 0.09796204442527497,
      "grad_norm": 0.9673634171485901,
      "learning_rate": 9.98675518560403e-06,
      "loss": 0.8317,
      "step": 1817
    },
    {
      "epoch": 0.09801595859391848,
      "grad_norm": 0.8744896650314331,
      "learning_rate": 9.98673976008017e-06,
      "loss": 0.7342,
      "step": 1818
    },
    {
      "epoch": 0.098069872762562,
      "grad_norm": 0.7830422520637512,
      "learning_rate": 9.986724325590825e-06,
      "loss": 0.721,
      "step": 1819
    },
    {
      "epoch": 0.09812378693120552,
      "grad_norm": 1.0335441827774048,
      "learning_rate": 9.986708882136021e-06,
      "loss": 0.8088,
      "step": 1820
    },
    {
      "epoch": 0.09817770109984904,
      "grad_norm": 0.841342568397522,
      "learning_rate": 9.986693429715785e-06,
      "loss": 0.8847,
      "step": 1821
    },
    {
      "epoch": 0.09823161526849256,
      "grad_norm": 0.9405834674835205,
      "learning_rate": 9.98667796833015e-06,
      "loss": 0.8878,
      "step": 1822
    },
    {
      "epoch": 0.09828552943713607,
      "grad_norm": 0.8358225226402283,
      "learning_rate": 9.986662497979138e-06,
      "loss": 0.7377,
      "step": 1823
    },
    {
      "epoch": 0.0983394436057796,
      "grad_norm": 0.8844004273414612,
      "learning_rate": 9.98664701866278e-06,
      "loss": 0.7236,
      "step": 1824
    },
    {
      "epoch": 0.09839335777442312,
      "grad_norm": 0.8165417313575745,
      "learning_rate": 9.986631530381105e-06,
      "loss": 0.819,
      "step": 1825
    },
    {
      "epoch": 0.09844727194306664,
      "grad_norm": 0.9569553732872009,
      "learning_rate": 9.986616033134137e-06,
      "loss": 0.9337,
      "step": 1826
    },
    {
      "epoch": 0.09850118611171016,
      "grad_norm": 0.8311771750450134,
      "learning_rate": 9.986600526921907e-06,
      "loss": 0.8516,
      "step": 1827
    },
    {
      "epoch": 0.09855510028035368,
      "grad_norm": 0.9444357752799988,
      "learning_rate": 9.986585011744441e-06,
      "loss": 0.805,
      "step": 1828
    },
    {
      "epoch": 0.0986090144489972,
      "grad_norm": 1.0128875970840454,
      "learning_rate": 9.986569487601769e-06,
      "loss": 0.8514,
      "step": 1829
    },
    {
      "epoch": 0.09866292861764071,
      "grad_norm": 0.8973994255065918,
      "learning_rate": 9.986553954493917e-06,
      "loss": 0.7938,
      "step": 1830
    },
    {
      "epoch": 0.09871684278628423,
      "grad_norm": 0.8571779131889343,
      "learning_rate": 9.986538412420912e-06,
      "loss": 0.7506,
      "step": 1831
    },
    {
      "epoch": 0.09877075695492775,
      "grad_norm": 0.9053436517715454,
      "learning_rate": 9.986522861382785e-06,
      "loss": 0.8551,
      "step": 1832
    },
    {
      "epoch": 0.09882467112357128,
      "grad_norm": 0.9941746592521667,
      "learning_rate": 9.986507301379562e-06,
      "loss": 0.8828,
      "step": 1833
    },
    {
      "epoch": 0.0988785852922148,
      "grad_norm": 0.9620066285133362,
      "learning_rate": 9.986491732411272e-06,
      "loss": 0.8982,
      "step": 1834
    },
    {
      "epoch": 0.09893249946085832,
      "grad_norm": 0.9470074772834778,
      "learning_rate": 9.986476154477941e-06,
      "loss": 0.8295,
      "step": 1835
    },
    {
      "epoch": 0.09898641362950183,
      "grad_norm": 0.9962137937545776,
      "learning_rate": 9.986460567579599e-06,
      "loss": 0.8714,
      "step": 1836
    },
    {
      "epoch": 0.09904032779814535,
      "grad_norm": 0.8492829203605652,
      "learning_rate": 9.986444971716273e-06,
      "loss": 0.8234,
      "step": 1837
    },
    {
      "epoch": 0.09909424196678887,
      "grad_norm": 0.9463719725608826,
      "learning_rate": 9.986429366887994e-06,
      "loss": 0.7769,
      "step": 1838
    },
    {
      "epoch": 0.09914815613543239,
      "grad_norm": 0.8588153123855591,
      "learning_rate": 9.986413753094786e-06,
      "loss": 0.8883,
      "step": 1839
    },
    {
      "epoch": 0.0992020703040759,
      "grad_norm": 0.7692183256149292,
      "learning_rate": 9.986398130336677e-06,
      "loss": 0.7691,
      "step": 1840
    },
    {
      "epoch": 0.09925598447271942,
      "grad_norm": 0.8377199172973633,
      "learning_rate": 9.986382498613699e-06,
      "loss": 0.789,
      "step": 1841
    },
    {
      "epoch": 0.09930989864136296,
      "grad_norm": 0.9783869385719299,
      "learning_rate": 9.986366857925876e-06,
      "loss": 0.8517,
      "step": 1842
    },
    {
      "epoch": 0.09936381281000647,
      "grad_norm": 0.8233169913291931,
      "learning_rate": 9.986351208273239e-06,
      "loss": 0.8701,
      "step": 1843
    },
    {
      "epoch": 0.09941772697864999,
      "grad_norm": 0.9393780827522278,
      "learning_rate": 9.986335549655814e-06,
      "loss": 0.8837,
      "step": 1844
    },
    {
      "epoch": 0.09947164114729351,
      "grad_norm": 0.8517693877220154,
      "learning_rate": 9.986319882073631e-06,
      "loss": 0.9043,
      "step": 1845
    },
    {
      "epoch": 0.09952555531593703,
      "grad_norm": 0.8296724557876587,
      "learning_rate": 9.986304205526718e-06,
      "loss": 0.7406,
      "step": 1846
    },
    {
      "epoch": 0.09957946948458055,
      "grad_norm": 0.8372161388397217,
      "learning_rate": 9.986288520015102e-06,
      "loss": 0.7763,
      "step": 1847
    },
    {
      "epoch": 0.09963338365322406,
      "grad_norm": 0.8086470365524292,
      "learning_rate": 9.986272825538812e-06,
      "loss": 0.8786,
      "step": 1848
    },
    {
      "epoch": 0.09968729782186758,
      "grad_norm": 0.8562842011451721,
      "learning_rate": 9.986257122097875e-06,
      "loss": 0.8391,
      "step": 1849
    },
    {
      "epoch": 0.0997412119905111,
      "grad_norm": 0.9052720665931702,
      "learning_rate": 9.986241409692321e-06,
      "loss": 0.948,
      "step": 1850
    },
    {
      "epoch": 0.09979512615915463,
      "grad_norm": 0.8220609426498413,
      "learning_rate": 9.986225688322178e-06,
      "loss": 0.8039,
      "step": 1851
    },
    {
      "epoch": 0.09984904032779815,
      "grad_norm": 0.8018030524253845,
      "learning_rate": 9.98620995798747e-06,
      "loss": 0.7748,
      "step": 1852
    },
    {
      "epoch": 0.09990295449644167,
      "grad_norm": 0.8150879144668579,
      "learning_rate": 9.986194218688235e-06,
      "loss": 0.7304,
      "step": 1853
    },
    {
      "epoch": 0.09995686866508519,
      "grad_norm": 0.8677535653114319,
      "learning_rate": 9.98617847042449e-06,
      "loss": 0.8756,
      "step": 1854
    },
    {
      "epoch": 0.1000107828337287,
      "grad_norm": 0.8889294862747192,
      "learning_rate": 9.986162713196272e-06,
      "loss": 0.8926,
      "step": 1855
    },
    {
      "epoch": 0.10006469700237222,
      "grad_norm": 0.7618375420570374,
      "learning_rate": 9.986146947003603e-06,
      "loss": 0.7317,
      "step": 1856
    },
    {
      "epoch": 0.10011861117101574,
      "grad_norm": 0.8775038719177246,
      "learning_rate": 9.986131171846518e-06,
      "loss": 0.8318,
      "step": 1857
    },
    {
      "epoch": 0.10017252533965926,
      "grad_norm": 0.9671807289123535,
      "learning_rate": 9.986115387725039e-06,
      "loss": 0.7412,
      "step": 1858
    },
    {
      "epoch": 0.10022643950830278,
      "grad_norm": 0.8808870911598206,
      "learning_rate": 9.986099594639197e-06,
      "loss": 0.8213,
      "step": 1859
    },
    {
      "epoch": 0.10028035367694631,
      "grad_norm": 0.8104208707809448,
      "learning_rate": 9.986083792589021e-06,
      "loss": 0.8108,
      "step": 1860
    },
    {
      "epoch": 0.10033426784558983,
      "grad_norm": 0.839911937713623,
      "learning_rate": 9.986067981574538e-06,
      "loss": 0.8391,
      "step": 1861
    },
    {
      "epoch": 0.10038818201423334,
      "grad_norm": 0.8402823805809021,
      "learning_rate": 9.986052161595778e-06,
      "loss": 0.7434,
      "step": 1862
    },
    {
      "epoch": 0.10044209618287686,
      "grad_norm": 0.7591431140899658,
      "learning_rate": 9.986036332652768e-06,
      "loss": 0.763,
      "step": 1863
    },
    {
      "epoch": 0.10049601035152038,
      "grad_norm": 0.8613053560256958,
      "learning_rate": 9.986020494745538e-06,
      "loss": 0.8324,
      "step": 1864
    },
    {
      "epoch": 0.1005499245201639,
      "grad_norm": 0.8467068076133728,
      "learning_rate": 9.986004647874117e-06,
      "loss": 0.882,
      "step": 1865
    },
    {
      "epoch": 0.10060383868880741,
      "grad_norm": 1.0717257261276245,
      "learning_rate": 9.98598879203853e-06,
      "loss": 0.9305,
      "step": 1866
    },
    {
      "epoch": 0.10065775285745093,
      "grad_norm": 0.8680382370948792,
      "learning_rate": 9.985972927238808e-06,
      "loss": 0.7521,
      "step": 1867
    },
    {
      "epoch": 0.10071166702609445,
      "grad_norm": 0.8465799689292908,
      "learning_rate": 9.98595705347498e-06,
      "loss": 0.8562,
      "step": 1868
    },
    {
      "epoch": 0.10076558119473798,
      "grad_norm": 0.938218355178833,
      "learning_rate": 9.985941170747072e-06,
      "loss": 0.7737,
      "step": 1869
    },
    {
      "epoch": 0.1008194953633815,
      "grad_norm": 0.8189761638641357,
      "learning_rate": 9.985925279055117e-06,
      "loss": 0.8502,
      "step": 1870
    },
    {
      "epoch": 0.10087340953202502,
      "grad_norm": 0.915703535079956,
      "learning_rate": 9.985909378399138e-06,
      "loss": 0.9576,
      "step": 1871
    },
    {
      "epoch": 0.10092732370066854,
      "grad_norm": 0.7837297916412354,
      "learning_rate": 9.985893468779168e-06,
      "loss": 0.7091,
      "step": 1872
    },
    {
      "epoch": 0.10098123786931205,
      "grad_norm": 0.7426577806472778,
      "learning_rate": 9.985877550195234e-06,
      "loss": 0.768,
      "step": 1873
    },
    {
      "epoch": 0.10103515203795557,
      "grad_norm": 0.9437102675437927,
      "learning_rate": 9.985861622647364e-06,
      "loss": 0.8308,
      "step": 1874
    },
    {
      "epoch": 0.10108906620659909,
      "grad_norm": 0.7381339073181152,
      "learning_rate": 9.985845686135586e-06,
      "loss": 0.7206,
      "step": 1875
    },
    {
      "epoch": 0.10114298037524261,
      "grad_norm": 0.8478738069534302,
      "learning_rate": 9.985829740659932e-06,
      "loss": 0.7512,
      "step": 1876
    },
    {
      "epoch": 0.10119689454388614,
      "grad_norm": 0.8331673741340637,
      "learning_rate": 9.985813786220428e-06,
      "loss": 0.8281,
      "step": 1877
    },
    {
      "epoch": 0.10125080871252966,
      "grad_norm": 0.7703354954719543,
      "learning_rate": 9.985797822817102e-06,
      "loss": 0.7313,
      "step": 1878
    },
    {
      "epoch": 0.10130472288117318,
      "grad_norm": 0.9182866811752319,
      "learning_rate": 9.985781850449985e-06,
      "loss": 0.8365,
      "step": 1879
    },
    {
      "epoch": 0.1013586370498167,
      "grad_norm": 0.8285559415817261,
      "learning_rate": 9.985765869119104e-06,
      "loss": 0.8439,
      "step": 1880
    },
    {
      "epoch": 0.10141255121846021,
      "grad_norm": 0.8400557041168213,
      "learning_rate": 9.985749878824488e-06,
      "loss": 0.8011,
      "step": 1881
    },
    {
      "epoch": 0.10146646538710373,
      "grad_norm": 0.9225326776504517,
      "learning_rate": 9.985733879566168e-06,
      "loss": 0.8402,
      "step": 1882
    },
    {
      "epoch": 0.10152037955574725,
      "grad_norm": 0.9194371700286865,
      "learning_rate": 9.985717871344172e-06,
      "loss": 0.8245,
      "step": 1883
    },
    {
      "epoch": 0.10157429372439077,
      "grad_norm": 0.7443274259567261,
      "learning_rate": 9.985701854158525e-06,
      "loss": 0.7708,
      "step": 1884
    },
    {
      "epoch": 0.10162820789303428,
      "grad_norm": 1.1139355897903442,
      "learning_rate": 9.985685828009259e-06,
      "loss": 0.8384,
      "step": 1885
    },
    {
      "epoch": 0.10168212206167782,
      "grad_norm": 0.8835493326187134,
      "learning_rate": 9.985669792896402e-06,
      "loss": 0.8063,
      "step": 1886
    },
    {
      "epoch": 0.10173603623032133,
      "grad_norm": 0.8012663125991821,
      "learning_rate": 9.985653748819983e-06,
      "loss": 0.8393,
      "step": 1887
    },
    {
      "epoch": 0.10178995039896485,
      "grad_norm": 0.8092807531356812,
      "learning_rate": 9.985637695780033e-06,
      "loss": 0.7631,
      "step": 1888
    },
    {
      "epoch": 0.10184386456760837,
      "grad_norm": 1.7357290983200073,
      "learning_rate": 9.985621633776577e-06,
      "loss": 0.8067,
      "step": 1889
    },
    {
      "epoch": 0.10189777873625189,
      "grad_norm": 0.8562015891075134,
      "learning_rate": 9.985605562809646e-06,
      "loss": 0.8543,
      "step": 1890
    },
    {
      "epoch": 0.1019516929048954,
      "grad_norm": 0.9570844769477844,
      "learning_rate": 9.98558948287927e-06,
      "loss": 0.7778,
      "step": 1891
    },
    {
      "epoch": 0.10200560707353892,
      "grad_norm": 0.748468279838562,
      "learning_rate": 9.985573393985475e-06,
      "loss": 0.6559,
      "step": 1892
    },
    {
      "epoch": 0.10205952124218244,
      "grad_norm": 1.004490852355957,
      "learning_rate": 9.98555729612829e-06,
      "loss": 0.8453,
      "step": 1893
    },
    {
      "epoch": 0.10211343541082596,
      "grad_norm": 0.9566166996955872,
      "learning_rate": 9.985541189307749e-06,
      "loss": 0.8984,
      "step": 1894
    },
    {
      "epoch": 0.10216734957946949,
      "grad_norm": 0.8624017834663391,
      "learning_rate": 9.985525073523874e-06,
      "loss": 0.7442,
      "step": 1895
    },
    {
      "epoch": 0.10222126374811301,
      "grad_norm": 1.0596553087234497,
      "learning_rate": 9.9855089487767e-06,
      "loss": 0.778,
      "step": 1896
    },
    {
      "epoch": 0.10227517791675653,
      "grad_norm": 0.8003553152084351,
      "learning_rate": 9.985492815066252e-06,
      "loss": 0.7513,
      "step": 1897
    },
    {
      "epoch": 0.10232909208540004,
      "grad_norm": 1.0067185163497925,
      "learning_rate": 9.98547667239256e-06,
      "loss": 0.8878,
      "step": 1898
    },
    {
      "epoch": 0.10238300625404356,
      "grad_norm": 0.8398754596710205,
      "learning_rate": 9.985460520755654e-06,
      "loss": 0.8222,
      "step": 1899
    },
    {
      "epoch": 0.10243692042268708,
      "grad_norm": 0.9688541293144226,
      "learning_rate": 9.985444360155563e-06,
      "loss": 0.8304,
      "step": 1900
    },
    {
      "epoch": 0.1024908345913306,
      "grad_norm": 0.8848011493682861,
      "learning_rate": 9.985428190592314e-06,
      "loss": 0.7853,
      "step": 1901
    },
    {
      "epoch": 0.10254474875997412,
      "grad_norm": 0.9240403771400452,
      "learning_rate": 9.985412012065937e-06,
      "loss": 0.9058,
      "step": 1902
    },
    {
      "epoch": 0.10259866292861763,
      "grad_norm": 0.814194917678833,
      "learning_rate": 9.985395824576463e-06,
      "loss": 0.7775,
      "step": 1903
    },
    {
      "epoch": 0.10265257709726117,
      "grad_norm": 0.9210302233695984,
      "learning_rate": 9.98537962812392e-06,
      "loss": 0.9288,
      "step": 1904
    },
    {
      "epoch": 0.10270649126590468,
      "grad_norm": 0.8850705027580261,
      "learning_rate": 9.985363422708336e-06,
      "loss": 0.9036,
      "step": 1905
    },
    {
      "epoch": 0.1027604054345482,
      "grad_norm": 0.8312196731567383,
      "learning_rate": 9.985347208329742e-06,
      "loss": 0.811,
      "step": 1906
    },
    {
      "epoch": 0.10281431960319172,
      "grad_norm": 1.1294670104980469,
      "learning_rate": 9.985330984988164e-06,
      "loss": 0.9775,
      "step": 1907
    },
    {
      "epoch": 0.10286823377183524,
      "grad_norm": 0.7980399131774902,
      "learning_rate": 9.985314752683635e-06,
      "loss": 0.7786,
      "step": 1908
    },
    {
      "epoch": 0.10292214794047876,
      "grad_norm": 0.8291264176368713,
      "learning_rate": 9.985298511416181e-06,
      "loss": 0.7028,
      "step": 1909
    },
    {
      "epoch": 0.10297606210912227,
      "grad_norm": 0.8284684419631958,
      "learning_rate": 9.985282261185833e-06,
      "loss": 0.8043,
      "step": 1910
    },
    {
      "epoch": 0.10302997627776579,
      "grad_norm": 0.8680904507637024,
      "learning_rate": 9.985266001992622e-06,
      "loss": 0.8274,
      "step": 1911
    },
    {
      "epoch": 0.10308389044640931,
      "grad_norm": 0.7380900979042053,
      "learning_rate": 9.985249733836573e-06,
      "loss": 0.6991,
      "step": 1912
    },
    {
      "epoch": 0.10313780461505284,
      "grad_norm": 0.8572129011154175,
      "learning_rate": 9.985233456717718e-06,
      "loss": 0.7751,
      "step": 1913
    },
    {
      "epoch": 0.10319171878369636,
      "grad_norm": 0.8797627687454224,
      "learning_rate": 9.985217170636085e-06,
      "loss": 0.8681,
      "step": 1914
    },
    {
      "epoch": 0.10324563295233988,
      "grad_norm": 0.9301999807357788,
      "learning_rate": 9.985200875591704e-06,
      "loss": 0.6208,
      "step": 1915
    },
    {
      "epoch": 0.1032995471209834,
      "grad_norm": 0.8296228647232056,
      "learning_rate": 9.985184571584606e-06,
      "loss": 0.8027,
      "step": 1916
    },
    {
      "epoch": 0.10335346128962691,
      "grad_norm": 0.8241246342658997,
      "learning_rate": 9.985168258614815e-06,
      "loss": 0.8223,
      "step": 1917
    },
    {
      "epoch": 0.10340737545827043,
      "grad_norm": 0.9633389115333557,
      "learning_rate": 9.985151936682367e-06,
      "loss": 0.9037,
      "step": 1918
    },
    {
      "epoch": 0.10346128962691395,
      "grad_norm": 0.8903288245201111,
      "learning_rate": 9.985135605787286e-06,
      "loss": 0.8949,
      "step": 1919
    },
    {
      "epoch": 0.10351520379555747,
      "grad_norm": 0.8670981526374817,
      "learning_rate": 9.985119265929604e-06,
      "loss": 0.7094,
      "step": 1920
    },
    {
      "epoch": 0.10356911796420099,
      "grad_norm": 0.9681735038757324,
      "learning_rate": 9.985102917109351e-06,
      "loss": 0.9617,
      "step": 1921
    },
    {
      "epoch": 0.10362303213284452,
      "grad_norm": 0.9229291081428528,
      "learning_rate": 9.985086559326555e-06,
      "loss": 0.9384,
      "step": 1922
    },
    {
      "epoch": 0.10367694630148803,
      "grad_norm": 0.8501392602920532,
      "learning_rate": 9.985070192581245e-06,
      "loss": 0.8647,
      "step": 1923
    },
    {
      "epoch": 0.10373086047013155,
      "grad_norm": 1.4047728776931763,
      "learning_rate": 9.985053816873452e-06,
      "loss": 0.7905,
      "step": 1924
    },
    {
      "epoch": 0.10378477463877507,
      "grad_norm": 1.154661774635315,
      "learning_rate": 9.985037432203204e-06,
      "loss": 0.8666,
      "step": 1925
    },
    {
      "epoch": 0.10383868880741859,
      "grad_norm": 1.042126178741455,
      "learning_rate": 9.985021038570532e-06,
      "loss": 0.7736,
      "step": 1926
    },
    {
      "epoch": 0.1038926029760621,
      "grad_norm": 0.7904629111289978,
      "learning_rate": 9.985004635975464e-06,
      "loss": 0.7247,
      "step": 1927
    },
    {
      "epoch": 0.10394651714470562,
      "grad_norm": 0.8718095421791077,
      "learning_rate": 9.984988224418029e-06,
      "loss": 0.7792,
      "step": 1928
    },
    {
      "epoch": 0.10400043131334914,
      "grad_norm": 0.870330274105072,
      "learning_rate": 9.984971803898258e-06,
      "loss": 0.7992,
      "step": 1929
    },
    {
      "epoch": 0.10405434548199267,
      "grad_norm": 0.8473007678985596,
      "learning_rate": 9.98495537441618e-06,
      "loss": 0.883,
      "step": 1930
    },
    {
      "epoch": 0.10410825965063619,
      "grad_norm": 1.0333232879638672,
      "learning_rate": 9.984938935971824e-06,
      "loss": 0.9228,
      "step": 1931
    },
    {
      "epoch": 0.10416217381927971,
      "grad_norm": 0.9389268159866333,
      "learning_rate": 9.984922488565221e-06,
      "loss": 0.7792,
      "step": 1932
    },
    {
      "epoch": 0.10421608798792323,
      "grad_norm": 0.9977405667304993,
      "learning_rate": 9.9849060321964e-06,
      "loss": 0.7971,
      "step": 1933
    },
    {
      "epoch": 0.10427000215656675,
      "grad_norm": 0.7879780530929565,
      "learning_rate": 9.98488956686539e-06,
      "loss": 0.8149,
      "step": 1934
    },
    {
      "epoch": 0.10432391632521026,
      "grad_norm": 0.8149437308311462,
      "learning_rate": 9.98487309257222e-06,
      "loss": 0.8391,
      "step": 1935
    },
    {
      "epoch": 0.10437783049385378,
      "grad_norm": 0.9226745367050171,
      "learning_rate": 9.984856609316921e-06,
      "loss": 0.9581,
      "step": 1936
    },
    {
      "epoch": 0.1044317446624973,
      "grad_norm": 0.9190924167633057,
      "learning_rate": 9.984840117099524e-06,
      "loss": 0.8859,
      "step": 1937
    },
    {
      "epoch": 0.10448565883114082,
      "grad_norm": 0.7996852397918701,
      "learning_rate": 9.984823615920054e-06,
      "loss": 0.7377,
      "step": 1938
    },
    {
      "epoch": 0.10453957299978435,
      "grad_norm": 1.0055615901947021,
      "learning_rate": 9.984807105778544e-06,
      "loss": 1.4365,
      "step": 1939
    },
    {
      "epoch": 0.10459348716842787,
      "grad_norm": 0.8595201969146729,
      "learning_rate": 9.984790586675023e-06,
      "loss": 0.807,
      "step": 1940
    },
    {
      "epoch": 0.10464740133707139,
      "grad_norm": 0.9500923156738281,
      "learning_rate": 9.984774058609522e-06,
      "loss": 0.9378,
      "step": 1941
    },
    {
      "epoch": 0.1047013155057149,
      "grad_norm": 0.8677893877029419,
      "learning_rate": 9.98475752158207e-06,
      "loss": 0.8399,
      "step": 1942
    },
    {
      "epoch": 0.10475522967435842,
      "grad_norm": 0.8256751298904419,
      "learning_rate": 9.984740975592695e-06,
      "loss": 0.8552,
      "step": 1943
    },
    {
      "epoch": 0.10480914384300194,
      "grad_norm": 0.8910439610481262,
      "learning_rate": 9.984724420641427e-06,
      "loss": 0.9704,
      "step": 1944
    },
    {
      "epoch": 0.10486305801164546,
      "grad_norm": 0.8732389807701111,
      "learning_rate": 9.9847078567283e-06,
      "loss": 0.8448,
      "step": 1945
    },
    {
      "epoch": 0.10491697218028898,
      "grad_norm": 0.856151282787323,
      "learning_rate": 9.984691283853338e-06,
      "loss": 0.7403,
      "step": 1946
    },
    {
      "epoch": 0.1049708863489325,
      "grad_norm": 0.8741405010223389,
      "learning_rate": 9.984674702016573e-06,
      "loss": 0.8913,
      "step": 1947
    },
    {
      "epoch": 0.10502480051757603,
      "grad_norm": 0.9214139580726624,
      "learning_rate": 9.984658111218036e-06,
      "loss": 0.8901,
      "step": 1948
    },
    {
      "epoch": 0.10507871468621954,
      "grad_norm": 0.9773908853530884,
      "learning_rate": 9.984641511457757e-06,
      "loss": 0.7979,
      "step": 1949
    },
    {
      "epoch": 0.10513262885486306,
      "grad_norm": 0.9136568903923035,
      "learning_rate": 9.984624902735765e-06,
      "loss": 0.9019,
      "step": 1950
    },
    {
      "epoch": 0.10518654302350658,
      "grad_norm": 0.857468843460083,
      "learning_rate": 9.984608285052087e-06,
      "loss": 0.7663,
      "step": 1951
    },
    {
      "epoch": 0.1052404571921501,
      "grad_norm": 0.8473180532455444,
      "learning_rate": 9.984591658406756e-06,
      "loss": 0.8137,
      "step": 1952
    },
    {
      "epoch": 0.10529437136079361,
      "grad_norm": 0.8932186961174011,
      "learning_rate": 9.984575022799805e-06,
      "loss": 0.8859,
      "step": 1953
    },
    {
      "epoch": 0.10534828552943713,
      "grad_norm": 0.8191091418266296,
      "learning_rate": 9.984558378231257e-06,
      "loss": 0.8111,
      "step": 1954
    },
    {
      "epoch": 0.10540219969808065,
      "grad_norm": 0.8452546000480652,
      "learning_rate": 9.984541724701147e-06,
      "loss": 0.8563,
      "step": 1955
    },
    {
      "epoch": 0.10545611386672417,
      "grad_norm": 0.8053101897239685,
      "learning_rate": 9.984525062209502e-06,
      "loss": 0.8166,
      "step": 1956
    },
    {
      "epoch": 0.1055100280353677,
      "grad_norm": 0.7936314344406128,
      "learning_rate": 9.984508390756354e-06,
      "loss": 0.8446,
      "step": 1957
    },
    {
      "epoch": 0.10556394220401122,
      "grad_norm": 0.7867884635925293,
      "learning_rate": 9.984491710341733e-06,
      "loss": 0.7719,
      "step": 1958
    },
    {
      "epoch": 0.10561785637265474,
      "grad_norm": 0.8387873768806458,
      "learning_rate": 9.984475020965667e-06,
      "loss": 0.842,
      "step": 1959
    },
    {
      "epoch": 0.10567177054129825,
      "grad_norm": 0.8028631806373596,
      "learning_rate": 9.984458322628188e-06,
      "loss": 0.7673,
      "step": 1960
    },
    {
      "epoch": 0.10572568470994177,
      "grad_norm": 0.765836238861084,
      "learning_rate": 9.984441615329323e-06,
      "loss": 0.7383,
      "step": 1961
    },
    {
      "epoch": 0.10577959887858529,
      "grad_norm": 0.8619019389152527,
      "learning_rate": 9.984424899069106e-06,
      "loss": 0.8076,
      "step": 1962
    },
    {
      "epoch": 0.10583351304722881,
      "grad_norm": 1.1085911989212036,
      "learning_rate": 9.984408173847565e-06,
      "loss": 0.9379,
      "step": 1963
    },
    {
      "epoch": 0.10588742721587233,
      "grad_norm": 0.7861249446868896,
      "learning_rate": 9.98439143966473e-06,
      "loss": 0.7531,
      "step": 1964
    },
    {
      "epoch": 0.10594134138451584,
      "grad_norm": 0.8964807391166687,
      "learning_rate": 9.984374696520633e-06,
      "loss": 0.7991,
      "step": 1965
    },
    {
      "epoch": 0.10599525555315938,
      "grad_norm": 0.720808207988739,
      "learning_rate": 9.984357944415302e-06,
      "loss": 0.7171,
      "step": 1966
    },
    {
      "epoch": 0.1060491697218029,
      "grad_norm": 0.9870907068252563,
      "learning_rate": 9.984341183348766e-06,
      "loss": 0.8168,
      "step": 1967
    },
    {
      "epoch": 0.10610308389044641,
      "grad_norm": 0.7987208366394043,
      "learning_rate": 9.984324413321057e-06,
      "loss": 0.817,
      "step": 1968
    },
    {
      "epoch": 0.10615699805908993,
      "grad_norm": 0.7737677097320557,
      "learning_rate": 9.984307634332206e-06,
      "loss": 0.855,
      "step": 1969
    },
    {
      "epoch": 0.10621091222773345,
      "grad_norm": 0.9125123620033264,
      "learning_rate": 9.984290846382243e-06,
      "loss": 0.8059,
      "step": 1970
    },
    {
      "epoch": 0.10626482639637697,
      "grad_norm": 0.8460454344749451,
      "learning_rate": 9.984274049471197e-06,
      "loss": 0.7415,
      "step": 1971
    },
    {
      "epoch": 0.10631874056502048,
      "grad_norm": 0.8322888016700745,
      "learning_rate": 9.984257243599096e-06,
      "loss": 0.793,
      "step": 1972
    },
    {
      "epoch": 0.106372654733664,
      "grad_norm": 0.7797715067863464,
      "learning_rate": 9.984240428765975e-06,
      "loss": 0.7324,
      "step": 1973
    },
    {
      "epoch": 0.10642656890230752,
      "grad_norm": 0.847457766532898,
      "learning_rate": 9.98422360497186e-06,
      "loss": 0.7949,
      "step": 1974
    },
    {
      "epoch": 0.10648048307095105,
      "grad_norm": 0.8471247553825378,
      "learning_rate": 9.984206772216785e-06,
      "loss": 0.8368,
      "step": 1975
    },
    {
      "epoch": 0.10653439723959457,
      "grad_norm": 0.879416823387146,
      "learning_rate": 9.984189930500778e-06,
      "loss": 0.7779,
      "step": 1976
    },
    {
      "epoch": 0.10658831140823809,
      "grad_norm": 0.8355580568313599,
      "learning_rate": 9.98417307982387e-06,
      "loss": 0.7741,
      "step": 1977
    },
    {
      "epoch": 0.1066422255768816,
      "grad_norm": 0.8388553857803345,
      "learning_rate": 9.98415622018609e-06,
      "loss": 0.7839,
      "step": 1978
    },
    {
      "epoch": 0.10669613974552512,
      "grad_norm": 0.7899215221405029,
      "learning_rate": 9.98413935158747e-06,
      "loss": 0.7419,
      "step": 1979
    },
    {
      "epoch": 0.10675005391416864,
      "grad_norm": 0.9422525763511658,
      "learning_rate": 9.98412247402804e-06,
      "loss": 0.7977,
      "step": 1980
    },
    {
      "epoch": 0.10680396808281216,
      "grad_norm": 0.8084313869476318,
      "learning_rate": 9.984105587507831e-06,
      "loss": 0.6813,
      "step": 1981
    },
    {
      "epoch": 0.10685788225145568,
      "grad_norm": 0.9860095977783203,
      "learning_rate": 9.98408869202687e-06,
      "loss": 0.8934,
      "step": 1982
    },
    {
      "epoch": 0.10691179642009921,
      "grad_norm": 0.9511064887046814,
      "learning_rate": 9.98407178758519e-06,
      "loss": 0.8438,
      "step": 1983
    },
    {
      "epoch": 0.10696571058874273,
      "grad_norm": 0.9021103978157043,
      "learning_rate": 9.984054874182822e-06,
      "loss": 0.854,
      "step": 1984
    },
    {
      "epoch": 0.10701962475738624,
      "grad_norm": 0.8343318104743958,
      "learning_rate": 9.984037951819796e-06,
      "loss": 0.8075,
      "step": 1985
    },
    {
      "epoch": 0.10707353892602976,
      "grad_norm": 0.8592053651809692,
      "learning_rate": 9.984021020496141e-06,
      "loss": 0.8431,
      "step": 1986
    },
    {
      "epoch": 0.10712745309467328,
      "grad_norm": 0.8554633259773254,
      "learning_rate": 9.98400408021189e-06,
      "loss": 0.797,
      "step": 1987
    },
    {
      "epoch": 0.1071813672633168,
      "grad_norm": 0.8476511240005493,
      "learning_rate": 9.98398713096707e-06,
      "loss": 0.834,
      "step": 1988
    },
    {
      "epoch": 0.10723528143196032,
      "grad_norm": 0.8374871611595154,
      "learning_rate": 9.983970172761715e-06,
      "loss": 0.7934,
      "step": 1989
    },
    {
      "epoch": 0.10728919560060383,
      "grad_norm": 0.8740583658218384,
      "learning_rate": 9.983953205595853e-06,
      "loss": 0.8945,
      "step": 1990
    },
    {
      "epoch": 0.10734310976924735,
      "grad_norm": 0.8888646364212036,
      "learning_rate": 9.983936229469514e-06,
      "loss": 0.8582,
      "step": 1991
    },
    {
      "epoch": 0.10739702393789088,
      "grad_norm": 0.7999173402786255,
      "learning_rate": 9.983919244382732e-06,
      "loss": 0.7906,
      "step": 1992
    },
    {
      "epoch": 0.1074509381065344,
      "grad_norm": 0.8284609913825989,
      "learning_rate": 9.983902250335532e-06,
      "loss": 0.8282,
      "step": 1993
    },
    {
      "epoch": 0.10750485227517792,
      "grad_norm": 0.8933084607124329,
      "learning_rate": 9.98388524732795e-06,
      "loss": 0.8332,
      "step": 1994
    },
    {
      "epoch": 0.10755876644382144,
      "grad_norm": 1.1771386861801147,
      "learning_rate": 9.983868235360017e-06,
      "loss": 0.6624,
      "step": 1995
    },
    {
      "epoch": 0.10761268061246496,
      "grad_norm": 0.7977056503295898,
      "learning_rate": 9.98385121443176e-06,
      "loss": 0.7169,
      "step": 1996
    },
    {
      "epoch": 0.10766659478110847,
      "grad_norm": 1.1132346391677856,
      "learning_rate": 9.98383418454321e-06,
      "loss": 0.8448,
      "step": 1997
    },
    {
      "epoch": 0.10772050894975199,
      "grad_norm": 0.8148393034934998,
      "learning_rate": 9.983817145694396e-06,
      "loss": 0.7313,
      "step": 1998
    },
    {
      "epoch": 0.10777442311839551,
      "grad_norm": 1.0594265460968018,
      "learning_rate": 9.983800097885353e-06,
      "loss": 0.9795,
      "step": 1999
    },
    {
      "epoch": 0.10782833728703903,
      "grad_norm": 0.8699034452438354,
      "learning_rate": 9.983783041116109e-06,
      "loss": 0.8717,
      "step": 2000
    },
    {
      "epoch": 0.10788225145568256,
      "grad_norm": 1.0455189943313599,
      "learning_rate": 9.983765975386696e-06,
      "loss": 0.898,
      "step": 2001
    },
    {
      "epoch": 0.10793616562432608,
      "grad_norm": 1.0363630056381226,
      "learning_rate": 9.983748900697143e-06,
      "loss": 0.8404,
      "step": 2002
    },
    {
      "epoch": 0.1079900797929696,
      "grad_norm": 0.7753402590751648,
      "learning_rate": 9.983731817047482e-06,
      "loss": 0.8416,
      "step": 2003
    },
    {
      "epoch": 0.10804399396161311,
      "grad_norm": 0.7321370244026184,
      "learning_rate": 9.983714724437744e-06,
      "loss": 0.7051,
      "step": 2004
    },
    {
      "epoch": 0.10809790813025663,
      "grad_norm": 0.8907992839813232,
      "learning_rate": 9.983697622867959e-06,
      "loss": 0.8347,
      "step": 2005
    },
    {
      "epoch": 0.10815182229890015,
      "grad_norm": 0.8662189841270447,
      "learning_rate": 9.983680512338157e-06,
      "loss": 0.7704,
      "step": 2006
    },
    {
      "epoch": 0.10820573646754367,
      "grad_norm": 0.9187548756599426,
      "learning_rate": 9.983663392848371e-06,
      "loss": 0.8926,
      "step": 2007
    },
    {
      "epoch": 0.10825965063618719,
      "grad_norm": 1.0350191593170166,
      "learning_rate": 9.983646264398629e-06,
      "loss": 0.8253,
      "step": 2008
    },
    {
      "epoch": 0.1083135648048307,
      "grad_norm": 0.9566621780395508,
      "learning_rate": 9.983629126988963e-06,
      "loss": 0.8545,
      "step": 2009
    },
    {
      "epoch": 0.10836747897347423,
      "grad_norm": 0.7644455432891846,
      "learning_rate": 9.983611980619405e-06,
      "loss": 0.707,
      "step": 2010
    },
    {
      "epoch": 0.10842139314211775,
      "grad_norm": 0.7929621934890747,
      "learning_rate": 9.983594825289983e-06,
      "loss": 0.8123,
      "step": 2011
    },
    {
      "epoch": 0.10847530731076127,
      "grad_norm": 0.8667447566986084,
      "learning_rate": 9.983577661000732e-06,
      "loss": 0.8371,
      "step": 2012
    },
    {
      "epoch": 0.10852922147940479,
      "grad_norm": 0.9008684158325195,
      "learning_rate": 9.98356048775168e-06,
      "loss": 0.8088,
      "step": 2013
    },
    {
      "epoch": 0.1085831356480483,
      "grad_norm": 0.8797710537910461,
      "learning_rate": 9.983543305542858e-06,
      "loss": 0.8315,
      "step": 2014
    },
    {
      "epoch": 0.10863704981669182,
      "grad_norm": 1.0082249641418457,
      "learning_rate": 9.983526114374296e-06,
      "loss": 0.6944,
      "step": 2015
    },
    {
      "epoch": 0.10869096398533534,
      "grad_norm": 0.8216932415962219,
      "learning_rate": 9.983508914246027e-06,
      "loss": 0.7704,
      "step": 2016
    },
    {
      "epoch": 0.10874487815397886,
      "grad_norm": 0.7873802781105042,
      "learning_rate": 9.983491705158082e-06,
      "loss": 0.8269,
      "step": 2017
    },
    {
      "epoch": 0.10879879232262238,
      "grad_norm": 0.9200018644332886,
      "learning_rate": 9.983474487110492e-06,
      "loss": 0.8736,
      "step": 2018
    },
    {
      "epoch": 0.10885270649126591,
      "grad_norm": 0.8780434727668762,
      "learning_rate": 9.983457260103284e-06,
      "loss": 0.8959,
      "step": 2019
    },
    {
      "epoch": 0.10890662065990943,
      "grad_norm": 0.8503702878952026,
      "learning_rate": 9.983440024136493e-06,
      "loss": 0.874,
      "step": 2020
    },
    {
      "epoch": 0.10896053482855295,
      "grad_norm": 0.8003312349319458,
      "learning_rate": 9.98342277921015e-06,
      "loss": 0.8053,
      "step": 2021
    },
    {
      "epoch": 0.10901444899719646,
      "grad_norm": 0.8508152961730957,
      "learning_rate": 9.983405525324284e-06,
      "loss": 0.8349,
      "step": 2022
    },
    {
      "epoch": 0.10906836316583998,
      "grad_norm": 0.7947866320610046,
      "learning_rate": 9.983388262478928e-06,
      "loss": 0.7969,
      "step": 2023
    },
    {
      "epoch": 0.1091222773344835,
      "grad_norm": 0.7566391229629517,
      "learning_rate": 9.98337099067411e-06,
      "loss": 0.7485,
      "step": 2024
    },
    {
      "epoch": 0.10917619150312702,
      "grad_norm": 0.7484708428382874,
      "learning_rate": 9.983353709909865e-06,
      "loss": 0.7223,
      "step": 2025
    },
    {
      "epoch": 0.10923010567177054,
      "grad_norm": 0.7474842667579651,
      "learning_rate": 9.983336420186223e-06,
      "loss": 0.7643,
      "step": 2026
    },
    {
      "epoch": 0.10928401984041405,
      "grad_norm": 0.9116804003715515,
      "learning_rate": 9.983319121503212e-06,
      "loss": 0.9259,
      "step": 2027
    },
    {
      "epoch": 0.10933793400905759,
      "grad_norm": 0.7918151617050171,
      "learning_rate": 9.983301813860866e-06,
      "loss": 0.8006,
      "step": 2028
    },
    {
      "epoch": 0.1093918481777011,
      "grad_norm": 0.8043256998062134,
      "learning_rate": 9.983284497259216e-06,
      "loss": 0.7776,
      "step": 2029
    },
    {
      "epoch": 0.10944576234634462,
      "grad_norm": 0.7829573154449463,
      "learning_rate": 9.983267171698292e-06,
      "loss": 0.7518,
      "step": 2030
    },
    {
      "epoch": 0.10949967651498814,
      "grad_norm": 0.9080957174301147,
      "learning_rate": 9.983249837178126e-06,
      "loss": 0.777,
      "step": 2031
    },
    {
      "epoch": 0.10955359068363166,
      "grad_norm": 0.9077693223953247,
      "learning_rate": 9.983232493698748e-06,
      "loss": 0.7412,
      "step": 2032
    },
    {
      "epoch": 0.10960750485227518,
      "grad_norm": 0.7891800403594971,
      "learning_rate": 9.98321514126019e-06,
      "loss": 0.8089,
      "step": 2033
    },
    {
      "epoch": 0.1096614190209187,
      "grad_norm": 0.8350703716278076,
      "learning_rate": 9.983197779862485e-06,
      "loss": 0.8414,
      "step": 2034
    },
    {
      "epoch": 0.10971533318956221,
      "grad_norm": 0.8714777231216431,
      "learning_rate": 9.983180409505663e-06,
      "loss": 0.7355,
      "step": 2035
    },
    {
      "epoch": 0.10976924735820574,
      "grad_norm": 0.8524130582809448,
      "learning_rate": 9.98316303018975e-06,
      "loss": 0.8611,
      "step": 2036
    },
    {
      "epoch": 0.10982316152684926,
      "grad_norm": 0.8570566177368164,
      "learning_rate": 9.983145641914787e-06,
      "loss": 0.799,
      "step": 2037
    },
    {
      "epoch": 0.10987707569549278,
      "grad_norm": 0.8222963213920593,
      "learning_rate": 9.983128244680797e-06,
      "loss": 0.8302,
      "step": 2038
    },
    {
      "epoch": 0.1099309898641363,
      "grad_norm": 0.7977816462516785,
      "learning_rate": 9.983110838487818e-06,
      "loss": 0.8475,
      "step": 2039
    },
    {
      "epoch": 0.10998490403277981,
      "grad_norm": 0.7925818562507629,
      "learning_rate": 9.983093423335875e-06,
      "loss": 0.7176,
      "step": 2040
    },
    {
      "epoch": 0.11003881820142333,
      "grad_norm": 0.8456152081489563,
      "learning_rate": 9.983075999225002e-06,
      "loss": 0.785,
      "step": 2041
    },
    {
      "epoch": 0.11009273237006685,
      "grad_norm": 0.8691622018814087,
      "learning_rate": 9.98305856615523e-06,
      "loss": 0.8871,
      "step": 2042
    },
    {
      "epoch": 0.11014664653871037,
      "grad_norm": 0.9402886629104614,
      "learning_rate": 9.983041124126593e-06,
      "loss": 0.8239,
      "step": 2043
    },
    {
      "epoch": 0.11020056070735389,
      "grad_norm": 0.7975844144821167,
      "learning_rate": 9.98302367313912e-06,
      "loss": 0.7336,
      "step": 2044
    },
    {
      "epoch": 0.11025447487599742,
      "grad_norm": 0.8384075164794922,
      "learning_rate": 9.98300621319284e-06,
      "loss": 0.9003,
      "step": 2045
    },
    {
      "epoch": 0.11030838904464094,
      "grad_norm": 0.847994327545166,
      "learning_rate": 9.98298874428779e-06,
      "loss": 0.8611,
      "step": 2046
    },
    {
      "epoch": 0.11036230321328445,
      "grad_norm": 0.801159143447876,
      "learning_rate": 9.982971266423996e-06,
      "loss": 0.7967,
      "step": 2047
    },
    {
      "epoch": 0.11041621738192797,
      "grad_norm": 0.8316680192947388,
      "learning_rate": 9.982953779601492e-06,
      "loss": 0.8644,
      "step": 2048
    },
    {
      "epoch": 0.11047013155057149,
      "grad_norm": 0.9387392401695251,
      "learning_rate": 9.982936283820311e-06,
      "loss": 0.916,
      "step": 2049
    },
    {
      "epoch": 0.11052404571921501,
      "grad_norm": 0.8682491779327393,
      "learning_rate": 9.982918779080481e-06,
      "loss": 0.8267,
      "step": 2050
    },
    {
      "epoch": 0.11057795988785853,
      "grad_norm": 0.8443827629089355,
      "learning_rate": 9.982901265382034e-06,
      "loss": 0.8129,
      "step": 2051
    },
    {
      "epoch": 0.11063187405650204,
      "grad_norm": 0.8612427115440369,
      "learning_rate": 9.982883742725005e-06,
      "loss": 0.9203,
      "step": 2052
    },
    {
      "epoch": 0.11068578822514556,
      "grad_norm": 0.786834716796875,
      "learning_rate": 9.98286621110942e-06,
      "loss": 0.7731,
      "step": 2053
    },
    {
      "epoch": 0.1107397023937891,
      "grad_norm": 0.8566606044769287,
      "learning_rate": 9.982848670535316e-06,
      "loss": 0.8111,
      "step": 2054
    },
    {
      "epoch": 0.11079361656243261,
      "grad_norm": 0.7485222816467285,
      "learning_rate": 9.982831121002722e-06,
      "loss": 0.722,
      "step": 2055
    },
    {
      "epoch": 0.11084753073107613,
      "grad_norm": 0.7441151738166809,
      "learning_rate": 9.98281356251167e-06,
      "loss": 0.7081,
      "step": 2056
    },
    {
      "epoch": 0.11090144489971965,
      "grad_norm": 0.8212536573410034,
      "learning_rate": 9.98279599506219e-06,
      "loss": 0.8572,
      "step": 2057
    },
    {
      "epoch": 0.11095535906836317,
      "grad_norm": 0.8686707019805908,
      "learning_rate": 9.982778418654315e-06,
      "loss": 0.8553,
      "step": 2058
    },
    {
      "epoch": 0.11100927323700668,
      "grad_norm": 0.8908647298812866,
      "learning_rate": 9.982760833288079e-06,
      "loss": 0.9059,
      "step": 2059
    },
    {
      "epoch": 0.1110631874056502,
      "grad_norm": 0.9393401741981506,
      "learning_rate": 9.982743238963508e-06,
      "loss": 0.8574,
      "step": 2060
    },
    {
      "epoch": 0.11111710157429372,
      "grad_norm": 0.9027063250541687,
      "learning_rate": 9.982725635680638e-06,
      "loss": 0.7717,
      "step": 2061
    },
    {
      "epoch": 0.11117101574293724,
      "grad_norm": 0.7742587924003601,
      "learning_rate": 9.982708023439498e-06,
      "loss": 0.6618,
      "step": 2062
    },
    {
      "epoch": 0.11122492991158077,
      "grad_norm": 0.8025707602500916,
      "learning_rate": 9.982690402240124e-06,
      "loss": 0.7263,
      "step": 2063
    },
    {
      "epoch": 0.11127884408022429,
      "grad_norm": 0.8629397749900818,
      "learning_rate": 9.982672772082541e-06,
      "loss": 0.8222,
      "step": 2064
    },
    {
      "epoch": 0.1113327582488678,
      "grad_norm": 0.8332691788673401,
      "learning_rate": 9.982655132966785e-06,
      "loss": 0.8302,
      "step": 2065
    },
    {
      "epoch": 0.11138667241751132,
      "grad_norm": 0.8381907939910889,
      "learning_rate": 9.982637484892889e-06,
      "loss": 0.8638,
      "step": 2066
    },
    {
      "epoch": 0.11144058658615484,
      "grad_norm": 1.0945167541503906,
      "learning_rate": 9.982619827860882e-06,
      "loss": 0.8866,
      "step": 2067
    },
    {
      "epoch": 0.11149450075479836,
      "grad_norm": 0.8755025267601013,
      "learning_rate": 9.982602161870795e-06,
      "loss": 0.8587,
      "step": 2068
    },
    {
      "epoch": 0.11154841492344188,
      "grad_norm": 0.8665636777877808,
      "learning_rate": 9.982584486922664e-06,
      "loss": 0.8309,
      "step": 2069
    },
    {
      "epoch": 0.1116023290920854,
      "grad_norm": 0.8764104247093201,
      "learning_rate": 9.982566803016516e-06,
      "loss": 0.9003,
      "step": 2070
    },
    {
      "epoch": 0.11165624326072891,
      "grad_norm": 1.1225675344467163,
      "learning_rate": 9.982549110152387e-06,
      "loss": 0.8897,
      "step": 2071
    },
    {
      "epoch": 0.11171015742937244,
      "grad_norm": 0.7883412837982178,
      "learning_rate": 9.982531408330304e-06,
      "loss": 0.7104,
      "step": 2072
    },
    {
      "epoch": 0.11176407159801596,
      "grad_norm": 0.8683668971061707,
      "learning_rate": 9.982513697550303e-06,
      "loss": 0.831,
      "step": 2073
    },
    {
      "epoch": 0.11181798576665948,
      "grad_norm": 0.9139745831489563,
      "learning_rate": 9.982495977812415e-06,
      "loss": 0.7492,
      "step": 2074
    },
    {
      "epoch": 0.111871899935303,
      "grad_norm": 0.8651925921440125,
      "learning_rate": 9.98247824911667e-06,
      "loss": 0.8385,
      "step": 2075
    },
    {
      "epoch": 0.11192581410394652,
      "grad_norm": 0.9110192656517029,
      "learning_rate": 9.982460511463102e-06,
      "loss": 0.8513,
      "step": 2076
    },
    {
      "epoch": 0.11197972827259003,
      "grad_norm": 0.8511810302734375,
      "learning_rate": 9.982442764851742e-06,
      "loss": 0.8352,
      "step": 2077
    },
    {
      "epoch": 0.11203364244123355,
      "grad_norm": 0.8981106877326965,
      "learning_rate": 9.982425009282622e-06,
      "loss": 0.7837,
      "step": 2078
    },
    {
      "epoch": 0.11208755660987707,
      "grad_norm": 0.7660240530967712,
      "learning_rate": 9.982407244755771e-06,
      "loss": 0.6994,
      "step": 2079
    },
    {
      "epoch": 0.11214147077852059,
      "grad_norm": 0.830569863319397,
      "learning_rate": 9.982389471271228e-06,
      "loss": 0.7756,
      "step": 2080
    },
    {
      "epoch": 0.11219538494716412,
      "grad_norm": 0.8888838887214661,
      "learning_rate": 9.982371688829018e-06,
      "loss": 0.7302,
      "step": 2081
    },
    {
      "epoch": 0.11224929911580764,
      "grad_norm": 0.823513388633728,
      "learning_rate": 9.982353897429176e-06,
      "loss": 0.8357,
      "step": 2082
    },
    {
      "epoch": 0.11230321328445116,
      "grad_norm": 0.8353226780891418,
      "learning_rate": 9.982336097071734e-06,
      "loss": 0.7939,
      "step": 2083
    },
    {
      "epoch": 0.11235712745309467,
      "grad_norm": 1.0246703624725342,
      "learning_rate": 9.982318287756725e-06,
      "loss": 0.9416,
      "step": 2084
    },
    {
      "epoch": 0.11241104162173819,
      "grad_norm": 0.9405194520950317,
      "learning_rate": 9.982300469484178e-06,
      "loss": 0.8296,
      "step": 2085
    },
    {
      "epoch": 0.11246495579038171,
      "grad_norm": 0.905885636806488,
      "learning_rate": 9.982282642254126e-06,
      "loss": 0.8181,
      "step": 2086
    },
    {
      "epoch": 0.11251886995902523,
      "grad_norm": 0.8098746538162231,
      "learning_rate": 9.982264806066604e-06,
      "loss": 0.7372,
      "step": 2087
    },
    {
      "epoch": 0.11257278412766875,
      "grad_norm": 1.2416350841522217,
      "learning_rate": 9.98224696092164e-06,
      "loss": 0.8984,
      "step": 2088
    },
    {
      "epoch": 0.11262669829631228,
      "grad_norm": 0.8675969839096069,
      "learning_rate": 9.98222910681927e-06,
      "loss": 0.8417,
      "step": 2089
    },
    {
      "epoch": 0.1126806124649558,
      "grad_norm": 1.063124179840088,
      "learning_rate": 9.982211243759522e-06,
      "loss": 0.9227,
      "step": 2090
    },
    {
      "epoch": 0.11273452663359931,
      "grad_norm": 0.9010531902313232,
      "learning_rate": 9.98219337174243e-06,
      "loss": 0.9547,
      "step": 2091
    },
    {
      "epoch": 0.11278844080224283,
      "grad_norm": 0.7843347191810608,
      "learning_rate": 9.982175490768027e-06,
      "loss": 0.8607,
      "step": 2092
    },
    {
      "epoch": 0.11284235497088635,
      "grad_norm": 0.8451966643333435,
      "learning_rate": 9.982157600836344e-06,
      "loss": 0.8788,
      "step": 2093
    },
    {
      "epoch": 0.11289626913952987,
      "grad_norm": 0.7359250783920288,
      "learning_rate": 9.982139701947415e-06,
      "loss": 0.7916,
      "step": 2094
    },
    {
      "epoch": 0.11295018330817339,
      "grad_norm": 0.8133944869041443,
      "learning_rate": 9.98212179410127e-06,
      "loss": 0.8327,
      "step": 2095
    },
    {
      "epoch": 0.1130040974768169,
      "grad_norm": 0.8658613562583923,
      "learning_rate": 9.982103877297941e-06,
      "loss": 0.7648,
      "step": 2096
    },
    {
      "epoch": 0.11305801164546042,
      "grad_norm": 0.8523211479187012,
      "learning_rate": 9.982085951537463e-06,
      "loss": 0.8618,
      "step": 2097
    },
    {
      "epoch": 0.11311192581410395,
      "grad_norm": 0.9494971632957458,
      "learning_rate": 9.982068016819867e-06,
      "loss": 0.8116,
      "step": 2098
    },
    {
      "epoch": 0.11316583998274747,
      "grad_norm": 0.797603964805603,
      "learning_rate": 9.982050073145182e-06,
      "loss": 0.7268,
      "step": 2099
    },
    {
      "epoch": 0.11321975415139099,
      "grad_norm": 0.8662691712379456,
      "learning_rate": 9.982032120513443e-06,
      "loss": 0.8007,
      "step": 2100
    },
    {
      "epoch": 0.1132736683200345,
      "grad_norm": 0.8377127051353455,
      "learning_rate": 9.982014158924684e-06,
      "loss": 0.813,
      "step": 2101
    },
    {
      "epoch": 0.11332758248867802,
      "grad_norm": 1.0051186084747314,
      "learning_rate": 9.981996188378934e-06,
      "loss": 0.921,
      "step": 2102
    },
    {
      "epoch": 0.11338149665732154,
      "grad_norm": 0.7831799983978271,
      "learning_rate": 9.981978208876228e-06,
      "loss": 0.9197,
      "step": 2103
    },
    {
      "epoch": 0.11343541082596506,
      "grad_norm": 1.0273268222808838,
      "learning_rate": 9.981960220416595e-06,
      "loss": 0.9144,
      "step": 2104
    },
    {
      "epoch": 0.11348932499460858,
      "grad_norm": 0.8754317164421082,
      "learning_rate": 9.981942223000072e-06,
      "loss": 0.8359,
      "step": 2105
    },
    {
      "epoch": 0.1135432391632521,
      "grad_norm": 0.7923420071601868,
      "learning_rate": 9.981924216626686e-06,
      "loss": 0.737,
      "step": 2106
    },
    {
      "epoch": 0.11359715333189563,
      "grad_norm": 0.8651608824729919,
      "learning_rate": 9.981906201296475e-06,
      "loss": 0.7588,
      "step": 2107
    },
    {
      "epoch": 0.11365106750053915,
      "grad_norm": 0.9219616651535034,
      "learning_rate": 9.981888177009468e-06,
      "loss": 0.8598,
      "step": 2108
    },
    {
      "epoch": 0.11370498166918266,
      "grad_norm": 0.8936532139778137,
      "learning_rate": 9.981870143765697e-06,
      "loss": 0.7718,
      "step": 2109
    },
    {
      "epoch": 0.11375889583782618,
      "grad_norm": 0.8959317803382874,
      "learning_rate": 9.981852101565195e-06,
      "loss": 0.794,
      "step": 2110
    },
    {
      "epoch": 0.1138128100064697,
      "grad_norm": 0.8781943917274475,
      "learning_rate": 9.981834050407997e-06,
      "loss": 0.8045,
      "step": 2111
    },
    {
      "epoch": 0.11386672417511322,
      "grad_norm": 0.8148792386054993,
      "learning_rate": 9.981815990294131e-06,
      "loss": 0.7398,
      "step": 2112
    },
    {
      "epoch": 0.11392063834375674,
      "grad_norm": 0.8491646647453308,
      "learning_rate": 9.981797921223633e-06,
      "loss": 0.878,
      "step": 2113
    },
    {
      "epoch": 0.11397455251240025,
      "grad_norm": 0.8166778087615967,
      "learning_rate": 9.981779843196533e-06,
      "loss": 0.918,
      "step": 2114
    },
    {
      "epoch": 0.11402846668104377,
      "grad_norm": 0.8016941547393799,
      "learning_rate": 9.981761756212867e-06,
      "loss": 0.7958,
      "step": 2115
    },
    {
      "epoch": 0.1140823808496873,
      "grad_norm": 0.9108608961105347,
      "learning_rate": 9.981743660272663e-06,
      "loss": 0.8645,
      "step": 2116
    },
    {
      "epoch": 0.11413629501833082,
      "grad_norm": 0.8930072784423828,
      "learning_rate": 9.981725555375956e-06,
      "loss": 0.842,
      "step": 2117
    },
    {
      "epoch": 0.11419020918697434,
      "grad_norm": 0.75871342420578,
      "learning_rate": 9.981707441522778e-06,
      "loss": 0.7513,
      "step": 2118
    },
    {
      "epoch": 0.11424412335561786,
      "grad_norm": 0.9924628734588623,
      "learning_rate": 9.981689318713163e-06,
      "loss": 0.8248,
      "step": 2119
    },
    {
      "epoch": 0.11429803752426138,
      "grad_norm": 0.9345909953117371,
      "learning_rate": 9.981671186947145e-06,
      "loss": 0.7963,
      "step": 2120
    },
    {
      "epoch": 0.1143519516929049,
      "grad_norm": 0.8094825148582458,
      "learning_rate": 9.98165304622475e-06,
      "loss": 0.8189,
      "step": 2121
    },
    {
      "epoch": 0.11440586586154841,
      "grad_norm": 0.789262056350708,
      "learning_rate": 9.981634896546017e-06,
      "loss": 0.721,
      "step": 2122
    },
    {
      "epoch": 0.11445978003019193,
      "grad_norm": 0.9279952645301819,
      "learning_rate": 9.981616737910975e-06,
      "loss": 0.8499,
      "step": 2123
    },
    {
      "epoch": 0.11451369419883545,
      "grad_norm": 0.8332392573356628,
      "learning_rate": 9.981598570319657e-06,
      "loss": 0.8296,
      "step": 2124
    },
    {
      "epoch": 0.11456760836747898,
      "grad_norm": 0.7957965731620789,
      "learning_rate": 9.981580393772098e-06,
      "loss": 0.7872,
      "step": 2125
    },
    {
      "epoch": 0.1146215225361225,
      "grad_norm": 0.7587382197380066,
      "learning_rate": 9.981562208268331e-06,
      "loss": 0.721,
      "step": 2126
    },
    {
      "epoch": 0.11467543670476602,
      "grad_norm": 0.7246111631393433,
      "learning_rate": 9.981544013808385e-06,
      "loss": 0.7965,
      "step": 2127
    },
    {
      "epoch": 0.11472935087340953,
      "grad_norm": 0.9953028559684753,
      "learning_rate": 9.981525810392295e-06,
      "loss": 0.7129,
      "step": 2128
    },
    {
      "epoch": 0.11478326504205305,
      "grad_norm": 1.0731823444366455,
      "learning_rate": 9.981507598020094e-06,
      "loss": 0.8532,
      "step": 2129
    },
    {
      "epoch": 0.11483717921069657,
      "grad_norm": 0.8425208926200867,
      "learning_rate": 9.981489376691814e-06,
      "loss": 0.8191,
      "step": 2130
    },
    {
      "epoch": 0.11489109337934009,
      "grad_norm": 0.7841627597808838,
      "learning_rate": 9.981471146407487e-06,
      "loss": 0.7946,
      "step": 2131
    },
    {
      "epoch": 0.1149450075479836,
      "grad_norm": 0.8923974633216858,
      "learning_rate": 9.981452907167148e-06,
      "loss": 0.8445,
      "step": 2132
    },
    {
      "epoch": 0.11499892171662712,
      "grad_norm": 0.7729552984237671,
      "learning_rate": 9.981434658970828e-06,
      "loss": 0.7566,
      "step": 2133
    },
    {
      "epoch": 0.11505283588527065,
      "grad_norm": 0.910899817943573,
      "learning_rate": 9.98141640181856e-06,
      "loss": 0.8236,
      "step": 2134
    },
    {
      "epoch": 0.11510675005391417,
      "grad_norm": 0.8768936395645142,
      "learning_rate": 9.981398135710377e-06,
      "loss": 0.8929,
      "step": 2135
    },
    {
      "epoch": 0.11516066422255769,
      "grad_norm": 0.9078627824783325,
      "learning_rate": 9.981379860646313e-06,
      "loss": 0.745,
      "step": 2136
    },
    {
      "epoch": 0.11521457839120121,
      "grad_norm": 0.8225182890892029,
      "learning_rate": 9.981361576626399e-06,
      "loss": 0.8349,
      "step": 2137
    },
    {
      "epoch": 0.11526849255984473,
      "grad_norm": 0.8092076778411865,
      "learning_rate": 9.981343283650668e-06,
      "loss": 0.8157,
      "step": 2138
    },
    {
      "epoch": 0.11532240672848824,
      "grad_norm": 0.8253282308578491,
      "learning_rate": 9.981324981719156e-06,
      "loss": 0.7412,
      "step": 2139
    },
    {
      "epoch": 0.11537632089713176,
      "grad_norm": 0.9668901562690735,
      "learning_rate": 9.981306670831892e-06,
      "loss": 0.7868,
      "step": 2140
    },
    {
      "epoch": 0.11543023506577528,
      "grad_norm": 0.7919616103172302,
      "learning_rate": 9.981288350988911e-06,
      "loss": 0.7384,
      "step": 2141
    },
    {
      "epoch": 0.11548414923441881,
      "grad_norm": 0.8589178919792175,
      "learning_rate": 9.981270022190244e-06,
      "loss": 0.8352,
      "step": 2142
    },
    {
      "epoch": 0.11553806340306233,
      "grad_norm": 0.8211520910263062,
      "learning_rate": 9.981251684435926e-06,
      "loss": 0.8124,
      "step": 2143
    },
    {
      "epoch": 0.11559197757170585,
      "grad_norm": 0.911702573299408,
      "learning_rate": 9.98123333772599e-06,
      "loss": 0.8468,
      "step": 2144
    },
    {
      "epoch": 0.11564589174034937,
      "grad_norm": 0.7934874892234802,
      "learning_rate": 9.981214982060469e-06,
      "loss": 0.8091,
      "step": 2145
    },
    {
      "epoch": 0.11569980590899288,
      "grad_norm": 0.7407031655311584,
      "learning_rate": 9.981196617439394e-06,
      "loss": 0.7755,
      "step": 2146
    },
    {
      "epoch": 0.1157537200776364,
      "grad_norm": 0.757688581943512,
      "learning_rate": 9.9811782438628e-06,
      "loss": 0.7468,
      "step": 2147
    },
    {
      "epoch": 0.11580763424627992,
      "grad_norm": 1.0007857084274292,
      "learning_rate": 9.981159861330717e-06,
      "loss": 0.9108,
      "step": 2148
    },
    {
      "epoch": 0.11586154841492344,
      "grad_norm": 1.300113558769226,
      "learning_rate": 9.981141469843183e-06,
      "loss": 0.8099,
      "step": 2149
    },
    {
      "epoch": 0.11591546258356696,
      "grad_norm": 1.0352274179458618,
      "learning_rate": 9.981123069400226e-06,
      "loss": 0.801,
      "step": 2150
    },
    {
      "epoch": 0.11596937675221049,
      "grad_norm": 0.9033756256103516,
      "learning_rate": 9.981104660001885e-06,
      "loss": 0.8789,
      "step": 2151
    },
    {
      "epoch": 0.116023290920854,
      "grad_norm": 0.9051264524459839,
      "learning_rate": 9.981086241648188e-06,
      "loss": 0.8737,
      "step": 2152
    },
    {
      "epoch": 0.11607720508949752,
      "grad_norm": 0.7855859398841858,
      "learning_rate": 9.98106781433917e-06,
      "loss": 0.7508,
      "step": 2153
    },
    {
      "epoch": 0.11613111925814104,
      "grad_norm": 0.9001717567443848,
      "learning_rate": 9.981049378074862e-06,
      "loss": 0.6852,
      "step": 2154
    },
    {
      "epoch": 0.11618503342678456,
      "grad_norm": 0.8165149092674255,
      "learning_rate": 9.9810309328553e-06,
      "loss": 0.8755,
      "step": 2155
    },
    {
      "epoch": 0.11623894759542808,
      "grad_norm": 0.8920814990997314,
      "learning_rate": 9.981012478680517e-06,
      "loss": 0.753,
      "step": 2156
    },
    {
      "epoch": 0.1162928617640716,
      "grad_norm": 0.8186051249504089,
      "learning_rate": 9.980994015550544e-06,
      "loss": 0.8341,
      "step": 2157
    },
    {
      "epoch": 0.11634677593271511,
      "grad_norm": 0.8103832602500916,
      "learning_rate": 9.980975543465417e-06,
      "loss": 0.8276,
      "step": 2158
    },
    {
      "epoch": 0.11640069010135863,
      "grad_norm": 0.8752830028533936,
      "learning_rate": 9.980957062425167e-06,
      "loss": 0.8449,
      "step": 2159
    },
    {
      "epoch": 0.11645460427000216,
      "grad_norm": 0.9748302698135376,
      "learning_rate": 9.98093857242983e-06,
      "loss": 0.8323,
      "step": 2160
    },
    {
      "epoch": 0.11650851843864568,
      "grad_norm": 0.8948556184768677,
      "learning_rate": 9.980920073479435e-06,
      "loss": 0.7836,
      "step": 2161
    },
    {
      "epoch": 0.1165624326072892,
      "grad_norm": 0.8715651035308838,
      "learning_rate": 9.980901565574017e-06,
      "loss": 0.7942,
      "step": 2162
    },
    {
      "epoch": 0.11661634677593272,
      "grad_norm": 0.7667563557624817,
      "learning_rate": 9.980883048713612e-06,
      "loss": 0.7517,
      "step": 2163
    },
    {
      "epoch": 0.11667026094457623,
      "grad_norm": 0.8058063387870789,
      "learning_rate": 9.980864522898247e-06,
      "loss": 0.7997,
      "step": 2164
    },
    {
      "epoch": 0.11672417511321975,
      "grad_norm": 0.9300008416175842,
      "learning_rate": 9.980845988127963e-06,
      "loss": 0.856,
      "step": 2165
    },
    {
      "epoch": 0.11677808928186327,
      "grad_norm": 0.8321848511695862,
      "learning_rate": 9.98082744440279e-06,
      "loss": 0.7483,
      "step": 2166
    },
    {
      "epoch": 0.11683200345050679,
      "grad_norm": 0.9346274137496948,
      "learning_rate": 9.98080889172276e-06,
      "loss": 0.8149,
      "step": 2167
    },
    {
      "epoch": 0.1168859176191503,
      "grad_norm": 0.9119831919670105,
      "learning_rate": 9.980790330087906e-06,
      "loss": 0.8384,
      "step": 2168
    },
    {
      "epoch": 0.11693983178779384,
      "grad_norm": 0.8416613936424255,
      "learning_rate": 9.980771759498264e-06,
      "loss": 0.776,
      "step": 2169
    },
    {
      "epoch": 0.11699374595643736,
      "grad_norm": 0.765889048576355,
      "learning_rate": 9.980753179953867e-06,
      "loss": 0.7413,
      "step": 2170
    },
    {
      "epoch": 0.11704766012508087,
      "grad_norm": 1.3491352796554565,
      "learning_rate": 9.980734591454746e-06,
      "loss": 0.7444,
      "step": 2171
    },
    {
      "epoch": 0.11710157429372439,
      "grad_norm": 0.926618218421936,
      "learning_rate": 9.980715994000936e-06,
      "loss": 0.8495,
      "step": 2172
    },
    {
      "epoch": 0.11715548846236791,
      "grad_norm": 0.7720175981521606,
      "learning_rate": 9.98069738759247e-06,
      "loss": 0.8238,
      "step": 2173
    },
    {
      "epoch": 0.11720940263101143,
      "grad_norm": 0.9114102125167847,
      "learning_rate": 9.980678772229385e-06,
      "loss": 0.7805,
      "step": 2174
    },
    {
      "epoch": 0.11726331679965495,
      "grad_norm": 0.778404712677002,
      "learning_rate": 9.980660147911709e-06,
      "loss": 0.7705,
      "step": 2175
    },
    {
      "epoch": 0.11731723096829846,
      "grad_norm": 0.7945864200592041,
      "learning_rate": 9.980641514639478e-06,
      "loss": 0.7052,
      "step": 2176
    },
    {
      "epoch": 0.11737114513694198,
      "grad_norm": 0.8246831297874451,
      "learning_rate": 9.980622872412723e-06,
      "loss": 0.8514,
      "step": 2177
    },
    {
      "epoch": 0.11742505930558551,
      "grad_norm": 0.899563193321228,
      "learning_rate": 9.980604221231482e-06,
      "loss": 0.761,
      "step": 2178
    },
    {
      "epoch": 0.11747897347422903,
      "grad_norm": 0.7277782559394836,
      "learning_rate": 9.980585561095788e-06,
      "loss": 0.6671,
      "step": 2179
    },
    {
      "epoch": 0.11753288764287255,
      "grad_norm": 0.7977896928787231,
      "learning_rate": 9.98056689200567e-06,
      "loss": 0.8045,
      "step": 2180
    },
    {
      "epoch": 0.11758680181151607,
      "grad_norm": 0.8606321811676025,
      "learning_rate": 9.980548213961165e-06,
      "loss": 0.8232,
      "step": 2181
    },
    {
      "epoch": 0.11764071598015959,
      "grad_norm": 0.769458532333374,
      "learning_rate": 9.980529526962308e-06,
      "loss": 0.729,
      "step": 2182
    },
    {
      "epoch": 0.1176946301488031,
      "grad_norm": 1.1045739650726318,
      "learning_rate": 9.98051083100913e-06,
      "loss": 0.802,
      "step": 2183
    },
    {
      "epoch": 0.11774854431744662,
      "grad_norm": 0.7568592429161072,
      "learning_rate": 9.980492126101664e-06,
      "loss": 0.7427,
      "step": 2184
    },
    {
      "epoch": 0.11780245848609014,
      "grad_norm": 0.7503477931022644,
      "learning_rate": 9.980473412239946e-06,
      "loss": 0.7857,
      "step": 2185
    },
    {
      "epoch": 0.11785637265473366,
      "grad_norm": 0.8330819606781006,
      "learning_rate": 9.980454689424007e-06,
      "loss": 0.7561,
      "step": 2186
    },
    {
      "epoch": 0.11791028682337719,
      "grad_norm": 0.792736291885376,
      "learning_rate": 9.980435957653884e-06,
      "loss": 0.837,
      "step": 2187
    },
    {
      "epoch": 0.1179642009920207,
      "grad_norm": 0.8983330130577087,
      "learning_rate": 9.980417216929608e-06,
      "loss": 0.8499,
      "step": 2188
    },
    {
      "epoch": 0.11801811516066422,
      "grad_norm": 0.8700925707817078,
      "learning_rate": 9.980398467251214e-06,
      "loss": 0.9048,
      "step": 2189
    },
    {
      "epoch": 0.11807202932930774,
      "grad_norm": 0.8873588442802429,
      "learning_rate": 9.980379708618734e-06,
      "loss": 0.7617,
      "step": 2190
    },
    {
      "epoch": 0.11812594349795126,
      "grad_norm": 0.7786865234375,
      "learning_rate": 9.980360941032204e-06,
      "loss": 0.7828,
      "step": 2191
    },
    {
      "epoch": 0.11817985766659478,
      "grad_norm": 0.796852171421051,
      "learning_rate": 9.980342164491657e-06,
      "loss": 0.7739,
      "step": 2192
    },
    {
      "epoch": 0.1182337718352383,
      "grad_norm": 0.7752018570899963,
      "learning_rate": 9.980323378997126e-06,
      "loss": 0.6969,
      "step": 2193
    },
    {
      "epoch": 0.11828768600388181,
      "grad_norm": 0.8607134819030762,
      "learning_rate": 9.980304584548644e-06,
      "loss": 0.8623,
      "step": 2194
    },
    {
      "epoch": 0.11834160017252535,
      "grad_norm": 0.8624950051307678,
      "learning_rate": 9.980285781146248e-06,
      "loss": 0.8124,
      "step": 2195
    },
    {
      "epoch": 0.11839551434116886,
      "grad_norm": 0.8951582908630371,
      "learning_rate": 9.98026696878997e-06,
      "loss": 0.8491,
      "step": 2196
    },
    {
      "epoch": 0.11844942850981238,
      "grad_norm": 0.8373478055000305,
      "learning_rate": 9.980248147479843e-06,
      "loss": 0.7166,
      "step": 2197
    },
    {
      "epoch": 0.1185033426784559,
      "grad_norm": 0.8007619976997375,
      "learning_rate": 9.980229317215901e-06,
      "loss": 0.8137,
      "step": 2198
    },
    {
      "epoch": 0.11855725684709942,
      "grad_norm": 0.8464154601097107,
      "learning_rate": 9.980210477998177e-06,
      "loss": 0.7803,
      "step": 2199
    },
    {
      "epoch": 0.11861117101574294,
      "grad_norm": 0.8384450078010559,
      "learning_rate": 9.98019162982671e-06,
      "loss": 0.8511,
      "step": 2200
    },
    {
      "epoch": 0.11866508518438645,
      "grad_norm": 0.9059091210365295,
      "learning_rate": 9.980172772701527e-06,
      "loss": 0.8538,
      "step": 2201
    },
    {
      "epoch": 0.11871899935302997,
      "grad_norm": 1.1080526113510132,
      "learning_rate": 9.980153906622667e-06,
      "loss": 1.0067,
      "step": 2202
    },
    {
      "epoch": 0.11877291352167349,
      "grad_norm": 0.8379873633384705,
      "learning_rate": 9.980135031590162e-06,
      "loss": 0.8285,
      "step": 2203
    },
    {
      "epoch": 0.11882682769031702,
      "grad_norm": 0.9143814444541931,
      "learning_rate": 9.980116147604044e-06,
      "loss": 0.8286,
      "step": 2204
    },
    {
      "epoch": 0.11888074185896054,
      "grad_norm": 0.8619917631149292,
      "learning_rate": 9.98009725466435e-06,
      "loss": 0.8304,
      "step": 2205
    },
    {
      "epoch": 0.11893465602760406,
      "grad_norm": 0.8470893502235413,
      "learning_rate": 9.980078352771112e-06,
      "loss": 0.8245,
      "step": 2206
    },
    {
      "epoch": 0.11898857019624758,
      "grad_norm": 0.9560073614120483,
      "learning_rate": 9.980059441924365e-06,
      "loss": 0.8821,
      "step": 2207
    },
    {
      "epoch": 0.1190424843648911,
      "grad_norm": 0.8186134696006775,
      "learning_rate": 9.980040522124143e-06,
      "loss": 0.7166,
      "step": 2208
    },
    {
      "epoch": 0.11909639853353461,
      "grad_norm": 0.8410859704017639,
      "learning_rate": 9.980021593370481e-06,
      "loss": 0.7465,
      "step": 2209
    },
    {
      "epoch": 0.11915031270217813,
      "grad_norm": 0.9180718660354614,
      "learning_rate": 9.980002655663412e-06,
      "loss": 0.8508,
      "step": 2210
    },
    {
      "epoch": 0.11920422687082165,
      "grad_norm": 0.8384451270103455,
      "learning_rate": 9.979983709002967e-06,
      "loss": 0.7723,
      "step": 2211
    },
    {
      "epoch": 0.11925814103946517,
      "grad_norm": 0.815075159072876,
      "learning_rate": 9.979964753389187e-06,
      "loss": 0.7769,
      "step": 2212
    },
    {
      "epoch": 0.1193120552081087,
      "grad_norm": 0.9130523800849915,
      "learning_rate": 9.9799457888221e-06,
      "loss": 0.8616,
      "step": 2213
    },
    {
      "epoch": 0.11936596937675222,
      "grad_norm": 0.8262661099433899,
      "learning_rate": 9.97992681530174e-06,
      "loss": 0.7507,
      "step": 2214
    },
    {
      "epoch": 0.11941988354539573,
      "grad_norm": 0.8962772488594055,
      "learning_rate": 9.979907832828145e-06,
      "loss": 0.8387,
      "step": 2215
    },
    {
      "epoch": 0.11947379771403925,
      "grad_norm": 0.8966812491416931,
      "learning_rate": 9.979888841401348e-06,
      "loss": 0.8095,
      "step": 2216
    },
    {
      "epoch": 0.11952771188268277,
      "grad_norm": 0.8484013676643372,
      "learning_rate": 9.979869841021381e-06,
      "loss": 0.8475,
      "step": 2217
    },
    {
      "epoch": 0.11958162605132629,
      "grad_norm": 0.8858511447906494,
      "learning_rate": 9.979850831688282e-06,
      "loss": 0.8576,
      "step": 2218
    },
    {
      "epoch": 0.1196355402199698,
      "grad_norm": 0.8044704794883728,
      "learning_rate": 9.97983181340208e-06,
      "loss": 0.8195,
      "step": 2219
    },
    {
      "epoch": 0.11968945438861332,
      "grad_norm": 0.8463665246963501,
      "learning_rate": 9.979812786162815e-06,
      "loss": 0.8177,
      "step": 2220
    },
    {
      "epoch": 0.11974336855725684,
      "grad_norm": 0.8145734071731567,
      "learning_rate": 9.979793749970517e-06,
      "loss": 0.8307,
      "step": 2221
    },
    {
      "epoch": 0.11979728272590037,
      "grad_norm": 0.7789961695671082,
      "learning_rate": 9.97977470482522e-06,
      "loss": 0.7854,
      "step": 2222
    },
    {
      "epoch": 0.11985119689454389,
      "grad_norm": 0.858213484287262,
      "learning_rate": 9.97975565072696e-06,
      "loss": 0.8914,
      "step": 2223
    },
    {
      "epoch": 0.11990511106318741,
      "grad_norm": 0.8503074645996094,
      "learning_rate": 9.979736587675772e-06,
      "loss": 0.8731,
      "step": 2224
    },
    {
      "epoch": 0.11995902523183093,
      "grad_norm": 0.9815833568572998,
      "learning_rate": 9.97971751567169e-06,
      "loss": 0.8769,
      "step": 2225
    },
    {
      "epoch": 0.12001293940047444,
      "grad_norm": 0.7897947430610657,
      "learning_rate": 9.979698434714747e-06,
      "loss": 0.8308,
      "step": 2226
    },
    {
      "epoch": 0.12006685356911796,
      "grad_norm": 0.9122232794761658,
      "learning_rate": 9.979679344804976e-06,
      "loss": 0.8934,
      "step": 2227
    },
    {
      "epoch": 0.12012076773776148,
      "grad_norm": 0.7640379071235657,
      "learning_rate": 9.979660245942416e-06,
      "loss": 0.8205,
      "step": 2228
    },
    {
      "epoch": 0.120174681906405,
      "grad_norm": 0.8736944198608398,
      "learning_rate": 9.979641138127097e-06,
      "loss": 0.8522,
      "step": 2229
    },
    {
      "epoch": 0.12022859607504852,
      "grad_norm": 0.8782697916030884,
      "learning_rate": 9.979622021359054e-06,
      "loss": 0.812,
      "step": 2230
    },
    {
      "epoch": 0.12028251024369205,
      "grad_norm": 0.8260065317153931,
      "learning_rate": 9.979602895638322e-06,
      "loss": 0.768,
      "step": 2231
    },
    {
      "epoch": 0.12033642441233557,
      "grad_norm": 0.8338255286216736,
      "learning_rate": 9.979583760964939e-06,
      "loss": 0.7747,
      "step": 2232
    },
    {
      "epoch": 0.12039033858097908,
      "grad_norm": 0.8310086131095886,
      "learning_rate": 9.979564617338933e-06,
      "loss": 0.8206,
      "step": 2233
    },
    {
      "epoch": 0.1204442527496226,
      "grad_norm": 0.8234529495239258,
      "learning_rate": 9.979545464760342e-06,
      "loss": 0.847,
      "step": 2234
    },
    {
      "epoch": 0.12049816691826612,
      "grad_norm": 0.9490135908126831,
      "learning_rate": 9.9795263032292e-06,
      "loss": 0.7277,
      "step": 2235
    },
    {
      "epoch": 0.12055208108690964,
      "grad_norm": 0.8937979340553284,
      "learning_rate": 9.97950713274554e-06,
      "loss": 0.8714,
      "step": 2236
    },
    {
      "epoch": 0.12060599525555316,
      "grad_norm": 0.7739347219467163,
      "learning_rate": 9.9794879533094e-06,
      "loss": 0.8009,
      "step": 2237
    },
    {
      "epoch": 0.12065990942419667,
      "grad_norm": 0.8843472003936768,
      "learning_rate": 9.979468764920812e-06,
      "loss": 0.7748,
      "step": 2238
    },
    {
      "epoch": 0.12071382359284019,
      "grad_norm": 0.815528154373169,
      "learning_rate": 9.979449567579809e-06,
      "loss": 0.7896,
      "step": 2239
    },
    {
      "epoch": 0.12076773776148372,
      "grad_norm": 0.8802885413169861,
      "learning_rate": 9.979430361286428e-06,
      "loss": 0.8468,
      "step": 2240
    },
    {
      "epoch": 0.12082165193012724,
      "grad_norm": 0.7907035946846008,
      "learning_rate": 9.979411146040703e-06,
      "loss": 0.7742,
      "step": 2241
    },
    {
      "epoch": 0.12087556609877076,
      "grad_norm": 0.8344926238059998,
      "learning_rate": 9.979391921842669e-06,
      "loss": 0.8242,
      "step": 2242
    },
    {
      "epoch": 0.12092948026741428,
      "grad_norm": 0.8011842370033264,
      "learning_rate": 9.979372688692359e-06,
      "loss": 0.7697,
      "step": 2243
    },
    {
      "epoch": 0.1209833944360578,
      "grad_norm": 0.9063104391098022,
      "learning_rate": 9.97935344658981e-06,
      "loss": 0.8487,
      "step": 2244
    },
    {
      "epoch": 0.12103730860470131,
      "grad_norm": 0.8313894867897034,
      "learning_rate": 9.979334195535053e-06,
      "loss": 0.8601,
      "step": 2245
    },
    {
      "epoch": 0.12109122277334483,
      "grad_norm": 0.7892987728118896,
      "learning_rate": 9.979314935528125e-06,
      "loss": 0.7539,
      "step": 2246
    },
    {
      "epoch": 0.12114513694198835,
      "grad_norm": 0.8141210079193115,
      "learning_rate": 9.979295666569062e-06,
      "loss": 0.8749,
      "step": 2247
    },
    {
      "epoch": 0.12119905111063188,
      "grad_norm": 0.8218675851821899,
      "learning_rate": 9.979276388657895e-06,
      "loss": 0.743,
      "step": 2248
    },
    {
      "epoch": 0.1212529652792754,
      "grad_norm": 0.8640784025192261,
      "learning_rate": 9.979257101794661e-06,
      "loss": 0.8876,
      "step": 2249
    },
    {
      "epoch": 0.12130687944791892,
      "grad_norm": 0.8411698341369629,
      "learning_rate": 9.979237805979395e-06,
      "loss": 0.8692,
      "step": 2250
    },
    {
      "epoch": 0.12136079361656243,
      "grad_norm": 0.9402859210968018,
      "learning_rate": 9.97921850121213e-06,
      "loss": 0.9362,
      "step": 2251
    },
    {
      "epoch": 0.12141470778520595,
      "grad_norm": 0.8132252097129822,
      "learning_rate": 9.979199187492903e-06,
      "loss": 0.8119,
      "step": 2252
    },
    {
      "epoch": 0.12146862195384947,
      "grad_norm": 0.9142205119132996,
      "learning_rate": 9.979179864821747e-06,
      "loss": 0.8219,
      "step": 2253
    },
    {
      "epoch": 0.12152253612249299,
      "grad_norm": 0.9614750742912292,
      "learning_rate": 9.979160533198697e-06,
      "loss": 0.8342,
      "step": 2254
    },
    {
      "epoch": 0.1215764502911365,
      "grad_norm": 0.7893047332763672,
      "learning_rate": 9.979141192623787e-06,
      "loss": 0.7111,
      "step": 2255
    },
    {
      "epoch": 0.12163036445978002,
      "grad_norm": 0.8807032704353333,
      "learning_rate": 9.979121843097053e-06,
      "loss": 0.7677,
      "step": 2256
    },
    {
      "epoch": 0.12168427862842356,
      "grad_norm": 1.1099025011062622,
      "learning_rate": 9.97910248461853e-06,
      "loss": 0.9548,
      "step": 2257
    },
    {
      "epoch": 0.12173819279706707,
      "grad_norm": 0.9182586669921875,
      "learning_rate": 9.979083117188253e-06,
      "loss": 0.8734,
      "step": 2258
    },
    {
      "epoch": 0.12179210696571059,
      "grad_norm": 0.9201869964599609,
      "learning_rate": 9.979063740806253e-06,
      "loss": 0.823,
      "step": 2259
    },
    {
      "epoch": 0.12184602113435411,
      "grad_norm": 1.0309760570526123,
      "learning_rate": 9.979044355472571e-06,
      "loss": 0.7175,
      "step": 2260
    },
    {
      "epoch": 0.12189993530299763,
      "grad_norm": 0.8577457070350647,
      "learning_rate": 9.979024961187238e-06,
      "loss": 0.8963,
      "step": 2261
    },
    {
      "epoch": 0.12195384947164115,
      "grad_norm": 0.8203986883163452,
      "learning_rate": 9.97900555795029e-06,
      "loss": 0.736,
      "step": 2262
    },
    {
      "epoch": 0.12200776364028466,
      "grad_norm": 0.8232439160346985,
      "learning_rate": 9.97898614576176e-06,
      "loss": 0.8104,
      "step": 2263
    },
    {
      "epoch": 0.12206167780892818,
      "grad_norm": 1.276479959487915,
      "learning_rate": 9.978966724621686e-06,
      "loss": 0.7975,
      "step": 2264
    },
    {
      "epoch": 0.1221155919775717,
      "grad_norm": 1.0115424394607544,
      "learning_rate": 9.978947294530102e-06,
      "loss": 1.0566,
      "step": 2265
    },
    {
      "epoch": 0.12216950614621523,
      "grad_norm": 0.8645843863487244,
      "learning_rate": 9.97892785548704e-06,
      "loss": 0.8772,
      "step": 2266
    },
    {
      "epoch": 0.12222342031485875,
      "grad_norm": 0.8335905075073242,
      "learning_rate": 9.978908407492539e-06,
      "loss": 0.7735,
      "step": 2267
    },
    {
      "epoch": 0.12227733448350227,
      "grad_norm": 0.7752977013587952,
      "learning_rate": 9.978888950546632e-06,
      "loss": 0.725,
      "step": 2268
    },
    {
      "epoch": 0.12233124865214579,
      "grad_norm": 0.9533143639564514,
      "learning_rate": 9.978869484649354e-06,
      "loss": 0.7845,
      "step": 2269
    },
    {
      "epoch": 0.1223851628207893,
      "grad_norm": 1.2071044445037842,
      "learning_rate": 9.978850009800739e-06,
      "loss": 0.8394,
      "step": 2270
    },
    {
      "epoch": 0.12243907698943282,
      "grad_norm": 0.8296889662742615,
      "learning_rate": 9.978830526000825e-06,
      "loss": 0.8088,
      "step": 2271
    },
    {
      "epoch": 0.12249299115807634,
      "grad_norm": 0.7804126739501953,
      "learning_rate": 9.978811033249643e-06,
      "loss": 0.8174,
      "step": 2272
    },
    {
      "epoch": 0.12254690532671986,
      "grad_norm": 0.9114241600036621,
      "learning_rate": 9.978791531547232e-06,
      "loss": 0.8601,
      "step": 2273
    },
    {
      "epoch": 0.12260081949536338,
      "grad_norm": 0.9482108354568481,
      "learning_rate": 9.978772020893626e-06,
      "loss": 0.8063,
      "step": 2274
    },
    {
      "epoch": 0.1226547336640069,
      "grad_norm": 0.7750483751296997,
      "learning_rate": 9.978752501288857e-06,
      "loss": 0.7875,
      "step": 2275
    },
    {
      "epoch": 0.12270864783265042,
      "grad_norm": 0.838796854019165,
      "learning_rate": 9.978732972732964e-06,
      "loss": 0.7617,
      "step": 2276
    },
    {
      "epoch": 0.12276256200129394,
      "grad_norm": 0.8419491052627563,
      "learning_rate": 9.97871343522598e-06,
      "loss": 0.8438,
      "step": 2277
    },
    {
      "epoch": 0.12281647616993746,
      "grad_norm": 0.8125029802322388,
      "learning_rate": 9.97869388876794e-06,
      "loss": 0.8376,
      "step": 2278
    },
    {
      "epoch": 0.12287039033858098,
      "grad_norm": 0.8310109972953796,
      "learning_rate": 9.978674333358882e-06,
      "loss": 0.8159,
      "step": 2279
    },
    {
      "epoch": 0.1229243045072245,
      "grad_norm": 0.9533166289329529,
      "learning_rate": 9.978654768998838e-06,
      "loss": 0.8911,
      "step": 2280
    },
    {
      "epoch": 0.12297821867586801,
      "grad_norm": 0.7564504742622375,
      "learning_rate": 9.978635195687845e-06,
      "loss": 0.7685,
      "step": 2281
    },
    {
      "epoch": 0.12303213284451153,
      "grad_norm": 0.7912551760673523,
      "learning_rate": 9.978615613425937e-06,
      "loss": 0.7392,
      "step": 2282
    },
    {
      "epoch": 0.12308604701315505,
      "grad_norm": 0.8196814656257629,
      "learning_rate": 9.978596022213148e-06,
      "loss": 0.8619,
      "step": 2283
    },
    {
      "epoch": 0.12313996118179858,
      "grad_norm": 0.9053134918212891,
      "learning_rate": 9.978576422049515e-06,
      "loss": 0.8822,
      "step": 2284
    },
    {
      "epoch": 0.1231938753504421,
      "grad_norm": 0.7988365292549133,
      "learning_rate": 9.978556812935074e-06,
      "loss": 0.7993,
      "step": 2285
    },
    {
      "epoch": 0.12324778951908562,
      "grad_norm": 0.7595045566558838,
      "learning_rate": 9.978537194869859e-06,
      "loss": 0.7589,
      "step": 2286
    },
    {
      "epoch": 0.12330170368772914,
      "grad_norm": 0.872302234172821,
      "learning_rate": 9.978517567853908e-06,
      "loss": 0.8315,
      "step": 2287
    },
    {
      "epoch": 0.12335561785637265,
      "grad_norm": 0.8375674486160278,
      "learning_rate": 9.97849793188725e-06,
      "loss": 0.8348,
      "step": 2288
    },
    {
      "epoch": 0.12340953202501617,
      "grad_norm": 0.8239575624465942,
      "learning_rate": 9.978478286969927e-06,
      "loss": 0.7636,
      "step": 2289
    },
    {
      "epoch": 0.12346344619365969,
      "grad_norm": 0.8614348769187927,
      "learning_rate": 9.97845863310197e-06,
      "loss": 0.8162,
      "step": 2290
    },
    {
      "epoch": 0.12351736036230321,
      "grad_norm": 0.8609321713447571,
      "learning_rate": 9.978438970283417e-06,
      "loss": 0.7776,
      "step": 2291
    },
    {
      "epoch": 0.12357127453094673,
      "grad_norm": 0.9590173959732056,
      "learning_rate": 9.978419298514302e-06,
      "loss": 0.8761,
      "step": 2292
    },
    {
      "epoch": 0.12362518869959026,
      "grad_norm": 0.8345216512680054,
      "learning_rate": 9.978399617794659e-06,
      "loss": 0.8353,
      "step": 2293
    },
    {
      "epoch": 0.12367910286823378,
      "grad_norm": 0.8771556615829468,
      "learning_rate": 9.978379928124526e-06,
      "loss": 0.773,
      "step": 2294
    },
    {
      "epoch": 0.1237330170368773,
      "grad_norm": 0.8305835127830505,
      "learning_rate": 9.978360229503936e-06,
      "loss": 0.7898,
      "step": 2295
    },
    {
      "epoch": 0.12378693120552081,
      "grad_norm": 0.8536269664764404,
      "learning_rate": 9.978340521932927e-06,
      "loss": 0.8261,
      "step": 2296
    },
    {
      "epoch": 0.12384084537416433,
      "grad_norm": 0.9008522629737854,
      "learning_rate": 9.978320805411534e-06,
      "loss": 0.7114,
      "step": 2297
    },
    {
      "epoch": 0.12389475954280785,
      "grad_norm": 0.7834939956665039,
      "learning_rate": 9.97830107993979e-06,
      "loss": 0.7338,
      "step": 2298
    },
    {
      "epoch": 0.12394867371145137,
      "grad_norm": 0.8269515037536621,
      "learning_rate": 9.978281345517733e-06,
      "loss": 0.7676,
      "step": 2299
    },
    {
      "epoch": 0.12400258788009488,
      "grad_norm": 0.8482736945152283,
      "learning_rate": 9.978261602145398e-06,
      "loss": 0.8185,
      "step": 2300
    },
    {
      "epoch": 0.12405650204873842,
      "grad_norm": 0.8833953142166138,
      "learning_rate": 9.978241849822819e-06,
      "loss": 0.7776,
      "step": 2301
    },
    {
      "epoch": 0.12411041621738193,
      "grad_norm": 0.8089832067489624,
      "learning_rate": 9.978222088550033e-06,
      "loss": 0.7697,
      "step": 2302
    },
    {
      "epoch": 0.12416433038602545,
      "grad_norm": 0.8204466104507446,
      "learning_rate": 9.978202318327075e-06,
      "loss": 0.839,
      "step": 2303
    },
    {
      "epoch": 0.12421824455466897,
      "grad_norm": 0.8547719120979309,
      "learning_rate": 9.97818253915398e-06,
      "loss": 0.9022,
      "step": 2304
    },
    {
      "epoch": 0.12427215872331249,
      "grad_norm": 1.090289831161499,
      "learning_rate": 9.978162751030787e-06,
      "loss": 0.7154,
      "step": 2305
    },
    {
      "epoch": 0.124326072891956,
      "grad_norm": 0.88922518491745,
      "learning_rate": 9.978142953957526e-06,
      "loss": 0.8962,
      "step": 2306
    },
    {
      "epoch": 0.12437998706059952,
      "grad_norm": 0.8741730451583862,
      "learning_rate": 9.978123147934236e-06,
      "loss": 0.7742,
      "step": 2307
    },
    {
      "epoch": 0.12443390122924304,
      "grad_norm": 1.2885240316390991,
      "learning_rate": 9.97810333296095e-06,
      "loss": 0.7256,
      "step": 2308
    },
    {
      "epoch": 0.12448781539788656,
      "grad_norm": 0.7973229885101318,
      "learning_rate": 9.978083509037711e-06,
      "loss": 0.8433,
      "step": 2309
    },
    {
      "epoch": 0.12454172956653009,
      "grad_norm": 0.8328043222427368,
      "learning_rate": 9.978063676164544e-06,
      "loss": 0.8617,
      "step": 2310
    },
    {
      "epoch": 0.12459564373517361,
      "grad_norm": 0.8093283176422119,
      "learning_rate": 9.978043834341493e-06,
      "loss": 0.8407,
      "step": 2311
    },
    {
      "epoch": 0.12464955790381713,
      "grad_norm": 0.7566602826118469,
      "learning_rate": 9.978023983568588e-06,
      "loss": 0.7602,
      "step": 2312
    },
    {
      "epoch": 0.12470347207246064,
      "grad_norm": 0.7731996178627014,
      "learning_rate": 9.97800412384587e-06,
      "loss": 0.8323,
      "step": 2313
    },
    {
      "epoch": 0.12475738624110416,
      "grad_norm": 0.9148348569869995,
      "learning_rate": 9.97798425517337e-06,
      "loss": 0.7886,
      "step": 2314
    },
    {
      "epoch": 0.12481130040974768,
      "grad_norm": 0.8546224236488342,
      "learning_rate": 9.977964377551126e-06,
      "loss": 0.8116,
      "step": 2315
    },
    {
      "epoch": 0.1248652145783912,
      "grad_norm": 1.0733944177627563,
      "learning_rate": 9.977944490979175e-06,
      "loss": 0.8255,
      "step": 2316
    },
    {
      "epoch": 0.12491912874703472,
      "grad_norm": 0.8404545783996582,
      "learning_rate": 9.977924595457549e-06,
      "loss": 0.8542,
      "step": 2317
    },
    {
      "epoch": 0.12497304291567823,
      "grad_norm": 0.8276603817939758,
      "learning_rate": 9.977904690986286e-06,
      "loss": 0.8242,
      "step": 2318
    },
    {
      "epoch": 0.12502695708432177,
      "grad_norm": 0.8703106641769409,
      "learning_rate": 9.977884777565423e-06,
      "loss": 0.8525,
      "step": 2319
    },
    {
      "epoch": 0.12508087125296527,
      "grad_norm": 0.8353367447853088,
      "learning_rate": 9.977864855194994e-06,
      "loss": 0.7921,
      "step": 2320
    },
    {
      "epoch": 0.1251347854216088,
      "grad_norm": 0.8283559083938599,
      "learning_rate": 9.977844923875036e-06,
      "loss": 0.8262,
      "step": 2321
    },
    {
      "epoch": 0.1251886995902523,
      "grad_norm": 0.8737161755561829,
      "learning_rate": 9.977824983605584e-06,
      "loss": 0.9117,
      "step": 2322
    },
    {
      "epoch": 0.12524261375889584,
      "grad_norm": 0.8616884350776672,
      "learning_rate": 9.977805034386675e-06,
      "loss": 0.8178,
      "step": 2323
    },
    {
      "epoch": 0.12529652792753937,
      "grad_norm": 0.9863162636756897,
      "learning_rate": 9.977785076218342e-06,
      "loss": 0.8671,
      "step": 2324
    },
    {
      "epoch": 0.12535044209618287,
      "grad_norm": 0.9636940360069275,
      "learning_rate": 9.977765109100624e-06,
      "loss": 0.894,
      "step": 2325
    },
    {
      "epoch": 0.1254043562648264,
      "grad_norm": 0.741320013999939,
      "learning_rate": 9.977745133033554e-06,
      "loss": 0.7474,
      "step": 2326
    },
    {
      "epoch": 0.1254582704334699,
      "grad_norm": 0.7776119709014893,
      "learning_rate": 9.97772514801717e-06,
      "loss": 0.7867,
      "step": 2327
    },
    {
      "epoch": 0.12551218460211344,
      "grad_norm": 0.8219690918922424,
      "learning_rate": 9.97770515405151e-06,
      "loss": 0.8443,
      "step": 2328
    },
    {
      "epoch": 0.12556609877075695,
      "grad_norm": 0.8977565765380859,
      "learning_rate": 9.977685151136605e-06,
      "loss": 0.7831,
      "step": 2329
    },
    {
      "epoch": 0.12562001293940048,
      "grad_norm": 0.8503162264823914,
      "learning_rate": 9.977665139272495e-06,
      "loss": 0.8733,
      "step": 2330
    },
    {
      "epoch": 0.12567392710804398,
      "grad_norm": 0.7666327953338623,
      "learning_rate": 9.977645118459213e-06,
      "loss": 0.7165,
      "step": 2331
    },
    {
      "epoch": 0.1257278412766875,
      "grad_norm": 0.8265602588653564,
      "learning_rate": 9.977625088696797e-06,
      "loss": 0.8894,
      "step": 2332
    },
    {
      "epoch": 0.12578175544533104,
      "grad_norm": 0.9852930307388306,
      "learning_rate": 9.977605049985282e-06,
      "loss": 0.9223,
      "step": 2333
    },
    {
      "epoch": 0.12583566961397455,
      "grad_norm": 0.9563886523246765,
      "learning_rate": 9.977585002324705e-06,
      "loss": 0.8275,
      "step": 2334
    },
    {
      "epoch": 0.12588958378261808,
      "grad_norm": 0.8098574876785278,
      "learning_rate": 9.977564945715102e-06,
      "loss": 0.8831,
      "step": 2335
    },
    {
      "epoch": 0.12594349795126158,
      "grad_norm": 0.8795431852340698,
      "learning_rate": 9.977544880156507e-06,
      "loss": 0.8079,
      "step": 2336
    },
    {
      "epoch": 0.12599741211990512,
      "grad_norm": 0.7483893036842346,
      "learning_rate": 9.97752480564896e-06,
      "loss": 0.7734,
      "step": 2337
    },
    {
      "epoch": 0.12605132628854862,
      "grad_norm": 0.7988960146903992,
      "learning_rate": 9.977504722192493e-06,
      "loss": 0.6936,
      "step": 2338
    },
    {
      "epoch": 0.12610524045719215,
      "grad_norm": 0.7945669293403625,
      "learning_rate": 9.977484629787143e-06,
      "loss": 0.8608,
      "step": 2339
    },
    {
      "epoch": 0.12615915462583566,
      "grad_norm": 0.8720629215240479,
      "learning_rate": 9.977464528432948e-06,
      "loss": 0.8656,
      "step": 2340
    },
    {
      "epoch": 0.1262130687944792,
      "grad_norm": 0.8935837745666504,
      "learning_rate": 9.977444418129943e-06,
      "loss": 0.8854,
      "step": 2341
    },
    {
      "epoch": 0.12626698296312272,
      "grad_norm": 0.8034403324127197,
      "learning_rate": 9.977424298878165e-06,
      "loss": 0.8422,
      "step": 2342
    },
    {
      "epoch": 0.12632089713176622,
      "grad_norm": 1.0071096420288086,
      "learning_rate": 9.977404170677648e-06,
      "loss": 0.9105,
      "step": 2343
    },
    {
      "epoch": 0.12637481130040976,
      "grad_norm": 1.0757510662078857,
      "learning_rate": 9.97738403352843e-06,
      "loss": 0.7454,
      "step": 2344
    },
    {
      "epoch": 0.12642872546905326,
      "grad_norm": 0.7133142352104187,
      "learning_rate": 9.977363887430548e-06,
      "loss": 0.6814,
      "step": 2345
    },
    {
      "epoch": 0.1264826396376968,
      "grad_norm": 0.769752025604248,
      "learning_rate": 9.977343732384035e-06,
      "loss": 0.7209,
      "step": 2346
    },
    {
      "epoch": 0.1265365538063403,
      "grad_norm": 0.8043524622917175,
      "learning_rate": 9.977323568388933e-06,
      "loss": 0.8379,
      "step": 2347
    },
    {
      "epoch": 0.12659046797498383,
      "grad_norm": 0.9236345887184143,
      "learning_rate": 9.97730339544527e-06,
      "loss": 0.8091,
      "step": 2348
    },
    {
      "epoch": 0.12664438214362733,
      "grad_norm": 0.8852472305297852,
      "learning_rate": 9.97728321355309e-06,
      "loss": 0.8527,
      "step": 2349
    },
    {
      "epoch": 0.12669829631227086,
      "grad_norm": 0.8866454362869263,
      "learning_rate": 9.977263022712425e-06,
      "loss": 0.7412,
      "step": 2350
    },
    {
      "epoch": 0.1267522104809144,
      "grad_norm": 0.7950204014778137,
      "learning_rate": 9.977242822923311e-06,
      "loss": 0.7778,
      "step": 2351
    },
    {
      "epoch": 0.1268061246495579,
      "grad_norm": 0.8775694966316223,
      "learning_rate": 9.977222614185787e-06,
      "loss": 0.7437,
      "step": 2352
    },
    {
      "epoch": 0.12686003881820143,
      "grad_norm": 0.8059643507003784,
      "learning_rate": 9.977202396499889e-06,
      "loss": 0.7935,
      "step": 2353
    },
    {
      "epoch": 0.12691395298684494,
      "grad_norm": 0.8250171542167664,
      "learning_rate": 9.977182169865652e-06,
      "loss": 0.7936,
      "step": 2354
    },
    {
      "epoch": 0.12696786715548847,
      "grad_norm": 0.8618381023406982,
      "learning_rate": 9.97716193428311e-06,
      "loss": 0.7884,
      "step": 2355
    },
    {
      "epoch": 0.12702178132413197,
      "grad_norm": 0.8977087140083313,
      "learning_rate": 9.977141689752306e-06,
      "loss": 0.7764,
      "step": 2356
    },
    {
      "epoch": 0.1270756954927755,
      "grad_norm": 0.7616862058639526,
      "learning_rate": 9.97712143627327e-06,
      "loss": 0.7222,
      "step": 2357
    },
    {
      "epoch": 0.127129609661419,
      "grad_norm": 0.8255194425582886,
      "learning_rate": 9.977101173846042e-06,
      "loss": 0.8015,
      "step": 2358
    },
    {
      "epoch": 0.12718352383006254,
      "grad_norm": 0.7783398628234863,
      "learning_rate": 9.977080902470657e-06,
      "loss": 0.7403,
      "step": 2359
    },
    {
      "epoch": 0.12723743799870607,
      "grad_norm": 1.201339840888977,
      "learning_rate": 9.977060622147152e-06,
      "loss": 0.8994,
      "step": 2360
    },
    {
      "epoch": 0.12729135216734958,
      "grad_norm": 0.906428337097168,
      "learning_rate": 9.977040332875563e-06,
      "loss": 0.7791,
      "step": 2361
    },
    {
      "epoch": 0.1273452663359931,
      "grad_norm": 0.8238182663917542,
      "learning_rate": 9.977020034655927e-06,
      "loss": 0.728,
      "step": 2362
    },
    {
      "epoch": 0.1273991805046366,
      "grad_norm": 0.9390681385993958,
      "learning_rate": 9.976999727488279e-06,
      "loss": 0.8697,
      "step": 2363
    },
    {
      "epoch": 0.12745309467328014,
      "grad_norm": 0.8595122694969177,
      "learning_rate": 9.976979411372658e-06,
      "loss": 0.8481,
      "step": 2364
    },
    {
      "epoch": 0.12750700884192365,
      "grad_norm": 0.8220391273498535,
      "learning_rate": 9.976959086309099e-06,
      "loss": 0.709,
      "step": 2365
    },
    {
      "epoch": 0.12756092301056718,
      "grad_norm": 0.9712308645248413,
      "learning_rate": 9.976938752297638e-06,
      "loss": 0.8898,
      "step": 2366
    },
    {
      "epoch": 0.12761483717921068,
      "grad_norm": 0.8864933848381042,
      "learning_rate": 9.976918409338315e-06,
      "loss": 0.8798,
      "step": 2367
    },
    {
      "epoch": 0.12766875134785421,
      "grad_norm": 0.7780918478965759,
      "learning_rate": 9.976898057431162e-06,
      "loss": 0.8123,
      "step": 2368
    },
    {
      "epoch": 0.12772266551649775,
      "grad_norm": 0.8338439464569092,
      "learning_rate": 9.976877696576218e-06,
      "loss": 0.8177,
      "step": 2369
    },
    {
      "epoch": 0.12777657968514125,
      "grad_norm": 0.9967712759971619,
      "learning_rate": 9.976857326773517e-06,
      "loss": 0.8613,
      "step": 2370
    },
    {
      "epoch": 0.12783049385378478,
      "grad_norm": 0.7666492462158203,
      "learning_rate": 9.976836948023099e-06,
      "loss": 0.7226,
      "step": 2371
    },
    {
      "epoch": 0.1278844080224283,
      "grad_norm": 0.9783684611320496,
      "learning_rate": 9.976816560325e-06,
      "loss": 0.8616,
      "step": 2372
    },
    {
      "epoch": 0.12793832219107182,
      "grad_norm": 1.0170663595199585,
      "learning_rate": 9.976796163679256e-06,
      "loss": 0.8211,
      "step": 2373
    },
    {
      "epoch": 0.12799223635971532,
      "grad_norm": 0.8657981157302856,
      "learning_rate": 9.976775758085903e-06,
      "loss": 0.867,
      "step": 2374
    },
    {
      "epoch": 0.12804615052835885,
      "grad_norm": 0.8487955927848816,
      "learning_rate": 9.976755343544979e-06,
      "loss": 0.8056,
      "step": 2375
    },
    {
      "epoch": 0.12810006469700239,
      "grad_norm": 0.90731281042099,
      "learning_rate": 9.976734920056522e-06,
      "loss": 0.8492,
      "step": 2376
    },
    {
      "epoch": 0.1281539788656459,
      "grad_norm": 0.9684501886367798,
      "learning_rate": 9.976714487620565e-06,
      "loss": 0.8023,
      "step": 2377
    },
    {
      "epoch": 0.12820789303428942,
      "grad_norm": 0.8361303806304932,
      "learning_rate": 9.976694046237146e-06,
      "loss": 0.8132,
      "step": 2378
    },
    {
      "epoch": 0.12826180720293293,
      "grad_norm": 0.9570466876029968,
      "learning_rate": 9.976673595906303e-06,
      "loss": 0.8991,
      "step": 2379
    },
    {
      "epoch": 0.12831572137157646,
      "grad_norm": 0.8944576978683472,
      "learning_rate": 9.976653136628071e-06,
      "loss": 0.8163,
      "step": 2380
    },
    {
      "epoch": 0.12836963554021996,
      "grad_norm": 0.7991742491722107,
      "learning_rate": 9.976632668402489e-06,
      "loss": 0.7962,
      "step": 2381
    },
    {
      "epoch": 0.1284235497088635,
      "grad_norm": 0.9284802079200745,
      "learning_rate": 9.976612191229594e-06,
      "loss": 1.0115,
      "step": 2382
    },
    {
      "epoch": 0.128477463877507,
      "grad_norm": 0.8092453479766846,
      "learning_rate": 9.97659170510942e-06,
      "loss": 0.705,
      "step": 2383
    },
    {
      "epoch": 0.12853137804615053,
      "grad_norm": 0.8068677186965942,
      "learning_rate": 9.976571210042005e-06,
      "loss": 0.8283,
      "step": 2384
    },
    {
      "epoch": 0.12858529221479406,
      "grad_norm": 0.8636525869369507,
      "learning_rate": 9.976550706027386e-06,
      "loss": 0.7824,
      "step": 2385
    },
    {
      "epoch": 0.12863920638343757,
      "grad_norm": 0.9768033027648926,
      "learning_rate": 9.9765301930656e-06,
      "loss": 0.8317,
      "step": 2386
    },
    {
      "epoch": 0.1286931205520811,
      "grad_norm": 0.8494508862495422,
      "learning_rate": 9.976509671156684e-06,
      "loss": 0.9464,
      "step": 2387
    },
    {
      "epoch": 0.1287470347207246,
      "grad_norm": 0.8336171507835388,
      "learning_rate": 9.976489140300676e-06,
      "loss": 0.8003,
      "step": 2388
    },
    {
      "epoch": 0.12880094888936813,
      "grad_norm": 0.819869339466095,
      "learning_rate": 9.97646860049761e-06,
      "loss": 0.6779,
      "step": 2389
    },
    {
      "epoch": 0.12885486305801164,
      "grad_norm": 1.179028868675232,
      "learning_rate": 9.976448051747526e-06,
      "loss": 0.8183,
      "step": 2390
    },
    {
      "epoch": 0.12890877722665517,
      "grad_norm": 0.8214680552482605,
      "learning_rate": 9.97642749405046e-06,
      "loss": 0.7659,
      "step": 2391
    },
    {
      "epoch": 0.12896269139529867,
      "grad_norm": 0.8303862810134888,
      "learning_rate": 9.976406927406446e-06,
      "loss": 0.8993,
      "step": 2392
    },
    {
      "epoch": 0.1290166055639422,
      "grad_norm": 0.8043105006217957,
      "learning_rate": 9.976386351815526e-06,
      "loss": 0.7948,
      "step": 2393
    },
    {
      "epoch": 0.12907051973258574,
      "grad_norm": 0.7988419532775879,
      "learning_rate": 9.976365767277734e-06,
      "loss": 0.8042,
      "step": 2394
    },
    {
      "epoch": 0.12912443390122924,
      "grad_norm": 0.8145790696144104,
      "learning_rate": 9.976345173793107e-06,
      "loss": 0.7214,
      "step": 2395
    },
    {
      "epoch": 0.12917834806987277,
      "grad_norm": 0.8323239088058472,
      "learning_rate": 9.976324571361682e-06,
      "loss": 0.8692,
      "step": 2396
    },
    {
      "epoch": 0.12923226223851628,
      "grad_norm": 1.5968064069747925,
      "learning_rate": 9.976303959983498e-06,
      "loss": 0.8573,
      "step": 2397
    },
    {
      "epoch": 0.1292861764071598,
      "grad_norm": 0.8523521423339844,
      "learning_rate": 9.976283339658589e-06,
      "loss": 0.8856,
      "step": 2398
    },
    {
      "epoch": 0.1293400905758033,
      "grad_norm": 1.3875633478164673,
      "learning_rate": 9.976262710386994e-06,
      "loss": 0.829,
      "step": 2399
    },
    {
      "epoch": 0.12939400474444684,
      "grad_norm": 0.8131827712059021,
      "learning_rate": 9.976242072168751e-06,
      "loss": 0.7787,
      "step": 2400
    },
    {
      "epoch": 0.12944791891309035,
      "grad_norm": 0.8347164392471313,
      "learning_rate": 9.976221425003896e-06,
      "loss": 0.9119,
      "step": 2401
    },
    {
      "epoch": 0.12950183308173388,
      "grad_norm": 0.791674792766571,
      "learning_rate": 9.976200768892465e-06,
      "loss": 0.8483,
      "step": 2402
    },
    {
      "epoch": 0.1295557472503774,
      "grad_norm": 0.8207666277885437,
      "learning_rate": 9.976180103834496e-06,
      "loss": 0.7688,
      "step": 2403
    },
    {
      "epoch": 0.12960966141902092,
      "grad_norm": 0.8335880041122437,
      "learning_rate": 9.976159429830027e-06,
      "loss": 0.8943,
      "step": 2404
    },
    {
      "epoch": 0.12966357558766445,
      "grad_norm": 0.8273102045059204,
      "learning_rate": 9.976138746879094e-06,
      "loss": 0.7847,
      "step": 2405
    },
    {
      "epoch": 0.12971748975630795,
      "grad_norm": 0.9029181003570557,
      "learning_rate": 9.976118054981735e-06,
      "loss": 0.9779,
      "step": 2406
    },
    {
      "epoch": 0.12977140392495148,
      "grad_norm": 1.0253269672393799,
      "learning_rate": 9.976097354137986e-06,
      "loss": 0.8301,
      "step": 2407
    },
    {
      "epoch": 0.129825318093595,
      "grad_norm": 0.859992265701294,
      "learning_rate": 9.976076644347887e-06,
      "loss": 0.7809,
      "step": 2408
    },
    {
      "epoch": 0.12987923226223852,
      "grad_norm": 0.8313273787498474,
      "learning_rate": 9.976055925611472e-06,
      "loss": 0.8435,
      "step": 2409
    },
    {
      "epoch": 0.12993314643088202,
      "grad_norm": 0.8921852707862854,
      "learning_rate": 9.976035197928779e-06,
      "loss": 0.8407,
      "step": 2410
    },
    {
      "epoch": 0.12998706059952556,
      "grad_norm": 0.9168267846107483,
      "learning_rate": 9.976014461299848e-06,
      "loss": 0.8428,
      "step": 2411
    },
    {
      "epoch": 0.1300409747681691,
      "grad_norm": 0.8943728804588318,
      "learning_rate": 9.975993715724712e-06,
      "loss": 0.8953,
      "step": 2412
    },
    {
      "epoch": 0.1300948889368126,
      "grad_norm": 0.8288392424583435,
      "learning_rate": 9.975972961203411e-06,
      "loss": 0.8008,
      "step": 2413
    },
    {
      "epoch": 0.13014880310545612,
      "grad_norm": 0.8432718515396118,
      "learning_rate": 9.975952197735982e-06,
      "loss": 0.775,
      "step": 2414
    },
    {
      "epoch": 0.13020271727409963,
      "grad_norm": 1.029341220855713,
      "learning_rate": 9.975931425322462e-06,
      "loss": 0.9086,
      "step": 2415
    },
    {
      "epoch": 0.13025663144274316,
      "grad_norm": 0.8342422842979431,
      "learning_rate": 9.975910643962888e-06,
      "loss": 0.8867,
      "step": 2416
    },
    {
      "epoch": 0.13031054561138666,
      "grad_norm": 0.7766898274421692,
      "learning_rate": 9.975889853657298e-06,
      "loss": 0.7597,
      "step": 2417
    },
    {
      "epoch": 0.1303644597800302,
      "grad_norm": 0.865112841129303,
      "learning_rate": 9.97586905440573e-06,
      "loss": 0.8164,
      "step": 2418
    },
    {
      "epoch": 0.1304183739486737,
      "grad_norm": 0.7938675880432129,
      "learning_rate": 9.97584824620822e-06,
      "loss": 0.8053,
      "step": 2419
    },
    {
      "epoch": 0.13047228811731723,
      "grad_norm": 0.8813329339027405,
      "learning_rate": 9.975827429064805e-06,
      "loss": 0.8662,
      "step": 2420
    },
    {
      "epoch": 0.13052620228596076,
      "grad_norm": 0.8217114210128784,
      "learning_rate": 9.975806602975525e-06,
      "loss": 0.8647,
      "step": 2421
    },
    {
      "epoch": 0.13058011645460427,
      "grad_norm": 1.0177736282348633,
      "learning_rate": 9.975785767940413e-06,
      "loss": 0.813,
      "step": 2422
    },
    {
      "epoch": 0.1306340306232478,
      "grad_norm": 0.7887234687805176,
      "learning_rate": 9.975764923959512e-06,
      "loss": 0.7759,
      "step": 2423
    },
    {
      "epoch": 0.1306879447918913,
      "grad_norm": 0.7670013904571533,
      "learning_rate": 9.975744071032856e-06,
      "loss": 0.7534,
      "step": 2424
    },
    {
      "epoch": 0.13074185896053483,
      "grad_norm": 0.7348708510398865,
      "learning_rate": 9.975723209160483e-06,
      "loss": 0.7955,
      "step": 2425
    },
    {
      "epoch": 0.13079577312917834,
      "grad_norm": 0.8183468580245972,
      "learning_rate": 9.97570233834243e-06,
      "loss": 0.8664,
      "step": 2426
    },
    {
      "epoch": 0.13084968729782187,
      "grad_norm": 0.8783697485923767,
      "learning_rate": 9.975681458578736e-06,
      "loss": 0.8399,
      "step": 2427
    },
    {
      "epoch": 0.13090360146646537,
      "grad_norm": 0.7653324007987976,
      "learning_rate": 9.975660569869439e-06,
      "loss": 0.7723,
      "step": 2428
    },
    {
      "epoch": 0.1309575156351089,
      "grad_norm": 0.9938413500785828,
      "learning_rate": 9.975639672214574e-06,
      "loss": 0.7439,
      "step": 2429
    },
    {
      "epoch": 0.13101142980375244,
      "grad_norm": 0.7844074368476868,
      "learning_rate": 9.975618765614181e-06,
      "loss": 0.8234,
      "step": 2430
    },
    {
      "epoch": 0.13106534397239594,
      "grad_norm": 0.8992919325828552,
      "learning_rate": 9.975597850068295e-06,
      "loss": 0.7485,
      "step": 2431
    },
    {
      "epoch": 0.13111925814103947,
      "grad_norm": 0.8023738265037537,
      "learning_rate": 9.975576925576956e-06,
      "loss": 0.7986,
      "step": 2432
    },
    {
      "epoch": 0.13117317230968298,
      "grad_norm": 0.8369026184082031,
      "learning_rate": 9.9755559921402e-06,
      "loss": 0.8695,
      "step": 2433
    },
    {
      "epoch": 0.1312270864783265,
      "grad_norm": 0.812224805355072,
      "learning_rate": 9.975535049758067e-06,
      "loss": 0.834,
      "step": 2434
    },
    {
      "epoch": 0.13128100064697001,
      "grad_norm": 0.7718735337257385,
      "learning_rate": 9.975514098430591e-06,
      "loss": 0.8055,
      "step": 2435
    },
    {
      "epoch": 0.13133491481561355,
      "grad_norm": 0.8709392547607422,
      "learning_rate": 9.975493138157813e-06,
      "loss": 0.899,
      "step": 2436
    },
    {
      "epoch": 0.13138882898425705,
      "grad_norm": 0.8817125558853149,
      "learning_rate": 9.97547216893977e-06,
      "loss": 0.7908,
      "step": 2437
    },
    {
      "epoch": 0.13144274315290058,
      "grad_norm": 0.9631084203720093,
      "learning_rate": 9.975451190776498e-06,
      "loss": 0.9153,
      "step": 2438
    },
    {
      "epoch": 0.1314966573215441,
      "grad_norm": 0.998906672000885,
      "learning_rate": 9.975430203668037e-06,
      "loss": 0.971,
      "step": 2439
    },
    {
      "epoch": 0.13155057149018762,
      "grad_norm": 0.9689096212387085,
      "learning_rate": 9.975409207614422e-06,
      "loss": 0.8316,
      "step": 2440
    },
    {
      "epoch": 0.13160448565883115,
      "grad_norm": 0.7694187760353088,
      "learning_rate": 9.975388202615692e-06,
      "loss": 0.757,
      "step": 2441
    },
    {
      "epoch": 0.13165839982747465,
      "grad_norm": 0.8082549571990967,
      "learning_rate": 9.975367188671885e-06,
      "loss": 0.8704,
      "step": 2442
    },
    {
      "epoch": 0.13171231399611819,
      "grad_norm": 0.8493963479995728,
      "learning_rate": 9.97534616578304e-06,
      "loss": 0.8171,
      "step": 2443
    },
    {
      "epoch": 0.1317662281647617,
      "grad_norm": 0.972273588180542,
      "learning_rate": 9.975325133949195e-06,
      "loss": 0.9834,
      "step": 2444
    },
    {
      "epoch": 0.13182014233340522,
      "grad_norm": 0.8235988616943359,
      "learning_rate": 9.975304093170384e-06,
      "loss": 0.8896,
      "step": 2445
    },
    {
      "epoch": 0.13187405650204873,
      "grad_norm": 0.8405951261520386,
      "learning_rate": 9.975283043446649e-06,
      "loss": 0.8362,
      "step": 2446
    },
    {
      "epoch": 0.13192797067069226,
      "grad_norm": 0.765640377998352,
      "learning_rate": 9.975261984778024e-06,
      "loss": 0.7543,
      "step": 2447
    },
    {
      "epoch": 0.1319818848393358,
      "grad_norm": 0.9431920051574707,
      "learning_rate": 9.97524091716455e-06,
      "loss": 0.8322,
      "step": 2448
    },
    {
      "epoch": 0.1320357990079793,
      "grad_norm": 0.8060823082923889,
      "learning_rate": 9.975219840606265e-06,
      "loss": 0.8153,
      "step": 2449
    },
    {
      "epoch": 0.13208971317662282,
      "grad_norm": 1.1293737888336182,
      "learning_rate": 9.975198755103203e-06,
      "loss": 0.8969,
      "step": 2450
    },
    {
      "epoch": 0.13214362734526633,
      "grad_norm": 0.8462950587272644,
      "learning_rate": 9.975177660655407e-06,
      "loss": 0.7758,
      "step": 2451
    },
    {
      "epoch": 0.13219754151390986,
      "grad_norm": 0.8241791725158691,
      "learning_rate": 9.975156557262914e-06,
      "loss": 0.8046,
      "step": 2452
    },
    {
      "epoch": 0.13225145568255336,
      "grad_norm": 0.8260864615440369,
      "learning_rate": 9.975135444925756e-06,
      "loss": 0.7559,
      "step": 2453
    },
    {
      "epoch": 0.1323053698511969,
      "grad_norm": 0.8952769637107849,
      "learning_rate": 9.975114323643978e-06,
      "loss": 0.8292,
      "step": 2454
    },
    {
      "epoch": 0.1323592840198404,
      "grad_norm": 0.8182158470153809,
      "learning_rate": 9.975093193417615e-06,
      "loss": 0.7137,
      "step": 2455
    },
    {
      "epoch": 0.13241319818848393,
      "grad_norm": 0.9926600456237793,
      "learning_rate": 9.975072054246706e-06,
      "loss": 0.7935,
      "step": 2456
    },
    {
      "epoch": 0.13246711235712746,
      "grad_norm": 0.872171938419342,
      "learning_rate": 9.97505090613129e-06,
      "loss": 0.882,
      "step": 2457
    },
    {
      "epoch": 0.13252102652577097,
      "grad_norm": 0.8218923807144165,
      "learning_rate": 9.975029749071401e-06,
      "loss": 0.7675,
      "step": 2458
    },
    {
      "epoch": 0.1325749406944145,
      "grad_norm": 0.8250816464424133,
      "learning_rate": 9.97500858306708e-06,
      "loss": 0.8404,
      "step": 2459
    },
    {
      "epoch": 0.132628854863058,
      "grad_norm": 0.8135029673576355,
      "learning_rate": 9.974987408118365e-06,
      "loss": 0.8387,
      "step": 2460
    },
    {
      "epoch": 0.13268276903170154,
      "grad_norm": 1.3989582061767578,
      "learning_rate": 9.974966224225293e-06,
      "loss": 0.817,
      "step": 2461
    },
    {
      "epoch": 0.13273668320034504,
      "grad_norm": 0.8212644457817078,
      "learning_rate": 9.974945031387902e-06,
      "loss": 0.8377,
      "step": 2462
    },
    {
      "epoch": 0.13279059736898857,
      "grad_norm": 1.5513782501220703,
      "learning_rate": 9.974923829606232e-06,
      "loss": 0.7645,
      "step": 2463
    },
    {
      "epoch": 0.13284451153763208,
      "grad_norm": 0.9355224370956421,
      "learning_rate": 9.97490261888032e-06,
      "loss": 0.7943,
      "step": 2464
    },
    {
      "epoch": 0.1328984257062756,
      "grad_norm": 0.8264141082763672,
      "learning_rate": 9.974881399210204e-06,
      "loss": 0.7868,
      "step": 2465
    },
    {
      "epoch": 0.13295233987491914,
      "grad_norm": 0.8267685770988464,
      "learning_rate": 9.974860170595921e-06,
      "loss": 0.8482,
      "step": 2466
    },
    {
      "epoch": 0.13300625404356264,
      "grad_norm": 0.7816182374954224,
      "learning_rate": 9.974838933037512e-06,
      "loss": 0.6735,
      "step": 2467
    },
    {
      "epoch": 0.13306016821220618,
      "grad_norm": 0.8686188459396362,
      "learning_rate": 9.974817686535013e-06,
      "loss": 0.7639,
      "step": 2468
    },
    {
      "epoch": 0.13311408238084968,
      "grad_norm": 0.8006383776664734,
      "learning_rate": 9.974796431088462e-06,
      "loss": 0.9035,
      "step": 2469
    },
    {
      "epoch": 0.1331679965494932,
      "grad_norm": 0.829788327217102,
      "learning_rate": 9.974775166697898e-06,
      "loss": 0.7724,
      "step": 2470
    },
    {
      "epoch": 0.13322191071813672,
      "grad_norm": 0.7149111032485962,
      "learning_rate": 9.97475389336336e-06,
      "loss": 0.7543,
      "step": 2471
    },
    {
      "epoch": 0.13327582488678025,
      "grad_norm": 0.8626448512077332,
      "learning_rate": 9.974732611084886e-06,
      "loss": 0.8903,
      "step": 2472
    },
    {
      "epoch": 0.13332973905542375,
      "grad_norm": 0.818778395652771,
      "learning_rate": 9.974711319862514e-06,
      "loss": 0.7862,
      "step": 2473
    },
    {
      "epoch": 0.13338365322406728,
      "grad_norm": 0.8285005688667297,
      "learning_rate": 9.97469001969628e-06,
      "loss": 0.8186,
      "step": 2474
    },
    {
      "epoch": 0.13343756739271082,
      "grad_norm": 0.9331484436988831,
      "learning_rate": 9.974668710586226e-06,
      "loss": 0.7278,
      "step": 2475
    },
    {
      "epoch": 0.13349148156135432,
      "grad_norm": 0.7760492563247681,
      "learning_rate": 9.974647392532387e-06,
      "loss": 0.82,
      "step": 2476
    },
    {
      "epoch": 0.13354539572999785,
      "grad_norm": 0.9858410358428955,
      "learning_rate": 9.974626065534804e-06,
      "loss": 0.9733,
      "step": 2477
    },
    {
      "epoch": 0.13359930989864136,
      "grad_norm": 0.774960458278656,
      "learning_rate": 9.974604729593513e-06,
      "loss": 0.7899,
      "step": 2478
    },
    {
      "epoch": 0.1336532240672849,
      "grad_norm": 0.7779082655906677,
      "learning_rate": 9.974583384708556e-06,
      "loss": 0.7727,
      "step": 2479
    },
    {
      "epoch": 0.1337071382359284,
      "grad_norm": 0.8611405491828918,
      "learning_rate": 9.974562030879967e-06,
      "loss": 0.8341,
      "step": 2480
    },
    {
      "epoch": 0.13376105240457192,
      "grad_norm": 0.9042904376983643,
      "learning_rate": 9.974540668107788e-06,
      "loss": 0.8015,
      "step": 2481
    },
    {
      "epoch": 0.13381496657321545,
      "grad_norm": 1.067806601524353,
      "learning_rate": 9.974519296392054e-06,
      "loss": 0.8583,
      "step": 2482
    },
    {
      "epoch": 0.13386888074185896,
      "grad_norm": 0.8079432845115662,
      "learning_rate": 9.974497915732806e-06,
      "loss": 0.7246,
      "step": 2483
    },
    {
      "epoch": 0.1339227949105025,
      "grad_norm": 0.7360541224479675,
      "learning_rate": 9.974476526130082e-06,
      "loss": 0.7228,
      "step": 2484
    },
    {
      "epoch": 0.133976709079146,
      "grad_norm": 0.7532739639282227,
      "learning_rate": 9.97445512758392e-06,
      "loss": 0.7472,
      "step": 2485
    },
    {
      "epoch": 0.13403062324778953,
      "grad_norm": 0.794747531414032,
      "learning_rate": 9.974433720094358e-06,
      "loss": 0.8288,
      "step": 2486
    },
    {
      "epoch": 0.13408453741643303,
      "grad_norm": 0.9305081367492676,
      "learning_rate": 9.974412303661435e-06,
      "loss": 0.9414,
      "step": 2487
    },
    {
      "epoch": 0.13413845158507656,
      "grad_norm": 0.9857872128486633,
      "learning_rate": 9.97439087828519e-06,
      "loss": 0.9123,
      "step": 2488
    },
    {
      "epoch": 0.13419236575372007,
      "grad_norm": 0.9159066081047058,
      "learning_rate": 9.97436944396566e-06,
      "loss": 0.815,
      "step": 2489
    },
    {
      "epoch": 0.1342462799223636,
      "grad_norm": 0.920803427696228,
      "learning_rate": 9.974348000702887e-06,
      "loss": 0.855,
      "step": 2490
    },
    {
      "epoch": 0.13430019409100713,
      "grad_norm": 0.8599058389663696,
      "learning_rate": 9.974326548496906e-06,
      "loss": 0.8944,
      "step": 2491
    },
    {
      "epoch": 0.13435410825965063,
      "grad_norm": 0.7708035111427307,
      "learning_rate": 9.974305087347758e-06,
      "loss": 0.7733,
      "step": 2492
    },
    {
      "epoch": 0.13440802242829417,
      "grad_norm": 0.771906852722168,
      "learning_rate": 9.974283617255478e-06,
      "loss": 0.8555,
      "step": 2493
    },
    {
      "epoch": 0.13446193659693767,
      "grad_norm": 0.7494363188743591,
      "learning_rate": 9.974262138220108e-06,
      "loss": 0.7575,
      "step": 2494
    },
    {
      "epoch": 0.1345158507655812,
      "grad_norm": 0.8488510251045227,
      "learning_rate": 9.974240650241687e-06,
      "loss": 0.8423,
      "step": 2495
    },
    {
      "epoch": 0.1345697649342247,
      "grad_norm": 0.7665607929229736,
      "learning_rate": 9.97421915332025e-06,
      "loss": 0.8221,
      "step": 2496
    },
    {
      "epoch": 0.13462367910286824,
      "grad_norm": 0.83452969789505,
      "learning_rate": 9.974197647455839e-06,
      "loss": 0.8192,
      "step": 2497
    },
    {
      "epoch": 0.13467759327151174,
      "grad_norm": 0.8927843570709229,
      "learning_rate": 9.97417613264849e-06,
      "loss": 0.8041,
      "step": 2498
    },
    {
      "epoch": 0.13473150744015527,
      "grad_norm": 0.8050754070281982,
      "learning_rate": 9.974154608898246e-06,
      "loss": 0.7374,
      "step": 2499
    },
    {
      "epoch": 0.1347854216087988,
      "grad_norm": 0.8286676406860352,
      "learning_rate": 9.97413307620514e-06,
      "loss": 0.7603,
      "step": 2500
    },
    {
      "epoch": 0.1348393357774423,
      "grad_norm": 0.8953397870063782,
      "learning_rate": 9.974111534569215e-06,
      "loss": 0.8419,
      "step": 2501
    },
    {
      "epoch": 0.13489324994608584,
      "grad_norm": 0.8619454503059387,
      "learning_rate": 9.974089983990507e-06,
      "loss": 0.7231,
      "step": 2502
    },
    {
      "epoch": 0.13494716411472935,
      "grad_norm": 0.8102728724479675,
      "learning_rate": 9.974068424469058e-06,
      "loss": 0.8701,
      "step": 2503
    },
    {
      "epoch": 0.13500107828337288,
      "grad_norm": 0.7568274736404419,
      "learning_rate": 9.974046856004904e-06,
      "loss": 0.7864,
      "step": 2504
    },
    {
      "epoch": 0.13505499245201638,
      "grad_norm": 0.7835590839385986,
      "learning_rate": 9.974025278598086e-06,
      "loss": 0.8595,
      "step": 2505
    },
    {
      "epoch": 0.1351089066206599,
      "grad_norm": 0.854015052318573,
      "learning_rate": 9.974003692248638e-06,
      "loss": 0.7683,
      "step": 2506
    },
    {
      "epoch": 0.13516282078930342,
      "grad_norm": 0.7973034977912903,
      "learning_rate": 9.973982096956604e-06,
      "loss": 0.7332,
      "step": 2507
    },
    {
      "epoch": 0.13521673495794695,
      "grad_norm": 0.8860466480255127,
      "learning_rate": 9.973960492722022e-06,
      "loss": 0.8312,
      "step": 2508
    },
    {
      "epoch": 0.13527064912659048,
      "grad_norm": 0.8370612263679504,
      "learning_rate": 9.973938879544928e-06,
      "loss": 0.8307,
      "step": 2509
    },
    {
      "epoch": 0.13532456329523398,
      "grad_norm": 0.9102504253387451,
      "learning_rate": 9.973917257425365e-06,
      "loss": 0.8276,
      "step": 2510
    },
    {
      "epoch": 0.13537847746387752,
      "grad_norm": 0.9040873646736145,
      "learning_rate": 9.973895626363367e-06,
      "loss": 0.7717,
      "step": 2511
    },
    {
      "epoch": 0.13543239163252102,
      "grad_norm": 0.7447285056114197,
      "learning_rate": 9.973873986358977e-06,
      "loss": 0.7836,
      "step": 2512
    },
    {
      "epoch": 0.13548630580116455,
      "grad_norm": 0.7533379197120667,
      "learning_rate": 9.973852337412234e-06,
      "loss": 0.8308,
      "step": 2513
    },
    {
      "epoch": 0.13554021996980806,
      "grad_norm": 0.7503568530082703,
      "learning_rate": 9.973830679523173e-06,
      "loss": 0.7893,
      "step": 2514
    },
    {
      "epoch": 0.1355941341384516,
      "grad_norm": 0.786011815071106,
      "learning_rate": 9.973809012691836e-06,
      "loss": 0.7562,
      "step": 2515
    },
    {
      "epoch": 0.1356480483070951,
      "grad_norm": 0.9311261773109436,
      "learning_rate": 9.973787336918262e-06,
      "loss": 0.7295,
      "step": 2516
    },
    {
      "epoch": 0.13570196247573862,
      "grad_norm": 0.8217887878417969,
      "learning_rate": 9.973765652202488e-06,
      "loss": 0.8399,
      "step": 2517
    },
    {
      "epoch": 0.13575587664438216,
      "grad_norm": 0.8265646696090698,
      "learning_rate": 9.973743958544554e-06,
      "loss": 0.8146,
      "step": 2518
    },
    {
      "epoch": 0.13580979081302566,
      "grad_norm": 0.9443806409835815,
      "learning_rate": 9.9737222559445e-06,
      "loss": 0.9217,
      "step": 2519
    },
    {
      "epoch": 0.1358637049816692,
      "grad_norm": 0.807623028755188,
      "learning_rate": 9.973700544402362e-06,
      "loss": 0.8266,
      "step": 2520
    },
    {
      "epoch": 0.1359176191503127,
      "grad_norm": 0.819793164730072,
      "learning_rate": 9.973678823918184e-06,
      "loss": 0.755,
      "step": 2521
    },
    {
      "epoch": 0.13597153331895623,
      "grad_norm": 0.7608258724212646,
      "learning_rate": 9.973657094492002e-06,
      "loss": 0.7707,
      "step": 2522
    },
    {
      "epoch": 0.13602544748759973,
      "grad_norm": 0.795218825340271,
      "learning_rate": 9.973635356123854e-06,
      "loss": 0.7235,
      "step": 2523
    },
    {
      "epoch": 0.13607936165624326,
      "grad_norm": 0.7893292307853699,
      "learning_rate": 9.973613608813782e-06,
      "loss": 0.8698,
      "step": 2524
    },
    {
      "epoch": 0.13613327582488677,
      "grad_norm": 0.8091539144515991,
      "learning_rate": 9.973591852561822e-06,
      "loss": 0.8492,
      "step": 2525
    },
    {
      "epoch": 0.1361871899935303,
      "grad_norm": 0.9144110679626465,
      "learning_rate": 9.973570087368015e-06,
      "loss": 0.7952,
      "step": 2526
    },
    {
      "epoch": 0.13624110416217383,
      "grad_norm": 0.761695921421051,
      "learning_rate": 9.9735483132324e-06,
      "loss": 0.7841,
      "step": 2527
    },
    {
      "epoch": 0.13629501833081734,
      "grad_norm": 0.887026846408844,
      "learning_rate": 9.973526530155016e-06,
      "loss": 0.8855,
      "step": 2528
    },
    {
      "epoch": 0.13634893249946087,
      "grad_norm": 0.8282152414321899,
      "learning_rate": 9.973504738135903e-06,
      "loss": 0.8857,
      "step": 2529
    },
    {
      "epoch": 0.13640284666810437,
      "grad_norm": 0.7782665491104126,
      "learning_rate": 9.973482937175098e-06,
      "loss": 0.8076,
      "step": 2530
    },
    {
      "epoch": 0.1364567608367479,
      "grad_norm": 0.8865575194358826,
      "learning_rate": 9.973461127272642e-06,
      "loss": 0.8596,
      "step": 2531
    },
    {
      "epoch": 0.1365106750053914,
      "grad_norm": 0.7215422987937927,
      "learning_rate": 9.973439308428572e-06,
      "loss": 0.7437,
      "step": 2532
    },
    {
      "epoch": 0.13656458917403494,
      "grad_norm": 0.7932387590408325,
      "learning_rate": 9.97341748064293e-06,
      "loss": 0.8439,
      "step": 2533
    },
    {
      "epoch": 0.13661850334267844,
      "grad_norm": 0.8260403871536255,
      "learning_rate": 9.973395643915756e-06,
      "loss": 0.7956,
      "step": 2534
    },
    {
      "epoch": 0.13667241751132198,
      "grad_norm": 0.7879858016967773,
      "learning_rate": 9.973373798247085e-06,
      "loss": 0.8501,
      "step": 2535
    },
    {
      "epoch": 0.1367263316799655,
      "grad_norm": 0.7268496751785278,
      "learning_rate": 9.97335194363696e-06,
      "loss": 0.78,
      "step": 2536
    },
    {
      "epoch": 0.136780245848609,
      "grad_norm": 0.8170067071914673,
      "learning_rate": 9.973330080085417e-06,
      "loss": 0.829,
      "step": 2537
    },
    {
      "epoch": 0.13683416001725254,
      "grad_norm": 0.8400061726570129,
      "learning_rate": 9.973308207592498e-06,
      "loss": 0.8576,
      "step": 2538
    },
    {
      "epoch": 0.13688807418589605,
      "grad_norm": 0.9156914353370667,
      "learning_rate": 9.973286326158244e-06,
      "loss": 0.8633,
      "step": 2539
    },
    {
      "epoch": 0.13694198835453958,
      "grad_norm": 0.7413343191146851,
      "learning_rate": 9.97326443578269e-06,
      "loss": 0.8128,
      "step": 2540
    },
    {
      "epoch": 0.13699590252318308,
      "grad_norm": 0.8003092408180237,
      "learning_rate": 9.973242536465877e-06,
      "loss": 0.7743,
      "step": 2541
    },
    {
      "epoch": 0.13704981669182661,
      "grad_norm": 0.8532862067222595,
      "learning_rate": 9.973220628207844e-06,
      "loss": 0.8526,
      "step": 2542
    },
    {
      "epoch": 0.13710373086047012,
      "grad_norm": 0.7677969336509705,
      "learning_rate": 9.973198711008634e-06,
      "loss": 0.8493,
      "step": 2543
    },
    {
      "epoch": 0.13715764502911365,
      "grad_norm": 0.8414867520332336,
      "learning_rate": 9.973176784868282e-06,
      "loss": 0.7674,
      "step": 2544
    },
    {
      "epoch": 0.13721155919775718,
      "grad_norm": 0.825450599193573,
      "learning_rate": 9.973154849786828e-06,
      "loss": 0.8328,
      "step": 2545
    },
    {
      "epoch": 0.1372654733664007,
      "grad_norm": 0.8429614305496216,
      "learning_rate": 9.973132905764313e-06,
      "loss": 0.787,
      "step": 2546
    },
    {
      "epoch": 0.13731938753504422,
      "grad_norm": 0.9791093468666077,
      "learning_rate": 9.973110952800776e-06,
      "loss": 0.7836,
      "step": 2547
    },
    {
      "epoch": 0.13737330170368772,
      "grad_norm": 0.8728508353233337,
      "learning_rate": 9.973088990896255e-06,
      "loss": 0.8897,
      "step": 2548
    },
    {
      "epoch": 0.13742721587233125,
      "grad_norm": 0.9933381080627441,
      "learning_rate": 9.973067020050792e-06,
      "loss": 0.8679,
      "step": 2549
    },
    {
      "epoch": 0.13748113004097476,
      "grad_norm": 0.8786694407463074,
      "learning_rate": 9.973045040264423e-06,
      "loss": 0.8599,
      "step": 2550
    },
    {
      "epoch": 0.1375350442096183,
      "grad_norm": 0.7714465260505676,
      "learning_rate": 9.973023051537193e-06,
      "loss": 0.6355,
      "step": 2551
    },
    {
      "epoch": 0.1375889583782618,
      "grad_norm": 0.9043986201286316,
      "learning_rate": 9.973001053869138e-06,
      "loss": 0.7445,
      "step": 2552
    },
    {
      "epoch": 0.13764287254690533,
      "grad_norm": 0.879623532295227,
      "learning_rate": 9.972979047260297e-06,
      "loss": 0.8086,
      "step": 2553
    },
    {
      "epoch": 0.13769678671554886,
      "grad_norm": 0.8384745121002197,
      "learning_rate": 9.972957031710708e-06,
      "loss": 0.6832,
      "step": 2554
    },
    {
      "epoch": 0.13775070088419236,
      "grad_norm": 0.8574655055999756,
      "learning_rate": 9.972935007220415e-06,
      "loss": 0.8326,
      "step": 2555
    },
    {
      "epoch": 0.1378046150528359,
      "grad_norm": 0.8241353034973145,
      "learning_rate": 9.972912973789458e-06,
      "loss": 0.7526,
      "step": 2556
    },
    {
      "epoch": 0.1378585292214794,
      "grad_norm": 0.8306788802146912,
      "learning_rate": 9.97289093141787e-06,
      "loss": 0.9423,
      "step": 2557
    },
    {
      "epoch": 0.13791244339012293,
      "grad_norm": 0.7930428385734558,
      "learning_rate": 9.972868880105696e-06,
      "loss": 0.8635,
      "step": 2558
    },
    {
      "epoch": 0.13796635755876643,
      "grad_norm": 0.856482207775116,
      "learning_rate": 9.972846819852974e-06,
      "loss": 0.7902,
      "step": 2559
    },
    {
      "epoch": 0.13802027172740997,
      "grad_norm": 0.8513977527618408,
      "learning_rate": 9.972824750659747e-06,
      "loss": 0.8485,
      "step": 2560
    },
    {
      "epoch": 0.13807418589605347,
      "grad_norm": 0.7595572471618652,
      "learning_rate": 9.97280267252605e-06,
      "loss": 0.7294,
      "step": 2561
    },
    {
      "epoch": 0.138128100064697,
      "grad_norm": 0.9774705767631531,
      "learning_rate": 9.972780585451923e-06,
      "loss": 0.8758,
      "step": 2562
    },
    {
      "epoch": 0.13818201423334053,
      "grad_norm": 0.8011289834976196,
      "learning_rate": 9.972758489437408e-06,
      "loss": 0.7649,
      "step": 2563
    },
    {
      "epoch": 0.13823592840198404,
      "grad_norm": 0.8921117186546326,
      "learning_rate": 9.972736384482545e-06,
      "loss": 0.8745,
      "step": 2564
    },
    {
      "epoch": 0.13828984257062757,
      "grad_norm": 0.8739173412322998,
      "learning_rate": 9.972714270587372e-06,
      "loss": 0.841,
      "step": 2565
    },
    {
      "epoch": 0.13834375673927107,
      "grad_norm": 0.7379958033561707,
      "learning_rate": 9.97269214775193e-06,
      "loss": 0.813,
      "step": 2566
    },
    {
      "epoch": 0.1383976709079146,
      "grad_norm": 0.8068973422050476,
      "learning_rate": 9.972670015976258e-06,
      "loss": 0.8319,
      "step": 2567
    },
    {
      "epoch": 0.1384515850765581,
      "grad_norm": 0.7312106490135193,
      "learning_rate": 9.972647875260395e-06,
      "loss": 0.7494,
      "step": 2568
    },
    {
      "epoch": 0.13850549924520164,
      "grad_norm": 0.8182246088981628,
      "learning_rate": 9.972625725604383e-06,
      "loss": 0.9543,
      "step": 2569
    },
    {
      "epoch": 0.13855941341384514,
      "grad_norm": 0.8153319358825684,
      "learning_rate": 9.97260356700826e-06,
      "loss": 0.8411,
      "step": 2570
    },
    {
      "epoch": 0.13861332758248868,
      "grad_norm": 0.7589008212089539,
      "learning_rate": 9.972581399472066e-06,
      "loss": 0.7576,
      "step": 2571
    },
    {
      "epoch": 0.1386672417511322,
      "grad_norm": 0.8160014748573303,
      "learning_rate": 9.972559222995841e-06,
      "loss": 0.8801,
      "step": 2572
    },
    {
      "epoch": 0.1387211559197757,
      "grad_norm": 0.752868115901947,
      "learning_rate": 9.972537037579626e-06,
      "loss": 0.7504,
      "step": 2573
    },
    {
      "epoch": 0.13877507008841924,
      "grad_norm": 0.8015901446342468,
      "learning_rate": 9.97251484322346e-06,
      "loss": 0.7468,
      "step": 2574
    },
    {
      "epoch": 0.13882898425706275,
      "grad_norm": 0.815352737903595,
      "learning_rate": 9.972492639927384e-06,
      "loss": 0.8526,
      "step": 2575
    },
    {
      "epoch": 0.13888289842570628,
      "grad_norm": 0.7475571036338806,
      "learning_rate": 9.972470427691436e-06,
      "loss": 0.7653,
      "step": 2576
    },
    {
      "epoch": 0.13893681259434978,
      "grad_norm": 1.1950535774230957,
      "learning_rate": 9.972448206515656e-06,
      "loss": 0.9106,
      "step": 2577
    },
    {
      "epoch": 0.13899072676299332,
      "grad_norm": 0.843235194683075,
      "learning_rate": 9.972425976400086e-06,
      "loss": 0.8922,
      "step": 2578
    },
    {
      "epoch": 0.13904464093163682,
      "grad_norm": 0.8039982914924622,
      "learning_rate": 9.972403737344763e-06,
      "loss": 0.6855,
      "step": 2579
    },
    {
      "epoch": 0.13909855510028035,
      "grad_norm": 0.7598289251327515,
      "learning_rate": 9.97238148934973e-06,
      "loss": 0.832,
      "step": 2580
    },
    {
      "epoch": 0.13915246926892388,
      "grad_norm": 0.7986323237419128,
      "learning_rate": 9.972359232415025e-06,
      "loss": 0.7886,
      "step": 2581
    },
    {
      "epoch": 0.1392063834375674,
      "grad_norm": 0.7465773820877075,
      "learning_rate": 9.97233696654069e-06,
      "loss": 0.7875,
      "step": 2582
    },
    {
      "epoch": 0.13926029760621092,
      "grad_norm": 0.8853508830070496,
      "learning_rate": 9.972314691726764e-06,
      "loss": 0.9263,
      "step": 2583
    },
    {
      "epoch": 0.13931421177485442,
      "grad_norm": 0.7267711162567139,
      "learning_rate": 9.972292407973286e-06,
      "loss": 0.78,
      "step": 2584
    },
    {
      "epoch": 0.13936812594349796,
      "grad_norm": 0.7631322145462036,
      "learning_rate": 9.972270115280295e-06,
      "loss": 0.7726,
      "step": 2585
    },
    {
      "epoch": 0.13942204011214146,
      "grad_norm": 0.8661205768585205,
      "learning_rate": 9.972247813647836e-06,
      "loss": 0.977,
      "step": 2586
    },
    {
      "epoch": 0.139475954280785,
      "grad_norm": 0.7955568432807922,
      "learning_rate": 9.972225503075943e-06,
      "loss": 0.8481,
      "step": 2587
    },
    {
      "epoch": 0.13952986844942852,
      "grad_norm": 0.8810243606567383,
      "learning_rate": 9.972203183564661e-06,
      "loss": 0.8938,
      "step": 2588
    },
    {
      "epoch": 0.13958378261807203,
      "grad_norm": 0.783968985080719,
      "learning_rate": 9.972180855114029e-06,
      "loss": 0.7565,
      "step": 2589
    },
    {
      "epoch": 0.13963769678671556,
      "grad_norm": 0.749191164970398,
      "learning_rate": 9.972158517724084e-06,
      "loss": 0.7283,
      "step": 2590
    },
    {
      "epoch": 0.13969161095535906,
      "grad_norm": 0.7926847338676453,
      "learning_rate": 9.972136171394871e-06,
      "loss": 0.9073,
      "step": 2591
    },
    {
      "epoch": 0.1397455251240026,
      "grad_norm": 0.7621777653694153,
      "learning_rate": 9.972113816126427e-06,
      "loss": 0.7176,
      "step": 2592
    },
    {
      "epoch": 0.1397994392926461,
      "grad_norm": 0.8856351375579834,
      "learning_rate": 9.972091451918792e-06,
      "loss": 0.7428,
      "step": 2593
    },
    {
      "epoch": 0.13985335346128963,
      "grad_norm": 0.8027200698852539,
      "learning_rate": 9.972069078772008e-06,
      "loss": 0.7794,
      "step": 2594
    },
    {
      "epoch": 0.13990726762993314,
      "grad_norm": 0.8776759505271912,
      "learning_rate": 9.972046696686115e-06,
      "loss": 0.9087,
      "step": 2595
    },
    {
      "epoch": 0.13996118179857667,
      "grad_norm": 0.8979713320732117,
      "learning_rate": 9.972024305661152e-06,
      "loss": 0.8031,
      "step": 2596
    },
    {
      "epoch": 0.1400150959672202,
      "grad_norm": 0.8233299851417542,
      "learning_rate": 9.97200190569716e-06,
      "loss": 0.8462,
      "step": 2597
    },
    {
      "epoch": 0.1400690101358637,
      "grad_norm": 0.8777962327003479,
      "learning_rate": 9.971979496794178e-06,
      "loss": 0.8464,
      "step": 2598
    },
    {
      "epoch": 0.14012292430450723,
      "grad_norm": 0.7185937166213989,
      "learning_rate": 9.971957078952249e-06,
      "loss": 0.7423,
      "step": 2599
    },
    {
      "epoch": 0.14017683847315074,
      "grad_norm": 0.8226794600486755,
      "learning_rate": 9.971934652171412e-06,
      "loss": 0.8017,
      "step": 2600
    },
    {
      "epoch": 0.14023075264179427,
      "grad_norm": 0.8021965622901917,
      "learning_rate": 9.971912216451705e-06,
      "loss": 0.8018,
      "step": 2601
    },
    {
      "epoch": 0.14028466681043777,
      "grad_norm": 1.0516051054000854,
      "learning_rate": 9.971889771793172e-06,
      "loss": 0.8894,
      "step": 2602
    },
    {
      "epoch": 0.1403385809790813,
      "grad_norm": 0.8212647438049316,
      "learning_rate": 9.971867318195851e-06,
      "loss": 0.826,
      "step": 2603
    },
    {
      "epoch": 0.1403924951477248,
      "grad_norm": 0.8427513241767883,
      "learning_rate": 9.971844855659783e-06,
      "loss": 0.815,
      "step": 2604
    },
    {
      "epoch": 0.14044640931636834,
      "grad_norm": 0.779569149017334,
      "learning_rate": 9.97182238418501e-06,
      "loss": 0.797,
      "step": 2605
    },
    {
      "epoch": 0.14050032348501187,
      "grad_norm": 0.7430607080459595,
      "learning_rate": 9.97179990377157e-06,
      "loss": 0.7925,
      "step": 2606
    },
    {
      "epoch": 0.14055423765365538,
      "grad_norm": 0.8079801797866821,
      "learning_rate": 9.971777414419503e-06,
      "loss": 0.8259,
      "step": 2607
    },
    {
      "epoch": 0.1406081518222989,
      "grad_norm": 0.794086754322052,
      "learning_rate": 9.971754916128853e-06,
      "loss": 0.833,
      "step": 2608
    },
    {
      "epoch": 0.14066206599094241,
      "grad_norm": 0.8177362680435181,
      "learning_rate": 9.971732408899657e-06,
      "loss": 0.8543,
      "step": 2609
    },
    {
      "epoch": 0.14071598015958595,
      "grad_norm": 0.8591805100440979,
      "learning_rate": 9.971709892731956e-06,
      "loss": 0.9323,
      "step": 2610
    },
    {
      "epoch": 0.14076989432822945,
      "grad_norm": 0.8102341890335083,
      "learning_rate": 9.971687367625793e-06,
      "loss": 0.7679,
      "step": 2611
    },
    {
      "epoch": 0.14082380849687298,
      "grad_norm": 0.8556869626045227,
      "learning_rate": 9.971664833581205e-06,
      "loss": 0.8458,
      "step": 2612
    },
    {
      "epoch": 0.14087772266551649,
      "grad_norm": 0.7998070120811462,
      "learning_rate": 9.971642290598235e-06,
      "loss": 0.7663,
      "step": 2613
    },
    {
      "epoch": 0.14093163683416002,
      "grad_norm": 0.8800550103187561,
      "learning_rate": 9.971619738676923e-06,
      "loss": 0.8653,
      "step": 2614
    },
    {
      "epoch": 0.14098555100280355,
      "grad_norm": 0.8199629187583923,
      "learning_rate": 9.971597177817308e-06,
      "loss": 0.8804,
      "step": 2615
    },
    {
      "epoch": 0.14103946517144705,
      "grad_norm": 0.8774363398551941,
      "learning_rate": 9.971574608019432e-06,
      "loss": 0.8468,
      "step": 2616
    },
    {
      "epoch": 0.14109337934009059,
      "grad_norm": 0.7911790013313293,
      "learning_rate": 9.971552029283335e-06,
      "loss": 0.7841,
      "step": 2617
    },
    {
      "epoch": 0.1411472935087341,
      "grad_norm": 0.8152750134468079,
      "learning_rate": 9.97152944160906e-06,
      "loss": 0.7753,
      "step": 2618
    },
    {
      "epoch": 0.14120120767737762,
      "grad_norm": 0.8709943890571594,
      "learning_rate": 9.971506844996645e-06,
      "loss": 0.7259,
      "step": 2619
    },
    {
      "epoch": 0.14125512184602113,
      "grad_norm": 1.1131712198257446,
      "learning_rate": 9.97148423944613e-06,
      "loss": 0.9422,
      "step": 2620
    },
    {
      "epoch": 0.14130903601466466,
      "grad_norm": 0.8992665410041809,
      "learning_rate": 9.971461624957557e-06,
      "loss": 0.733,
      "step": 2621
    },
    {
      "epoch": 0.14136295018330816,
      "grad_norm": 0.7548032402992249,
      "learning_rate": 9.971439001530967e-06,
      "loss": 0.7733,
      "step": 2622
    },
    {
      "epoch": 0.1414168643519517,
      "grad_norm": 0.7988988161087036,
      "learning_rate": 9.9714163691664e-06,
      "loss": 0.8218,
      "step": 2623
    },
    {
      "epoch": 0.14147077852059523,
      "grad_norm": 0.7697865962982178,
      "learning_rate": 9.971393727863899e-06,
      "loss": 0.7882,
      "step": 2624
    },
    {
      "epoch": 0.14152469268923873,
      "grad_norm": 0.993664026260376,
      "learning_rate": 9.9713710776235e-06,
      "loss": 0.8331,
      "step": 2625
    },
    {
      "epoch": 0.14157860685788226,
      "grad_norm": 1.0097055435180664,
      "learning_rate": 9.971348418445245e-06,
      "loss": 0.8959,
      "step": 2626
    },
    {
      "epoch": 0.14163252102652577,
      "grad_norm": 0.7682481408119202,
      "learning_rate": 9.97132575032918e-06,
      "loss": 0.7425,
      "step": 2627
    },
    {
      "epoch": 0.1416864351951693,
      "grad_norm": 0.790695309638977,
      "learning_rate": 9.971303073275338e-06,
      "loss": 0.6887,
      "step": 2628
    },
    {
      "epoch": 0.1417403493638128,
      "grad_norm": 0.9672498106956482,
      "learning_rate": 9.971280387283766e-06,
      "loss": 0.8617,
      "step": 2629
    },
    {
      "epoch": 0.14179426353245633,
      "grad_norm": 0.8538743853569031,
      "learning_rate": 9.971257692354502e-06,
      "loss": 0.7826,
      "step": 2630
    },
    {
      "epoch": 0.14184817770109984,
      "grad_norm": 0.7527078986167908,
      "learning_rate": 9.971234988487587e-06,
      "loss": 0.7542,
      "step": 2631
    },
    {
      "epoch": 0.14190209186974337,
      "grad_norm": 0.9390487670898438,
      "learning_rate": 9.97121227568306e-06,
      "loss": 0.8415,
      "step": 2632
    },
    {
      "epoch": 0.1419560060383869,
      "grad_norm": 0.8717443346977234,
      "learning_rate": 9.971189553940966e-06,
      "loss": 0.7969,
      "step": 2633
    },
    {
      "epoch": 0.1420099202070304,
      "grad_norm": 0.7848197817802429,
      "learning_rate": 9.971166823261343e-06,
      "loss": 0.8049,
      "step": 2634
    },
    {
      "epoch": 0.14206383437567394,
      "grad_norm": 0.8002238273620605,
      "learning_rate": 9.971144083644233e-06,
      "loss": 0.8681,
      "step": 2635
    },
    {
      "epoch": 0.14211774854431744,
      "grad_norm": 0.7699506282806396,
      "learning_rate": 9.971121335089676e-06,
      "loss": 0.7815,
      "step": 2636
    },
    {
      "epoch": 0.14217166271296097,
      "grad_norm": 0.9187048673629761,
      "learning_rate": 9.971098577597713e-06,
      "loss": 0.8611,
      "step": 2637
    },
    {
      "epoch": 0.14222557688160448,
      "grad_norm": 0.802859365940094,
      "learning_rate": 9.971075811168385e-06,
      "loss": 0.7991,
      "step": 2638
    },
    {
      "epoch": 0.142279491050248,
      "grad_norm": 1.0536410808563232,
      "learning_rate": 9.971053035801735e-06,
      "loss": 0.9726,
      "step": 2639
    },
    {
      "epoch": 0.1423334052188915,
      "grad_norm": 0.8278898000717163,
      "learning_rate": 9.9710302514978e-06,
      "loss": 0.8636,
      "step": 2640
    },
    {
      "epoch": 0.14238731938753504,
      "grad_norm": 0.7639529705047607,
      "learning_rate": 9.971007458256623e-06,
      "loss": 0.7849,
      "step": 2641
    },
    {
      "epoch": 0.14244123355617858,
      "grad_norm": 0.9108867049217224,
      "learning_rate": 9.970984656078246e-06,
      "loss": 0.891,
      "step": 2642
    },
    {
      "epoch": 0.14249514772482208,
      "grad_norm": 0.8182162046432495,
      "learning_rate": 9.97096184496271e-06,
      "loss": 0.7975,
      "step": 2643
    },
    {
      "epoch": 0.1425490618934656,
      "grad_norm": 0.848781168460846,
      "learning_rate": 9.970939024910053e-06,
      "loss": 0.8677,
      "step": 2644
    },
    {
      "epoch": 0.14260297606210912,
      "grad_norm": 0.8322750926017761,
      "learning_rate": 9.97091619592032e-06,
      "loss": 0.776,
      "step": 2645
    },
    {
      "epoch": 0.14265689023075265,
      "grad_norm": 0.8054049611091614,
      "learning_rate": 9.970893357993548e-06,
      "loss": 0.804,
      "step": 2646
    },
    {
      "epoch": 0.14271080439939615,
      "grad_norm": 0.8162119388580322,
      "learning_rate": 9.970870511129782e-06,
      "loss": 0.7856,
      "step": 2647
    },
    {
      "epoch": 0.14276471856803968,
      "grad_norm": 0.73929363489151,
      "learning_rate": 9.97084765532906e-06,
      "loss": 0.7687,
      "step": 2648
    },
    {
      "epoch": 0.1428186327366832,
      "grad_norm": 0.866688072681427,
      "learning_rate": 9.970824790591425e-06,
      "loss": 0.8751,
      "step": 2649
    },
    {
      "epoch": 0.14287254690532672,
      "grad_norm": 0.7772359251976013,
      "learning_rate": 9.970801916916917e-06,
      "loss": 0.7232,
      "step": 2650
    },
    {
      "epoch": 0.14292646107397025,
      "grad_norm": 0.8912346363067627,
      "learning_rate": 9.970779034305578e-06,
      "loss": 0.8393,
      "step": 2651
    },
    {
      "epoch": 0.14298037524261376,
      "grad_norm": 0.7827256917953491,
      "learning_rate": 9.970756142757448e-06,
      "loss": 0.7924,
      "step": 2652
    },
    {
      "epoch": 0.1430342894112573,
      "grad_norm": 0.7557843923568726,
      "learning_rate": 9.97073324227257e-06,
      "loss": 0.8032,
      "step": 2653
    },
    {
      "epoch": 0.1430882035799008,
      "grad_norm": 0.7939576506614685,
      "learning_rate": 9.970710332850983e-06,
      "loss": 0.7251,
      "step": 2654
    },
    {
      "epoch": 0.14314211774854432,
      "grad_norm": 0.8175502419471741,
      "learning_rate": 9.97068741449273e-06,
      "loss": 0.7685,
      "step": 2655
    },
    {
      "epoch": 0.14319603191718783,
      "grad_norm": 0.7537406086921692,
      "learning_rate": 9.970664487197851e-06,
      "loss": 0.7354,
      "step": 2656
    },
    {
      "epoch": 0.14324994608583136,
      "grad_norm": 0.8045641779899597,
      "learning_rate": 9.970641550966388e-06,
      "loss": 0.7581,
      "step": 2657
    },
    {
      "epoch": 0.14330386025447486,
      "grad_norm": 0.69786137342453,
      "learning_rate": 9.97061860579838e-06,
      "loss": 0.6923,
      "step": 2658
    },
    {
      "epoch": 0.1433577744231184,
      "grad_norm": 0.7913051843643188,
      "learning_rate": 9.970595651693874e-06,
      "loss": 0.7579,
      "step": 2659
    },
    {
      "epoch": 0.14341168859176193,
      "grad_norm": 0.7890749573707581,
      "learning_rate": 9.970572688652905e-06,
      "loss": 0.7843,
      "step": 2660
    },
    {
      "epoch": 0.14346560276040543,
      "grad_norm": 0.913074791431427,
      "learning_rate": 9.970549716675516e-06,
      "loss": 0.8318,
      "step": 2661
    },
    {
      "epoch": 0.14351951692904896,
      "grad_norm": 0.757522463798523,
      "learning_rate": 9.97052673576175e-06,
      "loss": 0.6803,
      "step": 2662
    },
    {
      "epoch": 0.14357343109769247,
      "grad_norm": 0.9279198050498962,
      "learning_rate": 9.970503745911645e-06,
      "loss": 0.8591,
      "step": 2663
    },
    {
      "epoch": 0.143627345266336,
      "grad_norm": 0.8218236565589905,
      "learning_rate": 9.97048074712525e-06,
      "loss": 0.8253,
      "step": 2664
    },
    {
      "epoch": 0.1436812594349795,
      "grad_norm": 0.7562058568000793,
      "learning_rate": 9.970457739402596e-06,
      "loss": 0.8114,
      "step": 2665
    },
    {
      "epoch": 0.14373517360362303,
      "grad_norm": 0.7626449465751648,
      "learning_rate": 9.970434722743732e-06,
      "loss": 0.7932,
      "step": 2666
    },
    {
      "epoch": 0.14378908777226654,
      "grad_norm": 0.8287700414657593,
      "learning_rate": 9.970411697148696e-06,
      "loss": 0.754,
      "step": 2667
    },
    {
      "epoch": 0.14384300194091007,
      "grad_norm": 1.0403661727905273,
      "learning_rate": 9.97038866261753e-06,
      "loss": 0.9062,
      "step": 2668
    },
    {
      "epoch": 0.1438969161095536,
      "grad_norm": 0.8278779983520508,
      "learning_rate": 9.970365619150276e-06,
      "loss": 0.9181,
      "step": 2669
    },
    {
      "epoch": 0.1439508302781971,
      "grad_norm": 0.950964629650116,
      "learning_rate": 9.970342566746973e-06,
      "loss": 0.9235,
      "step": 2670
    },
    {
      "epoch": 0.14400474444684064,
      "grad_norm": 0.9529917240142822,
      "learning_rate": 9.970319505407667e-06,
      "loss": 0.7929,
      "step": 2671
    },
    {
      "epoch": 0.14405865861548414,
      "grad_norm": 0.7601970434188843,
      "learning_rate": 9.970296435132395e-06,
      "loss": 0.7133,
      "step": 2672
    },
    {
      "epoch": 0.14411257278412767,
      "grad_norm": 0.8906385898590088,
      "learning_rate": 9.970273355921201e-06,
      "loss": 0.8679,
      "step": 2673
    },
    {
      "epoch": 0.14416648695277118,
      "grad_norm": 0.8250144720077515,
      "learning_rate": 9.970250267774126e-06,
      "loss": 0.7871,
      "step": 2674
    },
    {
      "epoch": 0.1442204011214147,
      "grad_norm": 0.8182716965675354,
      "learning_rate": 9.970227170691212e-06,
      "loss": 0.7391,
      "step": 2675
    },
    {
      "epoch": 0.1442743152900582,
      "grad_norm": 0.8261950016021729,
      "learning_rate": 9.970204064672498e-06,
      "loss": 0.8914,
      "step": 2676
    },
    {
      "epoch": 0.14432822945870175,
      "grad_norm": 1.248270869255066,
      "learning_rate": 9.97018094971803e-06,
      "loss": 0.7834,
      "step": 2677
    },
    {
      "epoch": 0.14438214362734528,
      "grad_norm": 0.7821226119995117,
      "learning_rate": 9.970157825827844e-06,
      "loss": 0.7436,
      "step": 2678
    },
    {
      "epoch": 0.14443605779598878,
      "grad_norm": 0.9708791375160217,
      "learning_rate": 9.970134693001987e-06,
      "loss": 0.9038,
      "step": 2679
    },
    {
      "epoch": 0.1444899719646323,
      "grad_norm": 0.8178976774215698,
      "learning_rate": 9.970111551240499e-06,
      "loss": 0.8748,
      "step": 2680
    },
    {
      "epoch": 0.14454388613327582,
      "grad_norm": 0.8477594256401062,
      "learning_rate": 9.970088400543417e-06,
      "loss": 0.8169,
      "step": 2681
    },
    {
      "epoch": 0.14459780030191935,
      "grad_norm": 0.9478195309638977,
      "learning_rate": 9.970065240910789e-06,
      "loss": 0.789,
      "step": 2682
    },
    {
      "epoch": 0.14465171447056285,
      "grad_norm": 0.9151026010513306,
      "learning_rate": 9.970042072342652e-06,
      "loss": 0.8804,
      "step": 2683
    },
    {
      "epoch": 0.14470562863920639,
      "grad_norm": 0.8062365651130676,
      "learning_rate": 9.970018894839052e-06,
      "loss": 0.8329,
      "step": 2684
    },
    {
      "epoch": 0.1447595428078499,
      "grad_norm": 0.8029241561889648,
      "learning_rate": 9.969995708400028e-06,
      "loss": 0.7053,
      "step": 2685
    },
    {
      "epoch": 0.14481345697649342,
      "grad_norm": 0.8023892641067505,
      "learning_rate": 9.969972513025621e-06,
      "loss": 0.7921,
      "step": 2686
    },
    {
      "epoch": 0.14486737114513695,
      "grad_norm": 0.9224045276641846,
      "learning_rate": 9.969949308715874e-06,
      "loss": 0.7416,
      "step": 2687
    },
    {
      "epoch": 0.14492128531378046,
      "grad_norm": 0.7767837047576904,
      "learning_rate": 9.969926095470829e-06,
      "loss": 0.7844,
      "step": 2688
    },
    {
      "epoch": 0.144975199482424,
      "grad_norm": 0.7804312109947205,
      "learning_rate": 9.969902873290526e-06,
      "loss": 0.712,
      "step": 2689
    },
    {
      "epoch": 0.1450291136510675,
      "grad_norm": 0.9595988988876343,
      "learning_rate": 9.969879642175009e-06,
      "loss": 0.7686,
      "step": 2690
    },
    {
      "epoch": 0.14508302781971102,
      "grad_norm": 1.0414133071899414,
      "learning_rate": 9.969856402124318e-06,
      "loss": 0.8833,
      "step": 2691
    },
    {
      "epoch": 0.14513694198835453,
      "grad_norm": 0.9321674108505249,
      "learning_rate": 9.969833153138498e-06,
      "loss": 0.7576,
      "step": 2692
    },
    {
      "epoch": 0.14519085615699806,
      "grad_norm": 0.7715985774993896,
      "learning_rate": 9.969809895217586e-06,
      "loss": 0.7371,
      "step": 2693
    },
    {
      "epoch": 0.1452447703256416,
      "grad_norm": 1.0257316827774048,
      "learning_rate": 9.969786628361625e-06,
      "loss": 0.8394,
      "step": 2694
    },
    {
      "epoch": 0.1452986844942851,
      "grad_norm": 0.7823453545570374,
      "learning_rate": 9.969763352570659e-06,
      "loss": 0.7974,
      "step": 2695
    },
    {
      "epoch": 0.14535259866292863,
      "grad_norm": 0.8257505893707275,
      "learning_rate": 9.969740067844728e-06,
      "loss": 0.7948,
      "step": 2696
    },
    {
      "epoch": 0.14540651283157213,
      "grad_norm": 0.6493780016899109,
      "learning_rate": 9.969716774183878e-06,
      "loss": 0.6531,
      "step": 2697
    },
    {
      "epoch": 0.14546042700021566,
      "grad_norm": 0.8953896760940552,
      "learning_rate": 9.969693471588144e-06,
      "loss": 0.7414,
      "step": 2698
    },
    {
      "epoch": 0.14551434116885917,
      "grad_norm": 0.7177074551582336,
      "learning_rate": 9.969670160057572e-06,
      "loss": 0.65,
      "step": 2699
    },
    {
      "epoch": 0.1455682553375027,
      "grad_norm": 0.8214414715766907,
      "learning_rate": 9.969646839592204e-06,
      "loss": 0.7605,
      "step": 2700
    },
    {
      "epoch": 0.1456221695061462,
      "grad_norm": 0.8062289953231812,
      "learning_rate": 9.969623510192081e-06,
      "loss": 0.8275,
      "step": 2701
    },
    {
      "epoch": 0.14567608367478974,
      "grad_norm": 0.9606921076774597,
      "learning_rate": 9.969600171857246e-06,
      "loss": 0.8472,
      "step": 2702
    },
    {
      "epoch": 0.14572999784343327,
      "grad_norm": 1.0146433115005493,
      "learning_rate": 9.96957682458774e-06,
      "loss": 0.8398,
      "step": 2703
    },
    {
      "epoch": 0.14578391201207677,
      "grad_norm": 0.8463965058326721,
      "learning_rate": 9.969553468383604e-06,
      "loss": 0.7563,
      "step": 2704
    },
    {
      "epoch": 0.1458378261807203,
      "grad_norm": 0.8125115633010864,
      "learning_rate": 9.96953010324488e-06,
      "loss": 0.8042,
      "step": 2705
    },
    {
      "epoch": 0.1458917403493638,
      "grad_norm": 0.9350455403327942,
      "learning_rate": 9.969506729171612e-06,
      "loss": 0.9067,
      "step": 2706
    },
    {
      "epoch": 0.14594565451800734,
      "grad_norm": 0.9979991316795349,
      "learning_rate": 9.969483346163843e-06,
      "loss": 0.778,
      "step": 2707
    },
    {
      "epoch": 0.14599956868665084,
      "grad_norm": 0.8236498236656189,
      "learning_rate": 9.969459954221612e-06,
      "loss": 0.9011,
      "step": 2708
    },
    {
      "epoch": 0.14605348285529438,
      "grad_norm": 0.6965605616569519,
      "learning_rate": 9.969436553344962e-06,
      "loss": 0.6657,
      "step": 2709
    },
    {
      "epoch": 0.14610739702393788,
      "grad_norm": 0.810246467590332,
      "learning_rate": 9.969413143533936e-06,
      "loss": 0.8099,
      "step": 2710
    },
    {
      "epoch": 0.1461613111925814,
      "grad_norm": 1.1437804698944092,
      "learning_rate": 9.969389724788574e-06,
      "loss": 0.7457,
      "step": 2711
    },
    {
      "epoch": 0.14621522536122494,
      "grad_norm": 0.8632565140724182,
      "learning_rate": 9.96936629710892e-06,
      "loss": 0.8549,
      "step": 2712
    },
    {
      "epoch": 0.14626913952986845,
      "grad_norm": 0.9616119265556335,
      "learning_rate": 9.969342860495018e-06,
      "loss": 0.6219,
      "step": 2713
    },
    {
      "epoch": 0.14632305369851198,
      "grad_norm": 0.9943077564239502,
      "learning_rate": 9.969319414946906e-06,
      "loss": 0.8676,
      "step": 2714
    },
    {
      "epoch": 0.14637696786715548,
      "grad_norm": 0.861070454120636,
      "learning_rate": 9.969295960464627e-06,
      "loss": 0.7235,
      "step": 2715
    },
    {
      "epoch": 0.14643088203579901,
      "grad_norm": 0.9375396370887756,
      "learning_rate": 9.969272497048225e-06,
      "loss": 0.9169,
      "step": 2716
    },
    {
      "epoch": 0.14648479620444252,
      "grad_norm": 0.8180664777755737,
      "learning_rate": 9.969249024697741e-06,
      "loss": 0.8109,
      "step": 2717
    },
    {
      "epoch": 0.14653871037308605,
      "grad_norm": 0.8574398159980774,
      "learning_rate": 9.969225543413218e-06,
      "loss": 0.767,
      "step": 2718
    },
    {
      "epoch": 0.14659262454172955,
      "grad_norm": 1.0249319076538086,
      "learning_rate": 9.969202053194697e-06,
      "loss": 0.902,
      "step": 2719
    },
    {
      "epoch": 0.1466465387103731,
      "grad_norm": 0.8045467734336853,
      "learning_rate": 9.96917855404222e-06,
      "loss": 0.7797,
      "step": 2720
    },
    {
      "epoch": 0.14670045287901662,
      "grad_norm": 0.880533754825592,
      "learning_rate": 9.969155045955831e-06,
      "loss": 0.8071,
      "step": 2721
    },
    {
      "epoch": 0.14675436704766012,
      "grad_norm": 0.8733983635902405,
      "learning_rate": 9.969131528935572e-06,
      "loss": 0.8309,
      "step": 2722
    },
    {
      "epoch": 0.14680828121630365,
      "grad_norm": 0.8205264210700989,
      "learning_rate": 9.969108002981484e-06,
      "loss": 0.8126,
      "step": 2723
    },
    {
      "epoch": 0.14686219538494716,
      "grad_norm": 0.8250916600227356,
      "learning_rate": 9.96908446809361e-06,
      "loss": 0.7488,
      "step": 2724
    },
    {
      "epoch": 0.1469161095535907,
      "grad_norm": 0.8082099556922913,
      "learning_rate": 9.969060924271994e-06,
      "loss": 0.8039,
      "step": 2725
    },
    {
      "epoch": 0.1469700237222342,
      "grad_norm": 0.8376840353012085,
      "learning_rate": 9.969037371516674e-06,
      "loss": 0.7603,
      "step": 2726
    },
    {
      "epoch": 0.14702393789087773,
      "grad_norm": 1.2106066942214966,
      "learning_rate": 9.969013809827697e-06,
      "loss": 0.8187,
      "step": 2727
    },
    {
      "epoch": 0.14707785205952123,
      "grad_norm": 0.8828561305999756,
      "learning_rate": 9.968990239205103e-06,
      "loss": 0.7249,
      "step": 2728
    },
    {
      "epoch": 0.14713176622816476,
      "grad_norm": 0.8182427883148193,
      "learning_rate": 9.968966659648935e-06,
      "loss": 0.8353,
      "step": 2729
    },
    {
      "epoch": 0.1471856803968083,
      "grad_norm": 0.8091077208518982,
      "learning_rate": 9.968943071159234e-06,
      "loss": 0.8261,
      "step": 2730
    },
    {
      "epoch": 0.1472395945654518,
      "grad_norm": 0.9515360593795776,
      "learning_rate": 9.968919473736043e-06,
      "loss": 0.9099,
      "step": 2731
    },
    {
      "epoch": 0.14729350873409533,
      "grad_norm": 0.7404700517654419,
      "learning_rate": 9.968895867379407e-06,
      "loss": 0.7793,
      "step": 2732
    },
    {
      "epoch": 0.14734742290273883,
      "grad_norm": 0.7887243032455444,
      "learning_rate": 9.968872252089365e-06,
      "loss": 0.8749,
      "step": 2733
    },
    {
      "epoch": 0.14740133707138237,
      "grad_norm": 1.1335293054580688,
      "learning_rate": 9.968848627865962e-06,
      "loss": 0.8428,
      "step": 2734
    },
    {
      "epoch": 0.14745525124002587,
      "grad_norm": 0.787325382232666,
      "learning_rate": 9.968824994709238e-06,
      "loss": 0.8026,
      "step": 2735
    },
    {
      "epoch": 0.1475091654086694,
      "grad_norm": 0.8006013035774231,
      "learning_rate": 9.968801352619238e-06,
      "loss": 0.9083,
      "step": 2736
    },
    {
      "epoch": 0.1475630795773129,
      "grad_norm": 0.8923180103302002,
      "learning_rate": 9.968777701596002e-06,
      "loss": 0.8628,
      "step": 2737
    },
    {
      "epoch": 0.14761699374595644,
      "grad_norm": 0.798041582107544,
      "learning_rate": 9.968754041639573e-06,
      "loss": 0.7519,
      "step": 2738
    },
    {
      "epoch": 0.14767090791459997,
      "grad_norm": 0.8984145522117615,
      "learning_rate": 9.968730372749996e-06,
      "loss": 0.7624,
      "step": 2739
    },
    {
      "epoch": 0.14772482208324347,
      "grad_norm": 0.8182528018951416,
      "learning_rate": 9.968706694927312e-06,
      "loss": 0.8442,
      "step": 2740
    },
    {
      "epoch": 0.147778736251887,
      "grad_norm": 0.8047756552696228,
      "learning_rate": 9.968683008171562e-06,
      "loss": 0.847,
      "step": 2741
    },
    {
      "epoch": 0.1478326504205305,
      "grad_norm": 0.7935258150100708,
      "learning_rate": 9.968659312482792e-06,
      "loss": 0.8072,
      "step": 2742
    },
    {
      "epoch": 0.14788656458917404,
      "grad_norm": 0.8043146729469299,
      "learning_rate": 9.968635607861042e-06,
      "loss": 0.7769,
      "step": 2743
    },
    {
      "epoch": 0.14794047875781755,
      "grad_norm": 0.7826459407806396,
      "learning_rate": 9.968611894306356e-06,
      "loss": 0.8418,
      "step": 2744
    },
    {
      "epoch": 0.14799439292646108,
      "grad_norm": 0.9293491244316101,
      "learning_rate": 9.968588171818775e-06,
      "loss": 0.8704,
      "step": 2745
    },
    {
      "epoch": 0.14804830709510458,
      "grad_norm": 0.8281397223472595,
      "learning_rate": 9.968564440398343e-06,
      "loss": 0.9288,
      "step": 2746
    },
    {
      "epoch": 0.1481022212637481,
      "grad_norm": 0.8558036684989929,
      "learning_rate": 9.968540700045101e-06,
      "loss": 0.8406,
      "step": 2747
    },
    {
      "epoch": 0.14815613543239164,
      "grad_norm": 0.8167025446891785,
      "learning_rate": 9.968516950759096e-06,
      "loss": 0.8268,
      "step": 2748
    },
    {
      "epoch": 0.14821004960103515,
      "grad_norm": 0.8612670302391052,
      "learning_rate": 9.968493192540364e-06,
      "loss": 0.8265,
      "step": 2749
    },
    {
      "epoch": 0.14826396376967868,
      "grad_norm": 0.9208493232727051,
      "learning_rate": 9.968469425388953e-06,
      "loss": 0.8555,
      "step": 2750
    },
    {
      "epoch": 0.14831787793832218,
      "grad_norm": 0.756591260433197,
      "learning_rate": 9.968445649304904e-06,
      "loss": 0.7655,
      "step": 2751
    },
    {
      "epoch": 0.14837179210696572,
      "grad_norm": 0.8566586375236511,
      "learning_rate": 9.96842186428826e-06,
      "loss": 0.8125,
      "step": 2752
    },
    {
      "epoch": 0.14842570627560922,
      "grad_norm": 0.7984357476234436,
      "learning_rate": 9.968398070339063e-06,
      "loss": 0.7307,
      "step": 2753
    },
    {
      "epoch": 0.14847962044425275,
      "grad_norm": 0.8943261504173279,
      "learning_rate": 9.968374267457356e-06,
      "loss": 0.757,
      "step": 2754
    },
    {
      "epoch": 0.14853353461289626,
      "grad_norm": 0.9466004967689514,
      "learning_rate": 9.968350455643184e-06,
      "loss": 0.8271,
      "step": 2755
    },
    {
      "epoch": 0.1485874487815398,
      "grad_norm": 0.7604812383651733,
      "learning_rate": 9.968326634896585e-06,
      "loss": 0.7654,
      "step": 2756
    },
    {
      "epoch": 0.14864136295018332,
      "grad_norm": 0.7803215384483337,
      "learning_rate": 9.968302805217609e-06,
      "loss": 0.7691,
      "step": 2757
    },
    {
      "epoch": 0.14869527711882682,
      "grad_norm": 0.8579596281051636,
      "learning_rate": 9.96827896660629e-06,
      "loss": 0.859,
      "step": 2758
    },
    {
      "epoch": 0.14874919128747036,
      "grad_norm": 0.8205640316009521,
      "learning_rate": 9.968255119062679e-06,
      "loss": 0.8588,
      "step": 2759
    },
    {
      "epoch": 0.14880310545611386,
      "grad_norm": 0.8601415753364563,
      "learning_rate": 9.968231262586814e-06,
      "loss": 0.8399,
      "step": 2760
    },
    {
      "epoch": 0.1488570196247574,
      "grad_norm": 0.8827456831932068,
      "learning_rate": 9.96820739717874e-06,
      "loss": 0.8413,
      "step": 2761
    },
    {
      "epoch": 0.1489109337934009,
      "grad_norm": 0.7422264218330383,
      "learning_rate": 9.968183522838499e-06,
      "loss": 0.7451,
      "step": 2762
    },
    {
      "epoch": 0.14896484796204443,
      "grad_norm": 0.9764127135276794,
      "learning_rate": 9.968159639566133e-06,
      "loss": 0.8436,
      "step": 2763
    },
    {
      "epoch": 0.14901876213068793,
      "grad_norm": 0.7435232400894165,
      "learning_rate": 9.968135747361687e-06,
      "loss": 0.7553,
      "step": 2764
    },
    {
      "epoch": 0.14907267629933146,
      "grad_norm": 0.7399751543998718,
      "learning_rate": 9.968111846225202e-06,
      "loss": 0.7695,
      "step": 2765
    },
    {
      "epoch": 0.149126590467975,
      "grad_norm": 0.882901668548584,
      "learning_rate": 9.968087936156722e-06,
      "loss": 0.8418,
      "step": 2766
    },
    {
      "epoch": 0.1491805046366185,
      "grad_norm": 0.840501606464386,
      "learning_rate": 9.968064017156292e-06,
      "loss": 0.83,
      "step": 2767
    },
    {
      "epoch": 0.14923441880526203,
      "grad_norm": 0.9809413552284241,
      "learning_rate": 9.96804008922395e-06,
      "loss": 0.8029,
      "step": 2768
    },
    {
      "epoch": 0.14928833297390554,
      "grad_norm": 0.7534085512161255,
      "learning_rate": 9.968016152359744e-06,
      "loss": 0.7201,
      "step": 2769
    },
    {
      "epoch": 0.14934224714254907,
      "grad_norm": 0.813582718372345,
      "learning_rate": 9.967992206563714e-06,
      "loss": 0.8533,
      "step": 2770
    },
    {
      "epoch": 0.14939616131119257,
      "grad_norm": 0.9827276468276978,
      "learning_rate": 9.967968251835905e-06,
      "loss": 0.8097,
      "step": 2771
    },
    {
      "epoch": 0.1494500754798361,
      "grad_norm": 0.828959047794342,
      "learning_rate": 9.967944288176359e-06,
      "loss": 0.859,
      "step": 2772
    },
    {
      "epoch": 0.1495039896484796,
      "grad_norm": 0.8123818039894104,
      "learning_rate": 9.967920315585118e-06,
      "loss": 0.7044,
      "step": 2773
    },
    {
      "epoch": 0.14955790381712314,
      "grad_norm": 0.7503589987754822,
      "learning_rate": 9.967896334062228e-06,
      "loss": 0.7255,
      "step": 2774
    },
    {
      "epoch": 0.14961181798576667,
      "grad_norm": 0.7414034605026245,
      "learning_rate": 9.96787234360773e-06,
      "loss": 0.7599,
      "step": 2775
    },
    {
      "epoch": 0.14966573215441017,
      "grad_norm": 0.7467254400253296,
      "learning_rate": 9.967848344221667e-06,
      "loss": 0.6835,
      "step": 2776
    },
    {
      "epoch": 0.1497196463230537,
      "grad_norm": 0.8653414249420166,
      "learning_rate": 9.967824335904082e-06,
      "loss": 0.8205,
      "step": 2777
    },
    {
      "epoch": 0.1497735604916972,
      "grad_norm": 0.9113380312919617,
      "learning_rate": 9.96780031865502e-06,
      "loss": 0.8758,
      "step": 2778
    },
    {
      "epoch": 0.14982747466034074,
      "grad_norm": 0.8330965042114258,
      "learning_rate": 9.967776292474523e-06,
      "loss": 0.8696,
      "step": 2779
    },
    {
      "epoch": 0.14988138882898425,
      "grad_norm": 0.9087555408477783,
      "learning_rate": 9.967752257362633e-06,
      "loss": 0.8381,
      "step": 2780
    },
    {
      "epoch": 0.14993530299762778,
      "grad_norm": 0.856777548789978,
      "learning_rate": 9.967728213319394e-06,
      "loss": 0.8365,
      "step": 2781
    },
    {
      "epoch": 0.14998921716627128,
      "grad_norm": 0.8314496874809265,
      "learning_rate": 9.967704160344852e-06,
      "loss": 0.7403,
      "step": 2782
    },
    {
      "epoch": 0.15004313133491481,
      "grad_norm": 0.8357448577880859,
      "learning_rate": 9.967680098439047e-06,
      "loss": 0.8256,
      "step": 2783
    },
    {
      "epoch": 0.15009704550355835,
      "grad_norm": 0.8366092443466187,
      "learning_rate": 9.967656027602023e-06,
      "loss": 0.8221,
      "step": 2784
    },
    {
      "epoch": 0.15015095967220185,
      "grad_norm": 0.7944943904876709,
      "learning_rate": 9.967631947833823e-06,
      "loss": 0.813,
      "step": 2785
    },
    {
      "epoch": 0.15020487384084538,
      "grad_norm": 0.8407523036003113,
      "learning_rate": 9.967607859134492e-06,
      "loss": 0.8237,
      "step": 2786
    },
    {
      "epoch": 0.1502587880094889,
      "grad_norm": 0.7879778146743774,
      "learning_rate": 9.967583761504071e-06,
      "loss": 0.777,
      "step": 2787
    },
    {
      "epoch": 0.15031270217813242,
      "grad_norm": 0.8307899832725525,
      "learning_rate": 9.967559654942604e-06,
      "loss": 0.8394,
      "step": 2788
    },
    {
      "epoch": 0.15036661634677592,
      "grad_norm": 0.8068673610687256,
      "learning_rate": 9.967535539450135e-06,
      "loss": 0.8435,
      "step": 2789
    },
    {
      "epoch": 0.15042053051541945,
      "grad_norm": 0.8473932147026062,
      "learning_rate": 9.967511415026709e-06,
      "loss": 0.8698,
      "step": 2790
    },
    {
      "epoch": 0.15047444468406296,
      "grad_norm": 0.8352688550949097,
      "learning_rate": 9.967487281672365e-06,
      "loss": 0.8617,
      "step": 2791
    },
    {
      "epoch": 0.1505283588527065,
      "grad_norm": 0.7729620337486267,
      "learning_rate": 9.96746313938715e-06,
      "loss": 0.779,
      "step": 2792
    },
    {
      "epoch": 0.15058227302135002,
      "grad_norm": 0.8704085946083069,
      "learning_rate": 9.967438988171106e-06,
      "loss": 0.833,
      "step": 2793
    },
    {
      "epoch": 0.15063618718999353,
      "grad_norm": 0.7538182735443115,
      "learning_rate": 9.967414828024276e-06,
      "loss": 0.7479,
      "step": 2794
    },
    {
      "epoch": 0.15069010135863706,
      "grad_norm": 0.7672195434570312,
      "learning_rate": 9.967390658946704e-06,
      "loss": 0.7778,
      "step": 2795
    },
    {
      "epoch": 0.15074401552728056,
      "grad_norm": 0.8245819211006165,
      "learning_rate": 9.967366480938435e-06,
      "loss": 0.6898,
      "step": 2796
    },
    {
      "epoch": 0.1507979296959241,
      "grad_norm": 0.8197571635246277,
      "learning_rate": 9.967342293999512e-06,
      "loss": 0.8714,
      "step": 2797
    },
    {
      "epoch": 0.1508518438645676,
      "grad_norm": 0.8135389685630798,
      "learning_rate": 9.967318098129974e-06,
      "loss": 0.8906,
      "step": 2798
    },
    {
      "epoch": 0.15090575803321113,
      "grad_norm": 0.7287562489509583,
      "learning_rate": 9.96729389332987e-06,
      "loss": 0.7834,
      "step": 2799
    },
    {
      "epoch": 0.15095967220185466,
      "grad_norm": 0.8642309904098511,
      "learning_rate": 9.967269679599242e-06,
      "loss": 0.7912,
      "step": 2800
    },
    {
      "epoch": 0.15101358637049817,
      "grad_norm": 0.886060893535614,
      "learning_rate": 9.967245456938132e-06,
      "loss": 0.8614,
      "step": 2801
    },
    {
      "epoch": 0.1510675005391417,
      "grad_norm": 0.8505488038063049,
      "learning_rate": 9.967221225346584e-06,
      "loss": 0.8323,
      "step": 2802
    },
    {
      "epoch": 0.1511214147077852,
      "grad_norm": 0.8862965703010559,
      "learning_rate": 9.967196984824644e-06,
      "loss": 0.8292,
      "step": 2803
    },
    {
      "epoch": 0.15117532887642873,
      "grad_norm": 0.8016111254692078,
      "learning_rate": 9.967172735372353e-06,
      "loss": 0.643,
      "step": 2804
    },
    {
      "epoch": 0.15122924304507224,
      "grad_norm": 0.7599527835845947,
      "learning_rate": 9.967148476989755e-06,
      "loss": 0.8166,
      "step": 2805
    },
    {
      "epoch": 0.15128315721371577,
      "grad_norm": 0.9574166536331177,
      "learning_rate": 9.967124209676894e-06,
      "loss": 0.8867,
      "step": 2806
    },
    {
      "epoch": 0.15133707138235927,
      "grad_norm": 0.8384936451911926,
      "learning_rate": 9.967099933433815e-06,
      "loss": 0.9021,
      "step": 2807
    },
    {
      "epoch": 0.1513909855510028,
      "grad_norm": 0.7779715061187744,
      "learning_rate": 9.967075648260559e-06,
      "loss": 0.7672,
      "step": 2808
    },
    {
      "epoch": 0.15144489971964634,
      "grad_norm": 0.7783359885215759,
      "learning_rate": 9.96705135415717e-06,
      "loss": 0.8012,
      "step": 2809
    },
    {
      "epoch": 0.15149881388828984,
      "grad_norm": 0.9124150276184082,
      "learning_rate": 9.967027051123695e-06,
      "loss": 0.8803,
      "step": 2810
    },
    {
      "epoch": 0.15155272805693337,
      "grad_norm": 0.8135334849357605,
      "learning_rate": 9.967002739160173e-06,
      "loss": 0.7764,
      "step": 2811
    },
    {
      "epoch": 0.15160664222557688,
      "grad_norm": 0.8082837462425232,
      "learning_rate": 9.966978418266651e-06,
      "loss": 0.8552,
      "step": 2812
    },
    {
      "epoch": 0.1516605563942204,
      "grad_norm": 0.7978013753890991,
      "learning_rate": 9.966954088443171e-06,
      "loss": 0.7321,
      "step": 2813
    },
    {
      "epoch": 0.1517144705628639,
      "grad_norm": 0.7845378518104553,
      "learning_rate": 9.966929749689778e-06,
      "loss": 0.7694,
      "step": 2814
    },
    {
      "epoch": 0.15176838473150744,
      "grad_norm": 0.8671941161155701,
      "learning_rate": 9.966905402006516e-06,
      "loss": 0.886,
      "step": 2815
    },
    {
      "epoch": 0.15182229890015095,
      "grad_norm": 0.8316017389297485,
      "learning_rate": 9.966881045393426e-06,
      "loss": 0.8844,
      "step": 2816
    },
    {
      "epoch": 0.15187621306879448,
      "grad_norm": 0.7372319102287292,
      "learning_rate": 9.966856679850554e-06,
      "loss": 0.739,
      "step": 2817
    },
    {
      "epoch": 0.151930127237438,
      "grad_norm": 0.7547122240066528,
      "learning_rate": 9.966832305377944e-06,
      "loss": 0.7518,
      "step": 2818
    },
    {
      "epoch": 0.15198404140608152,
      "grad_norm": 0.8701632022857666,
      "learning_rate": 9.96680792197564e-06,
      "loss": 0.8632,
      "step": 2819
    },
    {
      "epoch": 0.15203795557472505,
      "grad_norm": 0.7842714786529541,
      "learning_rate": 9.966783529643686e-06,
      "loss": 0.8161,
      "step": 2820
    },
    {
      "epoch": 0.15209186974336855,
      "grad_norm": 0.858406126499176,
      "learning_rate": 9.966759128382125e-06,
      "loss": 0.7742,
      "step": 2821
    },
    {
      "epoch": 0.15214578391201208,
      "grad_norm": 1.02357816696167,
      "learning_rate": 9.966734718190998e-06,
      "loss": 0.9142,
      "step": 2822
    },
    {
      "epoch": 0.1521996980806556,
      "grad_norm": 0.81562739610672,
      "learning_rate": 9.966710299070355e-06,
      "loss": 0.8426,
      "step": 2823
    },
    {
      "epoch": 0.15225361224929912,
      "grad_norm": 0.8576202988624573,
      "learning_rate": 9.966685871020236e-06,
      "loss": 0.7546,
      "step": 2824
    },
    {
      "epoch": 0.15230752641794262,
      "grad_norm": 0.8974374532699585,
      "learning_rate": 9.966661434040684e-06,
      "loss": 0.7236,
      "step": 2825
    },
    {
      "epoch": 0.15236144058658616,
      "grad_norm": 0.7306199073791504,
      "learning_rate": 9.966636988131745e-06,
      "loss": 0.7581,
      "step": 2826
    },
    {
      "epoch": 0.1524153547552297,
      "grad_norm": 0.9296971559524536,
      "learning_rate": 9.966612533293465e-06,
      "loss": 0.9214,
      "step": 2827
    },
    {
      "epoch": 0.1524692689238732,
      "grad_norm": 1.029969573020935,
      "learning_rate": 9.966588069525885e-06,
      "loss": 0.8371,
      "step": 2828
    },
    {
      "epoch": 0.15252318309251672,
      "grad_norm": 0.869320809841156,
      "learning_rate": 9.966563596829046e-06,
      "loss": 0.6396,
      "step": 2829
    },
    {
      "epoch": 0.15257709726116023,
      "grad_norm": 0.8893983960151672,
      "learning_rate": 9.966539115202998e-06,
      "loss": 0.8423,
      "step": 2830
    },
    {
      "epoch": 0.15263101142980376,
      "grad_norm": 0.823639452457428,
      "learning_rate": 9.966514624647783e-06,
      "loss": 0.7924,
      "step": 2831
    },
    {
      "epoch": 0.15268492559844726,
      "grad_norm": 0.805551290512085,
      "learning_rate": 9.966490125163444e-06,
      "loss": 0.8091,
      "step": 2832
    },
    {
      "epoch": 0.1527388397670908,
      "grad_norm": 0.9040341377258301,
      "learning_rate": 9.966465616750025e-06,
      "loss": 0.8924,
      "step": 2833
    },
    {
      "epoch": 0.1527927539357343,
      "grad_norm": 0.8297836780548096,
      "learning_rate": 9.966441099407572e-06,
      "loss": 0.7538,
      "step": 2834
    },
    {
      "epoch": 0.15284666810437783,
      "grad_norm": 0.8824244141578674,
      "learning_rate": 9.966416573136127e-06,
      "loss": 0.8892,
      "step": 2835
    },
    {
      "epoch": 0.15290058227302136,
      "grad_norm": 1.0663546323776245,
      "learning_rate": 9.966392037935734e-06,
      "loss": 0.7809,
      "step": 2836
    },
    {
      "epoch": 0.15295449644166487,
      "grad_norm": 0.8324514627456665,
      "learning_rate": 9.966367493806439e-06,
      "loss": 0.8308,
      "step": 2837
    },
    {
      "epoch": 0.1530084106103084,
      "grad_norm": 0.7742459177970886,
      "learning_rate": 9.966342940748286e-06,
      "loss": 0.8269,
      "step": 2838
    },
    {
      "epoch": 0.1530623247789519,
      "grad_norm": 0.9513984322547913,
      "learning_rate": 9.966318378761317e-06,
      "loss": 0.8538,
      "step": 2839
    },
    {
      "epoch": 0.15311623894759543,
      "grad_norm": 0.8030692934989929,
      "learning_rate": 9.966293807845577e-06,
      "loss": 0.7752,
      "step": 2840
    },
    {
      "epoch": 0.15317015311623894,
      "grad_norm": 0.8903285264968872,
      "learning_rate": 9.966269228001112e-06,
      "loss": 0.8556,
      "step": 2841
    },
    {
      "epoch": 0.15322406728488247,
      "grad_norm": 0.8221173286437988,
      "learning_rate": 9.966244639227962e-06,
      "loss": 0.7249,
      "step": 2842
    },
    {
      "epoch": 0.15327798145352597,
      "grad_norm": 0.9883365035057068,
      "learning_rate": 9.966220041526176e-06,
      "loss": 0.961,
      "step": 2843
    },
    {
      "epoch": 0.1533318956221695,
      "grad_norm": 0.8654862642288208,
      "learning_rate": 9.966195434895796e-06,
      "loss": 0.7779,
      "step": 2844
    },
    {
      "epoch": 0.15338580979081304,
      "grad_norm": 0.7924084663391113,
      "learning_rate": 9.966170819336866e-06,
      "loss": 0.7706,
      "step": 2845
    },
    {
      "epoch": 0.15343972395945654,
      "grad_norm": 0.8227209448814392,
      "learning_rate": 9.96614619484943e-06,
      "loss": 0.8659,
      "step": 2846
    },
    {
      "epoch": 0.15349363812810007,
      "grad_norm": 0.9436708688735962,
      "learning_rate": 9.966121561433534e-06,
      "loss": 0.87,
      "step": 2847
    },
    {
      "epoch": 0.15354755229674358,
      "grad_norm": 1.137171983718872,
      "learning_rate": 9.96609691908922e-06,
      "loss": 0.7883,
      "step": 2848
    },
    {
      "epoch": 0.1536014664653871,
      "grad_norm": 0.8868550658226013,
      "learning_rate": 9.966072267816535e-06,
      "loss": 0.8309,
      "step": 2849
    },
    {
      "epoch": 0.1536553806340306,
      "grad_norm": 0.7190971970558167,
      "learning_rate": 9.966047607615521e-06,
      "loss": 0.6938,
      "step": 2850
    },
    {
      "epoch": 0.15370929480267415,
      "grad_norm": 0.883866548538208,
      "learning_rate": 9.966022938486223e-06,
      "loss": 0.8368,
      "step": 2851
    },
    {
      "epoch": 0.15376320897131765,
      "grad_norm": 0.9433422684669495,
      "learning_rate": 9.965998260428686e-06,
      "loss": 0.7739,
      "step": 2852
    },
    {
      "epoch": 0.15381712313996118,
      "grad_norm": 0.9166012406349182,
      "learning_rate": 9.965973573442956e-06,
      "loss": 0.8308,
      "step": 2853
    },
    {
      "epoch": 0.1538710373086047,
      "grad_norm": 0.8955514430999756,
      "learning_rate": 9.965948877529071e-06,
      "loss": 0.8403,
      "step": 2854
    },
    {
      "epoch": 0.15392495147724822,
      "grad_norm": 0.8281451463699341,
      "learning_rate": 9.965924172687083e-06,
      "loss": 0.8127,
      "step": 2855
    },
    {
      "epoch": 0.15397886564589175,
      "grad_norm": 0.8765435218811035,
      "learning_rate": 9.965899458917031e-06,
      "loss": 0.87,
      "step": 2856
    },
    {
      "epoch": 0.15403277981453525,
      "grad_norm": 0.9525101780891418,
      "learning_rate": 9.965874736218964e-06,
      "loss": 0.8665,
      "step": 2857
    },
    {
      "epoch": 0.15408669398317879,
      "grad_norm": 0.7836191654205322,
      "learning_rate": 9.965850004592921e-06,
      "loss": 0.8261,
      "step": 2858
    },
    {
      "epoch": 0.1541406081518223,
      "grad_norm": 0.7918692827224731,
      "learning_rate": 9.96582526403895e-06,
      "loss": 0.8422,
      "step": 2859
    },
    {
      "epoch": 0.15419452232046582,
      "grad_norm": 0.8489586710929871,
      "learning_rate": 9.965800514557096e-06,
      "loss": 0.8871,
      "step": 2860
    },
    {
      "epoch": 0.15424843648910933,
      "grad_norm": 0.9581596255302429,
      "learning_rate": 9.965775756147402e-06,
      "loss": 0.9346,
      "step": 2861
    },
    {
      "epoch": 0.15430235065775286,
      "grad_norm": 1.0253969430923462,
      "learning_rate": 9.965750988809913e-06,
      "loss": 0.8381,
      "step": 2862
    },
    {
      "epoch": 0.1543562648263964,
      "grad_norm": 0.8403491377830505,
      "learning_rate": 9.965726212544674e-06,
      "loss": 0.8307,
      "step": 2863
    },
    {
      "epoch": 0.1544101789950399,
      "grad_norm": 0.729560375213623,
      "learning_rate": 9.965701427351728e-06,
      "loss": 0.8021,
      "step": 2864
    },
    {
      "epoch": 0.15446409316368342,
      "grad_norm": 0.7576143741607666,
      "learning_rate": 9.965676633231121e-06,
      "loss": 0.7896,
      "step": 2865
    },
    {
      "epoch": 0.15451800733232693,
      "grad_norm": 1.100948452949524,
      "learning_rate": 9.965651830182898e-06,
      "loss": 0.797,
      "step": 2866
    },
    {
      "epoch": 0.15457192150097046,
      "grad_norm": 1.0760526657104492,
      "learning_rate": 9.965627018207102e-06,
      "loss": 0.7875,
      "step": 2867
    },
    {
      "epoch": 0.15462583566961396,
      "grad_norm": 0.8553655743598938,
      "learning_rate": 9.96560219730378e-06,
      "loss": 0.872,
      "step": 2868
    },
    {
      "epoch": 0.1546797498382575,
      "grad_norm": 1.1357450485229492,
      "learning_rate": 9.965577367472971e-06,
      "loss": 0.7306,
      "step": 2869
    },
    {
      "epoch": 0.154733664006901,
      "grad_norm": 0.8308514952659607,
      "learning_rate": 9.965552528714725e-06,
      "loss": 0.8106,
      "step": 2870
    },
    {
      "epoch": 0.15478757817554453,
      "grad_norm": 0.8406074047088623,
      "learning_rate": 9.965527681029088e-06,
      "loss": 0.9085,
      "step": 2871
    },
    {
      "epoch": 0.15484149234418806,
      "grad_norm": 0.8215218186378479,
      "learning_rate": 9.9655028244161e-06,
      "loss": 0.733,
      "step": 2872
    },
    {
      "epoch": 0.15489540651283157,
      "grad_norm": 1.0004653930664062,
      "learning_rate": 9.965477958875806e-06,
      "loss": 0.8625,
      "step": 2873
    },
    {
      "epoch": 0.1549493206814751,
      "grad_norm": 0.8359742760658264,
      "learning_rate": 9.965453084408256e-06,
      "loss": 0.7847,
      "step": 2874
    },
    {
      "epoch": 0.1550032348501186,
      "grad_norm": 1.0257774591445923,
      "learning_rate": 9.965428201013488e-06,
      "loss": 0.8654,
      "step": 2875
    },
    {
      "epoch": 0.15505714901876214,
      "grad_norm": 0.7931713461875916,
      "learning_rate": 9.96540330869155e-06,
      "loss": 0.7498,
      "step": 2876
    },
    {
      "epoch": 0.15511106318740564,
      "grad_norm": 0.7873162031173706,
      "learning_rate": 9.965378407442488e-06,
      "loss": 0.7617,
      "step": 2877
    },
    {
      "epoch": 0.15516497735604917,
      "grad_norm": 0.8008442521095276,
      "learning_rate": 9.965353497266346e-06,
      "loss": 0.8464,
      "step": 2878
    },
    {
      "epoch": 0.15521889152469268,
      "grad_norm": 0.798004686832428,
      "learning_rate": 9.965328578163166e-06,
      "loss": 0.8519,
      "step": 2879
    },
    {
      "epoch": 0.1552728056933362,
      "grad_norm": 0.8730151057243347,
      "learning_rate": 9.965303650132996e-06,
      "loss": 0.8257,
      "step": 2880
    },
    {
      "epoch": 0.15532671986197974,
      "grad_norm": 0.7465460896492004,
      "learning_rate": 9.965278713175879e-06,
      "loss": 0.7786,
      "step": 2881
    },
    {
      "epoch": 0.15538063403062324,
      "grad_norm": 0.9565917253494263,
      "learning_rate": 9.96525376729186e-06,
      "loss": 0.8694,
      "step": 2882
    },
    {
      "epoch": 0.15543454819926678,
      "grad_norm": 0.880181074142456,
      "learning_rate": 9.965228812480987e-06,
      "loss": 0.813,
      "step": 2883
    },
    {
      "epoch": 0.15548846236791028,
      "grad_norm": 0.7912368774414062,
      "learning_rate": 9.965203848743299e-06,
      "loss": 0.7764,
      "step": 2884
    },
    {
      "epoch": 0.1555423765365538,
      "grad_norm": 0.8370791077613831,
      "learning_rate": 9.965178876078846e-06,
      "loss": 0.8591,
      "step": 2885
    },
    {
      "epoch": 0.15559629070519732,
      "grad_norm": 0.8508057594299316,
      "learning_rate": 9.965153894487672e-06,
      "loss": 0.8535,
      "step": 2886
    },
    {
      "epoch": 0.15565020487384085,
      "grad_norm": 1.0393366813659668,
      "learning_rate": 9.965128903969818e-06,
      "loss": 0.8032,
      "step": 2887
    },
    {
      "epoch": 0.15570411904248435,
      "grad_norm": 0.7545601725578308,
      "learning_rate": 9.965103904525334e-06,
      "loss": 0.7024,
      "step": 2888
    },
    {
      "epoch": 0.15575803321112788,
      "grad_norm": 0.7933251261711121,
      "learning_rate": 9.965078896154262e-06,
      "loss": 0.8325,
      "step": 2889
    },
    {
      "epoch": 0.15581194737977141,
      "grad_norm": 0.8319270610809326,
      "learning_rate": 9.965053878856648e-06,
      "loss": 0.7781,
      "step": 2890
    },
    {
      "epoch": 0.15586586154841492,
      "grad_norm": 1.0789637565612793,
      "learning_rate": 9.965028852632537e-06,
      "loss": 0.7931,
      "step": 2891
    },
    {
      "epoch": 0.15591977571705845,
      "grad_norm": 0.9561448097229004,
      "learning_rate": 9.965003817481974e-06,
      "loss": 0.7472,
      "step": 2892
    },
    {
      "epoch": 0.15597368988570195,
      "grad_norm": 0.9099969267845154,
      "learning_rate": 9.964978773405003e-06,
      "loss": 0.9154,
      "step": 2893
    },
    {
      "epoch": 0.1560276040543455,
      "grad_norm": 0.9164708852767944,
      "learning_rate": 9.96495372040167e-06,
      "loss": 0.8552,
      "step": 2894
    },
    {
      "epoch": 0.156081518222989,
      "grad_norm": 0.9367608428001404,
      "learning_rate": 9.96492865847202e-06,
      "loss": 0.7926,
      "step": 2895
    },
    {
      "epoch": 0.15613543239163252,
      "grad_norm": 0.8970937728881836,
      "learning_rate": 9.9649035876161e-06,
      "loss": 0.8798,
      "step": 2896
    },
    {
      "epoch": 0.15618934656027603,
      "grad_norm": 0.8037889003753662,
      "learning_rate": 9.96487850783395e-06,
      "loss": 0.8157,
      "step": 2897
    },
    {
      "epoch": 0.15624326072891956,
      "grad_norm": 0.906944215297699,
      "learning_rate": 9.964853419125619e-06,
      "loss": 0.8191,
      "step": 2898
    },
    {
      "epoch": 0.1562971748975631,
      "grad_norm": 0.8197054266929626,
      "learning_rate": 9.964828321491152e-06,
      "loss": 0.7899,
      "step": 2899
    },
    {
      "epoch": 0.1563510890662066,
      "grad_norm": 0.7816088795661926,
      "learning_rate": 9.96480321493059e-06,
      "loss": 0.8113,
      "step": 2900
    },
    {
      "epoch": 0.15640500323485013,
      "grad_norm": 0.8319717645645142,
      "learning_rate": 9.964778099443985e-06,
      "loss": 0.7835,
      "step": 2901
    },
    {
      "epoch": 0.15645891740349363,
      "grad_norm": 0.7739672660827637,
      "learning_rate": 9.964752975031378e-06,
      "loss": 0.7813,
      "step": 2902
    },
    {
      "epoch": 0.15651283157213716,
      "grad_norm": 0.8002716898918152,
      "learning_rate": 9.964727841692815e-06,
      "loss": 0.7971,
      "step": 2903
    },
    {
      "epoch": 0.15656674574078067,
      "grad_norm": 0.8796008229255676,
      "learning_rate": 9.964702699428339e-06,
      "loss": 0.7462,
      "step": 2904
    },
    {
      "epoch": 0.1566206599094242,
      "grad_norm": 0.837027907371521,
      "learning_rate": 9.964677548237998e-06,
      "loss": 0.864,
      "step": 2905
    },
    {
      "epoch": 0.15667457407806773,
      "grad_norm": 0.9098290205001831,
      "learning_rate": 9.964652388121837e-06,
      "loss": 0.9079,
      "step": 2906
    },
    {
      "epoch": 0.15672848824671123,
      "grad_norm": 0.7707619071006775,
      "learning_rate": 9.964627219079898e-06,
      "loss": 0.7472,
      "step": 2907
    },
    {
      "epoch": 0.15678240241535477,
      "grad_norm": 1.0109550952911377,
      "learning_rate": 9.964602041112233e-06,
      "loss": 0.8981,
      "step": 2908
    },
    {
      "epoch": 0.15683631658399827,
      "grad_norm": 0.8410045504570007,
      "learning_rate": 9.964576854218882e-06,
      "loss": 0.8488,
      "step": 2909
    },
    {
      "epoch": 0.1568902307526418,
      "grad_norm": 0.8624899983406067,
      "learning_rate": 9.96455165839989e-06,
      "loss": 0.817,
      "step": 2910
    },
    {
      "epoch": 0.1569441449212853,
      "grad_norm": 0.9060286283493042,
      "learning_rate": 9.964526453655304e-06,
      "loss": 0.8171,
      "step": 2911
    },
    {
      "epoch": 0.15699805908992884,
      "grad_norm": 0.7718086838722229,
      "learning_rate": 9.96450123998517e-06,
      "loss": 0.7158,
      "step": 2912
    },
    {
      "epoch": 0.15705197325857234,
      "grad_norm": 0.8690425157546997,
      "learning_rate": 9.96447601738953e-06,
      "loss": 0.8347,
      "step": 2913
    },
    {
      "epoch": 0.15710588742721587,
      "grad_norm": 0.782656192779541,
      "learning_rate": 9.964450785868433e-06,
      "loss": 0.7581,
      "step": 2914
    },
    {
      "epoch": 0.1571598015958594,
      "grad_norm": 1.0090769529342651,
      "learning_rate": 9.964425545421924e-06,
      "loss": 0.8179,
      "step": 2915
    },
    {
      "epoch": 0.1572137157645029,
      "grad_norm": 0.8786135911941528,
      "learning_rate": 9.964400296050047e-06,
      "loss": 0.8733,
      "step": 2916
    },
    {
      "epoch": 0.15726762993314644,
      "grad_norm": 0.8163133859634399,
      "learning_rate": 9.964375037752847e-06,
      "loss": 0.8091,
      "step": 2917
    },
    {
      "epoch": 0.15732154410178995,
      "grad_norm": 0.8213543891906738,
      "learning_rate": 9.964349770530371e-06,
      "loss": 0.7978,
      "step": 2918
    },
    {
      "epoch": 0.15737545827043348,
      "grad_norm": 0.849274218082428,
      "learning_rate": 9.964324494382663e-06,
      "loss": 0.8168,
      "step": 2919
    },
    {
      "epoch": 0.15742937243907698,
      "grad_norm": 0.8099618554115295,
      "learning_rate": 9.964299209309769e-06,
      "loss": 0.8372,
      "step": 2920
    },
    {
      "epoch": 0.1574832866077205,
      "grad_norm": 0.9064434766769409,
      "learning_rate": 9.964273915311734e-06,
      "loss": 0.8681,
      "step": 2921
    },
    {
      "epoch": 0.15753720077636402,
      "grad_norm": 0.7269558310508728,
      "learning_rate": 9.964248612388607e-06,
      "loss": 0.7179,
      "step": 2922
    },
    {
      "epoch": 0.15759111494500755,
      "grad_norm": 0.8115706443786621,
      "learning_rate": 9.964223300540427e-06,
      "loss": 0.8572,
      "step": 2923
    },
    {
      "epoch": 0.15764502911365108,
      "grad_norm": 0.8180872797966003,
      "learning_rate": 9.964197979767246e-06,
      "loss": 0.7463,
      "step": 2924
    },
    {
      "epoch": 0.15769894328229458,
      "grad_norm": 0.741603434085846,
      "learning_rate": 9.964172650069105e-06,
      "loss": 0.7646,
      "step": 2925
    },
    {
      "epoch": 0.15775285745093812,
      "grad_norm": 0.7558543682098389,
      "learning_rate": 9.964147311446051e-06,
      "loss": 0.7363,
      "step": 2926
    },
    {
      "epoch": 0.15780677161958162,
      "grad_norm": 0.8128615617752075,
      "learning_rate": 9.96412196389813e-06,
      "loss": 0.8515,
      "step": 2927
    },
    {
      "epoch": 0.15786068578822515,
      "grad_norm": 0.9731131196022034,
      "learning_rate": 9.964096607425388e-06,
      "loss": 0.8847,
      "step": 2928
    },
    {
      "epoch": 0.15791459995686866,
      "grad_norm": 1.136883020401001,
      "learning_rate": 9.964071242027868e-06,
      "loss": 0.8457,
      "step": 2929
    },
    {
      "epoch": 0.1579685141255122,
      "grad_norm": 0.7780461311340332,
      "learning_rate": 9.964045867705618e-06,
      "loss": 0.737,
      "step": 2930
    },
    {
      "epoch": 0.1580224282941557,
      "grad_norm": 0.801013708114624,
      "learning_rate": 9.964020484458684e-06,
      "loss": 0.8164,
      "step": 2931
    },
    {
      "epoch": 0.15807634246279922,
      "grad_norm": 0.8851730823516846,
      "learning_rate": 9.96399509228711e-06,
      "loss": 0.8762,
      "step": 2932
    },
    {
      "epoch": 0.15813025663144276,
      "grad_norm": 0.9501338005065918,
      "learning_rate": 9.963969691190942e-06,
      "loss": 0.7788,
      "step": 2933
    },
    {
      "epoch": 0.15818417080008626,
      "grad_norm": 0.9714099168777466,
      "learning_rate": 9.963944281170227e-06,
      "loss": 0.9207,
      "step": 2934
    },
    {
      "epoch": 0.1582380849687298,
      "grad_norm": 0.764689564704895,
      "learning_rate": 9.963918862225009e-06,
      "loss": 0.737,
      "step": 2935
    },
    {
      "epoch": 0.1582919991373733,
      "grad_norm": 1.1618343591690063,
      "learning_rate": 9.963893434355335e-06,
      "loss": 0.8055,
      "step": 2936
    },
    {
      "epoch": 0.15834591330601683,
      "grad_norm": 0.8724596500396729,
      "learning_rate": 9.96386799756125e-06,
      "loss": 0.8449,
      "step": 2937
    },
    {
      "epoch": 0.15839982747466033,
      "grad_norm": 0.7769358158111572,
      "learning_rate": 9.963842551842798e-06,
      "loss": 0.8155,
      "step": 2938
    },
    {
      "epoch": 0.15845374164330386,
      "grad_norm": 0.8337542414665222,
      "learning_rate": 9.963817097200028e-06,
      "loss": 0.7331,
      "step": 2939
    },
    {
      "epoch": 0.15850765581194737,
      "grad_norm": 0.8240610957145691,
      "learning_rate": 9.963791633632984e-06,
      "loss": 0.8076,
      "step": 2940
    },
    {
      "epoch": 0.1585615699805909,
      "grad_norm": 0.7781216502189636,
      "learning_rate": 9.963766161141713e-06,
      "loss": 0.7274,
      "step": 2941
    },
    {
      "epoch": 0.15861548414923443,
      "grad_norm": 0.8469343781471252,
      "learning_rate": 9.96374067972626e-06,
      "loss": 0.8364,
      "step": 2942
    },
    {
      "epoch": 0.15866939831787794,
      "grad_norm": 0.7859261631965637,
      "learning_rate": 9.963715189386669e-06,
      "loss": 0.8006,
      "step": 2943
    },
    {
      "epoch": 0.15872331248652147,
      "grad_norm": 0.8646130561828613,
      "learning_rate": 9.963689690122988e-06,
      "loss": 0.808,
      "step": 2944
    },
    {
      "epoch": 0.15877722665516497,
      "grad_norm": 0.8905766010284424,
      "learning_rate": 9.963664181935263e-06,
      "loss": 0.8406,
      "step": 2945
    },
    {
      "epoch": 0.1588311408238085,
      "grad_norm": 0.8756605982780457,
      "learning_rate": 9.963638664823539e-06,
      "loss": 0.8643,
      "step": 2946
    },
    {
      "epoch": 0.158885054992452,
      "grad_norm": 0.899135410785675,
      "learning_rate": 9.963613138787862e-06,
      "loss": 0.9063,
      "step": 2947
    },
    {
      "epoch": 0.15893896916109554,
      "grad_norm": 0.8382771015167236,
      "learning_rate": 9.96358760382828e-06,
      "loss": 0.8004,
      "step": 2948
    },
    {
      "epoch": 0.15899288332973904,
      "grad_norm": 0.7687328457832336,
      "learning_rate": 9.963562059944833e-06,
      "loss": 0.7695,
      "step": 2949
    },
    {
      "epoch": 0.15904679749838257,
      "grad_norm": 0.807344913482666,
      "learning_rate": 9.963536507137574e-06,
      "loss": 0.7514,
      "step": 2950
    },
    {
      "epoch": 0.1591007116670261,
      "grad_norm": 0.7882648706436157,
      "learning_rate": 9.963510945406545e-06,
      "loss": 0.7537,
      "step": 2951
    },
    {
      "epoch": 0.1591546258356696,
      "grad_norm": 0.8422887921333313,
      "learning_rate": 9.963485374751793e-06,
      "loss": 0.7937,
      "step": 2952
    },
    {
      "epoch": 0.15920854000431314,
      "grad_norm": 0.7578607797622681,
      "learning_rate": 9.963459795173362e-06,
      "loss": 0.8071,
      "step": 2953
    },
    {
      "epoch": 0.15926245417295665,
      "grad_norm": 0.8854062557220459,
      "learning_rate": 9.963434206671302e-06,
      "loss": 0.9078,
      "step": 2954
    },
    {
      "epoch": 0.15931636834160018,
      "grad_norm": 0.8705536723136902,
      "learning_rate": 9.963408609245654e-06,
      "loss": 0.7971,
      "step": 2955
    },
    {
      "epoch": 0.15937028251024368,
      "grad_norm": 0.8247761726379395,
      "learning_rate": 9.96338300289647e-06,
      "loss": 0.7889,
      "step": 2956
    },
    {
      "epoch": 0.15942419667888721,
      "grad_norm": 0.8216410279273987,
      "learning_rate": 9.96335738762379e-06,
      "loss": 0.9097,
      "step": 2957
    },
    {
      "epoch": 0.15947811084753072,
      "grad_norm": 0.9624109268188477,
      "learning_rate": 9.963331763427666e-06,
      "loss": 0.8562,
      "step": 2958
    },
    {
      "epoch": 0.15953202501617425,
      "grad_norm": 0.8426920175552368,
      "learning_rate": 9.96330613030814e-06,
      "loss": 0.8011,
      "step": 2959
    },
    {
      "epoch": 0.15958593918481778,
      "grad_norm": 0.8987439870834351,
      "learning_rate": 9.963280488265256e-06,
      "loss": 0.7965,
      "step": 2960
    },
    {
      "epoch": 0.1596398533534613,
      "grad_norm": 0.8105943202972412,
      "learning_rate": 9.963254837299066e-06,
      "loss": 0.8178,
      "step": 2961
    },
    {
      "epoch": 0.15969376752210482,
      "grad_norm": 0.928841769695282,
      "learning_rate": 9.963229177409612e-06,
      "loss": 0.8106,
      "step": 2962
    },
    {
      "epoch": 0.15974768169074832,
      "grad_norm": 0.7369773983955383,
      "learning_rate": 9.963203508596942e-06,
      "loss": 0.7401,
      "step": 2963
    },
    {
      "epoch": 0.15980159585939185,
      "grad_norm": 0.7476964592933655,
      "learning_rate": 9.9631778308611e-06,
      "loss": 0.8112,
      "step": 2964
    },
    {
      "epoch": 0.15985551002803536,
      "grad_norm": 0.8257710337638855,
      "learning_rate": 9.963152144202135e-06,
      "loss": 0.8489,
      "step": 2965
    },
    {
      "epoch": 0.1599094241966789,
      "grad_norm": 0.8324301242828369,
      "learning_rate": 9.963126448620091e-06,
      "loss": 0.8511,
      "step": 2966
    },
    {
      "epoch": 0.1599633383653224,
      "grad_norm": 0.8221176266670227,
      "learning_rate": 9.963100744115017e-06,
      "loss": 0.7924,
      "step": 2967
    },
    {
      "epoch": 0.16001725253396593,
      "grad_norm": 0.7942221164703369,
      "learning_rate": 9.963075030686955e-06,
      "loss": 0.7936,
      "step": 2968
    },
    {
      "epoch": 0.16007116670260946,
      "grad_norm": 0.7341020107269287,
      "learning_rate": 9.963049308335954e-06,
      "loss": 0.7381,
      "step": 2969
    },
    {
      "epoch": 0.16012508087125296,
      "grad_norm": 0.8118404746055603,
      "learning_rate": 9.963023577062062e-06,
      "loss": 0.756,
      "step": 2970
    },
    {
      "epoch": 0.1601789950398965,
      "grad_norm": 0.7517318725585938,
      "learning_rate": 9.96299783686532e-06,
      "loss": 0.7051,
      "step": 2971
    },
    {
      "epoch": 0.16023290920854,
      "grad_norm": 0.7982935905456543,
      "learning_rate": 9.962972087745777e-06,
      "loss": 0.8412,
      "step": 2972
    },
    {
      "epoch": 0.16028682337718353,
      "grad_norm": 0.8397754430770874,
      "learning_rate": 9.962946329703482e-06,
      "loss": 0.8314,
      "step": 2973
    },
    {
      "epoch": 0.16034073754582703,
      "grad_norm": 0.8342095613479614,
      "learning_rate": 9.962920562738477e-06,
      "loss": 0.7649,
      "step": 2974
    },
    {
      "epoch": 0.16039465171447057,
      "grad_norm": 0.8053215742111206,
      "learning_rate": 9.96289478685081e-06,
      "loss": 0.7315,
      "step": 2975
    },
    {
      "epoch": 0.16044856588311407,
      "grad_norm": 0.8931438326835632,
      "learning_rate": 9.962869002040529e-06,
      "loss": 0.9241,
      "step": 2976
    },
    {
      "epoch": 0.1605024800517576,
      "grad_norm": 0.8217912316322327,
      "learning_rate": 9.962843208307677e-06,
      "loss": 0.7551,
      "step": 2977
    },
    {
      "epoch": 0.16055639422040113,
      "grad_norm": 0.7592090964317322,
      "learning_rate": 9.962817405652305e-06,
      "loss": 0.7243,
      "step": 2978
    },
    {
      "epoch": 0.16061030838904464,
      "grad_norm": 0.8466029167175293,
      "learning_rate": 9.962791594074455e-06,
      "loss": 0.785,
      "step": 2979
    },
    {
      "epoch": 0.16066422255768817,
      "grad_norm": 0.859207272529602,
      "learning_rate": 9.962765773574174e-06,
      "loss": 0.8344,
      "step": 2980
    },
    {
      "epoch": 0.16071813672633167,
      "grad_norm": 0.8134403824806213,
      "learning_rate": 9.962739944151511e-06,
      "loss": 0.7595,
      "step": 2981
    },
    {
      "epoch": 0.1607720508949752,
      "grad_norm": 0.7411110401153564,
      "learning_rate": 9.962714105806511e-06,
      "loss": 0.7751,
      "step": 2982
    },
    {
      "epoch": 0.1608259650636187,
      "grad_norm": 0.7976831793785095,
      "learning_rate": 9.962688258539219e-06,
      "loss": 0.7353,
      "step": 2983
    },
    {
      "epoch": 0.16087987923226224,
      "grad_norm": 0.8306836485862732,
      "learning_rate": 9.962662402349684e-06,
      "loss": 0.7903,
      "step": 2984
    },
    {
      "epoch": 0.16093379340090574,
      "grad_norm": 0.794691264629364,
      "learning_rate": 9.96263653723795e-06,
      "loss": 0.7972,
      "step": 2985
    },
    {
      "epoch": 0.16098770756954928,
      "grad_norm": 0.7471837401390076,
      "learning_rate": 9.962610663204066e-06,
      "loss": 0.7994,
      "step": 2986
    },
    {
      "epoch": 0.1610416217381928,
      "grad_norm": 0.8046342134475708,
      "learning_rate": 9.962584780248079e-06,
      "loss": 0.7912,
      "step": 2987
    },
    {
      "epoch": 0.1610955359068363,
      "grad_norm": 0.7935966849327087,
      "learning_rate": 9.96255888837003e-06,
      "loss": 0.8053,
      "step": 2988
    },
    {
      "epoch": 0.16114945007547984,
      "grad_norm": 0.7403679490089417,
      "learning_rate": 9.962532987569973e-06,
      "loss": 0.6707,
      "step": 2989
    },
    {
      "epoch": 0.16120336424412335,
      "grad_norm": 0.8277058005332947,
      "learning_rate": 9.96250707784795e-06,
      "loss": 0.8074,
      "step": 2990
    },
    {
      "epoch": 0.16125727841276688,
      "grad_norm": 1.0225850343704224,
      "learning_rate": 9.962481159204008e-06,
      "loss": 0.8475,
      "step": 2991
    },
    {
      "epoch": 0.16131119258141038,
      "grad_norm": 0.8091806769371033,
      "learning_rate": 9.962455231638193e-06,
      "loss": 0.7714,
      "step": 2992
    },
    {
      "epoch": 0.16136510675005392,
      "grad_norm": 0.7496880292892456,
      "learning_rate": 9.962429295150554e-06,
      "loss": 0.7449,
      "step": 2993
    },
    {
      "epoch": 0.16141902091869742,
      "grad_norm": 0.7799220085144043,
      "learning_rate": 9.962403349741137e-06,
      "loss": 0.7241,
      "step": 2994
    },
    {
      "epoch": 0.16147293508734095,
      "grad_norm": 0.92058926820755,
      "learning_rate": 9.962377395409986e-06,
      "loss": 0.8374,
      "step": 2995
    },
    {
      "epoch": 0.16152684925598448,
      "grad_norm": 0.7713897228240967,
      "learning_rate": 9.96235143215715e-06,
      "loss": 0.7571,
      "step": 2996
    },
    {
      "epoch": 0.161580763424628,
      "grad_norm": 0.779852032661438,
      "learning_rate": 9.962325459982678e-06,
      "loss": 0.796,
      "step": 2997
    },
    {
      "epoch": 0.16163467759327152,
      "grad_norm": 0.8362038731575012,
      "learning_rate": 9.962299478886613e-06,
      "loss": 0.8645,
      "step": 2998
    },
    {
      "epoch": 0.16168859176191502,
      "grad_norm": 0.8759078979492188,
      "learning_rate": 9.962273488869003e-06,
      "loss": 0.8192,
      "step": 2999
    },
    {
      "epoch": 0.16174250593055856,
      "grad_norm": 0.7853894233703613,
      "learning_rate": 9.962247489929892e-06,
      "loss": 0.81,
      "step": 3000
    },
    {
      "epoch": 0.16179642009920206,
      "grad_norm": 0.8752580881118774,
      "learning_rate": 9.962221482069332e-06,
      "loss": 0.8172,
      "step": 3001
    },
    {
      "epoch": 0.1618503342678456,
      "grad_norm": 0.8129578828811646,
      "learning_rate": 9.962195465287367e-06,
      "loss": 0.698,
      "step": 3002
    },
    {
      "epoch": 0.1619042484364891,
      "grad_norm": 0.7905570268630981,
      "learning_rate": 9.962169439584043e-06,
      "loss": 0.7755,
      "step": 3003
    },
    {
      "epoch": 0.16195816260513263,
      "grad_norm": 1.1296168565750122,
      "learning_rate": 9.962143404959408e-06,
      "loss": 0.829,
      "step": 3004
    },
    {
      "epoch": 0.16201207677377616,
      "grad_norm": 0.8880928158760071,
      "learning_rate": 9.962117361413508e-06,
      "loss": 0.8542,
      "step": 3005
    },
    {
      "epoch": 0.16206599094241966,
      "grad_norm": 0.7933239936828613,
      "learning_rate": 9.96209130894639e-06,
      "loss": 0.714,
      "step": 3006
    },
    {
      "epoch": 0.1621199051110632,
      "grad_norm": 0.8112434148788452,
      "learning_rate": 9.962065247558101e-06,
      "loss": 0.7967,
      "step": 3007
    },
    {
      "epoch": 0.1621738192797067,
      "grad_norm": 0.7101603150367737,
      "learning_rate": 9.962039177248689e-06,
      "loss": 0.7054,
      "step": 3008
    },
    {
      "epoch": 0.16222773344835023,
      "grad_norm": 0.9327304363250732,
      "learning_rate": 9.962013098018198e-06,
      "loss": 0.7683,
      "step": 3009
    },
    {
      "epoch": 0.16228164761699373,
      "grad_norm": 0.8223574161529541,
      "learning_rate": 9.961987009866678e-06,
      "loss": 0.7174,
      "step": 3010
    },
    {
      "epoch": 0.16233556178563727,
      "grad_norm": 0.889711856842041,
      "learning_rate": 9.961960912794176e-06,
      "loss": 0.8562,
      "step": 3011
    },
    {
      "epoch": 0.1623894759542808,
      "grad_norm": 0.9297184348106384,
      "learning_rate": 9.961934806800736e-06,
      "loss": 0.8887,
      "step": 3012
    },
    {
      "epoch": 0.1624433901229243,
      "grad_norm": 0.8206717371940613,
      "learning_rate": 9.961908691886404e-06,
      "loss": 0.8272,
      "step": 3013
    },
    {
      "epoch": 0.16249730429156783,
      "grad_norm": 0.7833002805709839,
      "learning_rate": 9.961882568051233e-06,
      "loss": 0.848,
      "step": 3014
    },
    {
      "epoch": 0.16255121846021134,
      "grad_norm": 0.8386265635490417,
      "learning_rate": 9.961856435295265e-06,
      "loss": 0.7528,
      "step": 3015
    },
    {
      "epoch": 0.16260513262885487,
      "grad_norm": 0.8227097392082214,
      "learning_rate": 9.961830293618547e-06,
      "loss": 0.8181,
      "step": 3016
    },
    {
      "epoch": 0.16265904679749837,
      "grad_norm": 0.7938892245292664,
      "learning_rate": 9.96180414302113e-06,
      "loss": 0.8293,
      "step": 3017
    },
    {
      "epoch": 0.1627129609661419,
      "grad_norm": 1.1556557416915894,
      "learning_rate": 9.961777983503056e-06,
      "loss": 0.9544,
      "step": 3018
    },
    {
      "epoch": 0.1627668751347854,
      "grad_norm": 0.8379788994789124,
      "learning_rate": 9.961751815064375e-06,
      "loss": 0.7168,
      "step": 3019
    },
    {
      "epoch": 0.16282078930342894,
      "grad_norm": 0.9397227764129639,
      "learning_rate": 9.961725637705134e-06,
      "loss": 0.8804,
      "step": 3020
    },
    {
      "epoch": 0.16287470347207247,
      "grad_norm": 0.8950162529945374,
      "learning_rate": 9.96169945142538e-06,
      "loss": 0.8652,
      "step": 3021
    },
    {
      "epoch": 0.16292861764071598,
      "grad_norm": 0.8643755912780762,
      "learning_rate": 9.961673256225159e-06,
      "loss": 0.9041,
      "step": 3022
    },
    {
      "epoch": 0.1629825318093595,
      "grad_norm": 0.8658211827278137,
      "learning_rate": 9.961647052104517e-06,
      "loss": 0.8721,
      "step": 3023
    },
    {
      "epoch": 0.16303644597800301,
      "grad_norm": 0.812038242816925,
      "learning_rate": 9.961620839063507e-06,
      "loss": 0.8715,
      "step": 3024
    },
    {
      "epoch": 0.16309036014664655,
      "grad_norm": 0.7646269798278809,
      "learning_rate": 9.961594617102169e-06,
      "loss": 0.7805,
      "step": 3025
    },
    {
      "epoch": 0.16314427431529005,
      "grad_norm": 0.7684099674224854,
      "learning_rate": 9.961568386220553e-06,
      "loss": 0.8214,
      "step": 3026
    },
    {
      "epoch": 0.16319818848393358,
      "grad_norm": 0.888566255569458,
      "learning_rate": 9.961542146418706e-06,
      "loss": 0.8972,
      "step": 3027
    },
    {
      "epoch": 0.16325210265257709,
      "grad_norm": 0.8100109100341797,
      "learning_rate": 9.961515897696675e-06,
      "loss": 0.7337,
      "step": 3028
    },
    {
      "epoch": 0.16330601682122062,
      "grad_norm": 0.8838690519332886,
      "learning_rate": 9.96148964005451e-06,
      "loss": 0.7148,
      "step": 3029
    },
    {
      "epoch": 0.16335993098986415,
      "grad_norm": 0.7518458962440491,
      "learning_rate": 9.961463373492253e-06,
      "loss": 0.7127,
      "step": 3030
    },
    {
      "epoch": 0.16341384515850765,
      "grad_norm": 0.8280466198921204,
      "learning_rate": 9.961437098009956e-06,
      "loss": 0.7569,
      "step": 3031
    },
    {
      "epoch": 0.16346775932715119,
      "grad_norm": 0.7333472371101379,
      "learning_rate": 9.961410813607663e-06,
      "loss": 0.7984,
      "step": 3032
    },
    {
      "epoch": 0.1635216734957947,
      "grad_norm": 0.8064109086990356,
      "learning_rate": 9.961384520285423e-06,
      "loss": 0.8255,
      "step": 3033
    },
    {
      "epoch": 0.16357558766443822,
      "grad_norm": 0.8310550451278687,
      "learning_rate": 9.961358218043282e-06,
      "loss": 0.828,
      "step": 3034
    },
    {
      "epoch": 0.16362950183308173,
      "grad_norm": 0.8141489028930664,
      "learning_rate": 9.961331906881289e-06,
      "loss": 0.8121,
      "step": 3035
    },
    {
      "epoch": 0.16368341600172526,
      "grad_norm": 0.9229308366775513,
      "learning_rate": 9.96130558679949e-06,
      "loss": 0.9288,
      "step": 3036
    },
    {
      "epoch": 0.16373733017036876,
      "grad_norm": 0.9087804555892944,
      "learning_rate": 9.961279257797933e-06,
      "loss": 0.8725,
      "step": 3037
    },
    {
      "epoch": 0.1637912443390123,
      "grad_norm": 0.8357719779014587,
      "learning_rate": 9.961252919876665e-06,
      "loss": 0.8413,
      "step": 3038
    },
    {
      "epoch": 0.16384515850765582,
      "grad_norm": 0.8311809301376343,
      "learning_rate": 9.961226573035734e-06,
      "loss": 0.885,
      "step": 3039
    },
    {
      "epoch": 0.16389907267629933,
      "grad_norm": 0.7797298431396484,
      "learning_rate": 9.961200217275185e-06,
      "loss": 0.8767,
      "step": 3040
    },
    {
      "epoch": 0.16395298684494286,
      "grad_norm": 0.8659999370574951,
      "learning_rate": 9.961173852595069e-06,
      "loss": 0.7852,
      "step": 3041
    },
    {
      "epoch": 0.16400690101358636,
      "grad_norm": 0.8036298155784607,
      "learning_rate": 9.96114747899543e-06,
      "loss": 0.8122,
      "step": 3042
    },
    {
      "epoch": 0.1640608151822299,
      "grad_norm": 0.8683627843856812,
      "learning_rate": 9.961121096476318e-06,
      "loss": 0.8197,
      "step": 3043
    },
    {
      "epoch": 0.1641147293508734,
      "grad_norm": 0.8885881900787354,
      "learning_rate": 9.96109470503778e-06,
      "loss": 0.7302,
      "step": 3044
    },
    {
      "epoch": 0.16416864351951693,
      "grad_norm": 0.7480132579803467,
      "learning_rate": 9.961068304679861e-06,
      "loss": 0.7938,
      "step": 3045
    },
    {
      "epoch": 0.16422255768816044,
      "grad_norm": 0.680261492729187,
      "learning_rate": 9.96104189540261e-06,
      "loss": 0.7016,
      "step": 3046
    },
    {
      "epoch": 0.16427647185680397,
      "grad_norm": 0.8690764904022217,
      "learning_rate": 9.961015477206078e-06,
      "loss": 0.7716,
      "step": 3047
    },
    {
      "epoch": 0.1643303860254475,
      "grad_norm": 0.8533129692077637,
      "learning_rate": 9.960989050090306e-06,
      "loss": 0.8561,
      "step": 3048
    },
    {
      "epoch": 0.164384300194091,
      "grad_norm": 0.6941283345222473,
      "learning_rate": 9.960962614055345e-06,
      "loss": 0.6501,
      "step": 3049
    },
    {
      "epoch": 0.16443821436273454,
      "grad_norm": 0.9178086519241333,
      "learning_rate": 9.960936169101244e-06,
      "loss": 0.8511,
      "step": 3050
    },
    {
      "epoch": 0.16449212853137804,
      "grad_norm": 0.7419497966766357,
      "learning_rate": 9.960909715228049e-06,
      "loss": 0.7331,
      "step": 3051
    },
    {
      "epoch": 0.16454604270002157,
      "grad_norm": 0.879289984703064,
      "learning_rate": 9.960883252435807e-06,
      "loss": 0.8969,
      "step": 3052
    },
    {
      "epoch": 0.16459995686866508,
      "grad_norm": 0.7679347991943359,
      "learning_rate": 9.960856780724563e-06,
      "loss": 0.7467,
      "step": 3053
    },
    {
      "epoch": 0.1646538710373086,
      "grad_norm": 0.7927586436271667,
      "learning_rate": 9.960830300094371e-06,
      "loss": 0.7479,
      "step": 3054
    },
    {
      "epoch": 0.1647077852059521,
      "grad_norm": 0.7693600058555603,
      "learning_rate": 9.960803810545275e-06,
      "loss": 0.8421,
      "step": 3055
    },
    {
      "epoch": 0.16476169937459564,
      "grad_norm": 0.8548445105552673,
      "learning_rate": 9.96077731207732e-06,
      "loss": 0.8104,
      "step": 3056
    },
    {
      "epoch": 0.16481561354323918,
      "grad_norm": 0.8420791029930115,
      "learning_rate": 9.960750804690559e-06,
      "loss": 0.6974,
      "step": 3057
    },
    {
      "epoch": 0.16486952771188268,
      "grad_norm": 0.7880173921585083,
      "learning_rate": 9.960724288385037e-06,
      "loss": 0.7723,
      "step": 3058
    },
    {
      "epoch": 0.1649234418805262,
      "grad_norm": 0.8810162544250488,
      "learning_rate": 9.960697763160803e-06,
      "loss": 0.7488,
      "step": 3059
    },
    {
      "epoch": 0.16497735604916972,
      "grad_norm": 0.9951279759407043,
      "learning_rate": 9.9606712290179e-06,
      "loss": 0.8119,
      "step": 3060
    },
    {
      "epoch": 0.16503127021781325,
      "grad_norm": 0.755189836025238,
      "learning_rate": 9.960644685956383e-06,
      "loss": 0.7568,
      "step": 3061
    },
    {
      "epoch": 0.16508518438645675,
      "grad_norm": 0.99064040184021,
      "learning_rate": 9.960618133976292e-06,
      "loss": 0.8493,
      "step": 3062
    },
    {
      "epoch": 0.16513909855510028,
      "grad_norm": 0.8672367334365845,
      "learning_rate": 9.960591573077682e-06,
      "loss": 0.7961,
      "step": 3063
    },
    {
      "epoch": 0.1651930127237438,
      "grad_norm": 0.9614015817642212,
      "learning_rate": 9.960565003260596e-06,
      "loss": 0.8894,
      "step": 3064
    },
    {
      "epoch": 0.16524692689238732,
      "grad_norm": 0.7433729767799377,
      "learning_rate": 9.960538424525083e-06,
      "loss": 0.7586,
      "step": 3065
    },
    {
      "epoch": 0.16530084106103085,
      "grad_norm": 0.8151267766952515,
      "learning_rate": 9.96051183687119e-06,
      "loss": 0.8311,
      "step": 3066
    },
    {
      "epoch": 0.16535475522967436,
      "grad_norm": 0.9241605401039124,
      "learning_rate": 9.960485240298967e-06,
      "loss": 0.8526,
      "step": 3067
    },
    {
      "epoch": 0.1654086693983179,
      "grad_norm": 0.8612751364707947,
      "learning_rate": 9.96045863480846e-06,
      "loss": 0.7672,
      "step": 3068
    },
    {
      "epoch": 0.1654625835669614,
      "grad_norm": 0.8707523345947266,
      "learning_rate": 9.960432020399719e-06,
      "loss": 0.7862,
      "step": 3069
    },
    {
      "epoch": 0.16551649773560492,
      "grad_norm": 0.8456318378448486,
      "learning_rate": 9.960405397072788e-06,
      "loss": 0.8221,
      "step": 3070
    },
    {
      "epoch": 0.16557041190424843,
      "grad_norm": 0.7929409742355347,
      "learning_rate": 9.960378764827719e-06,
      "loss": 0.8438,
      "step": 3071
    },
    {
      "epoch": 0.16562432607289196,
      "grad_norm": 0.8241098523139954,
      "learning_rate": 9.960352123664556e-06,
      "loss": 0.7769,
      "step": 3072
    },
    {
      "epoch": 0.16567824024153546,
      "grad_norm": 0.9634597301483154,
      "learning_rate": 9.96032547358335e-06,
      "loss": 0.8323,
      "step": 3073
    },
    {
      "epoch": 0.165732154410179,
      "grad_norm": 0.6783578395843506,
      "learning_rate": 9.960298814584148e-06,
      "loss": 0.6585,
      "step": 3074
    },
    {
      "epoch": 0.16578606857882253,
      "grad_norm": 0.756289005279541,
      "learning_rate": 9.960272146666997e-06,
      "loss": 0.7109,
      "step": 3075
    },
    {
      "epoch": 0.16583998274746603,
      "grad_norm": 0.8414442539215088,
      "learning_rate": 9.960245469831947e-06,
      "loss": 0.7543,
      "step": 3076
    },
    {
      "epoch": 0.16589389691610956,
      "grad_norm": 0.7551240921020508,
      "learning_rate": 9.960218784079044e-06,
      "loss": 0.7131,
      "step": 3077
    },
    {
      "epoch": 0.16594781108475307,
      "grad_norm": 0.8211004137992859,
      "learning_rate": 9.960192089408335e-06,
      "loss": 0.8335,
      "step": 3078
    },
    {
      "epoch": 0.1660017252533966,
      "grad_norm": 0.7540998458862305,
      "learning_rate": 9.960165385819873e-06,
      "loss": 0.7557,
      "step": 3079
    },
    {
      "epoch": 0.1660556394220401,
      "grad_norm": 0.7917600274085999,
      "learning_rate": 9.9601386733137e-06,
      "loss": 0.7522,
      "step": 3080
    },
    {
      "epoch": 0.16610955359068363,
      "grad_norm": 0.9180947542190552,
      "learning_rate": 9.960111951889868e-06,
      "loss": 0.7943,
      "step": 3081
    },
    {
      "epoch": 0.16616346775932714,
      "grad_norm": 0.8169807195663452,
      "learning_rate": 9.960085221548422e-06,
      "loss": 0.8633,
      "step": 3082
    },
    {
      "epoch": 0.16621738192797067,
      "grad_norm": 0.8790155649185181,
      "learning_rate": 9.960058482289413e-06,
      "loss": 0.8265,
      "step": 3083
    },
    {
      "epoch": 0.1662712960966142,
      "grad_norm": 0.8958606123924255,
      "learning_rate": 9.960031734112887e-06,
      "loss": 0.8601,
      "step": 3084
    },
    {
      "epoch": 0.1663252102652577,
      "grad_norm": 0.8116661906242371,
      "learning_rate": 9.960004977018893e-06,
      "loss": 0.8203,
      "step": 3085
    },
    {
      "epoch": 0.16637912443390124,
      "grad_norm": 0.771135687828064,
      "learning_rate": 9.95997821100748e-06,
      "loss": 0.7258,
      "step": 3086
    },
    {
      "epoch": 0.16643303860254474,
      "grad_norm": 0.9094653725624084,
      "learning_rate": 9.959951436078696e-06,
      "loss": 0.9094,
      "step": 3087
    },
    {
      "epoch": 0.16648695277118827,
      "grad_norm": 0.9042958617210388,
      "learning_rate": 9.959924652232586e-06,
      "loss": 0.7434,
      "step": 3088
    },
    {
      "epoch": 0.16654086693983178,
      "grad_norm": 0.7170906662940979,
      "learning_rate": 9.959897859469201e-06,
      "loss": 0.7134,
      "step": 3089
    },
    {
      "epoch": 0.1665947811084753,
      "grad_norm": 0.7896520495414734,
      "learning_rate": 9.959871057788589e-06,
      "loss": 0.7727,
      "step": 3090
    },
    {
      "epoch": 0.1666486952771188,
      "grad_norm": 0.9295204281806946,
      "learning_rate": 9.959844247190797e-06,
      "loss": 0.8928,
      "step": 3091
    },
    {
      "epoch": 0.16670260944576235,
      "grad_norm": 0.8025391101837158,
      "learning_rate": 9.959817427675875e-06,
      "loss": 0.7808,
      "step": 3092
    },
    {
      "epoch": 0.16675652361440588,
      "grad_norm": 0.9727420210838318,
      "learning_rate": 9.95979059924387e-06,
      "loss": 0.9677,
      "step": 3093
    },
    {
      "epoch": 0.16681043778304938,
      "grad_norm": 0.8534692525863647,
      "learning_rate": 9.95976376189483e-06,
      "loss": 0.8642,
      "step": 3094
    },
    {
      "epoch": 0.1668643519516929,
      "grad_norm": 0.8361443877220154,
      "learning_rate": 9.959736915628803e-06,
      "loss": 0.8746,
      "step": 3095
    },
    {
      "epoch": 0.16691826612033642,
      "grad_norm": 0.8551936745643616,
      "learning_rate": 9.95971006044584e-06,
      "loss": 0.7973,
      "step": 3096
    },
    {
      "epoch": 0.16697218028897995,
      "grad_norm": 0.6986585259437561,
      "learning_rate": 9.959683196345987e-06,
      "loss": 0.6689,
      "step": 3097
    },
    {
      "epoch": 0.16702609445762345,
      "grad_norm": 0.9048603773117065,
      "learning_rate": 9.959656323329291e-06,
      "loss": 0.7924,
      "step": 3098
    },
    {
      "epoch": 0.16708000862626698,
      "grad_norm": 0.8295788764953613,
      "learning_rate": 9.959629441395802e-06,
      "loss": 0.843,
      "step": 3099
    },
    {
      "epoch": 0.1671339227949105,
      "grad_norm": 0.838590681552887,
      "learning_rate": 9.959602550545568e-06,
      "loss": 0.7615,
      "step": 3100
    },
    {
      "epoch": 0.16718783696355402,
      "grad_norm": 0.8323560357093811,
      "learning_rate": 9.959575650778639e-06,
      "loss": 0.8375,
      "step": 3101
    },
    {
      "epoch": 0.16724175113219755,
      "grad_norm": 0.8825474381446838,
      "learning_rate": 9.959548742095062e-06,
      "loss": 0.7701,
      "step": 3102
    },
    {
      "epoch": 0.16729566530084106,
      "grad_norm": 0.8911004662513733,
      "learning_rate": 9.959521824494884e-06,
      "loss": 0.8,
      "step": 3103
    },
    {
      "epoch": 0.1673495794694846,
      "grad_norm": 0.76695317029953,
      "learning_rate": 9.959494897978154e-06,
      "loss": 0.7177,
      "step": 3104
    },
    {
      "epoch": 0.1674034936381281,
      "grad_norm": 0.9462987184524536,
      "learning_rate": 9.959467962544922e-06,
      "loss": 0.8479,
      "step": 3105
    },
    {
      "epoch": 0.16745740780677162,
      "grad_norm": 0.7185036540031433,
      "learning_rate": 9.959441018195235e-06,
      "loss": 0.6444,
      "step": 3106
    },
    {
      "epoch": 0.16751132197541513,
      "grad_norm": 0.9797527194023132,
      "learning_rate": 9.959414064929143e-06,
      "loss": 0.916,
      "step": 3107
    },
    {
      "epoch": 0.16756523614405866,
      "grad_norm": 0.7815739512443542,
      "learning_rate": 9.959387102746693e-06,
      "loss": 0.7315,
      "step": 3108
    },
    {
      "epoch": 0.1676191503127022,
      "grad_norm": 0.9536890387535095,
      "learning_rate": 9.959360131647933e-06,
      "loss": 0.7795,
      "step": 3109
    },
    {
      "epoch": 0.1676730644813457,
      "grad_norm": 0.7770065069198608,
      "learning_rate": 9.959333151632913e-06,
      "loss": 0.8203,
      "step": 3110
    },
    {
      "epoch": 0.16772697864998923,
      "grad_norm": 0.8031367659568787,
      "learning_rate": 9.959306162701681e-06,
      "loss": 0.8362,
      "step": 3111
    },
    {
      "epoch": 0.16778089281863273,
      "grad_norm": 0.8009032011032104,
      "learning_rate": 9.959279164854286e-06,
      "loss": 0.8113,
      "step": 3112
    },
    {
      "epoch": 0.16783480698727626,
      "grad_norm": 0.8091812133789062,
      "learning_rate": 9.959252158090775e-06,
      "loss": 0.84,
      "step": 3113
    },
    {
      "epoch": 0.16788872115591977,
      "grad_norm": 0.7102682590484619,
      "learning_rate": 9.959225142411197e-06,
      "loss": 0.7378,
      "step": 3114
    },
    {
      "epoch": 0.1679426353245633,
      "grad_norm": 0.8190940618515015,
      "learning_rate": 9.959198117815602e-06,
      "loss": 0.8478,
      "step": 3115
    },
    {
      "epoch": 0.1679965494932068,
      "grad_norm": 0.7320457696914673,
      "learning_rate": 9.959171084304037e-06,
      "loss": 0.8358,
      "step": 3116
    },
    {
      "epoch": 0.16805046366185034,
      "grad_norm": 0.8222710490226746,
      "learning_rate": 9.959144041876551e-06,
      "loss": 0.809,
      "step": 3117
    },
    {
      "epoch": 0.16810437783049387,
      "grad_norm": 0.7939282059669495,
      "learning_rate": 9.959116990533195e-06,
      "loss": 0.8562,
      "step": 3118
    },
    {
      "epoch": 0.16815829199913737,
      "grad_norm": 0.7231613993644714,
      "learning_rate": 9.959089930274013e-06,
      "loss": 0.7656,
      "step": 3119
    },
    {
      "epoch": 0.1682122061677809,
      "grad_norm": 0.8997424840927124,
      "learning_rate": 9.959062861099058e-06,
      "loss": 0.8831,
      "step": 3120
    },
    {
      "epoch": 0.1682661203364244,
      "grad_norm": 0.80366450548172,
      "learning_rate": 9.959035783008374e-06,
      "loss": 0.8044,
      "step": 3121
    },
    {
      "epoch": 0.16832003450506794,
      "grad_norm": 0.8153119683265686,
      "learning_rate": 9.959008696002015e-06,
      "loss": 0.8325,
      "step": 3122
    },
    {
      "epoch": 0.16837394867371144,
      "grad_norm": 0.8638020157814026,
      "learning_rate": 9.958981600080026e-06,
      "loss": 0.8197,
      "step": 3123
    },
    {
      "epoch": 0.16842786284235498,
      "grad_norm": 0.8430980443954468,
      "learning_rate": 9.95895449524246e-06,
      "loss": 0.8212,
      "step": 3124
    },
    {
      "epoch": 0.16848177701099848,
      "grad_norm": 0.9273066520690918,
      "learning_rate": 9.958927381489358e-06,
      "loss": 0.8145,
      "step": 3125
    },
    {
      "epoch": 0.168535691179642,
      "grad_norm": 0.8697495460510254,
      "learning_rate": 9.958900258820777e-06,
      "loss": 0.8519,
      "step": 3126
    },
    {
      "epoch": 0.16858960534828554,
      "grad_norm": 0.7957634925842285,
      "learning_rate": 9.95887312723676e-06,
      "loss": 0.8065,
      "step": 3127
    },
    {
      "epoch": 0.16864351951692905,
      "grad_norm": 0.8890637755393982,
      "learning_rate": 9.958845986737357e-06,
      "loss": 0.822,
      "step": 3128
    },
    {
      "epoch": 0.16869743368557258,
      "grad_norm": 0.7979970574378967,
      "learning_rate": 9.95881883732262e-06,
      "loss": 0.8346,
      "step": 3129
    },
    {
      "epoch": 0.16875134785421608,
      "grad_norm": 0.8589211106300354,
      "learning_rate": 9.958791678992594e-06,
      "loss": 0.7498,
      "step": 3130
    },
    {
      "epoch": 0.16880526202285961,
      "grad_norm": 0.7819254398345947,
      "learning_rate": 9.95876451174733e-06,
      "loss": 0.7515,
      "step": 3131
    },
    {
      "epoch": 0.16885917619150312,
      "grad_norm": 0.9037144184112549,
      "learning_rate": 9.958737335586877e-06,
      "loss": 0.7684,
      "step": 3132
    },
    {
      "epoch": 0.16891309036014665,
      "grad_norm": 0.9139670133590698,
      "learning_rate": 9.958710150511282e-06,
      "loss": 0.7848,
      "step": 3133
    },
    {
      "epoch": 0.16896700452879015,
      "grad_norm": 0.8177505135536194,
      "learning_rate": 9.958682956520596e-06,
      "loss": 0.8656,
      "step": 3134
    },
    {
      "epoch": 0.1690209186974337,
      "grad_norm": 0.7351679801940918,
      "learning_rate": 9.958655753614865e-06,
      "loss": 0.769,
      "step": 3135
    },
    {
      "epoch": 0.16907483286607722,
      "grad_norm": 0.8661699891090393,
      "learning_rate": 9.958628541794142e-06,
      "loss": 0.8523,
      "step": 3136
    },
    {
      "epoch": 0.16912874703472072,
      "grad_norm": 0.7755950689315796,
      "learning_rate": 9.958601321058471e-06,
      "loss": 0.7737,
      "step": 3137
    },
    {
      "epoch": 0.16918266120336425,
      "grad_norm": 0.8523197174072266,
      "learning_rate": 9.958574091407906e-06,
      "loss": 0.8508,
      "step": 3138
    },
    {
      "epoch": 0.16923657537200776,
      "grad_norm": 0.7154935598373413,
      "learning_rate": 9.958546852842493e-06,
      "loss": 0.6725,
      "step": 3139
    },
    {
      "epoch": 0.1692904895406513,
      "grad_norm": 0.8140445947647095,
      "learning_rate": 9.95851960536228e-06,
      "loss": 0.92,
      "step": 3140
    },
    {
      "epoch": 0.1693444037092948,
      "grad_norm": 0.7320675849914551,
      "learning_rate": 9.95849234896732e-06,
      "loss": 0.8091,
      "step": 3141
    },
    {
      "epoch": 0.16939831787793833,
      "grad_norm": 0.7761030197143555,
      "learning_rate": 9.958465083657659e-06,
      "loss": 0.7444,
      "step": 3142
    },
    {
      "epoch": 0.16945223204658183,
      "grad_norm": 0.8432923555374146,
      "learning_rate": 9.958437809433345e-06,
      "loss": 0.8112,
      "step": 3143
    },
    {
      "epoch": 0.16950614621522536,
      "grad_norm": 0.8015188574790955,
      "learning_rate": 9.958410526294428e-06,
      "loss": 0.8383,
      "step": 3144
    },
    {
      "epoch": 0.1695600603838689,
      "grad_norm": 0.7635226845741272,
      "learning_rate": 9.95838323424096e-06,
      "loss": 0.7942,
      "step": 3145
    },
    {
      "epoch": 0.1696139745525124,
      "grad_norm": 0.942131757736206,
      "learning_rate": 9.958355933272986e-06,
      "loss": 0.8877,
      "step": 3146
    },
    {
      "epoch": 0.16966788872115593,
      "grad_norm": 1.1072907447814941,
      "learning_rate": 9.958328623390558e-06,
      "loss": 0.7369,
      "step": 3147
    },
    {
      "epoch": 0.16972180288979943,
      "grad_norm": 0.8342657685279846,
      "learning_rate": 9.958301304593722e-06,
      "loss": 0.7946,
      "step": 3148
    },
    {
      "epoch": 0.16977571705844297,
      "grad_norm": 0.7320284843444824,
      "learning_rate": 9.958273976882531e-06,
      "loss": 0.754,
      "step": 3149
    },
    {
      "epoch": 0.16982963122708647,
      "grad_norm": 0.7840715646743774,
      "learning_rate": 9.958246640257031e-06,
      "loss": 0.7897,
      "step": 3150
    },
    {
      "epoch": 0.16988354539573,
      "grad_norm": 0.7383304834365845,
      "learning_rate": 9.958219294717273e-06,
      "loss": 0.8205,
      "step": 3151
    },
    {
      "epoch": 0.1699374595643735,
      "grad_norm": 0.7597193121910095,
      "learning_rate": 9.958191940263305e-06,
      "loss": 0.8016,
      "step": 3152
    },
    {
      "epoch": 0.16999137373301704,
      "grad_norm": 0.7770809531211853,
      "learning_rate": 9.958164576895176e-06,
      "loss": 0.7228,
      "step": 3153
    },
    {
      "epoch": 0.17004528790166057,
      "grad_norm": 0.891514241695404,
      "learning_rate": 9.958137204612936e-06,
      "loss": 0.8598,
      "step": 3154
    },
    {
      "epoch": 0.17009920207030407,
      "grad_norm": 0.8025946021080017,
      "learning_rate": 9.958109823416635e-06,
      "loss": 0.8979,
      "step": 3155
    },
    {
      "epoch": 0.1701531162389476,
      "grad_norm": 0.7912386059761047,
      "learning_rate": 9.95808243330632e-06,
      "loss": 0.7562,
      "step": 3156
    },
    {
      "epoch": 0.1702070304075911,
      "grad_norm": 0.8642987608909607,
      "learning_rate": 9.958055034282043e-06,
      "loss": 0.7916,
      "step": 3157
    },
    {
      "epoch": 0.17026094457623464,
      "grad_norm": 0.8047364950180054,
      "learning_rate": 9.958027626343852e-06,
      "loss": 0.7598,
      "step": 3158
    },
    {
      "epoch": 0.17031485874487814,
      "grad_norm": 0.8402281999588013,
      "learning_rate": 9.958000209491794e-06,
      "loss": 0.8572,
      "step": 3159
    },
    {
      "epoch": 0.17036877291352168,
      "grad_norm": 0.7486295700073242,
      "learning_rate": 9.95797278372592e-06,
      "loss": 0.7221,
      "step": 3160
    },
    {
      "epoch": 0.17042268708216518,
      "grad_norm": 0.7889320254325867,
      "learning_rate": 9.95794534904628e-06,
      "loss": 0.7734,
      "step": 3161
    },
    {
      "epoch": 0.1704766012508087,
      "grad_norm": 0.7864039540290833,
      "learning_rate": 9.957917905452925e-06,
      "loss": 0.7763,
      "step": 3162
    },
    {
      "epoch": 0.17053051541945224,
      "grad_norm": 0.8366582989692688,
      "learning_rate": 9.957890452945903e-06,
      "loss": 0.8594,
      "step": 3163
    },
    {
      "epoch": 0.17058442958809575,
      "grad_norm": 0.8014213442802429,
      "learning_rate": 9.95786299152526e-06,
      "loss": 0.7802,
      "step": 3164
    },
    {
      "epoch": 0.17063834375673928,
      "grad_norm": 0.8158774375915527,
      "learning_rate": 9.957835521191048e-06,
      "loss": 0.7693,
      "step": 3165
    },
    {
      "epoch": 0.17069225792538278,
      "grad_norm": 1.0622320175170898,
      "learning_rate": 9.957808041943316e-06,
      "loss": 0.8949,
      "step": 3166
    },
    {
      "epoch": 0.17074617209402632,
      "grad_norm": 0.7825013399124146,
      "learning_rate": 9.957780553782114e-06,
      "loss": 0.7681,
      "step": 3167
    },
    {
      "epoch": 0.17080008626266982,
      "grad_norm": 1.0727826356887817,
      "learning_rate": 9.957753056707493e-06,
      "loss": 0.876,
      "step": 3168
    },
    {
      "epoch": 0.17085400043131335,
      "grad_norm": 0.7952837944030762,
      "learning_rate": 9.9577255507195e-06,
      "loss": 0.7671,
      "step": 3169
    },
    {
      "epoch": 0.17090791459995686,
      "grad_norm": 0.7251336574554443,
      "learning_rate": 9.957698035818185e-06,
      "loss": 0.7938,
      "step": 3170
    },
    {
      "epoch": 0.1709618287686004,
      "grad_norm": 0.8674930930137634,
      "learning_rate": 9.957670512003598e-06,
      "loss": 0.9387,
      "step": 3171
    },
    {
      "epoch": 0.17101574293724392,
      "grad_norm": 0.7578595876693726,
      "learning_rate": 9.957642979275787e-06,
      "loss": 0.8295,
      "step": 3172
    },
    {
      "epoch": 0.17106965710588742,
      "grad_norm": 0.8236204385757446,
      "learning_rate": 9.957615437634802e-06,
      "loss": 0.871,
      "step": 3173
    },
    {
      "epoch": 0.17112357127453096,
      "grad_norm": 0.7528506517410278,
      "learning_rate": 9.957587887080696e-06,
      "loss": 0.7034,
      "step": 3174
    },
    {
      "epoch": 0.17117748544317446,
      "grad_norm": 0.8170275092124939,
      "learning_rate": 9.957560327613514e-06,
      "loss": 0.7412,
      "step": 3175
    },
    {
      "epoch": 0.171231399611818,
      "grad_norm": 0.91305011510849,
      "learning_rate": 9.957532759233307e-06,
      "loss": 0.8861,
      "step": 3176
    },
    {
      "epoch": 0.1712853137804615,
      "grad_norm": 0.7793359756469727,
      "learning_rate": 9.957505181940124e-06,
      "loss": 0.8106,
      "step": 3177
    },
    {
      "epoch": 0.17133922794910503,
      "grad_norm": 0.9424631595611572,
      "learning_rate": 9.957477595734016e-06,
      "loss": 0.8271,
      "step": 3178
    },
    {
      "epoch": 0.17139314211774853,
      "grad_norm": 0.8909611701965332,
      "learning_rate": 9.957450000615031e-06,
      "loss": 0.8711,
      "step": 3179
    },
    {
      "epoch": 0.17144705628639206,
      "grad_norm": 0.703960657119751,
      "learning_rate": 9.95742239658322e-06,
      "loss": 0.6693,
      "step": 3180
    },
    {
      "epoch": 0.1715009704550356,
      "grad_norm": 0.8511449098587036,
      "learning_rate": 9.957394783638632e-06,
      "loss": 0.8075,
      "step": 3181
    },
    {
      "epoch": 0.1715548846236791,
      "grad_norm": 0.93243008852005,
      "learning_rate": 9.957367161781318e-06,
      "loss": 0.8663,
      "step": 3182
    },
    {
      "epoch": 0.17160879879232263,
      "grad_norm": 0.926092803478241,
      "learning_rate": 9.957339531011325e-06,
      "loss": 0.8973,
      "step": 3183
    },
    {
      "epoch": 0.17166271296096614,
      "grad_norm": 0.8564586043357849,
      "learning_rate": 9.957311891328705e-06,
      "loss": 0.7561,
      "step": 3184
    },
    {
      "epoch": 0.17171662712960967,
      "grad_norm": 0.8317960500717163,
      "learning_rate": 9.957284242733507e-06,
      "loss": 0.817,
      "step": 3185
    },
    {
      "epoch": 0.17177054129825317,
      "grad_norm": 0.7291557788848877,
      "learning_rate": 9.95725658522578e-06,
      "loss": 0.6963,
      "step": 3186
    },
    {
      "epoch": 0.1718244554668967,
      "grad_norm": 0.8154743313789368,
      "learning_rate": 9.957228918805574e-06,
      "loss": 0.8005,
      "step": 3187
    },
    {
      "epoch": 0.1718783696355402,
      "grad_norm": 0.7985217571258545,
      "learning_rate": 9.95720124347294e-06,
      "loss": 0.8471,
      "step": 3188
    },
    {
      "epoch": 0.17193228380418374,
      "grad_norm": 0.7928630709648132,
      "learning_rate": 9.957173559227926e-06,
      "loss": 0.8809,
      "step": 3189
    },
    {
      "epoch": 0.17198619797282727,
      "grad_norm": 0.800392210483551,
      "learning_rate": 9.957145866070583e-06,
      "loss": 0.8031,
      "step": 3190
    },
    {
      "epoch": 0.17204011214147077,
      "grad_norm": 0.8904628157615662,
      "learning_rate": 9.95711816400096e-06,
      "loss": 0.7583,
      "step": 3191
    },
    {
      "epoch": 0.1720940263101143,
      "grad_norm": 0.7246114611625671,
      "learning_rate": 9.957090453019106e-06,
      "loss": 0.7365,
      "step": 3192
    },
    {
      "epoch": 0.1721479404787578,
      "grad_norm": 0.8280320763587952,
      "learning_rate": 9.957062733125074e-06,
      "loss": 0.7723,
      "step": 3193
    },
    {
      "epoch": 0.17220185464740134,
      "grad_norm": 0.929804265499115,
      "learning_rate": 9.957035004318911e-06,
      "loss": 0.8412,
      "step": 3194
    },
    {
      "epoch": 0.17225576881604485,
      "grad_norm": 0.815108060836792,
      "learning_rate": 9.957007266600666e-06,
      "loss": 0.8076,
      "step": 3195
    },
    {
      "epoch": 0.17230968298468838,
      "grad_norm": 0.7849567532539368,
      "learning_rate": 9.956979519970393e-06,
      "loss": 0.8245,
      "step": 3196
    },
    {
      "epoch": 0.17236359715333188,
      "grad_norm": 1.458945393562317,
      "learning_rate": 9.956951764428138e-06,
      "loss": 0.7647,
      "step": 3197
    },
    {
      "epoch": 0.17241751132197541,
      "grad_norm": 0.8327317833900452,
      "learning_rate": 9.956923999973954e-06,
      "loss": 0.8824,
      "step": 3198
    },
    {
      "epoch": 0.17247142549061895,
      "grad_norm": 0.7398284077644348,
      "learning_rate": 9.956896226607887e-06,
      "loss": 0.7907,
      "step": 3199
    },
    {
      "epoch": 0.17252533965926245,
      "grad_norm": 0.8546818494796753,
      "learning_rate": 9.95686844432999e-06,
      "loss": 0.8723,
      "step": 3200
    },
    {
      "epoch": 0.17257925382790598,
      "grad_norm": 0.7967200875282288,
      "learning_rate": 9.956840653140311e-06,
      "loss": 0.8156,
      "step": 3201
    },
    {
      "epoch": 0.17263316799654949,
      "grad_norm": 0.9093504548072815,
      "learning_rate": 9.956812853038903e-06,
      "loss": 0.8002,
      "step": 3202
    },
    {
      "epoch": 0.17268708216519302,
      "grad_norm": 0.7995857000350952,
      "learning_rate": 9.956785044025811e-06,
      "loss": 0.8413,
      "step": 3203
    },
    {
      "epoch": 0.17274099633383652,
      "grad_norm": 0.828748881816864,
      "learning_rate": 9.95675722610109e-06,
      "loss": 0.7162,
      "step": 3204
    },
    {
      "epoch": 0.17279491050248005,
      "grad_norm": 0.7679111361503601,
      "learning_rate": 9.956729399264789e-06,
      "loss": 0.7909,
      "step": 3205
    },
    {
      "epoch": 0.17284882467112356,
      "grad_norm": 0.9187313318252563,
      "learning_rate": 9.956701563516956e-06,
      "loss": 0.8537,
      "step": 3206
    },
    {
      "epoch": 0.1729027388397671,
      "grad_norm": 0.7859029173851013,
      "learning_rate": 9.956673718857642e-06,
      "loss": 0.7392,
      "step": 3207
    },
    {
      "epoch": 0.17295665300841062,
      "grad_norm": 0.8365893363952637,
      "learning_rate": 9.956645865286897e-06,
      "loss": 0.7921,
      "step": 3208
    },
    {
      "epoch": 0.17301056717705413,
      "grad_norm": 0.912382960319519,
      "learning_rate": 9.956618002804771e-06,
      "loss": 0.8651,
      "step": 3209
    },
    {
      "epoch": 0.17306448134569766,
      "grad_norm": 0.7380210757255554,
      "learning_rate": 9.956590131411314e-06,
      "loss": 0.7031,
      "step": 3210
    },
    {
      "epoch": 0.17311839551434116,
      "grad_norm": 0.7943229675292969,
      "learning_rate": 9.956562251106578e-06,
      "loss": 0.7725,
      "step": 3211
    },
    {
      "epoch": 0.1731723096829847,
      "grad_norm": 0.8835777640342712,
      "learning_rate": 9.95653436189061e-06,
      "loss": 0.8633,
      "step": 3212
    },
    {
      "epoch": 0.1732262238516282,
      "grad_norm": 0.8082174062728882,
      "learning_rate": 9.956506463763464e-06,
      "loss": 0.8833,
      "step": 3213
    },
    {
      "epoch": 0.17328013802027173,
      "grad_norm": 0.8236085772514343,
      "learning_rate": 9.956478556725186e-06,
      "loss": 0.8517,
      "step": 3214
    },
    {
      "epoch": 0.17333405218891526,
      "grad_norm": 0.8428922891616821,
      "learning_rate": 9.956450640775829e-06,
      "loss": 0.8659,
      "step": 3215
    },
    {
      "epoch": 0.17338796635755876,
      "grad_norm": 0.8443105220794678,
      "learning_rate": 9.95642271591544e-06,
      "loss": 0.9589,
      "step": 3216
    },
    {
      "epoch": 0.1734418805262023,
      "grad_norm": 0.7856699228286743,
      "learning_rate": 9.956394782144074e-06,
      "loss": 0.787,
      "step": 3217
    },
    {
      "epoch": 0.1734957946948458,
      "grad_norm": 0.8537113666534424,
      "learning_rate": 9.95636683946178e-06,
      "loss": 0.9339,
      "step": 3218
    },
    {
      "epoch": 0.17354970886348933,
      "grad_norm": 0.8206045627593994,
      "learning_rate": 9.956338887868603e-06,
      "loss": 0.832,
      "step": 3219
    },
    {
      "epoch": 0.17360362303213284,
      "grad_norm": 0.7913991808891296,
      "learning_rate": 9.956310927364599e-06,
      "loss": 0.7647,
      "step": 3220
    },
    {
      "epoch": 0.17365753720077637,
      "grad_norm": 0.9481332302093506,
      "learning_rate": 9.956282957949817e-06,
      "loss": 0.7113,
      "step": 3221
    },
    {
      "epoch": 0.17371145136941987,
      "grad_norm": 0.9326061606407166,
      "learning_rate": 9.956254979624304e-06,
      "loss": 0.8324,
      "step": 3222
    },
    {
      "epoch": 0.1737653655380634,
      "grad_norm": 1.0496339797973633,
      "learning_rate": 9.956226992388117e-06,
      "loss": 0.7959,
      "step": 3223
    },
    {
      "epoch": 0.17381927970670694,
      "grad_norm": 0.8025851249694824,
      "learning_rate": 9.9561989962413e-06,
      "loss": 0.811,
      "step": 3224
    },
    {
      "epoch": 0.17387319387535044,
      "grad_norm": 0.9083681106567383,
      "learning_rate": 9.956170991183905e-06,
      "loss": 0.7957,
      "step": 3225
    },
    {
      "epoch": 0.17392710804399397,
      "grad_norm": 0.8242226243019104,
      "learning_rate": 9.956142977215983e-06,
      "loss": 0.8224,
      "step": 3226
    },
    {
      "epoch": 0.17398102221263748,
      "grad_norm": 0.8805774450302124,
      "learning_rate": 9.956114954337586e-06,
      "loss": 0.8847,
      "step": 3227
    },
    {
      "epoch": 0.174034936381281,
      "grad_norm": 0.748651921749115,
      "learning_rate": 9.956086922548761e-06,
      "loss": 0.7719,
      "step": 3228
    },
    {
      "epoch": 0.1740888505499245,
      "grad_norm": 0.7385552525520325,
      "learning_rate": 9.956058881849562e-06,
      "loss": 0.7591,
      "step": 3229
    },
    {
      "epoch": 0.17414276471856804,
      "grad_norm": 0.7795779705047607,
      "learning_rate": 9.956030832240037e-06,
      "loss": 0.8071,
      "step": 3230
    },
    {
      "epoch": 0.17419667888721155,
      "grad_norm": 9.106490135192871,
      "learning_rate": 9.956002773720236e-06,
      "loss": 0.7915,
      "step": 3231
    },
    {
      "epoch": 0.17425059305585508,
      "grad_norm": 0.861794650554657,
      "learning_rate": 9.955974706290212e-06,
      "loss": 0.8293,
      "step": 3232
    },
    {
      "epoch": 0.1743045072244986,
      "grad_norm": 0.8002027869224548,
      "learning_rate": 9.955946629950012e-06,
      "loss": 0.8404,
      "step": 3233
    },
    {
      "epoch": 0.17435842139314212,
      "grad_norm": 0.8162701725959778,
      "learning_rate": 9.95591854469969e-06,
      "loss": 0.8362,
      "step": 3234
    },
    {
      "epoch": 0.17441233556178565,
      "grad_norm": 0.7436956763267517,
      "learning_rate": 9.955890450539295e-06,
      "loss": 0.8339,
      "step": 3235
    },
    {
      "epoch": 0.17446624973042915,
      "grad_norm": 0.8074719309806824,
      "learning_rate": 9.955862347468875e-06,
      "loss": 0.8403,
      "step": 3236
    },
    {
      "epoch": 0.17452016389907268,
      "grad_norm": 0.8527933955192566,
      "learning_rate": 9.955834235488485e-06,
      "loss": 0.8201,
      "step": 3237
    },
    {
      "epoch": 0.1745740780677162,
      "grad_norm": 0.792177140712738,
      "learning_rate": 9.955806114598173e-06,
      "loss": 0.8304,
      "step": 3238
    },
    {
      "epoch": 0.17462799223635972,
      "grad_norm": 0.8211845755577087,
      "learning_rate": 9.95577798479799e-06,
      "loss": 0.8013,
      "step": 3239
    },
    {
      "epoch": 0.17468190640500322,
      "grad_norm": 0.906973659992218,
      "learning_rate": 9.955749846087986e-06,
      "loss": 0.823,
      "step": 3240
    },
    {
      "epoch": 0.17473582057364676,
      "grad_norm": 0.904077410697937,
      "learning_rate": 9.955721698468213e-06,
      "loss": 0.7651,
      "step": 3241
    },
    {
      "epoch": 0.1747897347422903,
      "grad_norm": 0.8147358298301697,
      "learning_rate": 9.95569354193872e-06,
      "loss": 0.9268,
      "step": 3242
    },
    {
      "epoch": 0.1748436489109338,
      "grad_norm": 0.8664659857749939,
      "learning_rate": 9.95566537649956e-06,
      "loss": 0.8366,
      "step": 3243
    },
    {
      "epoch": 0.17489756307957732,
      "grad_norm": 0.6882225871086121,
      "learning_rate": 9.95563720215078e-06,
      "loss": 0.7152,
      "step": 3244
    },
    {
      "epoch": 0.17495147724822083,
      "grad_norm": 0.7605637907981873,
      "learning_rate": 9.955609018892434e-06,
      "loss": 0.7864,
      "step": 3245
    },
    {
      "epoch": 0.17500539141686436,
      "grad_norm": 0.7316586375236511,
      "learning_rate": 9.95558082672457e-06,
      "loss": 0.7175,
      "step": 3246
    },
    {
      "epoch": 0.17505930558550786,
      "grad_norm": 0.8258477449417114,
      "learning_rate": 9.955552625647241e-06,
      "loss": 0.8463,
      "step": 3247
    },
    {
      "epoch": 0.1751132197541514,
      "grad_norm": 0.7658422589302063,
      "learning_rate": 9.955524415660498e-06,
      "loss": 0.9477,
      "step": 3248
    },
    {
      "epoch": 0.1751671339227949,
      "grad_norm": 0.9374455809593201,
      "learning_rate": 9.955496196764387e-06,
      "loss": 0.8725,
      "step": 3249
    },
    {
      "epoch": 0.17522104809143843,
      "grad_norm": 0.7676389813423157,
      "learning_rate": 9.955467968958965e-06,
      "loss": 0.7868,
      "step": 3250
    },
    {
      "epoch": 0.17527496226008196,
      "grad_norm": 0.9800841808319092,
      "learning_rate": 9.955439732244279e-06,
      "loss": 0.7787,
      "step": 3251
    },
    {
      "epoch": 0.17532887642872547,
      "grad_norm": 0.7501618266105652,
      "learning_rate": 9.95541148662038e-06,
      "loss": 0.7703,
      "step": 3252
    },
    {
      "epoch": 0.175382790597369,
      "grad_norm": 0.8019260168075562,
      "learning_rate": 9.95538323208732e-06,
      "loss": 0.7635,
      "step": 3253
    },
    {
      "epoch": 0.1754367047660125,
      "grad_norm": 0.7791414260864258,
      "learning_rate": 9.95535496864515e-06,
      "loss": 0.7372,
      "step": 3254
    },
    {
      "epoch": 0.17549061893465603,
      "grad_norm": 0.7667005658149719,
      "learning_rate": 9.955326696293921e-06,
      "loss": 0.8481,
      "step": 3255
    },
    {
      "epoch": 0.17554453310329954,
      "grad_norm": 0.7585765719413757,
      "learning_rate": 9.955298415033681e-06,
      "loss": 0.7933,
      "step": 3256
    },
    {
      "epoch": 0.17559844727194307,
      "grad_norm": 0.8037384152412415,
      "learning_rate": 9.955270124864485e-06,
      "loss": 0.8716,
      "step": 3257
    },
    {
      "epoch": 0.17565236144058657,
      "grad_norm": 0.7610961198806763,
      "learning_rate": 9.955241825786379e-06,
      "loss": 0.7647,
      "step": 3258
    },
    {
      "epoch": 0.1757062756092301,
      "grad_norm": 0.7867752909660339,
      "learning_rate": 9.955213517799418e-06,
      "loss": 0.7685,
      "step": 3259
    },
    {
      "epoch": 0.17576018977787364,
      "grad_norm": 1.1530165672302246,
      "learning_rate": 9.955185200903652e-06,
      "loss": 0.9032,
      "step": 3260
    },
    {
      "epoch": 0.17581410394651714,
      "grad_norm": 0.7161276936531067,
      "learning_rate": 9.955156875099129e-06,
      "loss": 0.7367,
      "step": 3261
    },
    {
      "epoch": 0.17586801811516067,
      "grad_norm": 0.7634873390197754,
      "learning_rate": 9.955128540385903e-06,
      "loss": 0.6914,
      "step": 3262
    },
    {
      "epoch": 0.17592193228380418,
      "grad_norm": 0.8375166654586792,
      "learning_rate": 9.955100196764025e-06,
      "loss": 0.965,
      "step": 3263
    },
    {
      "epoch": 0.1759758464524477,
      "grad_norm": 0.784824788570404,
      "learning_rate": 9.955071844233545e-06,
      "loss": 0.7825,
      "step": 3264
    },
    {
      "epoch": 0.1760297606210912,
      "grad_norm": 0.7765333652496338,
      "learning_rate": 9.955043482794514e-06,
      "loss": 0.9057,
      "step": 3265
    },
    {
      "epoch": 0.17608367478973475,
      "grad_norm": 0.9159989356994629,
      "learning_rate": 9.955015112446985e-06,
      "loss": 0.8055,
      "step": 3266
    },
    {
      "epoch": 0.17613758895837825,
      "grad_norm": 0.8813021183013916,
      "learning_rate": 9.954986733191003e-06,
      "loss": 0.8811,
      "step": 3267
    },
    {
      "epoch": 0.17619150312702178,
      "grad_norm": 0.7664482593536377,
      "learning_rate": 9.954958345026627e-06,
      "loss": 0.7138,
      "step": 3268
    },
    {
      "epoch": 0.1762454172956653,
      "grad_norm": 0.8903096914291382,
      "learning_rate": 9.954929947953902e-06,
      "loss": 0.8884,
      "step": 3269
    },
    {
      "epoch": 0.17629933146430882,
      "grad_norm": 0.750549852848053,
      "learning_rate": 9.95490154197288e-06,
      "loss": 0.7948,
      "step": 3270
    },
    {
      "epoch": 0.17635324563295235,
      "grad_norm": 0.8723561763763428,
      "learning_rate": 9.954873127083615e-06,
      "loss": 0.8896,
      "step": 3271
    },
    {
      "epoch": 0.17640715980159585,
      "grad_norm": 0.8852900862693787,
      "learning_rate": 9.954844703286157e-06,
      "loss": 0.8504,
      "step": 3272
    },
    {
      "epoch": 0.17646107397023938,
      "grad_norm": 0.8535251021385193,
      "learning_rate": 9.954816270580555e-06,
      "loss": 0.7198,
      "step": 3273
    },
    {
      "epoch": 0.1765149881388829,
      "grad_norm": 0.8378668427467346,
      "learning_rate": 9.954787828966864e-06,
      "loss": 0.8361,
      "step": 3274
    },
    {
      "epoch": 0.17656890230752642,
      "grad_norm": 0.7617664337158203,
      "learning_rate": 9.954759378445132e-06,
      "loss": 0.8147,
      "step": 3275
    },
    {
      "epoch": 0.17662281647616992,
      "grad_norm": 0.8433284163475037,
      "learning_rate": 9.95473091901541e-06,
      "loss": 0.9083,
      "step": 3276
    },
    {
      "epoch": 0.17667673064481346,
      "grad_norm": 0.82453453540802,
      "learning_rate": 9.954702450677749e-06,
      "loss": 0.8646,
      "step": 3277
    },
    {
      "epoch": 0.176730644813457,
      "grad_norm": 0.8066715598106384,
      "learning_rate": 9.954673973432202e-06,
      "loss": 0.7837,
      "step": 3278
    },
    {
      "epoch": 0.1767845589821005,
      "grad_norm": 0.7899057865142822,
      "learning_rate": 9.95464548727882e-06,
      "loss": 0.8418,
      "step": 3279
    },
    {
      "epoch": 0.17683847315074402,
      "grad_norm": 0.7744193077087402,
      "learning_rate": 9.954616992217654e-06,
      "loss": 0.7316,
      "step": 3280
    },
    {
      "epoch": 0.17689238731938753,
      "grad_norm": 0.9195299744606018,
      "learning_rate": 9.954588488248756e-06,
      "loss": 0.9387,
      "step": 3281
    },
    {
      "epoch": 0.17694630148803106,
      "grad_norm": 0.9263700246810913,
      "learning_rate": 9.954559975372173e-06,
      "loss": 0.7165,
      "step": 3282
    },
    {
      "epoch": 0.17700021565667456,
      "grad_norm": 0.7949888706207275,
      "learning_rate": 9.954531453587962e-06,
      "loss": 0.7981,
      "step": 3283
    },
    {
      "epoch": 0.1770541298253181,
      "grad_norm": 0.9938671588897705,
      "learning_rate": 9.95450292289617e-06,
      "loss": 0.754,
      "step": 3284
    },
    {
      "epoch": 0.1771080439939616,
      "grad_norm": 0.7466611862182617,
      "learning_rate": 9.95447438329685e-06,
      "loss": 0.8182,
      "step": 3285
    },
    {
      "epoch": 0.17716195816260513,
      "grad_norm": 0.7918881177902222,
      "learning_rate": 9.954445834790054e-06,
      "loss": 0.6938,
      "step": 3286
    },
    {
      "epoch": 0.17721587233124866,
      "grad_norm": 0.7867146730422974,
      "learning_rate": 9.954417277375832e-06,
      "loss": 0.7999,
      "step": 3287
    },
    {
      "epoch": 0.17726978649989217,
      "grad_norm": 0.7873522043228149,
      "learning_rate": 9.954388711054237e-06,
      "loss": 0.7822,
      "step": 3288
    },
    {
      "epoch": 0.1773237006685357,
      "grad_norm": 0.7909482717514038,
      "learning_rate": 9.954360135825319e-06,
      "loss": 0.724,
      "step": 3289
    },
    {
      "epoch": 0.1773776148371792,
      "grad_norm": 0.7893263697624207,
      "learning_rate": 9.954331551689129e-06,
      "loss": 0.8892,
      "step": 3290
    },
    {
      "epoch": 0.17743152900582274,
      "grad_norm": 0.813908040523529,
      "learning_rate": 9.954302958645719e-06,
      "loss": 0.8261,
      "step": 3291
    },
    {
      "epoch": 0.17748544317446624,
      "grad_norm": 1.0279232263565063,
      "learning_rate": 9.95427435669514e-06,
      "loss": 0.8383,
      "step": 3292
    },
    {
      "epoch": 0.17753935734310977,
      "grad_norm": 0.7427249550819397,
      "learning_rate": 9.954245745837445e-06,
      "loss": 0.7883,
      "step": 3293
    },
    {
      "epoch": 0.17759327151175328,
      "grad_norm": 0.7699581980705261,
      "learning_rate": 9.954217126072686e-06,
      "loss": 0.749,
      "step": 3294
    },
    {
      "epoch": 0.1776471856803968,
      "grad_norm": 0.8005263209342957,
      "learning_rate": 9.954188497400909e-06,
      "loss": 0.7886,
      "step": 3295
    },
    {
      "epoch": 0.17770109984904034,
      "grad_norm": 0.8718039393424988,
      "learning_rate": 9.95415985982217e-06,
      "loss": 0.8397,
      "step": 3296
    },
    {
      "epoch": 0.17775501401768384,
      "grad_norm": 0.7747098207473755,
      "learning_rate": 9.954131213336522e-06,
      "loss": 0.7193,
      "step": 3297
    },
    {
      "epoch": 0.17780892818632738,
      "grad_norm": 0.8327599167823792,
      "learning_rate": 9.954102557944013e-06,
      "loss": 0.8484,
      "step": 3298
    },
    {
      "epoch": 0.17786284235497088,
      "grad_norm": 0.7737470269203186,
      "learning_rate": 9.954073893644696e-06,
      "loss": 0.7638,
      "step": 3299
    },
    {
      "epoch": 0.1779167565236144,
      "grad_norm": 0.8054937124252319,
      "learning_rate": 9.954045220438622e-06,
      "loss": 0.7772,
      "step": 3300
    },
    {
      "epoch": 0.17797067069225792,
      "grad_norm": 0.7954006195068359,
      "learning_rate": 9.954016538325844e-06,
      "loss": 0.7746,
      "step": 3301
    },
    {
      "epoch": 0.17802458486090145,
      "grad_norm": 0.8075349926948547,
      "learning_rate": 9.95398784730641e-06,
      "loss": 0.794,
      "step": 3302
    },
    {
      "epoch": 0.17807849902954495,
      "grad_norm": 0.8701021075248718,
      "learning_rate": 9.953959147380376e-06,
      "loss": 0.8493,
      "step": 3303
    },
    {
      "epoch": 0.17813241319818848,
      "grad_norm": 0.9046748876571655,
      "learning_rate": 9.953930438547792e-06,
      "loss": 0.8491,
      "step": 3304
    },
    {
      "epoch": 0.17818632736683201,
      "grad_norm": 0.8041692972183228,
      "learning_rate": 9.953901720808708e-06,
      "loss": 0.7422,
      "step": 3305
    },
    {
      "epoch": 0.17824024153547552,
      "grad_norm": 0.8486021757125854,
      "learning_rate": 9.953872994163176e-06,
      "loss": 0.7876,
      "step": 3306
    },
    {
      "epoch": 0.17829415570411905,
      "grad_norm": 0.7282015085220337,
      "learning_rate": 9.95384425861125e-06,
      "loss": 0.7729,
      "step": 3307
    },
    {
      "epoch": 0.17834806987276255,
      "grad_norm": 0.8199304342269897,
      "learning_rate": 9.953815514152979e-06,
      "loss": 0.8046,
      "step": 3308
    },
    {
      "epoch": 0.1784019840414061,
      "grad_norm": 0.9033650755882263,
      "learning_rate": 9.953786760788416e-06,
      "loss": 0.735,
      "step": 3309
    },
    {
      "epoch": 0.1784558982100496,
      "grad_norm": 1.1363990306854248,
      "learning_rate": 9.953757998517614e-06,
      "loss": 0.8351,
      "step": 3310
    },
    {
      "epoch": 0.17850981237869312,
      "grad_norm": 0.747763454914093,
      "learning_rate": 9.953729227340621e-06,
      "loss": 0.7603,
      "step": 3311
    },
    {
      "epoch": 0.17856372654733663,
      "grad_norm": 0.8733643293380737,
      "learning_rate": 9.953700447257493e-06,
      "loss": 0.8538,
      "step": 3312
    },
    {
      "epoch": 0.17861764071598016,
      "grad_norm": 0.8054553270339966,
      "learning_rate": 9.953671658268279e-06,
      "loss": 0.6782,
      "step": 3313
    },
    {
      "epoch": 0.1786715548846237,
      "grad_norm": 0.8797160387039185,
      "learning_rate": 9.953642860373032e-06,
      "loss": 0.613,
      "step": 3314
    },
    {
      "epoch": 0.1787254690532672,
      "grad_norm": 0.7065737843513489,
      "learning_rate": 9.953614053571802e-06,
      "loss": 0.7912,
      "step": 3315
    },
    {
      "epoch": 0.17877938322191073,
      "grad_norm": 0.8206682205200195,
      "learning_rate": 9.953585237864642e-06,
      "loss": 0.8505,
      "step": 3316
    },
    {
      "epoch": 0.17883329739055423,
      "grad_norm": 0.7129380702972412,
      "learning_rate": 9.953556413251605e-06,
      "loss": 0.7242,
      "step": 3317
    },
    {
      "epoch": 0.17888721155919776,
      "grad_norm": 0.8084376454353333,
      "learning_rate": 9.953527579732742e-06,
      "loss": 0.7626,
      "step": 3318
    },
    {
      "epoch": 0.17894112572784127,
      "grad_norm": 0.8610605001449585,
      "learning_rate": 9.953498737308103e-06,
      "loss": 0.8255,
      "step": 3319
    },
    {
      "epoch": 0.1789950398964848,
      "grad_norm": 0.7437496185302734,
      "learning_rate": 9.953469885977742e-06,
      "loss": 0.677,
      "step": 3320
    },
    {
      "epoch": 0.17904895406512833,
      "grad_norm": 0.7540122270584106,
      "learning_rate": 9.95344102574171e-06,
      "loss": 0.7094,
      "step": 3321
    },
    {
      "epoch": 0.17910286823377183,
      "grad_norm": 0.8017913699150085,
      "learning_rate": 9.95341215660006e-06,
      "loss": 0.8882,
      "step": 3322
    },
    {
      "epoch": 0.17915678240241537,
      "grad_norm": 1.0244393348693848,
      "learning_rate": 9.953383278552841e-06,
      "loss": 0.7879,
      "step": 3323
    },
    {
      "epoch": 0.17921069657105887,
      "grad_norm": 0.7007571458816528,
      "learning_rate": 9.953354391600109e-06,
      "loss": 0.757,
      "step": 3324
    },
    {
      "epoch": 0.1792646107397024,
      "grad_norm": 0.8408647775650024,
      "learning_rate": 9.953325495741913e-06,
      "loss": 0.7772,
      "step": 3325
    },
    {
      "epoch": 0.1793185249083459,
      "grad_norm": 0.718988299369812,
      "learning_rate": 9.953296590978305e-06,
      "loss": 0.7885,
      "step": 3326
    },
    {
      "epoch": 0.17937243907698944,
      "grad_norm": 0.7917525768280029,
      "learning_rate": 9.95326767730934e-06,
      "loss": 0.8321,
      "step": 3327
    },
    {
      "epoch": 0.17942635324563294,
      "grad_norm": 0.9516105055809021,
      "learning_rate": 9.953238754735066e-06,
      "loss": 0.8124,
      "step": 3328
    },
    {
      "epoch": 0.17948026741427647,
      "grad_norm": 0.8829317688941956,
      "learning_rate": 9.953209823255536e-06,
      "loss": 0.7426,
      "step": 3329
    },
    {
      "epoch": 0.17953418158292,
      "grad_norm": 0.83402019739151,
      "learning_rate": 9.953180882870805e-06,
      "loss": 0.7358,
      "step": 3330
    },
    {
      "epoch": 0.1795880957515635,
      "grad_norm": 0.819425106048584,
      "learning_rate": 9.953151933580923e-06,
      "loss": 0.8002,
      "step": 3331
    },
    {
      "epoch": 0.17964200992020704,
      "grad_norm": 0.8458916544914246,
      "learning_rate": 9.95312297538594e-06,
      "loss": 0.8305,
      "step": 3332
    },
    {
      "epoch": 0.17969592408885054,
      "grad_norm": 0.8235782980918884,
      "learning_rate": 9.95309400828591e-06,
      "loss": 0.8228,
      "step": 3333
    },
    {
      "epoch": 0.17974983825749408,
      "grad_norm": 0.7924965023994446,
      "learning_rate": 9.953065032280885e-06,
      "loss": 0.7369,
      "step": 3334
    },
    {
      "epoch": 0.17980375242613758,
      "grad_norm": 0.7931050658226013,
      "learning_rate": 9.953036047370919e-06,
      "loss": 0.8337,
      "step": 3335
    },
    {
      "epoch": 0.1798576665947811,
      "grad_norm": 0.7998207211494446,
      "learning_rate": 9.95300705355606e-06,
      "loss": 0.7341,
      "step": 3336
    },
    {
      "epoch": 0.17991158076342462,
      "grad_norm": 0.713846743106842,
      "learning_rate": 9.952978050836364e-06,
      "loss": 0.6958,
      "step": 3337
    },
    {
      "epoch": 0.17996549493206815,
      "grad_norm": 0.807744026184082,
      "learning_rate": 9.95294903921188e-06,
      "loss": 0.7723,
      "step": 3338
    },
    {
      "epoch": 0.18001940910071168,
      "grad_norm": 0.865696370601654,
      "learning_rate": 9.95292001868266e-06,
      "loss": 0.8957,
      "step": 3339
    },
    {
      "epoch": 0.18007332326935518,
      "grad_norm": 0.7955803871154785,
      "learning_rate": 9.952890989248763e-06,
      "loss": 0.7632,
      "step": 3340
    },
    {
      "epoch": 0.18012723743799872,
      "grad_norm": 0.8028436303138733,
      "learning_rate": 9.952861950910233e-06,
      "loss": 0.8642,
      "step": 3341
    },
    {
      "epoch": 0.18018115160664222,
      "grad_norm": 0.8755636215209961,
      "learning_rate": 9.952832903667125e-06,
      "loss": 0.8521,
      "step": 3342
    },
    {
      "epoch": 0.18023506577528575,
      "grad_norm": 0.8018125891685486,
      "learning_rate": 9.952803847519492e-06,
      "loss": 0.8719,
      "step": 3343
    },
    {
      "epoch": 0.18028897994392926,
      "grad_norm": 0.6923267245292664,
      "learning_rate": 9.952774782467384e-06,
      "loss": 0.718,
      "step": 3344
    },
    {
      "epoch": 0.1803428941125728,
      "grad_norm": 0.7926875948905945,
      "learning_rate": 9.952745708510856e-06,
      "loss": 0.8657,
      "step": 3345
    },
    {
      "epoch": 0.1803968082812163,
      "grad_norm": 0.8815774917602539,
      "learning_rate": 9.95271662564996e-06,
      "loss": 0.8196,
      "step": 3346
    },
    {
      "epoch": 0.18045072244985982,
      "grad_norm": 0.8497309684753418,
      "learning_rate": 9.952687533884748e-06,
      "loss": 0.7563,
      "step": 3347
    },
    {
      "epoch": 0.18050463661850336,
      "grad_norm": 0.7040117979049683,
      "learning_rate": 9.952658433215269e-06,
      "loss": 0.687,
      "step": 3348
    },
    {
      "epoch": 0.18055855078714686,
      "grad_norm": 0.8446635007858276,
      "learning_rate": 9.95262932364158e-06,
      "loss": 0.895,
      "step": 3349
    },
    {
      "epoch": 0.1806124649557904,
      "grad_norm": 0.821702778339386,
      "learning_rate": 9.952600205163733e-06,
      "loss": 0.8387,
      "step": 3350
    },
    {
      "epoch": 0.1806663791244339,
      "grad_norm": 0.9755251407623291,
      "learning_rate": 9.952571077781776e-06,
      "loss": 0.9119,
      "step": 3351
    },
    {
      "epoch": 0.18072029329307743,
      "grad_norm": 0.8260585069656372,
      "learning_rate": 9.952541941495766e-06,
      "loss": 0.7827,
      "step": 3352
    },
    {
      "epoch": 0.18077420746172093,
      "grad_norm": 0.7443965673446655,
      "learning_rate": 9.952512796305753e-06,
      "loss": 0.7331,
      "step": 3353
    },
    {
      "epoch": 0.18082812163036446,
      "grad_norm": 0.8674094676971436,
      "learning_rate": 9.95248364221179e-06,
      "loss": 0.8789,
      "step": 3354
    },
    {
      "epoch": 0.18088203579900797,
      "grad_norm": 0.7950018644332886,
      "learning_rate": 9.952454479213929e-06,
      "loss": 0.7802,
      "step": 3355
    },
    {
      "epoch": 0.1809359499676515,
      "grad_norm": 0.8740068078041077,
      "learning_rate": 9.952425307312223e-06,
      "loss": 0.9354,
      "step": 3356
    },
    {
      "epoch": 0.18098986413629503,
      "grad_norm": 0.8254936933517456,
      "learning_rate": 9.952396126506724e-06,
      "loss": 0.8903,
      "step": 3357
    },
    {
      "epoch": 0.18104377830493854,
      "grad_norm": 0.7814514636993408,
      "learning_rate": 9.952366936797484e-06,
      "loss": 0.7214,
      "step": 3358
    },
    {
      "epoch": 0.18109769247358207,
      "grad_norm": 0.7647988796234131,
      "learning_rate": 9.952337738184557e-06,
      "loss": 0.7591,
      "step": 3359
    },
    {
      "epoch": 0.18115160664222557,
      "grad_norm": 0.8247759938240051,
      "learning_rate": 9.952308530667996e-06,
      "loss": 0.7825,
      "step": 3360
    },
    {
      "epoch": 0.1812055208108691,
      "grad_norm": 0.724585771560669,
      "learning_rate": 9.95227931424785e-06,
      "loss": 0.7828,
      "step": 3361
    },
    {
      "epoch": 0.1812594349795126,
      "grad_norm": 0.8304919004440308,
      "learning_rate": 9.952250088924175e-06,
      "loss": 0.8071,
      "step": 3362
    },
    {
      "epoch": 0.18131334914815614,
      "grad_norm": 0.8318499326705933,
      "learning_rate": 9.95222085469702e-06,
      "loss": 0.7571,
      "step": 3363
    },
    {
      "epoch": 0.18136726331679964,
      "grad_norm": 0.7315414547920227,
      "learning_rate": 9.952191611566443e-06,
      "loss": 0.7644,
      "step": 3364
    },
    {
      "epoch": 0.18142117748544317,
      "grad_norm": 0.853285551071167,
      "learning_rate": 9.952162359532493e-06,
      "loss": 0.8946,
      "step": 3365
    },
    {
      "epoch": 0.1814750916540867,
      "grad_norm": 0.8418978452682495,
      "learning_rate": 9.95213309859522e-06,
      "loss": 0.7892,
      "step": 3366
    },
    {
      "epoch": 0.1815290058227302,
      "grad_norm": 0.7926337122917175,
      "learning_rate": 9.952103828754682e-06,
      "loss": 0.7182,
      "step": 3367
    },
    {
      "epoch": 0.18158291999137374,
      "grad_norm": 0.9103478193283081,
      "learning_rate": 9.95207455001093e-06,
      "loss": 0.8474,
      "step": 3368
    },
    {
      "epoch": 0.18163683416001725,
      "grad_norm": 0.8050599098205566,
      "learning_rate": 9.952045262364014e-06,
      "loss": 0.7581,
      "step": 3369
    },
    {
      "epoch": 0.18169074832866078,
      "grad_norm": 0.7441660165786743,
      "learning_rate": 9.952015965813988e-06,
      "loss": 0.7713,
      "step": 3370
    },
    {
      "epoch": 0.18174466249730428,
      "grad_norm": 0.7210862636566162,
      "learning_rate": 9.951986660360906e-06,
      "loss": 0.7732,
      "step": 3371
    },
    {
      "epoch": 0.18179857666594781,
      "grad_norm": 0.8199747204780579,
      "learning_rate": 9.951957346004822e-06,
      "loss": 0.8697,
      "step": 3372
    },
    {
      "epoch": 0.18185249083459132,
      "grad_norm": 0.7781465649604797,
      "learning_rate": 9.951928022745784e-06,
      "loss": 0.8011,
      "step": 3373
    },
    {
      "epoch": 0.18190640500323485,
      "grad_norm": 0.8713019490242004,
      "learning_rate": 9.951898690583848e-06,
      "loss": 0.8328,
      "step": 3374
    },
    {
      "epoch": 0.18196031917187838,
      "grad_norm": 0.7194361686706543,
      "learning_rate": 9.951869349519066e-06,
      "loss": 0.7291,
      "step": 3375
    },
    {
      "epoch": 0.18201423334052189,
      "grad_norm": 0.7940298914909363,
      "learning_rate": 9.95183999955149e-06,
      "loss": 0.8128,
      "step": 3376
    },
    {
      "epoch": 0.18206814750916542,
      "grad_norm": 0.8048009872436523,
      "learning_rate": 9.951810640681175e-06,
      "loss": 0.7627,
      "step": 3377
    },
    {
      "epoch": 0.18212206167780892,
      "grad_norm": 0.8479227423667908,
      "learning_rate": 9.951781272908173e-06,
      "loss": 0.7587,
      "step": 3378
    },
    {
      "epoch": 0.18217597584645245,
      "grad_norm": 0.8620457053184509,
      "learning_rate": 9.951751896232534e-06,
      "loss": 0.7409,
      "step": 3379
    },
    {
      "epoch": 0.18222989001509596,
      "grad_norm": 0.8283497095108032,
      "learning_rate": 9.951722510654314e-06,
      "loss": 0.7953,
      "step": 3380
    },
    {
      "epoch": 0.1822838041837395,
      "grad_norm": 0.9071113467216492,
      "learning_rate": 9.951693116173565e-06,
      "loss": 0.8476,
      "step": 3381
    },
    {
      "epoch": 0.182337718352383,
      "grad_norm": 0.8383519053459167,
      "learning_rate": 9.951663712790338e-06,
      "loss": 0.8388,
      "step": 3382
    },
    {
      "epoch": 0.18239163252102653,
      "grad_norm": 0.8026612997055054,
      "learning_rate": 9.951634300504689e-06,
      "loss": 0.8848,
      "step": 3383
    },
    {
      "epoch": 0.18244554668967006,
      "grad_norm": 0.8395872116088867,
      "learning_rate": 9.951604879316667e-06,
      "loss": 0.7759,
      "step": 3384
    },
    {
      "epoch": 0.18249946085831356,
      "grad_norm": 1.1459238529205322,
      "learning_rate": 9.95157544922633e-06,
      "loss": 0.8005,
      "step": 3385
    },
    {
      "epoch": 0.1825533750269571,
      "grad_norm": 0.8083657026290894,
      "learning_rate": 9.951546010233729e-06,
      "loss": 0.8298,
      "step": 3386
    },
    {
      "epoch": 0.1826072891956006,
      "grad_norm": 0.8329801559448242,
      "learning_rate": 9.951516562338912e-06,
      "loss": 0.7743,
      "step": 3387
    },
    {
      "epoch": 0.18266120336424413,
      "grad_norm": 0.7916942834854126,
      "learning_rate": 9.951487105541939e-06,
      "loss": 0.7934,
      "step": 3388
    },
    {
      "epoch": 0.18271511753288763,
      "grad_norm": 0.8752714395523071,
      "learning_rate": 9.951457639842861e-06,
      "loss": 0.8031,
      "step": 3389
    },
    {
      "epoch": 0.18276903170153116,
      "grad_norm": 0.7645601630210876,
      "learning_rate": 9.951428165241728e-06,
      "loss": 0.6987,
      "step": 3390
    },
    {
      "epoch": 0.18282294587017467,
      "grad_norm": 0.9860275983810425,
      "learning_rate": 9.951398681738595e-06,
      "loss": 0.8027,
      "step": 3391
    },
    {
      "epoch": 0.1828768600388182,
      "grad_norm": 0.8548283576965332,
      "learning_rate": 9.951369189333515e-06,
      "loss": 0.8595,
      "step": 3392
    },
    {
      "epoch": 0.18293077420746173,
      "grad_norm": 0.843217670917511,
      "learning_rate": 9.95133968802654e-06,
      "loss": 0.8437,
      "step": 3393
    },
    {
      "epoch": 0.18298468837610524,
      "grad_norm": 0.7996432781219482,
      "learning_rate": 9.951310177817726e-06,
      "loss": 0.7229,
      "step": 3394
    },
    {
      "epoch": 0.18303860254474877,
      "grad_norm": 0.8908971548080444,
      "learning_rate": 9.951280658707124e-06,
      "loss": 0.8639,
      "step": 3395
    },
    {
      "epoch": 0.18309251671339227,
      "grad_norm": 0.9041224718093872,
      "learning_rate": 9.951251130694787e-06,
      "loss": 0.8026,
      "step": 3396
    },
    {
      "epoch": 0.1831464308820358,
      "grad_norm": 0.7458503842353821,
      "learning_rate": 9.951221593780768e-06,
      "loss": 0.8228,
      "step": 3397
    },
    {
      "epoch": 0.1832003450506793,
      "grad_norm": 0.8241537809371948,
      "learning_rate": 9.95119204796512e-06,
      "loss": 0.7937,
      "step": 3398
    },
    {
      "epoch": 0.18325425921932284,
      "grad_norm": 0.8728781342506409,
      "learning_rate": 9.951162493247897e-06,
      "loss": 0.8829,
      "step": 3399
    },
    {
      "epoch": 0.18330817338796634,
      "grad_norm": 0.843101978302002,
      "learning_rate": 9.95113292962915e-06,
      "loss": 0.9562,
      "step": 3400
    },
    {
      "epoch": 0.18336208755660988,
      "grad_norm": 1.031156301498413,
      "learning_rate": 9.951103357108935e-06,
      "loss": 0.6757,
      "step": 3401
    },
    {
      "epoch": 0.1834160017252534,
      "grad_norm": 0.9858013391494751,
      "learning_rate": 9.951073775687304e-06,
      "loss": 0.7922,
      "step": 3402
    },
    {
      "epoch": 0.1834699158938969,
      "grad_norm": 0.9532352685928345,
      "learning_rate": 9.95104418536431e-06,
      "loss": 0.8979,
      "step": 3403
    },
    {
      "epoch": 0.18352383006254044,
      "grad_norm": 0.9552246332168579,
      "learning_rate": 9.951014586140006e-06,
      "loss": 0.8682,
      "step": 3404
    },
    {
      "epoch": 0.18357774423118395,
      "grad_norm": 0.8952224850654602,
      "learning_rate": 9.950984978014446e-06,
      "loss": 0.9064,
      "step": 3405
    },
    {
      "epoch": 0.18363165839982748,
      "grad_norm": 0.8228804469108582,
      "learning_rate": 9.950955360987684e-06,
      "loss": 0.8337,
      "step": 3406
    },
    {
      "epoch": 0.18368557256847098,
      "grad_norm": 0.8621776103973389,
      "learning_rate": 9.95092573505977e-06,
      "loss": 0.8418,
      "step": 3407
    },
    {
      "epoch": 0.18373948673711452,
      "grad_norm": 0.8312029242515564,
      "learning_rate": 9.95089610023076e-06,
      "loss": 0.8453,
      "step": 3408
    },
    {
      "epoch": 0.18379340090575802,
      "grad_norm": 0.8212811350822449,
      "learning_rate": 9.950866456500706e-06,
      "loss": 0.7226,
      "step": 3409
    },
    {
      "epoch": 0.18384731507440155,
      "grad_norm": 0.7918773293495178,
      "learning_rate": 9.950836803869663e-06,
      "loss": 0.7546,
      "step": 3410
    },
    {
      "epoch": 0.18390122924304508,
      "grad_norm": 0.8544521331787109,
      "learning_rate": 9.950807142337682e-06,
      "loss": 0.8975,
      "step": 3411
    },
    {
      "epoch": 0.1839551434116886,
      "grad_norm": 0.7909727692604065,
      "learning_rate": 9.950777471904818e-06,
      "loss": 0.8266,
      "step": 3412
    },
    {
      "epoch": 0.18400905758033212,
      "grad_norm": 0.7834721207618713,
      "learning_rate": 9.950747792571122e-06,
      "loss": 0.7647,
      "step": 3413
    },
    {
      "epoch": 0.18406297174897562,
      "grad_norm": 1.0084491968154907,
      "learning_rate": 9.950718104336651e-06,
      "loss": 0.8954,
      "step": 3414
    },
    {
      "epoch": 0.18411688591761916,
      "grad_norm": 0.9300922155380249,
      "learning_rate": 9.950688407201457e-06,
      "loss": 0.8106,
      "step": 3415
    },
    {
      "epoch": 0.18417080008626266,
      "grad_norm": 0.7957245111465454,
      "learning_rate": 9.950658701165593e-06,
      "loss": 0.7556,
      "step": 3416
    },
    {
      "epoch": 0.1842247142549062,
      "grad_norm": 0.7386512160301208,
      "learning_rate": 9.950628986229111e-06,
      "loss": 0.7384,
      "step": 3417
    },
    {
      "epoch": 0.1842786284235497,
      "grad_norm": 0.8791146874427795,
      "learning_rate": 9.950599262392067e-06,
      "loss": 0.7681,
      "step": 3418
    },
    {
      "epoch": 0.18433254259219323,
      "grad_norm": 0.78180330991745,
      "learning_rate": 9.950569529654512e-06,
      "loss": 0.7641,
      "step": 3419
    },
    {
      "epoch": 0.18438645676083676,
      "grad_norm": 0.7648051977157593,
      "learning_rate": 9.950539788016502e-06,
      "loss": 0.7782,
      "step": 3420
    },
    {
      "epoch": 0.18444037092948026,
      "grad_norm": 0.8135426640510559,
      "learning_rate": 9.950510037478089e-06,
      "loss": 0.8313,
      "step": 3421
    },
    {
      "epoch": 0.1844942850981238,
      "grad_norm": 0.8623054623603821,
      "learning_rate": 9.950480278039325e-06,
      "loss": 0.8142,
      "step": 3422
    },
    {
      "epoch": 0.1845481992667673,
      "grad_norm": 0.774558424949646,
      "learning_rate": 9.950450509700267e-06,
      "loss": 0.7747,
      "step": 3423
    },
    {
      "epoch": 0.18460211343541083,
      "grad_norm": 0.7947419285774231,
      "learning_rate": 9.950420732460965e-06,
      "loss": 0.8757,
      "step": 3424
    },
    {
      "epoch": 0.18465602760405433,
      "grad_norm": 0.8677110075950623,
      "learning_rate": 9.950390946321475e-06,
      "loss": 0.8527,
      "step": 3425
    },
    {
      "epoch": 0.18470994177269787,
      "grad_norm": 0.8350674510002136,
      "learning_rate": 9.950361151281852e-06,
      "loss": 0.7209,
      "step": 3426
    },
    {
      "epoch": 0.1847638559413414,
      "grad_norm": 0.7326707243919373,
      "learning_rate": 9.950331347342143e-06,
      "loss": 0.749,
      "step": 3427
    },
    {
      "epoch": 0.1848177701099849,
      "grad_norm": 0.8775684237480164,
      "learning_rate": 9.95030153450241e-06,
      "loss": 0.762,
      "step": 3428
    },
    {
      "epoch": 0.18487168427862843,
      "grad_norm": 0.8116014003753662,
      "learning_rate": 9.9502717127627e-06,
      "loss": 0.7592,
      "step": 3429
    },
    {
      "epoch": 0.18492559844727194,
      "grad_norm": 0.7852542996406555,
      "learning_rate": 9.950241882123068e-06,
      "loss": 0.8254,
      "step": 3430
    },
    {
      "epoch": 0.18497951261591547,
      "grad_norm": 0.761076807975769,
      "learning_rate": 9.950212042583571e-06,
      "loss": 0.7444,
      "step": 3431
    },
    {
      "epoch": 0.18503342678455897,
      "grad_norm": 0.914729118347168,
      "learning_rate": 9.95018219414426e-06,
      "loss": 0.8847,
      "step": 3432
    },
    {
      "epoch": 0.1850873409532025,
      "grad_norm": 0.7256419062614441,
      "learning_rate": 9.950152336805188e-06,
      "loss": 0.7069,
      "step": 3433
    },
    {
      "epoch": 0.185141255121846,
      "grad_norm": 0.7481849193572998,
      "learning_rate": 9.950122470566411e-06,
      "loss": 0.7921,
      "step": 3434
    },
    {
      "epoch": 0.18519516929048954,
      "grad_norm": 0.7878799438476562,
      "learning_rate": 9.95009259542798e-06,
      "loss": 0.7422,
      "step": 3435
    },
    {
      "epoch": 0.18524908345913307,
      "grad_norm": 0.8083212375640869,
      "learning_rate": 9.950062711389953e-06,
      "loss": 0.8445,
      "step": 3436
    },
    {
      "epoch": 0.18530299762777658,
      "grad_norm": 0.9458408355712891,
      "learning_rate": 9.950032818452377e-06,
      "loss": 0.771,
      "step": 3437
    },
    {
      "epoch": 0.1853569117964201,
      "grad_norm": 0.7575398087501526,
      "learning_rate": 9.950002916615311e-06,
      "loss": 0.765,
      "step": 3438
    },
    {
      "epoch": 0.1854108259650636,
      "grad_norm": 0.8672422766685486,
      "learning_rate": 9.94997300587881e-06,
      "loss": 0.8499,
      "step": 3439
    },
    {
      "epoch": 0.18546474013370715,
      "grad_norm": 0.7971605658531189,
      "learning_rate": 9.949943086242923e-06,
      "loss": 0.8617,
      "step": 3440
    },
    {
      "epoch": 0.18551865430235065,
      "grad_norm": 1.0215446949005127,
      "learning_rate": 9.949913157707704e-06,
      "loss": 0.8224,
      "step": 3441
    },
    {
      "epoch": 0.18557256847099418,
      "grad_norm": 0.7983795404434204,
      "learning_rate": 9.949883220273211e-06,
      "loss": 0.7497,
      "step": 3442
    },
    {
      "epoch": 0.18562648263963769,
      "grad_norm": 0.8548665642738342,
      "learning_rate": 9.949853273939496e-06,
      "loss": 0.856,
      "step": 3443
    },
    {
      "epoch": 0.18568039680828122,
      "grad_norm": 0.7996117472648621,
      "learning_rate": 9.949823318706611e-06,
      "loss": 0.7344,
      "step": 3444
    },
    {
      "epoch": 0.18573431097692475,
      "grad_norm": 0.9108440279960632,
      "learning_rate": 9.949793354574612e-06,
      "loss": 0.8229,
      "step": 3445
    },
    {
      "epoch": 0.18578822514556825,
      "grad_norm": 0.8484078049659729,
      "learning_rate": 9.949763381543553e-06,
      "loss": 0.7366,
      "step": 3446
    },
    {
      "epoch": 0.18584213931421179,
      "grad_norm": 0.7617974877357483,
      "learning_rate": 9.949733399613486e-06,
      "loss": 0.777,
      "step": 3447
    },
    {
      "epoch": 0.1858960534828553,
      "grad_norm": 1.0613569021224976,
      "learning_rate": 9.949703408784465e-06,
      "loss": 0.9028,
      "step": 3448
    },
    {
      "epoch": 0.18594996765149882,
      "grad_norm": 0.7503539323806763,
      "learning_rate": 9.949673409056546e-06,
      "loss": 0.797,
      "step": 3449
    },
    {
      "epoch": 0.18600388182014232,
      "grad_norm": 0.8162353038787842,
      "learning_rate": 9.949643400429782e-06,
      "loss": 0.8698,
      "step": 3450
    },
    {
      "epoch": 0.18605779598878586,
      "grad_norm": 0.8876883387565613,
      "learning_rate": 9.949613382904226e-06,
      "loss": 0.8422,
      "step": 3451
    },
    {
      "epoch": 0.18611171015742936,
      "grad_norm": 0.7412144541740417,
      "learning_rate": 9.949583356479934e-06,
      "loss": 0.7977,
      "step": 3452
    },
    {
      "epoch": 0.1861656243260729,
      "grad_norm": 0.7515407204627991,
      "learning_rate": 9.949553321156957e-06,
      "loss": 0.8046,
      "step": 3453
    },
    {
      "epoch": 0.18621953849471642,
      "grad_norm": 0.8171376585960388,
      "learning_rate": 9.949523276935352e-06,
      "loss": 0.7121,
      "step": 3454
    },
    {
      "epoch": 0.18627345266335993,
      "grad_norm": 0.838368833065033,
      "learning_rate": 9.94949322381517e-06,
      "loss": 0.833,
      "step": 3455
    },
    {
      "epoch": 0.18632736683200346,
      "grad_norm": 1.0004788637161255,
      "learning_rate": 9.949463161796468e-06,
      "loss": 0.7967,
      "step": 3456
    },
    {
      "epoch": 0.18638128100064696,
      "grad_norm": 0.8949950337409973,
      "learning_rate": 9.949433090879298e-06,
      "loss": 0.815,
      "step": 3457
    },
    {
      "epoch": 0.1864351951692905,
      "grad_norm": 0.8611262440681458,
      "learning_rate": 9.949403011063716e-06,
      "loss": 0.8998,
      "step": 3458
    },
    {
      "epoch": 0.186489109337934,
      "grad_norm": 0.7873225212097168,
      "learning_rate": 9.949372922349775e-06,
      "loss": 0.8011,
      "step": 3459
    },
    {
      "epoch": 0.18654302350657753,
      "grad_norm": 0.7770752310752869,
      "learning_rate": 9.949342824737529e-06,
      "loss": 0.7687,
      "step": 3460
    },
    {
      "epoch": 0.18659693767522104,
      "grad_norm": 0.7723278403282166,
      "learning_rate": 9.949312718227031e-06,
      "loss": 0.8047,
      "step": 3461
    },
    {
      "epoch": 0.18665085184386457,
      "grad_norm": 0.8038878440856934,
      "learning_rate": 9.949282602818335e-06,
      "loss": 0.6522,
      "step": 3462
    },
    {
      "epoch": 0.1867047660125081,
      "grad_norm": 0.8243177533149719,
      "learning_rate": 9.949252478511499e-06,
      "loss": 0.7859,
      "step": 3463
    },
    {
      "epoch": 0.1867586801811516,
      "grad_norm": 0.8061205744743347,
      "learning_rate": 9.949222345306574e-06,
      "loss": 0.8,
      "step": 3464
    },
    {
      "epoch": 0.18681259434979514,
      "grad_norm": 0.8916036486625671,
      "learning_rate": 9.949192203203615e-06,
      "loss": 0.7831,
      "step": 3465
    },
    {
      "epoch": 0.18686650851843864,
      "grad_norm": 0.7694443464279175,
      "learning_rate": 9.949162052202675e-06,
      "loss": 0.753,
      "step": 3466
    },
    {
      "epoch": 0.18692042268708217,
      "grad_norm": 0.8028594255447388,
      "learning_rate": 9.94913189230381e-06,
      "loss": 0.7834,
      "step": 3467
    },
    {
      "epoch": 0.18697433685572568,
      "grad_norm": 0.8558024764060974,
      "learning_rate": 9.94910172350707e-06,
      "loss": 0.8479,
      "step": 3468
    },
    {
      "epoch": 0.1870282510243692,
      "grad_norm": 0.8418707251548767,
      "learning_rate": 9.949071545812517e-06,
      "loss": 0.7841,
      "step": 3469
    },
    {
      "epoch": 0.1870821651930127,
      "grad_norm": 0.9143140316009521,
      "learning_rate": 9.9490413592202e-06,
      "loss": 0.7803,
      "step": 3470
    },
    {
      "epoch": 0.18713607936165624,
      "grad_norm": 0.927670419216156,
      "learning_rate": 9.949011163730172e-06,
      "loss": 0.7969,
      "step": 3471
    },
    {
      "epoch": 0.18718999353029978,
      "grad_norm": 0.7614530324935913,
      "learning_rate": 9.948980959342492e-06,
      "loss": 0.7541,
      "step": 3472
    },
    {
      "epoch": 0.18724390769894328,
      "grad_norm": 0.7719544172286987,
      "learning_rate": 9.948950746057208e-06,
      "loss": 0.6996,
      "step": 3473
    },
    {
      "epoch": 0.1872978218675868,
      "grad_norm": 0.8512967824935913,
      "learning_rate": 9.94892052387438e-06,
      "loss": 0.8749,
      "step": 3474
    },
    {
      "epoch": 0.18735173603623032,
      "grad_norm": 0.7408632636070251,
      "learning_rate": 9.948890292794062e-06,
      "loss": 0.7646,
      "step": 3475
    },
    {
      "epoch": 0.18740565020487385,
      "grad_norm": 0.7667837142944336,
      "learning_rate": 9.948860052816305e-06,
      "loss": 0.7721,
      "step": 3476
    },
    {
      "epoch": 0.18745956437351735,
      "grad_norm": 0.8099546432495117,
      "learning_rate": 9.948829803941167e-06,
      "loss": 0.8604,
      "step": 3477
    },
    {
      "epoch": 0.18751347854216088,
      "grad_norm": 0.7130147814750671,
      "learning_rate": 9.948799546168699e-06,
      "loss": 0.7215,
      "step": 3478
    },
    {
      "epoch": 0.1875673927108044,
      "grad_norm": 0.7442251443862915,
      "learning_rate": 9.948769279498955e-06,
      "loss": 0.7691,
      "step": 3479
    },
    {
      "epoch": 0.18762130687944792,
      "grad_norm": 0.8528403043746948,
      "learning_rate": 9.948739003931995e-06,
      "loss": 0.8738,
      "step": 3480
    },
    {
      "epoch": 0.18767522104809145,
      "grad_norm": 0.7217040061950684,
      "learning_rate": 9.948708719467868e-06,
      "loss": 0.6989,
      "step": 3481
    },
    {
      "epoch": 0.18772913521673495,
      "grad_norm": 1.0738893747329712,
      "learning_rate": 9.94867842610663e-06,
      "loss": 0.7464,
      "step": 3482
    },
    {
      "epoch": 0.1877830493853785,
      "grad_norm": 0.7653424739837646,
      "learning_rate": 9.948648123848334e-06,
      "loss": 0.8552,
      "step": 3483
    },
    {
      "epoch": 0.187836963554022,
      "grad_norm": 0.791019856929779,
      "learning_rate": 9.948617812693037e-06,
      "loss": 0.8548,
      "step": 3484
    },
    {
      "epoch": 0.18789087772266552,
      "grad_norm": 0.8527680039405823,
      "learning_rate": 9.948587492640796e-06,
      "loss": 0.7717,
      "step": 3485
    },
    {
      "epoch": 0.18794479189130903,
      "grad_norm": 1.0001403093338013,
      "learning_rate": 9.948557163691659e-06,
      "loss": 0.8061,
      "step": 3486
    },
    {
      "epoch": 0.18799870605995256,
      "grad_norm": 0.7622776627540588,
      "learning_rate": 9.948526825845683e-06,
      "loss": 0.7082,
      "step": 3487
    },
    {
      "epoch": 0.18805262022859606,
      "grad_norm": 0.7377861142158508,
      "learning_rate": 9.948496479102925e-06,
      "loss": 0.7776,
      "step": 3488
    },
    {
      "epoch": 0.1881065343972396,
      "grad_norm": 0.9017737507820129,
      "learning_rate": 9.948466123463436e-06,
      "loss": 0.7676,
      "step": 3489
    },
    {
      "epoch": 0.18816044856588313,
      "grad_norm": 0.7733216881752014,
      "learning_rate": 9.948435758927274e-06,
      "loss": 0.7503,
      "step": 3490
    },
    {
      "epoch": 0.18821436273452663,
      "grad_norm": 0.9103933572769165,
      "learning_rate": 9.948405385494491e-06,
      "loss": 0.8696,
      "step": 3491
    },
    {
      "epoch": 0.18826827690317016,
      "grad_norm": 0.7228747010231018,
      "learning_rate": 9.948375003165143e-06,
      "loss": 0.8396,
      "step": 3492
    },
    {
      "epoch": 0.18832219107181367,
      "grad_norm": 0.9336891174316406,
      "learning_rate": 9.948344611939283e-06,
      "loss": 0.7994,
      "step": 3493
    },
    {
      "epoch": 0.1883761052404572,
      "grad_norm": 0.8534504175186157,
      "learning_rate": 9.948314211816968e-06,
      "loss": 0.7627,
      "step": 3494
    },
    {
      "epoch": 0.1884300194091007,
      "grad_norm": 0.867060661315918,
      "learning_rate": 9.94828380279825e-06,
      "loss": 0.8503,
      "step": 3495
    },
    {
      "epoch": 0.18848393357774423,
      "grad_norm": 0.7721019983291626,
      "learning_rate": 9.948253384883188e-06,
      "loss": 0.7409,
      "step": 3496
    },
    {
      "epoch": 0.18853784774638774,
      "grad_norm": 0.7308738827705383,
      "learning_rate": 9.948222958071832e-06,
      "loss": 0.7579,
      "step": 3497
    },
    {
      "epoch": 0.18859176191503127,
      "grad_norm": 1.1277705430984497,
      "learning_rate": 9.948192522364237e-06,
      "loss": 0.8288,
      "step": 3498
    },
    {
      "epoch": 0.1886456760836748,
      "grad_norm": 0.8183790445327759,
      "learning_rate": 9.948162077760462e-06,
      "loss": 0.7819,
      "step": 3499
    },
    {
      "epoch": 0.1886995902523183,
      "grad_norm": 0.7458687424659729,
      "learning_rate": 9.948131624260557e-06,
      "loss": 0.7482,
      "step": 3500
    },
    {
      "epoch": 0.18875350442096184,
      "grad_norm": 0.9347942471504211,
      "learning_rate": 9.94810116186458e-06,
      "loss": 0.8208,
      "step": 3501
    },
    {
      "epoch": 0.18880741858960534,
      "grad_norm": 0.7442129254341125,
      "learning_rate": 9.948070690572582e-06,
      "loss": 0.7843,
      "step": 3502
    },
    {
      "epoch": 0.18886133275824887,
      "grad_norm": 0.8121855854988098,
      "learning_rate": 9.948040210384622e-06,
      "loss": 0.738,
      "step": 3503
    },
    {
      "epoch": 0.18891524692689238,
      "grad_norm": 0.8118747472763062,
      "learning_rate": 9.948009721300754e-06,
      "loss": 0.8792,
      "step": 3504
    },
    {
      "epoch": 0.1889691610955359,
      "grad_norm": 0.8263816833496094,
      "learning_rate": 9.94797922332103e-06,
      "loss": 0.7759,
      "step": 3505
    },
    {
      "epoch": 0.1890230752641794,
      "grad_norm": 0.7452372908592224,
      "learning_rate": 9.947948716445508e-06,
      "loss": 0.7588,
      "step": 3506
    },
    {
      "epoch": 0.18907698943282295,
      "grad_norm": 0.7385339736938477,
      "learning_rate": 9.94791820067424e-06,
      "loss": 0.8412,
      "step": 3507
    },
    {
      "epoch": 0.18913090360146648,
      "grad_norm": 0.7456401586532593,
      "learning_rate": 9.947887676007284e-06,
      "loss": 0.7539,
      "step": 3508
    },
    {
      "epoch": 0.18918481777010998,
      "grad_norm": 0.8101776242256165,
      "learning_rate": 9.947857142444693e-06,
      "loss": 0.8006,
      "step": 3509
    },
    {
      "epoch": 0.1892387319387535,
      "grad_norm": 0.7587085962295532,
      "learning_rate": 9.947826599986523e-06,
      "loss": 0.7958,
      "step": 3510
    },
    {
      "epoch": 0.18929264610739702,
      "grad_norm": 0.7974298596382141,
      "learning_rate": 9.947796048632826e-06,
      "loss": 0.7954,
      "step": 3511
    },
    {
      "epoch": 0.18934656027604055,
      "grad_norm": 0.8407479524612427,
      "learning_rate": 9.94776548838366e-06,
      "loss": 0.825,
      "step": 3512
    },
    {
      "epoch": 0.18940047444468405,
      "grad_norm": 0.7465969324111938,
      "learning_rate": 9.94773491923908e-06,
      "loss": 0.7725,
      "step": 3513
    },
    {
      "epoch": 0.18945438861332758,
      "grad_norm": 0.9324356913566589,
      "learning_rate": 9.947704341199137e-06,
      "loss": 0.755,
      "step": 3514
    },
    {
      "epoch": 0.1895083027819711,
      "grad_norm": 0.8157918453216553,
      "learning_rate": 9.94767375426389e-06,
      "loss": 0.8678,
      "step": 3515
    },
    {
      "epoch": 0.18956221695061462,
      "grad_norm": 0.8501976132392883,
      "learning_rate": 9.947643158433395e-06,
      "loss": 0.8431,
      "step": 3516
    },
    {
      "epoch": 0.18961613111925815,
      "grad_norm": 0.7773411273956299,
      "learning_rate": 9.947612553707703e-06,
      "loss": 0.748,
      "step": 3517
    },
    {
      "epoch": 0.18967004528790166,
      "grad_norm": 0.7716071605682373,
      "learning_rate": 9.947581940086873e-06,
      "loss": 0.7563,
      "step": 3518
    },
    {
      "epoch": 0.1897239594565452,
      "grad_norm": 0.9465253353118896,
      "learning_rate": 9.947551317570957e-06,
      "loss": 0.9289,
      "step": 3519
    },
    {
      "epoch": 0.1897778736251887,
      "grad_norm": 0.7123626470565796,
      "learning_rate": 9.94752068616001e-06,
      "loss": 0.7012,
      "step": 3520
    },
    {
      "epoch": 0.18983178779383222,
      "grad_norm": 0.7318246960639954,
      "learning_rate": 9.94749004585409e-06,
      "loss": 0.8247,
      "step": 3521
    },
    {
      "epoch": 0.18988570196247573,
      "grad_norm": 0.8028656244277954,
      "learning_rate": 9.947459396653248e-06,
      "loss": 0.8606,
      "step": 3522
    },
    {
      "epoch": 0.18993961613111926,
      "grad_norm": 0.7580826282501221,
      "learning_rate": 9.947428738557541e-06,
      "loss": 0.7801,
      "step": 3523
    },
    {
      "epoch": 0.18999353029976276,
      "grad_norm": 0.7612492442131042,
      "learning_rate": 9.947398071567025e-06,
      "loss": 0.8298,
      "step": 3524
    },
    {
      "epoch": 0.1900474444684063,
      "grad_norm": 0.7892666459083557,
      "learning_rate": 9.947367395681755e-06,
      "loss": 0.739,
      "step": 3525
    },
    {
      "epoch": 0.19010135863704983,
      "grad_norm": 0.7531749606132507,
      "learning_rate": 9.947336710901785e-06,
      "loss": 0.7804,
      "step": 3526
    },
    {
      "epoch": 0.19015527280569333,
      "grad_norm": 0.7833613753318787,
      "learning_rate": 9.947306017227171e-06,
      "loss": 0.6541,
      "step": 3527
    },
    {
      "epoch": 0.19020918697433686,
      "grad_norm": 0.749286413192749,
      "learning_rate": 9.94727531465797e-06,
      "loss": 0.6982,
      "step": 3528
    },
    {
      "epoch": 0.19026310114298037,
      "grad_norm": 0.9150011539459229,
      "learning_rate": 9.947244603194233e-06,
      "loss": 0.8681,
      "step": 3529
    },
    {
      "epoch": 0.1903170153116239,
      "grad_norm": 0.8265007138252258,
      "learning_rate": 9.947213882836018e-06,
      "loss": 0.9088,
      "step": 3530
    },
    {
      "epoch": 0.1903709294802674,
      "grad_norm": 0.7807170152664185,
      "learning_rate": 9.947183153583379e-06,
      "loss": 0.7875,
      "step": 3531
    },
    {
      "epoch": 0.19042484364891094,
      "grad_norm": 1.0078792572021484,
      "learning_rate": 9.947152415436375e-06,
      "loss": 1.2045,
      "step": 3532
    },
    {
      "epoch": 0.19047875781755447,
      "grad_norm": 0.7661539912223816,
      "learning_rate": 9.947121668395055e-06,
      "loss": 0.8202,
      "step": 3533
    },
    {
      "epoch": 0.19053267198619797,
      "grad_norm": 0.7419549226760864,
      "learning_rate": 9.947090912459479e-06,
      "loss": 0.7775,
      "step": 3534
    },
    {
      "epoch": 0.1905865861548415,
      "grad_norm": 0.9671319723129272,
      "learning_rate": 9.947060147629698e-06,
      "loss": 0.8328,
      "step": 3535
    },
    {
      "epoch": 0.190640500323485,
      "grad_norm": 0.9418153762817383,
      "learning_rate": 9.947029373905773e-06,
      "loss": 0.8476,
      "step": 3536
    },
    {
      "epoch": 0.19069441449212854,
      "grad_norm": 0.8007176518440247,
      "learning_rate": 9.946998591287755e-06,
      "loss": 0.8379,
      "step": 3537
    },
    {
      "epoch": 0.19074832866077204,
      "grad_norm": 1.0271466970443726,
      "learning_rate": 9.946967799775701e-06,
      "loss": 0.7789,
      "step": 3538
    },
    {
      "epoch": 0.19080224282941557,
      "grad_norm": 0.7577568888664246,
      "learning_rate": 9.946936999369668e-06,
      "loss": 0.7749,
      "step": 3539
    },
    {
      "epoch": 0.19085615699805908,
      "grad_norm": 0.7766523361206055,
      "learning_rate": 9.946906190069707e-06,
      "loss": 0.7143,
      "step": 3540
    },
    {
      "epoch": 0.1909100711667026,
      "grad_norm": 0.798589825630188,
      "learning_rate": 9.946875371875876e-06,
      "loss": 0.8481,
      "step": 3541
    },
    {
      "epoch": 0.19096398533534614,
      "grad_norm": 0.8279602527618408,
      "learning_rate": 9.946844544788232e-06,
      "loss": 0.8369,
      "step": 3542
    },
    {
      "epoch": 0.19101789950398965,
      "grad_norm": 0.7607479691505432,
      "learning_rate": 9.946813708806828e-06,
      "loss": 0.8088,
      "step": 3543
    },
    {
      "epoch": 0.19107181367263318,
      "grad_norm": 0.7722266912460327,
      "learning_rate": 9.946782863931719e-06,
      "loss": 0.704,
      "step": 3544
    },
    {
      "epoch": 0.19112572784127668,
      "grad_norm": 0.8101015686988831,
      "learning_rate": 9.946752010162964e-06,
      "loss": 0.7828,
      "step": 3545
    },
    {
      "epoch": 0.19117964200992021,
      "grad_norm": 0.8161671161651611,
      "learning_rate": 9.946721147500613e-06,
      "loss": 0.8875,
      "step": 3546
    },
    {
      "epoch": 0.19123355617856372,
      "grad_norm": 0.9234161972999573,
      "learning_rate": 9.946690275944727e-06,
      "loss": 0.8846,
      "step": 3547
    },
    {
      "epoch": 0.19128747034720725,
      "grad_norm": 0.7948644757270813,
      "learning_rate": 9.946659395495357e-06,
      "loss": 0.8331,
      "step": 3548
    },
    {
      "epoch": 0.19134138451585075,
      "grad_norm": 0.9087135791778564,
      "learning_rate": 9.946628506152563e-06,
      "loss": 0.7462,
      "step": 3549
    },
    {
      "epoch": 0.19139529868449429,
      "grad_norm": 0.7624903917312622,
      "learning_rate": 9.946597607916396e-06,
      "loss": 0.6431,
      "step": 3550
    },
    {
      "epoch": 0.19144921285313782,
      "grad_norm": 0.9236660003662109,
      "learning_rate": 9.946566700786914e-06,
      "loss": 0.921,
      "step": 3551
    },
    {
      "epoch": 0.19150312702178132,
      "grad_norm": 0.8824177980422974,
      "learning_rate": 9.946535784764173e-06,
      "loss": 0.805,
      "step": 3552
    },
    {
      "epoch": 0.19155704119042485,
      "grad_norm": 0.7843056917190552,
      "learning_rate": 9.946504859848227e-06,
      "loss": 0.8528,
      "step": 3553
    },
    {
      "epoch": 0.19161095535906836,
      "grad_norm": 1.2314038276672363,
      "learning_rate": 9.946473926039134e-06,
      "loss": 0.8141,
      "step": 3554
    },
    {
      "epoch": 0.1916648695277119,
      "grad_norm": 0.7956500053405762,
      "learning_rate": 9.946442983336945e-06,
      "loss": 0.7946,
      "step": 3555
    },
    {
      "epoch": 0.1917187836963554,
      "grad_norm": 0.850674033164978,
      "learning_rate": 9.94641203174172e-06,
      "loss": 0.8965,
      "step": 3556
    },
    {
      "epoch": 0.19177269786499893,
      "grad_norm": 0.8371244668960571,
      "learning_rate": 9.946381071253514e-06,
      "loss": 0.7859,
      "step": 3557
    },
    {
      "epoch": 0.19182661203364243,
      "grad_norm": 0.7423365712165833,
      "learning_rate": 9.946350101872382e-06,
      "loss": 0.8012,
      "step": 3558
    },
    {
      "epoch": 0.19188052620228596,
      "grad_norm": 0.8446981310844421,
      "learning_rate": 9.946319123598379e-06,
      "loss": 0.9037,
      "step": 3559
    },
    {
      "epoch": 0.1919344403709295,
      "grad_norm": 0.8565588593482971,
      "learning_rate": 9.946288136431562e-06,
      "loss": 0.7398,
      "step": 3560
    },
    {
      "epoch": 0.191988354539573,
      "grad_norm": 0.8087875843048096,
      "learning_rate": 9.946257140371985e-06,
      "loss": 0.7214,
      "step": 3561
    },
    {
      "epoch": 0.19204226870821653,
      "grad_norm": 0.7951125502586365,
      "learning_rate": 9.946226135419705e-06,
      "loss": 0.7988,
      "step": 3562
    },
    {
      "epoch": 0.19209618287686003,
      "grad_norm": 0.8709264397621155,
      "learning_rate": 9.946195121574779e-06,
      "loss": 0.8563,
      "step": 3563
    },
    {
      "epoch": 0.19215009704550357,
      "grad_norm": 0.7908393740653992,
      "learning_rate": 9.94616409883726e-06,
      "loss": 0.7874,
      "step": 3564
    },
    {
      "epoch": 0.19220401121414707,
      "grad_norm": 1.0512382984161377,
      "learning_rate": 9.946133067207204e-06,
      "loss": 0.9174,
      "step": 3565
    },
    {
      "epoch": 0.1922579253827906,
      "grad_norm": 0.7937822937965393,
      "learning_rate": 9.94610202668467e-06,
      "loss": 0.6863,
      "step": 3566
    },
    {
      "epoch": 0.1923118395514341,
      "grad_norm": 0.9130533337593079,
      "learning_rate": 9.94607097726971e-06,
      "loss": 0.8287,
      "step": 3567
    },
    {
      "epoch": 0.19236575372007764,
      "grad_norm": 1.1604489088058472,
      "learning_rate": 9.946039918962383e-06,
      "loss": 0.6922,
      "step": 3568
    },
    {
      "epoch": 0.19241966788872117,
      "grad_norm": 1.0400906801223755,
      "learning_rate": 9.946008851762743e-06,
      "loss": 0.7978,
      "step": 3569
    },
    {
      "epoch": 0.19247358205736467,
      "grad_norm": 0.8068282008171082,
      "learning_rate": 9.945977775670845e-06,
      "loss": 0.7365,
      "step": 3570
    },
    {
      "epoch": 0.1925274962260082,
      "grad_norm": 0.8328807353973389,
      "learning_rate": 9.945946690686747e-06,
      "loss": 0.7308,
      "step": 3571
    },
    {
      "epoch": 0.1925814103946517,
      "grad_norm": 0.946949303150177,
      "learning_rate": 9.945915596810502e-06,
      "loss": 0.9117,
      "step": 3572
    },
    {
      "epoch": 0.19263532456329524,
      "grad_norm": 0.8421696424484253,
      "learning_rate": 9.94588449404217e-06,
      "loss": 0.7132,
      "step": 3573
    },
    {
      "epoch": 0.19268923873193874,
      "grad_norm": 0.7321984171867371,
      "learning_rate": 9.945853382381805e-06,
      "loss": 0.752,
      "step": 3574
    },
    {
      "epoch": 0.19274315290058228,
      "grad_norm": 0.8039024472236633,
      "learning_rate": 9.94582226182946e-06,
      "loss": 0.7952,
      "step": 3575
    },
    {
      "epoch": 0.19279706706922578,
      "grad_norm": 0.8612285256385803,
      "learning_rate": 9.945791132385196e-06,
      "loss": 0.7944,
      "step": 3576
    },
    {
      "epoch": 0.1928509812378693,
      "grad_norm": 1.0525864362716675,
      "learning_rate": 9.945759994049066e-06,
      "loss": 0.8078,
      "step": 3577
    },
    {
      "epoch": 0.19290489540651284,
      "grad_norm": 0.8032466769218445,
      "learning_rate": 9.945728846821128e-06,
      "loss": 0.8522,
      "step": 3578
    },
    {
      "epoch": 0.19295880957515635,
      "grad_norm": 1.324041485786438,
      "learning_rate": 9.945697690701435e-06,
      "loss": 0.7705,
      "step": 3579
    },
    {
      "epoch": 0.19301272374379988,
      "grad_norm": 0.8733030557632446,
      "learning_rate": 9.945666525690044e-06,
      "loss": 0.8115,
      "step": 3580
    },
    {
      "epoch": 0.19306663791244338,
      "grad_norm": 0.8208357095718384,
      "learning_rate": 9.945635351787012e-06,
      "loss": 0.7975,
      "step": 3581
    },
    {
      "epoch": 0.19312055208108692,
      "grad_norm": 0.744498074054718,
      "learning_rate": 9.945604168992395e-06,
      "loss": 0.8088,
      "step": 3582
    },
    {
      "epoch": 0.19317446624973042,
      "grad_norm": 0.9391197562217712,
      "learning_rate": 9.945572977306249e-06,
      "loss": 0.8403,
      "step": 3583
    },
    {
      "epoch": 0.19322838041837395,
      "grad_norm": 0.8050488829612732,
      "learning_rate": 9.945541776728629e-06,
      "loss": 0.769,
      "step": 3584
    },
    {
      "epoch": 0.19328229458701746,
      "grad_norm": 0.8373685479164124,
      "learning_rate": 9.945510567259592e-06,
      "loss": 0.7803,
      "step": 3585
    },
    {
      "epoch": 0.193336208755661,
      "grad_norm": 0.8766368627548218,
      "learning_rate": 9.945479348899194e-06,
      "loss": 0.8325,
      "step": 3586
    },
    {
      "epoch": 0.19339012292430452,
      "grad_norm": 0.8029547333717346,
      "learning_rate": 9.945448121647492e-06,
      "loss": 0.6647,
      "step": 3587
    },
    {
      "epoch": 0.19344403709294802,
      "grad_norm": 0.7231468558311462,
      "learning_rate": 9.94541688550454e-06,
      "loss": 0.6939,
      "step": 3588
    },
    {
      "epoch": 0.19349795126159156,
      "grad_norm": 0.8487125039100647,
      "learning_rate": 9.945385640470397e-06,
      "loss": 0.8097,
      "step": 3589
    },
    {
      "epoch": 0.19355186543023506,
      "grad_norm": 0.7813920378684998,
      "learning_rate": 9.945354386545116e-06,
      "loss": 0.8023,
      "step": 3590
    },
    {
      "epoch": 0.1936057795988786,
      "grad_norm": 0.8754404783248901,
      "learning_rate": 9.945323123728756e-06,
      "loss": 0.8401,
      "step": 3591
    },
    {
      "epoch": 0.1936596937675221,
      "grad_norm": 0.8191613554954529,
      "learning_rate": 9.945291852021371e-06,
      "loss": 0.8151,
      "step": 3592
    },
    {
      "epoch": 0.19371360793616563,
      "grad_norm": 0.7882266044616699,
      "learning_rate": 9.945260571423019e-06,
      "loss": 0.77,
      "step": 3593
    },
    {
      "epoch": 0.19376752210480913,
      "grad_norm": 0.816411554813385,
      "learning_rate": 9.945229281933756e-06,
      "loss": 0.7378,
      "step": 3594
    },
    {
      "epoch": 0.19382143627345266,
      "grad_norm": 0.8545891046524048,
      "learning_rate": 9.945197983553636e-06,
      "loss": 0.7563,
      "step": 3595
    },
    {
      "epoch": 0.1938753504420962,
      "grad_norm": 0.8293501138687134,
      "learning_rate": 9.945166676282717e-06,
      "loss": 0.893,
      "step": 3596
    },
    {
      "epoch": 0.1939292646107397,
      "grad_norm": 0.7536304593086243,
      "learning_rate": 9.945135360121058e-06,
      "loss": 0.7101,
      "step": 3597
    },
    {
      "epoch": 0.19398317877938323,
      "grad_norm": 0.96649569272995,
      "learning_rate": 9.94510403506871e-06,
      "loss": 0.8027,
      "step": 3598
    },
    {
      "epoch": 0.19403709294802673,
      "grad_norm": 0.7543211579322815,
      "learning_rate": 9.945072701125733e-06,
      "loss": 0.8144,
      "step": 3599
    },
    {
      "epoch": 0.19409100711667027,
      "grad_norm": 0.7223193049430847,
      "learning_rate": 9.945041358292183e-06,
      "loss": 0.7585,
      "step": 3600
    },
    {
      "epoch": 0.19414492128531377,
      "grad_norm": 0.8515756726264954,
      "learning_rate": 9.945010006568115e-06,
      "loss": 0.9114,
      "step": 3601
    },
    {
      "epoch": 0.1941988354539573,
      "grad_norm": 0.7318340539932251,
      "learning_rate": 9.944978645953585e-06,
      "loss": 0.7554,
      "step": 3602
    },
    {
      "epoch": 0.1942527496226008,
      "grad_norm": 0.8565723299980164,
      "learning_rate": 9.944947276448649e-06,
      "loss": 0.8918,
      "step": 3603
    },
    {
      "epoch": 0.19430666379124434,
      "grad_norm": 0.8536270260810852,
      "learning_rate": 9.944915898053367e-06,
      "loss": 0.8184,
      "step": 3604
    },
    {
      "epoch": 0.19436057795988787,
      "grad_norm": 0.7093652486801147,
      "learning_rate": 9.944884510767792e-06,
      "loss": 0.8031,
      "step": 3605
    },
    {
      "epoch": 0.19441449212853137,
      "grad_norm": 0.7644805312156677,
      "learning_rate": 9.944853114591984e-06,
      "loss": 0.8546,
      "step": 3606
    },
    {
      "epoch": 0.1944684062971749,
      "grad_norm": 0.6533430218696594,
      "learning_rate": 9.944821709525994e-06,
      "loss": 0.6453,
      "step": 3607
    },
    {
      "epoch": 0.1945223204658184,
      "grad_norm": 0.8608343005180359,
      "learning_rate": 9.944790295569883e-06,
      "loss": 0.8539,
      "step": 3608
    },
    {
      "epoch": 0.19457623463446194,
      "grad_norm": 0.777740478515625,
      "learning_rate": 9.944758872723706e-06,
      "loss": 0.7414,
      "step": 3609
    },
    {
      "epoch": 0.19463014880310545,
      "grad_norm": 0.7757480144500732,
      "learning_rate": 9.944727440987518e-06,
      "loss": 0.7394,
      "step": 3610
    },
    {
      "epoch": 0.19468406297174898,
      "grad_norm": 0.7862492203712463,
      "learning_rate": 9.944696000361379e-06,
      "loss": 0.8264,
      "step": 3611
    },
    {
      "epoch": 0.19473797714039248,
      "grad_norm": 0.72691410779953,
      "learning_rate": 9.944664550845342e-06,
      "loss": 0.6876,
      "step": 3612
    },
    {
      "epoch": 0.194791891309036,
      "grad_norm": 0.8702194094657898,
      "learning_rate": 9.944633092439467e-06,
      "loss": 0.7286,
      "step": 3613
    },
    {
      "epoch": 0.19484580547767955,
      "grad_norm": 1.1160287857055664,
      "learning_rate": 9.944601625143806e-06,
      "loss": 0.8619,
      "step": 3614
    },
    {
      "epoch": 0.19489971964632305,
      "grad_norm": 0.8278397917747498,
      "learning_rate": 9.944570148958419e-06,
      "loss": 0.7458,
      "step": 3615
    },
    {
      "epoch": 0.19495363381496658,
      "grad_norm": 0.8430503606796265,
      "learning_rate": 9.944538663883362e-06,
      "loss": 0.7681,
      "step": 3616
    },
    {
      "epoch": 0.19500754798361009,
      "grad_norm": 0.8198543190956116,
      "learning_rate": 9.94450716991869e-06,
      "loss": 0.6681,
      "step": 3617
    },
    {
      "epoch": 0.19506146215225362,
      "grad_norm": 0.7874541282653809,
      "learning_rate": 9.944475667064464e-06,
      "loss": 0.813,
      "step": 3618
    },
    {
      "epoch": 0.19511537632089712,
      "grad_norm": 0.76181960105896,
      "learning_rate": 9.944444155320736e-06,
      "loss": 0.7443,
      "step": 3619
    },
    {
      "epoch": 0.19516929048954065,
      "grad_norm": 0.7647060751914978,
      "learning_rate": 9.944412634687563e-06,
      "loss": 0.8232,
      "step": 3620
    },
    {
      "epoch": 0.19522320465818416,
      "grad_norm": 0.7609487771987915,
      "learning_rate": 9.944381105165006e-06,
      "loss": 0.8134,
      "step": 3621
    },
    {
      "epoch": 0.1952771188268277,
      "grad_norm": 0.8139258027076721,
      "learning_rate": 9.944349566753116e-06,
      "loss": 0.8053,
      "step": 3622
    },
    {
      "epoch": 0.19533103299547122,
      "grad_norm": 0.7404879927635193,
      "learning_rate": 9.944318019451952e-06,
      "loss": 0.7774,
      "step": 3623
    },
    {
      "epoch": 0.19538494716411473,
      "grad_norm": 0.863972008228302,
      "learning_rate": 9.944286463261573e-06,
      "loss": 0.8824,
      "step": 3624
    },
    {
      "epoch": 0.19543886133275826,
      "grad_norm": 0.907744824886322,
      "learning_rate": 9.944254898182033e-06,
      "loss": 0.7537,
      "step": 3625
    },
    {
      "epoch": 0.19549277550140176,
      "grad_norm": 0.8722240328788757,
      "learning_rate": 9.944223324213389e-06,
      "loss": 0.8688,
      "step": 3626
    },
    {
      "epoch": 0.1955466896700453,
      "grad_norm": 0.7386543154716492,
      "learning_rate": 9.9441917413557e-06,
      "loss": 0.6962,
      "step": 3627
    },
    {
      "epoch": 0.1956006038386888,
      "grad_norm": 0.7577354907989502,
      "learning_rate": 9.944160149609018e-06,
      "loss": 0.7261,
      "step": 3628
    },
    {
      "epoch": 0.19565451800733233,
      "grad_norm": 0.8413889408111572,
      "learning_rate": 9.944128548973407e-06,
      "loss": 0.8369,
      "step": 3629
    },
    {
      "epoch": 0.19570843217597583,
      "grad_norm": 0.8649793863296509,
      "learning_rate": 9.944096939448917e-06,
      "loss": 0.8363,
      "step": 3630
    },
    {
      "epoch": 0.19576234634461936,
      "grad_norm": 0.7515233755111694,
      "learning_rate": 9.944065321035607e-06,
      "loss": 0.7634,
      "step": 3631
    },
    {
      "epoch": 0.1958162605132629,
      "grad_norm": 0.9059920310974121,
      "learning_rate": 9.944033693733535e-06,
      "loss": 0.9312,
      "step": 3632
    },
    {
      "epoch": 0.1958701746819064,
      "grad_norm": 0.780707597732544,
      "learning_rate": 9.944002057542757e-06,
      "loss": 0.7545,
      "step": 3633
    },
    {
      "epoch": 0.19592408885054993,
      "grad_norm": 0.7543255686759949,
      "learning_rate": 9.94397041246333e-06,
      "loss": 0.7496,
      "step": 3634
    },
    {
      "epoch": 0.19597800301919344,
      "grad_norm": 0.7795106172561646,
      "learning_rate": 9.943938758495313e-06,
      "loss": 0.6734,
      "step": 3635
    },
    {
      "epoch": 0.19603191718783697,
      "grad_norm": 0.9682700037956238,
      "learning_rate": 9.943907095638758e-06,
      "loss": 0.8928,
      "step": 3636
    },
    {
      "epoch": 0.19608583135648047,
      "grad_norm": 0.7332949638366699,
      "learning_rate": 9.943875423893727e-06,
      "loss": 0.7507,
      "step": 3637
    },
    {
      "epoch": 0.196139745525124,
      "grad_norm": 0.8316323161125183,
      "learning_rate": 9.943843743260275e-06,
      "loss": 0.7492,
      "step": 3638
    },
    {
      "epoch": 0.19619365969376754,
      "grad_norm": 0.7973113059997559,
      "learning_rate": 9.943812053738458e-06,
      "loss": 0.8381,
      "step": 3639
    },
    {
      "epoch": 0.19624757386241104,
      "grad_norm": 0.7654823064804077,
      "learning_rate": 9.943780355328332e-06,
      "loss": 0.8497,
      "step": 3640
    },
    {
      "epoch": 0.19630148803105457,
      "grad_norm": 0.7055602073669434,
      "learning_rate": 9.943748648029958e-06,
      "loss": 0.7949,
      "step": 3641
    },
    {
      "epoch": 0.19635540219969808,
      "grad_norm": 0.9971569180488586,
      "learning_rate": 9.94371693184339e-06,
      "loss": 0.8311,
      "step": 3642
    },
    {
      "epoch": 0.1964093163683416,
      "grad_norm": 0.7608943581581116,
      "learning_rate": 9.943685206768686e-06,
      "loss": 0.8303,
      "step": 3643
    },
    {
      "epoch": 0.1964632305369851,
      "grad_norm": 0.9169919490814209,
      "learning_rate": 9.943653472805901e-06,
      "loss": 0.8314,
      "step": 3644
    },
    {
      "epoch": 0.19651714470562864,
      "grad_norm": 0.8501203656196594,
      "learning_rate": 9.943621729955096e-06,
      "loss": 0.8765,
      "step": 3645
    },
    {
      "epoch": 0.19657105887427215,
      "grad_norm": 0.7438945770263672,
      "learning_rate": 9.943589978216325e-06,
      "loss": 0.7323,
      "step": 3646
    },
    {
      "epoch": 0.19662497304291568,
      "grad_norm": 0.8795550465583801,
      "learning_rate": 9.943558217589646e-06,
      "loss": 0.7916,
      "step": 3647
    },
    {
      "epoch": 0.1966788872115592,
      "grad_norm": 0.7928707003593445,
      "learning_rate": 9.943526448075117e-06,
      "loss": 0.8621,
      "step": 3648
    },
    {
      "epoch": 0.19673280138020272,
      "grad_norm": 0.8225892782211304,
      "learning_rate": 9.943494669672792e-06,
      "loss": 0.8718,
      "step": 3649
    },
    {
      "epoch": 0.19678671554884625,
      "grad_norm": 0.8227444291114807,
      "learning_rate": 9.943462882382732e-06,
      "loss": 0.8374,
      "step": 3650
    },
    {
      "epoch": 0.19684062971748975,
      "grad_norm": 0.7860620021820068,
      "learning_rate": 9.943431086204991e-06,
      "loss": 0.8919,
      "step": 3651
    },
    {
      "epoch": 0.19689454388613328,
      "grad_norm": 0.8000875115394592,
      "learning_rate": 9.94339928113963e-06,
      "loss": 0.7822,
      "step": 3652
    },
    {
      "epoch": 0.1969484580547768,
      "grad_norm": 0.796389639377594,
      "learning_rate": 9.943367467186702e-06,
      "loss": 0.7149,
      "step": 3653
    },
    {
      "epoch": 0.19700237222342032,
      "grad_norm": 0.8032622337341309,
      "learning_rate": 9.943335644346267e-06,
      "loss": 0.8442,
      "step": 3654
    },
    {
      "epoch": 0.19705628639206382,
      "grad_norm": 0.8624833226203918,
      "learning_rate": 9.94330381261838e-06,
      "loss": 0.8681,
      "step": 3655
    },
    {
      "epoch": 0.19711020056070735,
      "grad_norm": 0.9663752317428589,
      "learning_rate": 9.9432719720031e-06,
      "loss": 0.8749,
      "step": 3656
    },
    {
      "epoch": 0.1971641147293509,
      "grad_norm": 0.6869292259216309,
      "learning_rate": 9.943240122500484e-06,
      "loss": 0.7288,
      "step": 3657
    },
    {
      "epoch": 0.1972180288979944,
      "grad_norm": 0.7496824264526367,
      "learning_rate": 9.943208264110589e-06,
      "loss": 0.7191,
      "step": 3658
    },
    {
      "epoch": 0.19727194306663792,
      "grad_norm": 0.7637088894844055,
      "learning_rate": 9.943176396833471e-06,
      "loss": 0.7602,
      "step": 3659
    },
    {
      "epoch": 0.19732585723528143,
      "grad_norm": 0.7049651741981506,
      "learning_rate": 9.94314452066919e-06,
      "loss": 0.7097,
      "step": 3660
    },
    {
      "epoch": 0.19737977140392496,
      "grad_norm": 0.8979986310005188,
      "learning_rate": 9.943112635617802e-06,
      "loss": 0.7953,
      "step": 3661
    },
    {
      "epoch": 0.19743368557256846,
      "grad_norm": 0.7865282893180847,
      "learning_rate": 9.943080741679364e-06,
      "loss": 0.7394,
      "step": 3662
    },
    {
      "epoch": 0.197487599741212,
      "grad_norm": 0.7790982723236084,
      "learning_rate": 9.943048838853932e-06,
      "loss": 0.8587,
      "step": 3663
    },
    {
      "epoch": 0.1975415139098555,
      "grad_norm": 0.8486214876174927,
      "learning_rate": 9.943016927141566e-06,
      "loss": 0.9232,
      "step": 3664
    },
    {
      "epoch": 0.19759542807849903,
      "grad_norm": 0.7729238867759705,
      "learning_rate": 9.942985006542322e-06,
      "loss": 0.7704,
      "step": 3665
    },
    {
      "epoch": 0.19764934224714256,
      "grad_norm": 0.7827340960502625,
      "learning_rate": 9.942953077056259e-06,
      "loss": 0.7834,
      "step": 3666
    },
    {
      "epoch": 0.19770325641578607,
      "grad_norm": 0.8735725283622742,
      "learning_rate": 9.94292113868343e-06,
      "loss": 0.7521,
      "step": 3667
    },
    {
      "epoch": 0.1977571705844296,
      "grad_norm": 0.803302526473999,
      "learning_rate": 9.942889191423897e-06,
      "loss": 0.7475,
      "step": 3668
    },
    {
      "epoch": 0.1978110847530731,
      "grad_norm": 0.7523918747901917,
      "learning_rate": 9.942857235277716e-06,
      "loss": 0.7882,
      "step": 3669
    },
    {
      "epoch": 0.19786499892171663,
      "grad_norm": 0.891010582447052,
      "learning_rate": 9.942825270244944e-06,
      "loss": 0.6855,
      "step": 3670
    },
    {
      "epoch": 0.19791891309036014,
      "grad_norm": 0.8103521466255188,
      "learning_rate": 9.94279329632564e-06,
      "loss": 0.7604,
      "step": 3671
    },
    {
      "epoch": 0.19797282725900367,
      "grad_norm": 0.7801117897033691,
      "learning_rate": 9.94276131351986e-06,
      "loss": 0.757,
      "step": 3672
    },
    {
      "epoch": 0.19802674142764717,
      "grad_norm": 0.8760844469070435,
      "learning_rate": 9.942729321827661e-06,
      "loss": 0.9507,
      "step": 3673
    },
    {
      "epoch": 0.1980806555962907,
      "grad_norm": 0.7129818201065063,
      "learning_rate": 9.942697321249101e-06,
      "loss": 0.7118,
      "step": 3674
    },
    {
      "epoch": 0.19813456976493424,
      "grad_norm": 0.7223137021064758,
      "learning_rate": 9.942665311784239e-06,
      "loss": 0.6911,
      "step": 3675
    },
    {
      "epoch": 0.19818848393357774,
      "grad_norm": 0.7100752592086792,
      "learning_rate": 9.94263329343313e-06,
      "loss": 0.7569,
      "step": 3676
    },
    {
      "epoch": 0.19824239810222127,
      "grad_norm": 0.955298662185669,
      "learning_rate": 9.942601266195834e-06,
      "loss": 0.8562,
      "step": 3677
    },
    {
      "epoch": 0.19829631227086478,
      "grad_norm": 0.7367860078811646,
      "learning_rate": 9.942569230072408e-06,
      "loss": 0.7184,
      "step": 3678
    },
    {
      "epoch": 0.1983502264395083,
      "grad_norm": 0.7822328805923462,
      "learning_rate": 9.942537185062909e-06,
      "loss": 0.7111,
      "step": 3679
    },
    {
      "epoch": 0.1984041406081518,
      "grad_norm": 0.8836474418640137,
      "learning_rate": 9.942505131167394e-06,
      "loss": 0.731,
      "step": 3680
    },
    {
      "epoch": 0.19845805477679535,
      "grad_norm": 0.7033706903457642,
      "learning_rate": 9.942473068385921e-06,
      "loss": 0.7228,
      "step": 3681
    },
    {
      "epoch": 0.19851196894543885,
      "grad_norm": 0.7241103649139404,
      "learning_rate": 9.942440996718549e-06,
      "loss": 0.7045,
      "step": 3682
    },
    {
      "epoch": 0.19856588311408238,
      "grad_norm": 0.8266516923904419,
      "learning_rate": 9.942408916165334e-06,
      "loss": 0.781,
      "step": 3683
    },
    {
      "epoch": 0.1986197972827259,
      "grad_norm": 0.9639707207679749,
      "learning_rate": 9.942376826726334e-06,
      "loss": 0.8136,
      "step": 3684
    },
    {
      "epoch": 0.19867371145136942,
      "grad_norm": 0.874279797077179,
      "learning_rate": 9.942344728401609e-06,
      "loss": 0.8147,
      "step": 3685
    },
    {
      "epoch": 0.19872762562001295,
      "grad_norm": 0.7670862674713135,
      "learning_rate": 9.942312621191213e-06,
      "loss": 0.8134,
      "step": 3686
    },
    {
      "epoch": 0.19878153978865645,
      "grad_norm": 0.8974711894989014,
      "learning_rate": 9.942280505095206e-06,
      "loss": 0.8211,
      "step": 3687
    },
    {
      "epoch": 0.19883545395729998,
      "grad_norm": 0.8174877762794495,
      "learning_rate": 9.942248380113646e-06,
      "loss": 0.8641,
      "step": 3688
    },
    {
      "epoch": 0.1988893681259435,
      "grad_norm": 0.7798371315002441,
      "learning_rate": 9.942216246246588e-06,
      "loss": 0.7226,
      "step": 3689
    },
    {
      "epoch": 0.19894328229458702,
      "grad_norm": 0.8269854784011841,
      "learning_rate": 9.942184103494093e-06,
      "loss": 0.8789,
      "step": 3690
    },
    {
      "epoch": 0.19899719646323052,
      "grad_norm": 0.8148782253265381,
      "learning_rate": 9.942151951856217e-06,
      "loss": 0.8436,
      "step": 3691
    },
    {
      "epoch": 0.19905111063187406,
      "grad_norm": 0.823692262172699,
      "learning_rate": 9.942119791333017e-06,
      "loss": 0.6935,
      "step": 3692
    },
    {
      "epoch": 0.1991050248005176,
      "grad_norm": 0.8396292924880981,
      "learning_rate": 9.942087621924555e-06,
      "loss": 0.8814,
      "step": 3693
    },
    {
      "epoch": 0.1991589389691611,
      "grad_norm": 0.7293786406517029,
      "learning_rate": 9.942055443630885e-06,
      "loss": 0.7735,
      "step": 3694
    },
    {
      "epoch": 0.19921285313780462,
      "grad_norm": 0.7367222905158997,
      "learning_rate": 9.942023256452066e-06,
      "loss": 0.7797,
      "step": 3695
    },
    {
      "epoch": 0.19926676730644813,
      "grad_norm": 0.7078450322151184,
      "learning_rate": 9.941991060388155e-06,
      "loss": 0.7192,
      "step": 3696
    },
    {
      "epoch": 0.19932068147509166,
      "grad_norm": 0.7927302718162537,
      "learning_rate": 9.941958855439211e-06,
      "loss": 0.8249,
      "step": 3697
    },
    {
      "epoch": 0.19937459564373516,
      "grad_norm": 0.806266725063324,
      "learning_rate": 9.941926641605292e-06,
      "loss": 0.7829,
      "step": 3698
    },
    {
      "epoch": 0.1994285098123787,
      "grad_norm": 0.8022493720054626,
      "learning_rate": 9.941894418886455e-06,
      "loss": 0.7843,
      "step": 3699
    },
    {
      "epoch": 0.1994824239810222,
      "grad_norm": 0.8877873420715332,
      "learning_rate": 9.941862187282759e-06,
      "loss": 0.7266,
      "step": 3700
    },
    {
      "epoch": 0.19953633814966573,
      "grad_norm": 0.7944962382316589,
      "learning_rate": 9.94182994679426e-06,
      "loss": 0.8078,
      "step": 3701
    },
    {
      "epoch": 0.19959025231830926,
      "grad_norm": 0.8684442639350891,
      "learning_rate": 9.941797697421017e-06,
      "loss": 0.7445,
      "step": 3702
    },
    {
      "epoch": 0.19964416648695277,
      "grad_norm": 0.7841063141822815,
      "learning_rate": 9.94176543916309e-06,
      "loss": 0.7231,
      "step": 3703
    },
    {
      "epoch": 0.1996980806555963,
      "grad_norm": 0.7657507658004761,
      "learning_rate": 9.941733172020533e-06,
      "loss": 0.7018,
      "step": 3704
    },
    {
      "epoch": 0.1997519948242398,
      "grad_norm": 1.086627721786499,
      "learning_rate": 9.94170089599341e-06,
      "loss": 0.7914,
      "step": 3705
    },
    {
      "epoch": 0.19980590899288334,
      "grad_norm": 0.7400459051132202,
      "learning_rate": 9.941668611081771e-06,
      "loss": 0.7841,
      "step": 3706
    },
    {
      "epoch": 0.19985982316152684,
      "grad_norm": 1.0587258338928223,
      "learning_rate": 9.94163631728568e-06,
      "loss": 0.923,
      "step": 3707
    },
    {
      "epoch": 0.19991373733017037,
      "grad_norm": 0.8322579264640808,
      "learning_rate": 9.941604014605193e-06,
      "loss": 0.8095,
      "step": 3708
    },
    {
      "epoch": 0.19996765149881388,
      "grad_norm": 0.6660327911376953,
      "learning_rate": 9.94157170304037e-06,
      "loss": 0.6977,
      "step": 3709
    },
    {
      "epoch": 0.2000215656674574,
      "grad_norm": 0.8063632249832153,
      "learning_rate": 9.941539382591267e-06,
      "loss": 0.7693,
      "step": 3710
    }
  ],
  "logging_steps": 1,
  "max_steps": 74192,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 1855,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.0948419465951314e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}