{
  "best_metric": 0.025670213624835014,
  "best_model_checkpoint": "models/SmolLM2-360M-TemporalQuestions/checkpoint-2453",
  "epoch": 29.86912468336617,
  "eval_steps": 500,
  "global_step": 6660,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004503236701379116,
      "grad_norm": 16.02528953552246,
      "learning_rate": 3.003003003003003e-06,
      "loss": 32.3984,
      "step": 1
    },
    {
      "epoch": 0.009006473402758232,
      "grad_norm": 15.968374252319336,
      "learning_rate": 6.006006006006006e-06,
      "loss": 32.418,
      "step": 2
    },
    {
      "epoch": 0.01350971010413735,
      "grad_norm": 16.15896987915039,
      "learning_rate": 9.00900900900901e-06,
      "loss": 32.4268,
      "step": 3
    },
    {
      "epoch": 0.018012946805516464,
      "grad_norm": 16.191347122192383,
      "learning_rate": 1.2012012012012012e-05,
      "loss": 32.9766,
      "step": 4
    },
    {
      "epoch": 0.02251618350689558,
      "grad_norm": 16.06774139404297,
      "learning_rate": 1.5015015015015015e-05,
      "loss": 32.1816,
      "step": 5
    },
    {
      "epoch": 0.0270194202082747,
      "grad_norm": 16.100603103637695,
      "learning_rate": 1.801801801801802e-05,
      "loss": 32.4326,
      "step": 6
    },
    {
      "epoch": 0.031522656909653814,
      "grad_norm": 15.745748519897461,
      "learning_rate": 2.102102102102102e-05,
      "loss": 31.5742,
      "step": 7
    },
    {
      "epoch": 0.03602589361103293,
      "grad_norm": 15.595226287841797,
      "learning_rate": 2.4024024024024024e-05,
      "loss": 29.9385,
      "step": 8
    },
    {
      "epoch": 0.040529130312412044,
      "grad_norm": 15.250760078430176,
      "learning_rate": 2.702702702702703e-05,
      "loss": 28.8047,
      "step": 9
    },
    {
      "epoch": 0.04503236701379116,
      "grad_norm": 15.09804630279541,
      "learning_rate": 3.003003003003003e-05,
      "loss": 28.668,
      "step": 10
    },
    {
      "epoch": 0.04953560371517028,
      "grad_norm": 12.76795768737793,
      "learning_rate": 3.303303303303303e-05,
      "loss": 23.46,
      "step": 11
    },
    {
      "epoch": 0.0540388404165494,
      "grad_norm": 12.307185173034668,
      "learning_rate": 3.603603603603604e-05,
      "loss": 22.3979,
      "step": 12
    },
    {
      "epoch": 0.05854207711792851,
      "grad_norm": 11.19104290008545,
      "learning_rate": 3.903903903903904e-05,
      "loss": 20.9609,
      "step": 13
    },
    {
      "epoch": 0.06304531381930763,
      "grad_norm": 10.741671562194824,
      "learning_rate": 4.204204204204204e-05,
      "loss": 20.4512,
      "step": 14
    },
    {
      "epoch": 0.06754855052068674,
      "grad_norm": 2.3652970790863037,
      "learning_rate": 4.5045045045045046e-05,
      "loss": 13.4248,
      "step": 15
    },
    {
      "epoch": 0.07205178722206586,
      "grad_norm": 1.6630752086639404,
      "learning_rate": 4.804804804804805e-05,
      "loss": 12.978,
      "step": 16
    },
    {
      "epoch": 0.07655502392344497,
      "grad_norm": 1.0650254487991333,
      "learning_rate": 5.105105105105105e-05,
      "loss": 12.6304,
      "step": 17
    },
    {
      "epoch": 0.08105826062482409,
      "grad_norm": 0.8471751809120178,
      "learning_rate": 5.405405405405406e-05,
      "loss": 12.2886,
      "step": 18
    },
    {
      "epoch": 0.0855614973262032,
      "grad_norm": 0.5615507364273071,
      "learning_rate": 5.7057057057057056e-05,
      "loss": 12.041,
      "step": 19
    },
    {
      "epoch": 0.09006473402758232,
      "grad_norm": 1.1423370838165283,
      "learning_rate": 6.006006006006006e-05,
      "loss": 11.5996,
      "step": 20
    },
    {
      "epoch": 0.09456797072896145,
      "grad_norm": 0.678484320640564,
      "learning_rate": 6.306306306306306e-05,
      "loss": 11.7852,
      "step": 21
    },
    {
      "epoch": 0.09907120743034056,
      "grad_norm": 1.29182767868042,
      "learning_rate": 6.606606606606606e-05,
      "loss": 11.9741,
      "step": 22
    },
    {
      "epoch": 0.10357444413171968,
      "grad_norm": 0.5177351236343384,
      "learning_rate": 6.906906906906907e-05,
      "loss": 11.7305,
      "step": 23
    },
    {
      "epoch": 0.1080776808330988,
      "grad_norm": 0.4124372601509094,
      "learning_rate": 7.207207207207208e-05,
      "loss": 11.853,
      "step": 24
    },
    {
      "epoch": 0.11258091753447791,
      "grad_norm": 0.8268731236457825,
      "learning_rate": 7.507507507507507e-05,
      "loss": 11.8135,
      "step": 25
    },
    {
      "epoch": 0.11708415423585702,
      "grad_norm": 0.6768679618835449,
      "learning_rate": 7.807807807807808e-05,
      "loss": 11.9937,
      "step": 26
    },
    {
      "epoch": 0.12158739093723614,
      "grad_norm": 0.6776508688926697,
      "learning_rate": 8.108108108108109e-05,
      "loss": 11.7271,
      "step": 27
    },
    {
      "epoch": 0.12609062763861525,
      "grad_norm": 0.42419958114624023,
      "learning_rate": 8.408408408408409e-05,
      "loss": 11.7021,
      "step": 28
    },
    {
      "epoch": 0.13059386433999437,
      "grad_norm": 0.7821319699287415,
      "learning_rate": 8.708708708708708e-05,
      "loss": 11.6494,
      "step": 29
    },
    {
      "epoch": 0.13509710104137349,
      "grad_norm": 0.19461730122566223,
      "learning_rate": 9.009009009009009e-05,
      "loss": 11.5098,
      "step": 30
    },
    {
      "epoch": 0.1396003377427526,
      "grad_norm": 1.2208867073059082,
      "learning_rate": 9.309309309309309e-05,
      "loss": 11.4395,
      "step": 31
    },
    {
      "epoch": 0.14410357444413172,
      "grad_norm": 0.20563940703868866,
      "learning_rate": 9.60960960960961e-05,
      "loss": 11.4019,
      "step": 32
    },
    {
      "epoch": 0.14860681114551083,
      "grad_norm": 0.5081896185874939,
      "learning_rate": 9.90990990990991e-05,
      "loss": 11.4067,
      "step": 33
    },
    {
      "epoch": 0.15311004784688995,
      "grad_norm": 1.704789400100708,
      "learning_rate": 0.0001021021021021021,
      "loss": 11.7158,
      "step": 34
    },
    {
      "epoch": 0.15761328454826906,
      "grad_norm": 1.0123201608657837,
      "learning_rate": 0.00010510510510510511,
      "loss": 11.7302,
      "step": 35
    },
    {
      "epoch": 0.16211652124964818,
      "grad_norm": 1.1562577486038208,
      "learning_rate": 0.00010810810810810812,
      "loss": 11.2759,
      "step": 36
    },
    {
      "epoch": 0.1666197579510273,
      "grad_norm": 1.3762576580047607,
      "learning_rate": 0.0001111111111111111,
      "loss": 11.2271,
      "step": 37
    },
    {
      "epoch": 0.1711229946524064,
      "grad_norm": 0.34700194001197815,
      "learning_rate": 0.00011411411411411411,
      "loss": 10.8147,
      "step": 38
    },
    {
      "epoch": 0.17562623135378552,
      "grad_norm": 2.041144371032715,
      "learning_rate": 0.00011711711711711712,
      "loss": 11.5393,
      "step": 39
    },
    {
      "epoch": 0.18012946805516464,
      "grad_norm": 1.8909739255905151,
      "learning_rate": 0.00012012012012012012,
      "loss": 11.2405,
      "step": 40
    },
    {
      "epoch": 0.18463270475654375,
      "grad_norm": 0.338357537984848,
      "learning_rate": 0.00012312312312312313,
      "loss": 10.9688,
      "step": 41
    },
    {
      "epoch": 0.1891359414579229,
      "grad_norm": 2.6244544982910156,
      "learning_rate": 0.00012612612612612612,
      "loss": 11.8008,
      "step": 42
    },
    {
      "epoch": 0.193639178159302,
      "grad_norm": 3.036511182785034,
      "learning_rate": 0.00012912912912912915,
      "loss": 11.9268,
      "step": 43
    },
    {
      "epoch": 0.19814241486068113,
      "grad_norm": 1.3722182512283325,
      "learning_rate": 0.00013213213213213211,
      "loss": 10.8672,
      "step": 44
    },
    {
      "epoch": 0.20264565156206024,
      "grad_norm": 1.799058437347412,
      "learning_rate": 0.00013513513513513514,
      "loss": 10.8999,
      "step": 45
    },
    {
      "epoch": 0.20714888826343936,
      "grad_norm": 2.709153175354004,
      "learning_rate": 0.00013813813813813813,
      "loss": 11.4199,
      "step": 46
    },
    {
      "epoch": 0.21165212496481847,
      "grad_norm": 3.0937516689300537,
      "learning_rate": 0.00014114114114114116,
      "loss": 11.7085,
      "step": 47
    },
    {
      "epoch": 0.2161553616661976,
      "grad_norm": 1.2275416851043701,
      "learning_rate": 0.00014414414414414415,
      "loss": 10.7307,
      "step": 48
    },
    {
      "epoch": 0.2206585983675767,
      "grad_norm": 2.701630115509033,
      "learning_rate": 0.00014714714714714715,
      "loss": 11.2629,
      "step": 49
    },
    {
      "epoch": 0.22516183506895582,
      "grad_norm": 3.766303777694702,
      "learning_rate": 0.00015015015015015014,
      "loss": 11.8206,
      "step": 50
    },
    {
      "epoch": 0.22966507177033493,
      "grad_norm": 3.391174793243408,
      "learning_rate": 0.00015315315315315314,
      "loss": 11.2808,
      "step": 51
    },
    {
      "epoch": 0.23416830847171405,
      "grad_norm": 1.4929298162460327,
      "learning_rate": 0.00015615615615615616,
      "loss": 10.8286,
      "step": 52
    },
    {
      "epoch": 0.23867154517309316,
      "grad_norm": 1.9094494581222534,
      "learning_rate": 0.00015915915915915916,
      "loss": 10.8054,
      "step": 53
    },
    {
      "epoch": 0.24317478187447228,
      "grad_norm": 2.6136415004730225,
      "learning_rate": 0.00016216216216216218,
      "loss": 11.1411,
      "step": 54
    },
    {
      "epoch": 0.2476780185758514,
      "grad_norm": 2.4031522274017334,
      "learning_rate": 0.00016516516516516518,
      "loss": 11.0959,
      "step": 55
    },
    {
      "epoch": 0.2521812552772305,
      "grad_norm": 0.6030242443084717,
      "learning_rate": 0.00016816816816816817,
      "loss": 10.0815,
      "step": 56
    },
    {
      "epoch": 0.25668449197860965,
      "grad_norm": 2.150759696960449,
      "learning_rate": 0.00017117117117117117,
      "loss": 10.2625,
      "step": 57
    },
    {
      "epoch": 0.26118772867998874,
      "grad_norm": 3.0600764751434326,
      "learning_rate": 0.00017417417417417416,
      "loss": 10.5657,
      "step": 58
    },
    {
      "epoch": 0.2656909653813679,
      "grad_norm": 1.4120253324508667,
      "learning_rate": 0.0001771771771771772,
      "loss": 10.2957,
      "step": 59
    },
    {
      "epoch": 0.27019420208274697,
      "grad_norm": 0.7494283318519592,
      "learning_rate": 0.00018018018018018018,
      "loss": 9.4097,
      "step": 60
    },
    {
      "epoch": 0.2746974387841261,
      "grad_norm": 2.395098924636841,
      "learning_rate": 0.0001831831831831832,
      "loss": 10.554,
      "step": 61
    },
    {
      "epoch": 0.2792006754855052,
      "grad_norm": 1.3906259536743164,
      "learning_rate": 0.00018618618618618617,
      "loss": 9.6208,
      "step": 62
    },
    {
      "epoch": 0.28370391218688434,
      "grad_norm": 1.3099699020385742,
      "learning_rate": 0.0001891891891891892,
      "loss": 9.7788,
      "step": 63
    },
    {
      "epoch": 0.28820714888826343,
      "grad_norm": 1.452595591545105,
      "learning_rate": 0.0001921921921921922,
      "loss": 9.6062,
      "step": 64
    },
    {
      "epoch": 0.2927103855896426,
      "grad_norm": 0.7365480065345764,
      "learning_rate": 0.0001951951951951952,
      "loss": 9.2258,
      "step": 65
    },
    {
      "epoch": 0.29721362229102166,
      "grad_norm": 0.9627513885498047,
      "learning_rate": 0.0001981981981981982,
      "loss": 9.0054,
      "step": 66
    },
    {
      "epoch": 0.3017168589924008,
      "grad_norm": 0.7279314994812012,
      "learning_rate": 0.0002012012012012012,
      "loss": 8.6478,
      "step": 67
    },
    {
      "epoch": 0.3062200956937799,
      "grad_norm": 0.962017834186554,
      "learning_rate": 0.0002042042042042042,
      "loss": 8.8326,
      "step": 68
    },
    {
      "epoch": 0.31072333239515904,
      "grad_norm": 1.9660582542419434,
      "learning_rate": 0.0002072072072072072,
      "loss": 9.116,
      "step": 69
    },
    {
      "epoch": 0.3152265690965381,
      "grad_norm": 2.253432273864746,
      "learning_rate": 0.00021021021021021022,
      "loss": 8.3851,
      "step": 70
    },
    {
      "epoch": 0.31972980579791727,
      "grad_norm": 0.776524007320404,
      "learning_rate": 0.00021321321321321322,
      "loss": 8.0816,
      "step": 71
    },
    {
      "epoch": 0.32423304249929635,
      "grad_norm": 2.120450496673584,
      "learning_rate": 0.00021621621621621624,
      "loss": 8.3285,
      "step": 72
    },
    {
      "epoch": 0.3287362792006755,
      "grad_norm": 0.8740575313568115,
      "learning_rate": 0.00021921921921921924,
      "loss": 7.6313,
      "step": 73
    },
    {
      "epoch": 0.3332395159020546,
      "grad_norm": 2.5901741981506348,
      "learning_rate": 0.0002222222222222222,
      "loss": 8.4404,
      "step": 74
    },
    {
      "epoch": 0.3377427526034337,
      "grad_norm": 1.2358654737472534,
      "learning_rate": 0.00022522522522522523,
      "loss": 7.9466,
      "step": 75
    },
    {
      "epoch": 0.3422459893048128,
      "grad_norm": 1.7182945013046265,
      "learning_rate": 0.00022822822822822822,
      "loss": 7.3632,
      "step": 76
    },
    {
      "epoch": 0.34674922600619196,
      "grad_norm": 1.7163257598876953,
      "learning_rate": 0.00023123123123123125,
      "loss": 6.587,
      "step": 77
    },
    {
      "epoch": 0.35125246270757104,
      "grad_norm": 1.407338261604309,
      "learning_rate": 0.00023423423423423424,
      "loss": 6.9392,
      "step": 78
    },
    {
      "epoch": 0.3557556994089502,
      "grad_norm": 1.4500354528427124,
      "learning_rate": 0.00023723723723723724,
      "loss": 6.639,
      "step": 79
    },
    {
      "epoch": 0.3602589361103293,
      "grad_norm": 2.001293420791626,
      "learning_rate": 0.00024024024024024023,
      "loss": 6.6012,
      "step": 80
    },
    {
      "epoch": 0.3647621728117084,
      "grad_norm": 2.0217416286468506,
      "learning_rate": 0.00024324324324324326,
      "loss": 6.8608,
      "step": 81
    },
    {
      "epoch": 0.3692654095130875,
      "grad_norm": 1.383479118347168,
      "learning_rate": 0.00024624624624624625,
      "loss": 6.556,
      "step": 82
    },
    {
      "epoch": 0.37376864621446665,
      "grad_norm": 0.9966714978218079,
      "learning_rate": 0.0002492492492492492,
      "loss": 5.9146,
      "step": 83
    },
    {
      "epoch": 0.3782718829158458,
      "grad_norm": 0.848386824131012,
      "learning_rate": 0.00025225225225225225,
      "loss": 6.4429,
      "step": 84
    },
    {
      "epoch": 0.3827751196172249,
      "grad_norm": 0.518646776676178,
      "learning_rate": 0.00025525525525525527,
      "loss": 5.5917,
      "step": 85
    },
    {
      "epoch": 0.387278356318604,
      "grad_norm": 1.2805179357528687,
      "learning_rate": 0.0002582582582582583,
      "loss": 6.043,
      "step": 86
    },
    {
      "epoch": 0.3917815930199831,
      "grad_norm": 1.6030951738357544,
      "learning_rate": 0.00026126126126126126,
      "loss": 5.747,
      "step": 87
    },
    {
      "epoch": 0.39628482972136225,
      "grad_norm": 1.3164340257644653,
      "learning_rate": 0.00026426426426426423,
      "loss": 6.0458,
      "step": 88
    },
    {
      "epoch": 0.40078806642274134,
      "grad_norm": 1.806431770324707,
      "learning_rate": 0.0002672672672672673,
      "loss": 5.6934,
      "step": 89
    },
    {
      "epoch": 0.4052913031241205,
      "grad_norm": 1.647315502166748,
      "learning_rate": 0.0002702702702702703,
      "loss": 5.8825,
      "step": 90
    },
    {
      "epoch": 0.40979453982549957,
      "grad_norm": 0.9183889627456665,
      "learning_rate": 0.0002732732732732733,
      "loss": 5.5254,
      "step": 91
    },
    {
      "epoch": 0.4142977765268787,
      "grad_norm": 0.8611122965812683,
      "learning_rate": 0.00027627627627627627,
      "loss": 5.968,
      "step": 92
    },
    {
      "epoch": 0.4188010132282578,
      "grad_norm": 1.484062910079956,
      "learning_rate": 0.0002792792792792793,
      "loss": 5.4936,
      "step": 93
    },
    {
      "epoch": 0.42330424992963694,
      "grad_norm": 0.9014554619789124,
      "learning_rate": 0.0002822822822822823,
      "loss": 4.895,
      "step": 94
    },
    {
      "epoch": 0.42780748663101603,
      "grad_norm": 2.190580368041992,
      "learning_rate": 0.0002852852852852853,
      "loss": 5.2504,
      "step": 95
    },
    {
      "epoch": 0.4323107233323952,
      "grad_norm": 2.565406322479248,
      "learning_rate": 0.0002882882882882883,
      "loss": 5.7723,
      "step": 96
    },
    {
      "epoch": 0.43681396003377426,
      "grad_norm": 0.7305907011032104,
      "learning_rate": 0.00029129129129129127,
      "loss": 4.7953,
      "step": 97
    },
    {
      "epoch": 0.4413171967351534,
      "grad_norm": 1.306504487991333,
      "learning_rate": 0.0002942942942942943,
      "loss": 4.9514,
      "step": 98
    },
    {
      "epoch": 0.4458204334365325,
      "grad_norm": 1.0687897205352783,
      "learning_rate": 0.0002972972972972973,
      "loss": 4.6152,
      "step": 99
    },
    {
      "epoch": 0.45032367013791164,
      "grad_norm": 0.8860434293746948,
      "learning_rate": 0.0003003003003003003,
      "loss": 4.4881,
      "step": 100
    },
    {
      "epoch": 0.4548269068392907,
      "grad_norm": 1.0436294078826904,
      "learning_rate": 0.0003033033033033033,
      "loss": 4.5485,
      "step": 101
    },
    {
      "epoch": 0.45933014354066987,
      "grad_norm": 0.6835625171661377,
      "learning_rate": 0.0003063063063063063,
      "loss": 3.6363,
      "step": 102
    },
    {
      "epoch": 0.46383338024204895,
      "grad_norm": 1.2729618549346924,
      "learning_rate": 0.00030930930930930936,
      "loss": 4.4307,
      "step": 103
    },
    {
      "epoch": 0.4683366169434281,
      "grad_norm": 0.6087899208068848,
      "learning_rate": 0.0003123123123123123,
      "loss": 4.4888,
      "step": 104
    },
    {
      "epoch": 0.4728398536448072,
      "grad_norm": 0.6827735304832458,
      "learning_rate": 0.00031531531531531535,
      "loss": 4.7769,
      "step": 105
    },
    {
      "epoch": 0.4773430903461863,
      "grad_norm": 0.51930832862854,
      "learning_rate": 0.0003183183183183183,
      "loss": 3.8468,
      "step": 106
    },
    {
      "epoch": 0.4818463270475654,
      "grad_norm": 0.5810885429382324,
      "learning_rate": 0.0003213213213213213,
      "loss": 4.1929,
      "step": 107
    },
    {
      "epoch": 0.48634956374894456,
      "grad_norm": 0.3419479429721832,
      "learning_rate": 0.00032432432432432436,
      "loss": 3.4856,
      "step": 108
    },
    {
      "epoch": 0.49085280045032365,
      "grad_norm": 0.5171966552734375,
      "learning_rate": 0.00032732732732732733,
      "loss": 3.9246,
      "step": 109
    },
    {
      "epoch": 0.4953560371517028,
      "grad_norm": 0.7328407168388367,
      "learning_rate": 0.00033033033033033035,
      "loss": 3.9204,
      "step": 110
    },
    {
      "epoch": 0.4998592738530819,
      "grad_norm": 0.4132286608219147,
      "learning_rate": 0.0003333333333333333,
      "loss": 3.8442,
      "step": 111
    },
    {
      "epoch": 0.504362510554461,
      "grad_norm": 0.5514088869094849,
      "learning_rate": 0.00033633633633633635,
      "loss": 3.9437,
      "step": 112
    },
    {
      "epoch": 0.5088657472558401,
      "grad_norm": 0.540162205696106,
      "learning_rate": 0.00033933933933933937,
      "loss": 3.5073,
      "step": 113
    },
    {
      "epoch": 0.5133689839572193,
      "grad_norm": 0.3597669303417206,
      "learning_rate": 0.00034234234234234234,
      "loss": 3.5683,
      "step": 114
    },
    {
      "epoch": 0.5178722206585984,
      "grad_norm": 0.4368937611579895,
      "learning_rate": 0.00034534534534534536,
      "loss": 3.2236,
      "step": 115
    },
    {
      "epoch": 0.5223754573599775,
      "grad_norm": 0.4715961813926697,
      "learning_rate": 0.00034834834834834833,
      "loss": 3.6161,
      "step": 116
    },
    {
      "epoch": 0.5268786940613566,
      "grad_norm": 0.5239056348800659,
      "learning_rate": 0.00035135135135135135,
      "loss": 3.8154,
      "step": 117
    },
    {
      "epoch": 0.5313819307627358,
      "grad_norm": 0.4202255308628082,
      "learning_rate": 0.0003543543543543544,
      "loss": 3.6277,
      "step": 118
    },
    {
      "epoch": 0.5358851674641149,
      "grad_norm": 0.5101836919784546,
      "learning_rate": 0.00035735735735735734,
      "loss": 3.3028,
      "step": 119
    },
    {
      "epoch": 0.5403884041654939,
      "grad_norm": 0.6668221354484558,
      "learning_rate": 0.00036036036036036037,
      "loss": 3.6431,
      "step": 120
    },
    {
      "epoch": 0.544891640866873,
      "grad_norm": 0.5118266344070435,
      "learning_rate": 0.0003633633633633634,
      "loss": 3.447,
      "step": 121
    },
    {
      "epoch": 0.5493948775682522,
      "grad_norm": 0.41282254457473755,
      "learning_rate": 0.0003663663663663664,
      "loss": 3.5132,
      "step": 122
    },
    {
      "epoch": 0.5538981142696313,
      "grad_norm": 0.4726785719394684,
      "learning_rate": 0.0003693693693693694,
      "loss": 3.6949,
      "step": 123
    },
    {
      "epoch": 0.5584013509710104,
      "grad_norm": 0.5529161691665649,
      "learning_rate": 0.00037237237237237235,
      "loss": 3.9875,
      "step": 124
    },
    {
      "epoch": 0.5629045876723895,
      "grad_norm": 0.5503171682357788,
      "learning_rate": 0.00037537537537537537,
      "loss": 3.6662,
      "step": 125
    },
    {
      "epoch": 0.5674078243737687,
      "grad_norm": 0.4103119969367981,
      "learning_rate": 0.0003783783783783784,
      "loss": 3.8451,
      "step": 126
    },
    {
      "epoch": 0.5719110610751478,
      "grad_norm": 0.7455817461013794,
      "learning_rate": 0.0003813813813813814,
      "loss": 3.3913,
      "step": 127
    },
    {
      "epoch": 0.5764142977765269,
      "grad_norm": 0.3962450921535492,
      "learning_rate": 0.0003843843843843844,
      "loss": 3.3235,
      "step": 128
    },
    {
      "epoch": 0.580917534477906,
      "grad_norm": 0.4832507371902466,
      "learning_rate": 0.00038738738738738736,
      "loss": 3.0515,
      "step": 129
    },
    {
      "epoch": 0.5854207711792851,
      "grad_norm": 0.4616628885269165,
      "learning_rate": 0.0003903903903903904,
      "loss": 2.719,
      "step": 130
    },
    {
      "epoch": 0.5899240078806642,
      "grad_norm": 0.40170571208000183,
      "learning_rate": 0.0003933933933933934,
      "loss": 2.7992,
      "step": 131
    },
    {
      "epoch": 0.5944272445820433,
      "grad_norm": 0.43935099244117737,
      "learning_rate": 0.0003963963963963964,
      "loss": 2.6869,
      "step": 132
    },
    {
      "epoch": 0.5989304812834224,
      "grad_norm": 0.5717755556106567,
      "learning_rate": 0.0003993993993993994,
      "loss": 3.1022,
      "step": 133
    },
    {
      "epoch": 0.6034337179848016,
      "grad_norm": 0.5147386193275452,
      "learning_rate": 0.0004024024024024024,
      "loss": 3.4498,
      "step": 134
    },
    {
      "epoch": 0.6079369546861807,
      "grad_norm": 0.43912047147750854,
      "learning_rate": 0.00040540540540540544,
      "loss": 2.7528,
      "step": 135
    },
    {
      "epoch": 0.6124401913875598,
      "grad_norm": 0.3223874866962433,
      "learning_rate": 0.0004084084084084084,
      "loss": 3.275,
      "step": 136
    },
    {
      "epoch": 0.6169434280889389,
      "grad_norm": 0.45413368940353394,
      "learning_rate": 0.00041141141141141143,
      "loss": 3.1682,
      "step": 137
    },
    {
      "epoch": 0.6214466647903181,
      "grad_norm": 0.3956907391548157,
      "learning_rate": 0.0004144144144144144,
      "loss": 3.061,
      "step": 138
    },
    {
      "epoch": 0.6259499014916972,
      "grad_norm": 0.572889506816864,
      "learning_rate": 0.0004174174174174174,
      "loss": 3.1602,
      "step": 139
    },
    {
      "epoch": 0.6304531381930762,
      "grad_norm": 0.4468690752983093,
      "learning_rate": 0.00042042042042042044,
      "loss": 3.426,
      "step": 140
    },
    {
      "epoch": 0.6349563748944554,
      "grad_norm": 0.8951681852340698,
      "learning_rate": 0.0004234234234234234,
      "loss": 3.5233,
      "step": 141
    },
    {
      "epoch": 0.6394596115958345,
      "grad_norm": 0.4895051121711731,
      "learning_rate": 0.00042642642642642644,
      "loss": 3.1264,
      "step": 142
    },
    {
      "epoch": 0.6439628482972136,
      "grad_norm": 0.3894469141960144,
      "learning_rate": 0.0004294294294294294,
      "loss": 3.0127,
      "step": 143
    },
    {
      "epoch": 0.6484660849985927,
      "grad_norm": 0.3491523861885071,
      "learning_rate": 0.0004324324324324325,
      "loss": 2.2697,
      "step": 144
    },
    {
      "epoch": 0.6529693216999719,
      "grad_norm": 0.31211450695991516,
      "learning_rate": 0.00043543543543543545,
      "loss": 2.7396,
      "step": 145
    },
    {
      "epoch": 0.657472558401351,
      "grad_norm": 0.34300729632377625,
      "learning_rate": 0.0004384384384384385,
      "loss": 2.6538,
      "step": 146
    },
    {
      "epoch": 0.6619757951027301,
      "grad_norm": 0.4314630627632141,
      "learning_rate": 0.00044144144144144144,
      "loss": 3.1535,
      "step": 147
    },
    {
      "epoch": 0.6664790318041092,
      "grad_norm": 0.30193760991096497,
      "learning_rate": 0.0004444444444444444,
      "loss": 2.8573,
      "step": 148
    },
    {
      "epoch": 0.6709822685054884,
      "grad_norm": 0.3595177233219147,
      "learning_rate": 0.0004474474474474475,
      "loss": 2.7062,
      "step": 149
    },
    {
      "epoch": 0.6754855052068675,
      "grad_norm": 0.46441251039505005,
      "learning_rate": 0.00045045045045045046,
      "loss": 2.4416,
      "step": 150
    },
    {
      "epoch": 0.6799887419082465,
      "grad_norm": 0.3109164834022522,
      "learning_rate": 0.0004534534534534535,
      "loss": 2.736,
      "step": 151
    },
    {
      "epoch": 0.6844919786096256,
      "grad_norm": 0.4455137550830841,
      "learning_rate": 0.00045645645645645645,
      "loss": 2.6202,
      "step": 152
    },
    {
      "epoch": 0.6889952153110048,
      "grad_norm": 0.42037433385849,
      "learning_rate": 0.00045945945945945947,
      "loss": 2.3878,
      "step": 153
    },
    {
      "epoch": 0.6934984520123839,
      "grad_norm": 0.2772159278392792,
      "learning_rate": 0.0004624624624624625,
      "loss": 2.5363,
      "step": 154
    },
    {
      "epoch": 0.698001688713763,
      "grad_norm": 0.45600050687789917,
      "learning_rate": 0.00046546546546546546,
      "loss": 2.899,
      "step": 155
    },
    {
      "epoch": 0.7025049254151421,
      "grad_norm": 0.5059528350830078,
      "learning_rate": 0.0004684684684684685,
      "loss": 2.4719,
      "step": 156
    },
    {
      "epoch": 0.7070081621165213,
      "grad_norm": 0.5729184150695801,
      "learning_rate": 0.00047147147147147146,
      "loss": 2.811,
      "step": 157
    },
    {
      "epoch": 0.7115113988179004,
      "grad_norm": 0.38236573338508606,
      "learning_rate": 0.0004744744744744745,
      "loss": 2.4481,
      "step": 158
    },
    {
      "epoch": 0.7160146355192795,
      "grad_norm": 0.3228510022163391,
      "learning_rate": 0.0004774774774774775,
      "loss": 2.6379,
      "step": 159
    },
    {
      "epoch": 0.7205178722206586,
      "grad_norm": 0.3517516553401947,
      "learning_rate": 0.00048048048048048047,
      "loss": 2.1915,
      "step": 160
    },
    {
      "epoch": 0.7250211089220377,
      "grad_norm": 0.35912227630615234,
      "learning_rate": 0.0004834834834834835,
      "loss": 2.5807,
      "step": 161
    },
    {
      "epoch": 0.7295243456234168,
      "grad_norm": 0.401813805103302,
      "learning_rate": 0.0004864864864864865,
      "loss": 2.862,
      "step": 162
    },
    {
      "epoch": 0.7340275823247959,
      "grad_norm": 0.2986292541027069,
      "learning_rate": 0.0004894894894894895,
      "loss": 2.4828,
      "step": 163
    },
    {
      "epoch": 0.738530819026175,
      "grad_norm": 0.35682910680770874,
      "learning_rate": 0.0004924924924924925,
      "loss": 2.1295,
      "step": 164
    },
    {
      "epoch": 0.7430340557275542,
      "grad_norm": 0.4273281693458557,
      "learning_rate": 0.0004954954954954955,
      "loss": 2.4726,
      "step": 165
    },
    {
      "epoch": 0.7475372924289333,
      "grad_norm": 0.33828967809677124,
      "learning_rate": 0.0004984984984984984,
      "loss": 2.556,
      "step": 166
    },
    {
      "epoch": 0.7520405291303124,
      "grad_norm": 0.2536942958831787,
      "learning_rate": 0.0005015015015015016,
      "loss": 2.5637,
      "step": 167
    },
    {
      "epoch": 0.7565437658316916,
      "grad_norm": 0.4245088994503021,
      "learning_rate": 0.0005045045045045045,
      "loss": 2.1993,
      "step": 168
    },
    {
      "epoch": 0.7610470025330707,
      "grad_norm": 0.2541749179363251,
      "learning_rate": 0.0005075075075075075,
      "loss": 2.4981,
      "step": 169
    },
    {
      "epoch": 0.7655502392344498,
      "grad_norm": 0.39657002687454224,
      "learning_rate": 0.0005105105105105105,
      "loss": 2.7148,
      "step": 170
    },
    {
      "epoch": 0.7700534759358288,
      "grad_norm": 0.38240909576416016,
      "learning_rate": 0.0005135135135135135,
      "loss": 2.9043,
      "step": 171
    },
    {
      "epoch": 0.774556712637208,
      "grad_norm": 0.42327240109443665,
      "learning_rate": 0.0005165165165165166,
      "loss": 2.5403,
      "step": 172
    },
    {
      "epoch": 0.7790599493385871,
      "grad_norm": 0.38236236572265625,
      "learning_rate": 0.0005195195195195195,
      "loss": 2.5276,
      "step": 173
    },
    {
      "epoch": 0.7835631860399662,
      "grad_norm": 0.35747382044792175,
      "learning_rate": 0.0005225225225225225,
      "loss": 2.4703,
      "step": 174
    },
    {
      "epoch": 0.7880664227413453,
      "grad_norm": 0.32337093353271484,
      "learning_rate": 0.0005255255255255255,
      "loss": 2.5516,
      "step": 175
    },
    {
      "epoch": 0.7925696594427245,
      "grad_norm": 0.42623743414878845,
      "learning_rate": 0.0005285285285285285,
      "loss": 3.0191,
      "step": 176
    },
    {
      "epoch": 0.7970728961441036,
      "grad_norm": 0.36940693855285645,
      "learning_rate": 0.0005315315315315316,
      "loss": 2.387,
      "step": 177
    },
    {
      "epoch": 0.8015761328454827,
      "grad_norm": 0.3408333361148834,
      "learning_rate": 0.0005345345345345346,
      "loss": 2.2308,
      "step": 178
    },
    {
      "epoch": 0.8060793695468618,
      "grad_norm": 0.3236682415008545,
      "learning_rate": 0.0005375375375375375,
      "loss": 2.2939,
      "step": 179
    },
    {
      "epoch": 0.810582606248241,
      "grad_norm": 0.22854489088058472,
      "learning_rate": 0.0005405405405405405,
      "loss": 2.1896,
      "step": 180
    },
    {
      "epoch": 0.81508584294962,
      "grad_norm": 0.37010523676872253,
      "learning_rate": 0.0005435435435435435,
      "loss": 2.5783,
      "step": 181
    },
    {
      "epoch": 0.8195890796509991,
      "grad_norm": 0.3924228549003601,
      "learning_rate": 0.0005465465465465466,
      "loss": 2.4366,
      "step": 182
    },
    {
      "epoch": 0.8240923163523782,
      "grad_norm": 0.5287384986877441,
      "learning_rate": 0.0005495495495495496,
      "loss": 2.2488,
      "step": 183
    },
    {
      "epoch": 0.8285955530537574,
      "grad_norm": 0.50321364402771,
      "learning_rate": 0.0005525525525525525,
      "loss": 2.7019,
      "step": 184
    },
    {
      "epoch": 0.8330987897551365,
      "grad_norm": 0.426675021648407,
      "learning_rate": 0.0005555555555555556,
      "loss": 2.3582,
      "step": 185
    },
    {
      "epoch": 0.8376020264565156,
      "grad_norm": 0.7029376029968262,
      "learning_rate": 0.0005585585585585586,
      "loss": 2.8218,
      "step": 186
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 0.459699422121048,
      "learning_rate": 0.0005615615615615616,
      "loss": 2.2562,
      "step": 187
    },
    {
      "epoch": 0.8466084998592739,
      "grad_norm": 0.21941953897476196,
      "learning_rate": 0.0005645645645645646,
      "loss": 2.0946,
      "step": 188
    },
    {
      "epoch": 0.851111736560653,
      "grad_norm": 0.4013856053352356,
      "learning_rate": 0.0005675675675675675,
      "loss": 2.2249,
      "step": 189
    },
    {
      "epoch": 0.8556149732620321,
      "grad_norm": 0.43086570501327515,
      "learning_rate": 0.0005705705705705706,
      "loss": 2.4239,
      "step": 190
    },
    {
      "epoch": 0.8601182099634112,
      "grad_norm": 0.46246516704559326,
      "learning_rate": 0.0005735735735735736,
      "loss": 2.0621,
      "step": 191
    },
    {
      "epoch": 0.8646214466647903,
      "grad_norm": 0.6164516806602478,
      "learning_rate": 0.0005765765765765766,
      "loss": 2.4715,
      "step": 192
    },
    {
      "epoch": 0.8691246833661694,
      "grad_norm": 0.37676942348480225,
      "learning_rate": 0.0005795795795795796,
      "loss": 2.1214,
      "step": 193
    },
    {
      "epoch": 0.8736279200675485,
      "grad_norm": 0.5583397746086121,
      "learning_rate": 0.0005825825825825825,
      "loss": 2.0619,
      "step": 194
    },
    {
      "epoch": 0.8781311567689276,
      "grad_norm": 0.47195494174957275,
      "learning_rate": 0.0005855855855855856,
      "loss": 2.1052,
      "step": 195
    },
    {
      "epoch": 0.8826343934703068,
      "grad_norm": 0.22108709812164307,
      "learning_rate": 0.0005885885885885886,
      "loss": 2.1299,
      "step": 196
    },
    {
      "epoch": 0.8871376301716859,
      "grad_norm": 0.47472381591796875,
      "learning_rate": 0.0005915915915915916,
      "loss": 1.969,
      "step": 197
    },
    {
      "epoch": 0.891640866873065,
      "grad_norm": 0.358117938041687,
      "learning_rate": 0.0005945945945945946,
      "loss": 2.1988,
      "step": 198
    },
    {
      "epoch": 0.8961441035744442,
      "grad_norm": 0.3472481966018677,
      "learning_rate": 0.0005975975975975976,
      "loss": 2.1265,
      "step": 199
    },
    {
      "epoch": 0.9006473402758233,
      "grad_norm": 0.24159933626651764,
      "learning_rate": 0.0006006006006006006,
      "loss": 2.3894,
      "step": 200
    },
    {
      "epoch": 0.9051505769772024,
      "grad_norm": 0.23330183327198029,
      "learning_rate": 0.0006036036036036037,
      "loss": 1.8615,
      "step": 201
    },
    {
      "epoch": 0.9096538136785814,
      "grad_norm": 0.3857947289943695,
      "learning_rate": 0.0006066066066066066,
      "loss": 2.5049,
      "step": 202
    },
    {
      "epoch": 0.9141570503799606,
      "grad_norm": 0.25243741273880005,
      "learning_rate": 0.0006096096096096096,
      "loss": 2.0004,
      "step": 203
    },
    {
      "epoch": 0.9186602870813397,
      "grad_norm": 0.23034599423408508,
      "learning_rate": 0.0006126126126126126,
      "loss": 2.069,
      "step": 204
    },
    {
      "epoch": 0.9231635237827188,
      "grad_norm": 0.3682357966899872,
      "learning_rate": 0.0006156156156156156,
      "loss": 2.2119,
      "step": 205
    },
    {
      "epoch": 0.9276667604840979,
      "grad_norm": 0.20145060122013092,
      "learning_rate": 0.0006186186186186187,
      "loss": 1.8217,
      "step": 206
    },
    {
      "epoch": 0.9321699971854771,
      "grad_norm": 0.32661041617393494,
      "learning_rate": 0.0006216216216216216,
      "loss": 2.1043,
      "step": 207
    },
    {
      "epoch": 0.9366732338868562,
      "grad_norm": 0.2681295871734619,
      "learning_rate": 0.0006246246246246246,
      "loss": 2.1436,
      "step": 208
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": 0.24428609013557434,
      "learning_rate": 0.0006276276276276276,
      "loss": 2.5657,
      "step": 209
    },
    {
      "epoch": 0.9456797072896144,
      "grad_norm": 0.30161920189857483,
      "learning_rate": 0.0006306306306306307,
      "loss": 2.4368,
      "step": 210
    },
    {
      "epoch": 0.9501829439909936,
      "grad_norm": 0.3480898439884186,
      "learning_rate": 0.0006336336336336337,
      "loss": 2.2931,
      "step": 211
    },
    {
      "epoch": 0.9546861806923727,
      "grad_norm": 0.2579399049282074,
      "learning_rate": 0.0006366366366366366,
      "loss": 2.5442,
      "step": 212
    },
    {
      "epoch": 0.9591894173937517,
      "grad_norm": 0.20143058896064758,
      "learning_rate": 0.0006396396396396397,
      "loss": 1.9077,
      "step": 213
    },
    {
      "epoch": 0.9636926540951308,
      "grad_norm": 0.20934759080410004,
      "learning_rate": 0.0006426426426426426,
      "loss": 1.9016,
      "step": 214
    },
    {
      "epoch": 0.96819589079651,
      "grad_norm": 0.20459233224391937,
      "learning_rate": 0.0006456456456456457,
      "loss": 2.0145,
      "step": 215
    },
    {
      "epoch": 0.9726991274978891,
      "grad_norm": 0.23404109477996826,
      "learning_rate": 0.0006486486486486487,
      "loss": 2.3038,
      "step": 216
    },
    {
      "epoch": 0.9772023641992682,
      "grad_norm": 0.2792562246322632,
      "learning_rate": 0.0006516516516516516,
      "loss": 1.7429,
      "step": 217
    },
    {
      "epoch": 0.9817056009006473,
      "grad_norm": 0.26750704646110535,
      "learning_rate": 0.0006546546546546547,
      "loss": 1.8916,
      "step": 218
    },
    {
      "epoch": 0.9862088376020265,
      "grad_norm": 0.45571088790893555,
      "learning_rate": 0.0006576576576576577,
      "loss": 2.1116,
      "step": 219
    },
    {
      "epoch": 0.9907120743034056,
      "grad_norm": 0.3535434603691101,
      "learning_rate": 0.0006606606606606607,
      "loss": 2.5038,
      "step": 220
    },
    {
      "epoch": 0.9952153110047847,
      "grad_norm": 0.25916987657546997,
      "learning_rate": 0.0006636636636636637,
      "loss": 1.8527,
      "step": 221
    },
    {
      "epoch": 0.9997185477061638,
      "grad_norm": 0.22237873077392578,
      "learning_rate": 0.0006666666666666666,
      "loss": 1.8202,
      "step": 222
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.22237873077392578,
      "learning_rate": 0.0006696696696696697,
      "loss": 0.086,
      "step": 223
    },
    {
      "epoch": 1.0,
      "eval_f1": 0.9513665594855305,
      "eval_loss": 0.0628882423043251,
      "eval_runtime": 26.5207,
      "eval_samples_per_second": 188.457,
      "eval_steps_per_second": 5.92,
      "step": 223
    },
    {
      "epoch": 1.004503236701379,
      "grad_norm": 0.20517794787883759,
      "learning_rate": 0.0006726726726726727,
      "loss": 1.4033,
      "step": 224
    },
    {
      "epoch": 1.0090064734027582,
      "grad_norm": 0.32050836086273193,
      "learning_rate": 0.0006756756756756757,
      "loss": 1.499,
      "step": 225
    },
    {
      "epoch": 1.0135097101041373,
      "grad_norm": 0.2551385164260864,
      "learning_rate": 0.0006786786786786787,
      "loss": 2.0603,
      "step": 226
    },
    {
      "epoch": 1.0180129468055166,
      "grad_norm": 0.201771542429924,
      "learning_rate": 0.0006816816816816817,
      "loss": 1.5606,
      "step": 227
    },
    {
      "epoch": 1.0225161835068957,
      "grad_norm": 0.22037766873836517,
      "learning_rate": 0.0006846846846846847,
      "loss": 1.398,
      "step": 228
    },
    {
      "epoch": 1.0270194202082747,
      "grad_norm": 0.2888183891773224,
      "learning_rate": 0.0006876876876876877,
      "loss": 2.2232,
      "step": 229
    },
    {
      "epoch": 1.0315226569096538,
      "grad_norm": 0.3017699122428894,
      "learning_rate": 0.0006906906906906907,
      "loss": 1.8979,
      "step": 230
    },
    {
      "epoch": 1.036025893611033,
      "grad_norm": 0.20387214422225952,
      "learning_rate": 0.0006936936936936937,
      "loss": 1.6788,
      "step": 231
    },
    {
      "epoch": 1.040529130312412,
      "grad_norm": 0.27763494849205017,
      "learning_rate": 0.0006966966966966967,
      "loss": 1.5044,
      "step": 232
    },
    {
      "epoch": 1.045032367013791,
      "grad_norm": 0.21710346639156342,
      "learning_rate": 0.0006996996996996997,
      "loss": 1.6544,
      "step": 233
    },
    {
      "epoch": 1.0495356037151702,
      "grad_norm": 0.27818503975868225,
      "learning_rate": 0.0007027027027027027,
      "loss": 1.9259,
      "step": 234
    },
    {
      "epoch": 1.0540388404165495,
      "grad_norm": 0.21940742433071136,
      "learning_rate": 0.0007057057057057057,
      "loss": 1.8794,
      "step": 235
    },
    {
      "epoch": 1.0585420771179286,
      "grad_norm": 0.5535475611686707,
      "learning_rate": 0.0007087087087087087,
      "loss": 2.0203,
      "step": 236
    },
    {
      "epoch": 1.0630453138193077,
      "grad_norm": 0.3533354103565216,
      "learning_rate": 0.0007117117117117117,
      "loss": 1.4292,
      "step": 237
    },
    {
      "epoch": 1.0675485505206868,
      "grad_norm": 0.21682749688625336,
      "learning_rate": 0.0007147147147147147,
      "loss": 1.3441,
      "step": 238
    },
    {
      "epoch": 1.0720517872220658,
      "grad_norm": 0.3451046347618103,
      "learning_rate": 0.0007177177177177178,
      "loss": 1.8384,
      "step": 239
    },
    {
      "epoch": 1.076555023923445,
      "grad_norm": 0.21232527494430542,
      "learning_rate": 0.0007207207207207207,
      "loss": 1.6277,
      "step": 240
    },
    {
      "epoch": 1.081058260624824,
      "grad_norm": 0.33475983142852783,
      "learning_rate": 0.0007237237237237238,
      "loss": 1.9253,
      "step": 241
    },
    {
      "epoch": 1.085561497326203,
      "grad_norm": 0.2781691551208496,
      "learning_rate": 0.0007267267267267268,
      "loss": 1.4588,
      "step": 242
    },
    {
      "epoch": 1.0900647340275824,
      "grad_norm": 0.3773779273033142,
      "learning_rate": 0.0007297297297297297,
      "loss": 2.0303,
      "step": 243
    },
    {
      "epoch": 1.0945679707289615,
      "grad_norm": 0.3402385711669922,
      "learning_rate": 0.0007327327327327328,
      "loss": 1.9541,
      "step": 244
    },
    {
      "epoch": 1.0990712074303406,
      "grad_norm": 0.20707853138446808,
      "learning_rate": 0.0007357357357357357,
      "loss": 1.5136,
      "step": 245
    },
    {
      "epoch": 1.1035744441317197,
      "grad_norm": 0.2260415256023407,
      "learning_rate": 0.0007387387387387388,
      "loss": 1.3829,
      "step": 246
    },
    {
      "epoch": 1.1080776808330988,
      "grad_norm": 0.22149665653705597,
      "learning_rate": 0.0007417417417417418,
      "loss": 1.5345,
      "step": 247
    },
    {
      "epoch": 1.1125809175344779,
      "grad_norm": 0.43235012888908386,
      "learning_rate": 0.0007447447447447447,
      "loss": 2.2825,
      "step": 248
    },
    {
      "epoch": 1.117084154235857,
      "grad_norm": 0.36835038661956787,
      "learning_rate": 0.0007477477477477478,
      "loss": 1.7852,
      "step": 249
    },
    {
      "epoch": 1.1215873909372363,
      "grad_norm": 0.38590097427368164,
      "learning_rate": 0.0007507507507507507,
      "loss": 1.8858,
      "step": 250
    },
    {
      "epoch": 1.1260906276386153,
      "grad_norm": 0.5977428555488586,
      "learning_rate": 0.0007537537537537538,
      "loss": 2.4003,
      "step": 251
    },
    {
      "epoch": 1.1305938643399944,
      "grad_norm": 0.2272792011499405,
      "learning_rate": 0.0007567567567567568,
      "loss": 1.8394,
      "step": 252
    },
    {
      "epoch": 1.1350971010413735,
      "grad_norm": 0.7113818526268005,
      "learning_rate": 0.0007597597597597597,
      "loss": 1.5468,
      "step": 253
    },
    {
      "epoch": 1.1396003377427526,
      "grad_norm": 0.42485618591308594,
      "learning_rate": 0.0007627627627627628,
      "loss": 1.7304,
      "step": 254
    },
    {
      "epoch": 1.1441035744441317,
      "grad_norm": 0.47235074639320374,
      "learning_rate": 0.0007657657657657658,
      "loss": 1.8211,
      "step": 255
    },
    {
      "epoch": 1.1486068111455108,
      "grad_norm": 0.3582097291946411,
      "learning_rate": 0.0007687687687687688,
      "loss": 1.8401,
      "step": 256
    },
    {
      "epoch": 1.1531100478468899,
      "grad_norm": 0.4004895091056824,
      "learning_rate": 0.0007717717717717718,
      "loss": 2.4873,
      "step": 257
    },
    {
      "epoch": 1.157613284548269,
      "grad_norm": 0.3389084041118622,
      "learning_rate": 0.0007747747747747747,
      "loss": 1.7367,
      "step": 258
    },
    {
      "epoch": 1.1621165212496483,
      "grad_norm": 0.2877562344074249,
      "learning_rate": 0.0007777777777777778,
      "loss": 1.6326,
      "step": 259
    },
    {
      "epoch": 1.1666197579510273,
      "grad_norm": 0.29878494143486023,
      "learning_rate": 0.0007807807807807808,
      "loss": 1.6832,
      "step": 260
    },
    {
      "epoch": 1.1711229946524064,
      "grad_norm": 0.7459105253219604,
      "learning_rate": 0.0007837837837837838,
      "loss": 2.0777,
      "step": 261
    },
    {
      "epoch": 1.1756262313537855,
      "grad_norm": 0.3831622302532196,
      "learning_rate": 0.0007867867867867868,
      "loss": 1.9971,
      "step": 262
    },
    {
      "epoch": 1.1801294680551646,
      "grad_norm": 0.5508321523666382,
      "learning_rate": 0.0007897897897897897,
      "loss": 2.2701,
      "step": 263
    },
    {
      "epoch": 1.1846327047565437,
      "grad_norm": 0.5765615105628967,
      "learning_rate": 0.0007927927927927928,
      "loss": 1.7857,
      "step": 264
    },
    {
      "epoch": 1.189135941457923,
      "grad_norm": 0.7265318036079407,
      "learning_rate": 0.0007957957957957959,
      "loss": 2.3921,
      "step": 265
    },
    {
      "epoch": 1.193639178159302,
      "grad_norm": 0.4829258918762207,
      "learning_rate": 0.0007987987987987988,
      "loss": 1.9664,
      "step": 266
    },
    {
      "epoch": 1.1981424148606812,
      "grad_norm": 0.4693364202976227,
      "learning_rate": 0.0008018018018018018,
      "loss": 2.1625,
      "step": 267
    },
    {
      "epoch": 1.2026456515620603,
      "grad_norm": 0.3665004372596741,
      "learning_rate": 0.0008048048048048048,
      "loss": 1.9243,
      "step": 268
    },
    {
      "epoch": 1.2071488882634394,
      "grad_norm": 0.40927746891975403,
      "learning_rate": 0.0008078078078078079,
      "loss": 1.9353,
      "step": 269
    },
    {
      "epoch": 1.2116521249648184,
      "grad_norm": 0.36035606265068054,
      "learning_rate": 0.0008108108108108109,
      "loss": 1.4567,
      "step": 270
    },
    {
      "epoch": 1.2161553616661975,
      "grad_norm": 0.3307151794433594,
      "learning_rate": 0.0008138138138138138,
      "loss": 2.1376,
      "step": 271
    },
    {
      "epoch": 1.2206585983675766,
      "grad_norm": 0.2981743812561035,
      "learning_rate": 0.0008168168168168168,
      "loss": 1.5689,
      "step": 272
    },
    {
      "epoch": 1.2251618350689557,
      "grad_norm": 0.62384033203125,
      "learning_rate": 0.0008198198198198198,
      "loss": 1.8256,
      "step": 273
    },
    {
      "epoch": 1.229665071770335,
      "grad_norm": 1.653293490409851,
      "learning_rate": 0.0008228228228228229,
      "loss": 1.5016,
      "step": 274
    },
    {
      "epoch": 1.234168308471714,
      "grad_norm": 0.24622982740402222,
      "learning_rate": 0.0008258258258258259,
      "loss": 1.9275,
      "step": 275
    },
    {
      "epoch": 1.2386715451730932,
      "grad_norm": 0.3227851390838623,
      "learning_rate": 0.0008288288288288288,
      "loss": 1.8792,
      "step": 276
    },
    {
      "epoch": 1.2431747818744723,
      "grad_norm": 0.42221319675445557,
      "learning_rate": 0.0008318318318318318,
      "loss": 1.6694,
      "step": 277
    },
    {
      "epoch": 1.2476780185758514,
      "grad_norm": 0.349384605884552,
      "learning_rate": 0.0008348348348348348,
      "loss": 1.9136,
      "step": 278
    },
    {
      "epoch": 1.2521812552772305,
      "grad_norm": 0.425322026014328,
      "learning_rate": 0.0008378378378378379,
      "loss": 2.4019,
      "step": 279
    },
    {
      "epoch": 1.2566844919786098,
      "grad_norm": 4.7546515464782715,
      "learning_rate": 0.0008408408408408409,
      "loss": 2.9302,
      "step": 280
    },
    {
      "epoch": 1.2611877286799889,
      "grad_norm": 0.9357810020446777,
      "learning_rate": 0.0008438438438438438,
      "loss": 1.8133,
      "step": 281
    },
    {
      "epoch": 1.265690965381368,
      "grad_norm": 0.45871126651763916,
      "learning_rate": 0.0008468468468468468,
      "loss": 2.1973,
      "step": 282
    },
    {
      "epoch": 1.270194202082747,
      "grad_norm": 0.5283200144767761,
      "learning_rate": 0.00084984984984985,
      "loss": 2.0458,
      "step": 283
    },
    {
      "epoch": 1.2746974387841261,
      "grad_norm": 0.5635245442390442,
      "learning_rate": 0.0008528528528528529,
      "loss": 1.8568,
      "step": 284
    },
    {
      "epoch": 1.2792006754855052,
      "grad_norm": 0.36417341232299805,
      "learning_rate": 0.0008558558558558559,
      "loss": 1.9827,
      "step": 285
    },
    {
      "epoch": 1.2837039121868843,
      "grad_norm": 0.838988184928894,
      "learning_rate": 0.0008588588588588588,
      "loss": 1.923,
      "step": 286
    },
    {
      "epoch": 1.2882071488882634,
      "grad_norm": 0.48768889904022217,
      "learning_rate": 0.0008618618618618618,
      "loss": 2.1919,
      "step": 287
    },
    {
      "epoch": 1.2927103855896425,
      "grad_norm": 1.1887962818145752,
      "learning_rate": 0.000864864864864865,
      "loss": 1.7149,
      "step": 288
    },
    {
      "epoch": 1.2972136222910216,
      "grad_norm": 0.5445556044578552,
      "learning_rate": 0.0008678678678678679,
      "loss": 2.1612,
      "step": 289
    },
    {
      "epoch": 1.3017168589924009,
      "grad_norm": 0.4912167489528656,
      "learning_rate": 0.0008708708708708709,
      "loss": 1.4537,
      "step": 290
    },
    {
      "epoch": 1.30622009569378,
      "grad_norm": 0.30990374088287354,
      "learning_rate": 0.0008738738738738738,
      "loss": 1.9828,
      "step": 291
    },
    {
      "epoch": 1.310723332395159,
      "grad_norm": 0.5993196368217468,
      "learning_rate": 0.000876876876876877,
      "loss": 2.2505,
      "step": 292
    },
    {
      "epoch": 1.3152265690965381,
      "grad_norm": 0.5907213687896729,
      "learning_rate": 0.00087987987987988,
      "loss": 2.4849,
      "step": 293
    },
    {
      "epoch": 1.3197298057979172,
      "grad_norm": 1.2623379230499268,
      "learning_rate": 0.0008828828828828829,
      "loss": 1.9196,
      "step": 294
    },
    {
      "epoch": 1.3242330424992963,
      "grad_norm": 0.4598503112792969,
      "learning_rate": 0.0008858858858858859,
      "loss": 1.8372,
      "step": 295
    },
    {
      "epoch": 1.3287362792006756,
      "grad_norm": 0.5749366283416748,
      "learning_rate": 0.0008888888888888888,
      "loss": 2.3479,
      "step": 296
    },
    {
      "epoch": 1.3332395159020547,
      "grad_norm": 0.34303945302963257,
      "learning_rate": 0.000891891891891892,
      "loss": 2.3474,
      "step": 297
    },
    {
      "epoch": 1.3377427526034338,
      "grad_norm": 0.42508724331855774,
      "learning_rate": 0.000894894894894895,
      "loss": 2.3792,
      "step": 298
    },
    {
      "epoch": 1.3422459893048129,
      "grad_norm": 0.44430384039878845,
      "learning_rate": 0.0008978978978978979,
      "loss": 1.3958,
      "step": 299
    },
    {
      "epoch": 1.346749226006192,
      "grad_norm": 0.366388738155365,
      "learning_rate": 0.0009009009009009009,
      "loss": 1.9889,
      "step": 300
    },
    {
      "epoch": 1.351252462707571,
      "grad_norm": 0.3841629922389984,
      "learning_rate": 0.0009039039039039038,
      "loss": 1.9093,
      "step": 301
    },
    {
      "epoch": 1.3557556994089501,
      "grad_norm": 0.6968977451324463,
      "learning_rate": 0.000906906906906907,
      "loss": 1.8579,
      "step": 302
    },
    {
      "epoch": 1.3602589361103292,
      "grad_norm": 0.7264801859855652,
      "learning_rate": 0.00090990990990991,
      "loss": 2.3263,
      "step": 303
    },
    {
      "epoch": 1.3647621728117083,
      "grad_norm": 0.3918631374835968,
      "learning_rate": 0.0009129129129129129,
      "loss": 2.1569,
      "step": 304
    },
    {
      "epoch": 1.3692654095130874,
      "grad_norm": 0.37788888812065125,
      "learning_rate": 0.0009159159159159159,
      "loss": 2.0304,
      "step": 305
    },
    {
      "epoch": 1.3737686462144667,
      "grad_norm": 0.8566060066223145,
      "learning_rate": 0.0009189189189189189,
      "loss": 2.3829,
      "step": 306
    },
    {
      "epoch": 1.3782718829158458,
      "grad_norm": 0.5646341443061829,
      "learning_rate": 0.000921921921921922,
      "loss": 2.2252,
      "step": 307
    },
    {
      "epoch": 1.3827751196172249,
      "grad_norm": 0.5837233066558838,
      "learning_rate": 0.000924924924924925,
      "loss": 2.6852,
      "step": 308
    },
    {
      "epoch": 1.387278356318604,
      "grad_norm": 0.6654875874519348,
      "learning_rate": 0.0009279279279279279,
      "loss": 1.8298,
      "step": 309
    },
    {
      "epoch": 1.391781593019983,
      "grad_norm": 2.3510262966156006,
      "learning_rate": 0.0009309309309309309,
      "loss": 2.3169,
      "step": 310
    },
    {
      "epoch": 1.3962848297213624,
      "grad_norm": 0.5473995208740234,
      "learning_rate": 0.000933933933933934,
      "loss": 1.9171,
      "step": 311
    },
    {
      "epoch": 1.4007880664227415,
      "grad_norm": 0.6566312909126282,
      "learning_rate": 0.000936936936936937,
      "loss": 2.3226,
      "step": 312
    },
    {
      "epoch": 1.4052913031241205,
      "grad_norm": 0.9599719643592834,
      "learning_rate": 0.00093993993993994,
      "loss": 2.4173,
      "step": 313
    },
    {
      "epoch": 1.4097945398254996,
      "grad_norm": 0.5209355354309082,
      "learning_rate": 0.0009429429429429429,
      "loss": 2.2384,
      "step": 314
    },
    {
      "epoch": 1.4142977765268787,
      "grad_norm": 0.3428312838077545,
      "learning_rate": 0.0009459459459459459,
      "loss": 2.3062,
      "step": 315
    },
    {
      "epoch": 1.4188010132282578,
      "grad_norm": 0.6070026755332947,
      "learning_rate": 0.000948948948948949,
      "loss": 2.6254,
      "step": 316
    },
    {
      "epoch": 1.4233042499296369,
      "grad_norm": 0.7535590529441833,
      "learning_rate": 0.000951951951951952,
      "loss": 2.119,
      "step": 317
    },
    {
      "epoch": 1.427807486631016,
      "grad_norm": 1.6157991886138916,
      "learning_rate": 0.000954954954954955,
      "loss": 2.0665,
      "step": 318
    },
    {
      "epoch": 1.432310723332395,
      "grad_norm": 0.5080519914627075,
      "learning_rate": 0.0009579579579579579,
      "loss": 2.0473,
      "step": 319
    },
    {
      "epoch": 1.4368139600337742,
      "grad_norm": 0.30920296907424927,
      "learning_rate": 0.0009609609609609609,
      "loss": 2.2283,
      "step": 320
    },
    {
      "epoch": 1.4413171967351535,
      "grad_norm": 0.47454166412353516,
      "learning_rate": 0.0009639639639639641,
      "loss": 2.2031,
      "step": 321
    },
    {
      "epoch": 1.4458204334365325,
      "grad_norm": 0.5238194465637207,
      "learning_rate": 0.000966966966966967,
      "loss": 2.3113,
      "step": 322
    },
    {
      "epoch": 1.4503236701379116,
      "grad_norm": 0.37781304121017456,
      "learning_rate": 0.00096996996996997,
      "loss": 1.957,
      "step": 323
    },
    {
      "epoch": 1.4548269068392907,
      "grad_norm": 0.46883758902549744,
      "learning_rate": 0.000972972972972973,
      "loss": 1.8369,
      "step": 324
    },
    {
      "epoch": 1.4593301435406698,
      "grad_norm": 0.24590905010700226,
      "learning_rate": 0.000975975975975976,
      "loss": 1.7975,
      "step": 325
    },
    {
      "epoch": 1.463833380242049,
      "grad_norm": 0.34593987464904785,
      "learning_rate": 0.000978978978978979,
      "loss": 2.5182,
      "step": 326
    },
    {
      "epoch": 1.4683366169434282,
      "grad_norm": 0.4861092269420624,
      "learning_rate": 0.0009819819819819819,
      "loss": 1.8218,
      "step": 327
    },
    {
      "epoch": 1.4728398536448073,
      "grad_norm": 0.2850101888179779,
      "learning_rate": 0.000984984984984985,
      "loss": 2.2361,
      "step": 328
    },
    {
      "epoch": 1.4773430903461864,
      "grad_norm": 0.23903340101242065,
      "learning_rate": 0.0009879879879879881,
      "loss": 1.9256,
      "step": 329
    },
    {
      "epoch": 1.4818463270475655,
      "grad_norm": 0.44514235854148865,
      "learning_rate": 0.000990990990990991,
      "loss": 2.6654,
      "step": 330
    },
    {
      "epoch": 1.4863495637489446,
      "grad_norm": 0.37014344334602356,
      "learning_rate": 0.000993993993993994,
      "loss": 2.182,
      "step": 331
    },
    {
      "epoch": 1.4908528004503236,
      "grad_norm": 0.26642125844955444,
      "learning_rate": 0.0009969969969969969,
      "loss": 1.8749,
      "step": 332
    },
    {
      "epoch": 1.4953560371517027,
      "grad_norm": 0.21001197397708893,
      "learning_rate": 0.001,
      "loss": 1.6571,
      "step": 333
    },
    {
      "epoch": 1.4998592738530818,
      "grad_norm": 0.3714250922203064,
      "learning_rate": 0.0009999999383626332,
      "loss": 2.0508,
      "step": 334
    },
    {
      "epoch": 1.504362510554461,
      "grad_norm": 0.40266069769859314,
      "learning_rate": 0.0009999997534505486,
      "loss": 2.3398,
      "step": 335
    },
    {
      "epoch": 1.50886574725584,
      "grad_norm": 0.3062106966972351,
      "learning_rate": 0.000999999445263791,
      "loss": 1.861,
      "step": 336
    },
    {
      "epoch": 1.5133689839572193,
      "grad_norm": 0.20394903421401978,
      "learning_rate": 0.000999999013802437,
      "loss": 1.7784,
      "step": 337
    },
    {
      "epoch": 1.5178722206585984,
      "grad_norm": 0.2996090352535248,
      "learning_rate": 0.0009999984590665927,
      "loss": 2.0336,
      "step": 338
    },
    {
      "epoch": 1.5223754573599775,
      "grad_norm": 0.3262683153152466,
      "learning_rate": 0.000999997781056395,
      "loss": 2.077,
      "step": 339
    },
    {
      "epoch": 1.5268786940613566,
      "grad_norm": 0.4744786322116852,
      "learning_rate": 0.0009999969797720109,
      "loss": 2.3425,
      "step": 340
    },
    {
      "epoch": 1.5313819307627359,
      "grad_norm": 0.24185290932655334,
      "learning_rate": 0.0009999960552136383,
      "loss": 1.7457,
      "step": 341
    },
    {
      "epoch": 1.535885167464115,
      "grad_norm": 0.24668791890144348,
      "learning_rate": 0.0009999950073815045,
      "loss": 2.0715,
      "step": 342
    },
    {
      "epoch": 1.540388404165494,
      "grad_norm": 0.36015060544013977,
      "learning_rate": 0.0009999938362758687,
      "loss": 1.8465,
      "step": 343
    },
    {
      "epoch": 1.5448916408668731,
      "grad_norm": 0.34442558884620667,
      "learning_rate": 0.000999992541897019,
      "loss": 1.418,
      "step": 344
    },
    {
      "epoch": 1.5493948775682522,
      "grad_norm": 0.4746706485748291,
      "learning_rate": 0.0009999911242452746,
      "loss": 1.8913,
      "step": 345
    },
    {
      "epoch": 1.5538981142696313,
      "grad_norm": 0.4433433413505554,
      "learning_rate": 0.0009999895833209852,
      "loss": 1.5877,
      "step": 346
    },
    {
      "epoch": 1.5584013509710104,
      "grad_norm": 0.6071310043334961,
      "learning_rate": 0.0009999879191245307,
      "loss": 1.7793,
      "step": 347
    },
    {
      "epoch": 1.5629045876723895,
      "grad_norm": 0.26822903752326965,
      "learning_rate": 0.0009999861316563215,
      "loss": 1.5147,
      "step": 348
    },
    {
      "epoch": 1.5674078243737686,
      "grad_norm": 0.3740261197090149,
      "learning_rate": 0.000999984220916798,
      "loss": 1.9695,
      "step": 349
    },
    {
      "epoch": 1.5719110610751477,
      "grad_norm": 0.4235624074935913,
      "learning_rate": 0.0009999821869064315,
      "loss": 2.2499,
      "step": 350
    },
    {
      "epoch": 1.5764142977765268,
      "grad_norm": 0.2847263813018799,
      "learning_rate": 0.0009999800296257232,
      "loss": 2.0025,
      "step": 351
    },
    {
      "epoch": 1.5809175344779058,
      "grad_norm": 0.3348672389984131,
      "learning_rate": 0.0009999777490752055,
      "loss": 2.2695,
      "step": 352
    },
    {
      "epoch": 1.5854207711792851,
      "grad_norm": 0.5752561092376709,
      "learning_rate": 0.0009999753452554403,
      "loss": 2.1839,
      "step": 353
    },
    {
      "epoch": 1.5899240078806642,
      "grad_norm": 0.3505680561065674,
      "learning_rate": 0.0009999728181670203,
      "loss": 1.9929,
      "step": 354
    },
    {
      "epoch": 1.5944272445820433,
      "grad_norm": 0.2701842784881592,
      "learning_rate": 0.0009999701678105686,
      "loss": 2.4564,
      "step": 355
    },
    {
      "epoch": 1.5989304812834224,
      "grad_norm": 0.2864762842655182,
      "learning_rate": 0.0009999673941867388,
      "loss": 1.9856,
      "step": 356
    },
    {
      "epoch": 1.6034337179848017,
      "grad_norm": 0.38972654938697815,
      "learning_rate": 0.0009999644972962145,
      "loss": 2.3282,
      "step": 357
    },
    {
      "epoch": 1.6079369546861808,
      "grad_norm": 0.2286587357521057,
      "learning_rate": 0.0009999614771397099,
      "loss": 1.749,
      "step": 358
    },
    {
      "epoch": 1.61244019138756,
      "grad_norm": 0.298645555973053,
      "learning_rate": 0.0009999583337179697,
      "loss": 1.9984,
      "step": 359
    },
    {
      "epoch": 1.616943428088939,
      "grad_norm": 0.24051567912101746,
      "learning_rate": 0.0009999550670317689,
      "loss": 1.6998,
      "step": 360
    },
    {
      "epoch": 1.621446664790318,
      "grad_norm": 0.29665130376815796,
      "learning_rate": 0.0009999516770819131,
      "loss": 1.9544,
      "step": 361
    },
    {
      "epoch": 1.6259499014916972,
      "grad_norm": 0.26102176308631897,
      "learning_rate": 0.000999948163869238,
      "loss": 1.9156,
      "step": 362
    },
    {
      "epoch": 1.6304531381930762,
      "grad_norm": 0.21907921135425568,
      "learning_rate": 0.0009999445273946093,
      "loss": 1.8615,
      "step": 363
    },
    {
      "epoch": 1.6349563748944553,
      "grad_norm": 0.34388574957847595,
      "learning_rate": 0.0009999407676589242,
      "loss": 2.1817,
      "step": 364
    },
    {
      "epoch": 1.6394596115958344,
      "grad_norm": 0.28067100048065186,
      "learning_rate": 0.0009999368846631094,
      "loss": 1.6742,
      "step": 365
    },
    {
      "epoch": 1.6439628482972135,
      "grad_norm": 0.20141278207302094,
      "learning_rate": 0.0009999328784081223,
      "loss": 1.767,
      "step": 366
    },
    {
      "epoch": 1.6484660849985926,
      "grad_norm": 0.27328556776046753,
      "learning_rate": 0.0009999287488949506,
      "loss": 1.7602,
      "step": 367
    },
    {
      "epoch": 1.652969321699972,
      "grad_norm": 0.3064192235469818,
      "learning_rate": 0.0009999244961246127,
      "loss": 1.6115,
      "step": 368
    },
    {
      "epoch": 1.657472558401351,
      "grad_norm": 0.3080326020717621,
      "learning_rate": 0.0009999201200981565,
      "loss": 1.3168,
      "step": 369
    },
    {
      "epoch": 1.66197579510273,
      "grad_norm": 0.33046817779541016,
      "learning_rate": 0.0009999156208166614,
      "loss": 2.401,
      "step": 370
    },
    {
      "epoch": 1.6664790318041092,
      "grad_norm": 0.3466586768627167,
      "learning_rate": 0.0009999109982812367,
      "loss": 1.9898,
      "step": 371
    },
    {
      "epoch": 1.6709822685054885,
      "grad_norm": 0.27755725383758545,
      "learning_rate": 0.0009999062524930218,
      "loss": 1.9194,
      "step": 372
    },
    {
      "epoch": 1.6754855052068676,
      "grad_norm": 0.1815202832221985,
      "learning_rate": 0.0009999013834531868,
      "loss": 1.8251,
      "step": 373
    },
    {
      "epoch": 1.6799887419082467,
      "grad_norm": 0.19548927247524261,
      "learning_rate": 0.0009998963911629325,
      "loss": 1.8283,
      "step": 374
    },
    {
      "epoch": 1.6844919786096257,
      "grad_norm": 0.24548445641994476,
      "learning_rate": 0.0009998912756234895,
      "loss": 2.1745,
      "step": 375
    },
    {
      "epoch": 1.6889952153110048,
      "grad_norm": 0.22846096754074097,
      "learning_rate": 0.000999886036836119,
      "loss": 1.8666,
      "step": 376
    },
    {
      "epoch": 1.693498452012384,
      "grad_norm": 0.22867095470428467,
      "learning_rate": 0.0009998806748021127,
      "loss": 1.9521,
      "step": 377
    },
    {
      "epoch": 1.698001688713763,
      "grad_norm": 0.2640380859375,
      "learning_rate": 0.0009998751895227928,
      "loss": 1.9404,
      "step": 378
    },
    {
      "epoch": 1.702504925415142,
      "grad_norm": 0.21575163304805756,
      "learning_rate": 0.000999869580999511,
      "loss": 1.9391,
      "step": 379
    },
    {
      "epoch": 1.7070081621165212,
      "grad_norm": 0.23672625422477722,
      "learning_rate": 0.000999863849233651,
      "loss": 1.5708,
      "step": 380
    },
    {
      "epoch": 1.7115113988179003,
      "grad_norm": 0.2860528826713562,
      "learning_rate": 0.0009998579942266253,
      "loss": 1.9226,
      "step": 381
    },
    {
      "epoch": 1.7160146355192794,
      "grad_norm": 0.4727485775947571,
      "learning_rate": 0.0009998520159798779,
      "loss": 1.8616,
      "step": 382
    },
    {
      "epoch": 1.7205178722206584,
      "grad_norm": 0.25714972615242004,
      "learning_rate": 0.0009998459144948825,
      "loss": 1.6298,
      "step": 383
    },
    {
      "epoch": 1.7250211089220377,
      "grad_norm": 0.23004566133022308,
      "learning_rate": 0.000999839689773143,
      "loss": 1.6126,
      "step": 384
    },
    {
      "epoch": 1.7295243456234168,
      "grad_norm": 0.2089672088623047,
      "learning_rate": 0.0009998333418161948,
      "loss": 1.2884,
      "step": 385
    },
    {
      "epoch": 1.734027582324796,
      "grad_norm": 0.23343290388584137,
      "learning_rate": 0.0009998268706256027,
      "loss": 1.7238,
      "step": 386
    },
    {
      "epoch": 1.738530819026175,
      "grad_norm": 0.17515310645103455,
      "learning_rate": 0.0009998202762029624,
      "loss": 1.7356,
      "step": 387
    },
    {
      "epoch": 1.7430340557275543,
      "grad_norm": 0.2167646437883377,
      "learning_rate": 0.0009998135585498993,
      "loss": 1.5154,
      "step": 388
    },
    {
      "epoch": 1.7475372924289334,
      "grad_norm": 0.2327626347541809,
      "learning_rate": 0.00099980671766807,
      "loss": 1.5178,
      "step": 389
    },
    {
      "epoch": 1.7520405291303125,
      "grad_norm": 0.17949560284614563,
      "learning_rate": 0.0009997997535591608,
      "loss": 1.6468,
      "step": 390
    },
    {
      "epoch": 1.7565437658316916,
      "grad_norm": 0.2560502886772156,
      "learning_rate": 0.000999792666224889,
      "loss": 1.5688,
      "step": 391
    },
    {
      "epoch": 1.7610470025330707,
      "grad_norm": 0.497313529253006,
      "learning_rate": 0.000999785455667002,
      "loss": 1.8292,
      "step": 392
    },
    {
      "epoch": 1.7655502392344498,
      "grad_norm": 0.25855016708374023,
      "learning_rate": 0.0009997781218872772,
      "loss": 1.904,
      "step": 393
    },
    {
      "epoch": 1.7700534759358288,
      "grad_norm": 0.24322058260440826,
      "learning_rate": 0.000999770664887523,
      "loss": 2.0467,
      "step": 394
    },
    {
      "epoch": 1.774556712637208,
      "grad_norm": 0.2732171416282654,
      "learning_rate": 0.0009997630846695779,
      "loss": 1.2877,
      "step": 395
    },
    {
      "epoch": 1.779059949338587,
      "grad_norm": 0.20970287919044495,
      "learning_rate": 0.0009997553812353106,
      "loss": 1.6915,
      "step": 396
    },
    {
      "epoch": 1.783563186039966,
      "grad_norm": 0.26280561089515686,
      "learning_rate": 0.0009997475545866208,
      "loss": 2.141,
      "step": 397
    },
    {
      "epoch": 1.7880664227413452,
      "grad_norm": 0.16451594233512878,
      "learning_rate": 0.0009997396047254378,
      "loss": 1.6129,
      "step": 398
    },
    {
      "epoch": 1.7925696594427245,
      "grad_norm": 0.15841609239578247,
      "learning_rate": 0.0009997315316537217,
      "loss": 1.6697,
      "step": 399
    },
    {
      "epoch": 1.7970728961441036,
      "grad_norm": 0.2515147030353546,
      "learning_rate": 0.0009997233353734633,
      "loss": 1.2402,
      "step": 400
    },
    {
      "epoch": 1.8015761328454827,
      "grad_norm": 0.2062111347913742,
      "learning_rate": 0.0009997150158866826,
      "loss": 1.3963,
      "step": 401
    },
    {
      "epoch": 1.8060793695468618,
      "grad_norm": 0.1899591088294983,
      "learning_rate": 0.0009997065731954314,
      "loss": 1.4114,
      "step": 402
    },
    {
      "epoch": 1.810582606248241,
      "grad_norm": 3.775210380554199,
      "learning_rate": 0.000999698007301791,
      "loss": 1.4191,
      "step": 403
    },
    {
      "epoch": 1.8150858429496202,
      "grad_norm": 0.1778765767812729,
      "learning_rate": 0.0009996893182078732,
      "loss": 1.6497,
      "step": 404
    },
    {
      "epoch": 1.8195890796509993,
      "grad_norm": 0.21281971037387848,
      "learning_rate": 0.0009996805059158207,
      "loss": 1.4653,
      "step": 405
    },
    {
      "epoch": 1.8240923163523783,
      "grad_norm": 0.48263880610466003,
      "learning_rate": 0.0009996715704278058,
      "loss": 1.7851,
      "step": 406
    },
    {
      "epoch": 1.8285955530537574,
      "grad_norm": 0.6456096172332764,
      "learning_rate": 0.0009996625117460317,
      "loss": 1.5976,
      "step": 407
    },
    {
      "epoch": 1.8330987897551365,
      "grad_norm": 0.18009069561958313,
      "learning_rate": 0.0009996533298727319,
      "loss": 1.2038,
      "step": 408
    },
    {
      "epoch": 1.8376020264565156,
      "grad_norm": 0.1818540096282959,
      "learning_rate": 0.00099964402481017,
      "loss": 1.6114,
      "step": 409
    },
    {
      "epoch": 1.8421052631578947,
      "grad_norm": 0.2255735844373703,
      "learning_rate": 0.0009996345965606402,
      "loss": 1.1016,
      "step": 410
    },
    {
      "epoch": 1.8466084998592738,
      "grad_norm": 0.21088279783725739,
      "learning_rate": 0.000999625045126467,
      "loss": 1.9327,
      "step": 411
    },
    {
      "epoch": 1.8511117365606529,
      "grad_norm": 0.278110146522522,
      "learning_rate": 0.0009996153705100054,
      "loss": 1.5404,
      "step": 412
    },
    {
      "epoch": 1.855614973262032,
      "grad_norm": 0.35713785886764526,
      "learning_rate": 0.0009996055727136406,
      "loss": 1.8343,
      "step": 413
    },
    {
      "epoch": 1.860118209963411,
      "grad_norm": 0.21984410285949707,
      "learning_rate": 0.0009995956517397885,
      "loss": 1.6961,
      "step": 414
    },
    {
      "epoch": 1.8646214466647903,
      "grad_norm": 0.23464468121528625,
      "learning_rate": 0.0009995856075908944,
      "loss": 1.5459,
      "step": 415
    },
    {
      "epoch": 1.8691246833661694,
      "grad_norm": 0.2212236225605011,
      "learning_rate": 0.0009995754402694354,
      "loss": 1.7515,
      "step": 416
    },
    {
      "epoch": 1.8736279200675485,
      "grad_norm": 0.23995979130268097,
      "learning_rate": 0.0009995651497779182,
      "loss": 1.4802,
      "step": 417
    },
    {
      "epoch": 1.8781311567689276,
      "grad_norm": 0.21249458193778992,
      "learning_rate": 0.0009995547361188795,
      "loss": 1.5317,
      "step": 418
    },
    {
      "epoch": 1.882634393470307,
      "grad_norm": 0.7732905745506287,
      "learning_rate": 0.000999544199294887,
      "loss": 1.4437,
      "step": 419
    },
    {
      "epoch": 1.887137630171686,
      "grad_norm": 0.1456243246793747,
      "learning_rate": 0.0009995335393085385,
      "loss": 1.5394,
      "step": 420
    },
    {
      "epoch": 1.891640866873065,
      "grad_norm": 0.2421197146177292,
      "learning_rate": 0.0009995227561624624,
      "loss": 1.8529,
      "step": 421
    },
    {
      "epoch": 1.8961441035744442,
      "grad_norm": 0.17327767610549927,
      "learning_rate": 0.000999511849859317,
      "loss": 1.4056,
      "step": 422
    },
    {
      "epoch": 1.9006473402758233,
      "grad_norm": 0.19305820763111115,
      "learning_rate": 0.0009995008204017914,
      "loss": 1.592,
      "step": 423
    },
    {
      "epoch": 1.9051505769772024,
      "grad_norm": 0.16297681629657745,
      "learning_rate": 0.0009994896677926052,
      "loss": 1.4136,
      "step": 424
    },
    {
      "epoch": 1.9096538136785814,
      "grad_norm": 0.23438437283039093,
      "learning_rate": 0.0009994783920345073,
      "loss": 1.3893,
      "step": 425
    },
    {
      "epoch": 1.9141570503799605,
      "grad_norm": 0.5325565338134766,
      "learning_rate": 0.0009994669931302784,
      "loss": 1.5921,
      "step": 426
    },
    {
      "epoch": 1.9186602870813396,
      "grad_norm": 0.3270573019981384,
      "learning_rate": 0.0009994554710827288,
      "loss": 1.715,
      "step": 427
    },
    {
      "epoch": 1.9231635237827187,
      "grad_norm": 0.1737779825925827,
      "learning_rate": 0.000999443825894699,
      "loss": 1.3603,
      "step": 428
    },
    {
      "epoch": 1.9276667604840978,
      "grad_norm": 0.21733522415161133,
      "learning_rate": 0.0009994320575690602,
      "loss": 1.8391,
      "step": 429
    },
    {
      "epoch": 1.932169997185477,
      "grad_norm": 0.6378523707389832,
      "learning_rate": 0.000999420166108714,
      "loss": 1.0067,
      "step": 430
    },
    {
      "epoch": 1.9366732338868562,
      "grad_norm": 0.6699740290641785,
      "learning_rate": 0.0009994081515165923,
      "loss": 1.227,
      "step": 431
    },
    {
      "epoch": 1.9411764705882353,
      "grad_norm": 0.3058244585990906,
      "learning_rate": 0.000999396013795657,
      "loss": 1.4295,
      "step": 432
    },
    {
      "epoch": 1.9456797072896144,
      "grad_norm": 0.7729986310005188,
      "learning_rate": 0.0009993837529489007,
      "loss": 1.1998,
      "step": 433
    },
    {
      "epoch": 1.9501829439909937,
      "grad_norm": 0.18883320689201355,
      "learning_rate": 0.0009993713689793466,
      "loss": 1.2925,
      "step": 434
    },
    {
      "epoch": 1.9546861806923728,
      "grad_norm": 0.6303812861442566,
      "learning_rate": 0.0009993588618900477,
      "loss": 1.5027,
      "step": 435
    },
    {
      "epoch": 1.9591894173937519,
      "grad_norm": 0.2290097028017044,
      "learning_rate": 0.0009993462316840878,
      "loss": 1.5496,
      "step": 436
    },
    {
      "epoch": 1.963692654095131,
      "grad_norm": 0.2385856956243515,
      "learning_rate": 0.0009993334783645806,
      "loss": 1.6113,
      "step": 437
    },
    {
      "epoch": 1.96819589079651,
      "grad_norm": 0.19045673310756683,
      "learning_rate": 0.0009993206019346707,
      "loss": 1.2177,
      "step": 438
    },
    {
      "epoch": 1.9726991274978891,
      "grad_norm": 0.12195871770381927,
      "learning_rate": 0.0009993076023975325,
      "loss": 1.1137,
      "step": 439
    },
    {
      "epoch": 1.9772023641992682,
      "grad_norm": 0.37969982624053955,
      "learning_rate": 0.0009992944797563713,
      "loss": 1.2611,
      "step": 440
    },
    {
      "epoch": 1.9817056009006473,
      "grad_norm": 0.2379102110862732,
      "learning_rate": 0.0009992812340144223,
      "loss": 1.5596,
      "step": 441
    },
    {
      "epoch": 1.9862088376020264,
      "grad_norm": 0.15842801332473755,
      "learning_rate": 0.0009992678651749513,
      "loss": 1.5382,
      "step": 442
    },
    {
      "epoch": 1.9907120743034055,
      "grad_norm": 0.20554882287979126,
      "learning_rate": 0.0009992543732412545,
      "loss": 1.8881,
      "step": 443
    },
    {
      "epoch": 1.9952153110047846,
      "grad_norm": 0.14960749447345734,
      "learning_rate": 0.000999240758216658,
      "loss": 1.6857,
      "step": 444
    },
    {
      "epoch": 1.9997185477061636,
      "grad_norm": 0.3276233673095703,
      "learning_rate": 0.000999227020104519,
      "loss": 1.6256,
      "step": 445
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.3276233673095703,
      "learning_rate": 0.0009992131589082244,
      "loss": 0.1263,
      "step": 446
    },
    {
      "epoch": 2.0,
      "eval_f1": 0.9647200723690823,
      "eval_loss": 0.04658208042383194,
      "eval_runtime": 26.1907,
      "eval_samples_per_second": 190.831,
      "eval_steps_per_second": 5.994,
      "step": 446
    },
    {
      "epoch": 2.004503236701379,
      "grad_norm": 0.12068360298871994,
      "learning_rate": 0.0009991991746311915,
      "loss": 1.2256,
      "step": 447
    },
    {
      "epoch": 2.009006473402758,
      "grad_norm": 0.13632293045520782,
      "learning_rate": 0.0009991850672768686,
      "loss": 1.1828,
      "step": 448
    },
    {
      "epoch": 2.0135097101041373,
      "grad_norm": 0.756955087184906,
      "learning_rate": 0.0009991708368487333,
      "loss": 1.128,
      "step": 449
    },
    {
      "epoch": 2.0180129468055163,
      "grad_norm": 0.20203426480293274,
      "learning_rate": 0.0009991564833502942,
      "loss": 1.1756,
      "step": 450
    },
    {
      "epoch": 2.0225161835068954,
      "grad_norm": 0.15585604310035706,
      "learning_rate": 0.0009991420067850907,
      "loss": 0.9033,
      "step": 451
    },
    {
      "epoch": 2.0270194202082745,
      "grad_norm": 0.7950803637504578,
      "learning_rate": 0.0009991274071566914,
      "loss": 0.9712,
      "step": 452
    },
    {
      "epoch": 2.0315226569096536,
      "grad_norm": 0.2297389954328537,
      "learning_rate": 0.000999112684468696,
      "loss": 1.3949,
      "step": 453
    },
    {
      "epoch": 2.036025893611033,
      "grad_norm": 0.22459715604782104,
      "learning_rate": 0.0009990978387247344,
      "loss": 1.1291,
      "step": 454
    },
    {
      "epoch": 2.0405291303124122,
      "grad_norm": 0.12022355943918228,
      "learning_rate": 0.0009990828699284668,
      "loss": 0.6218,
      "step": 455
    },
    {
      "epoch": 2.0450323670137913,
      "grad_norm": 0.17732840776443481,
      "learning_rate": 0.0009990677780835839,
      "loss": 1.0394,
      "step": 456
    },
    {
      "epoch": 2.0495356037151704,
      "grad_norm": 0.258714497089386,
      "learning_rate": 0.0009990525631938063,
      "loss": 1.0897,
      "step": 457
    },
    {
      "epoch": 2.0540388404165495,
      "grad_norm": 0.7991499304771423,
      "learning_rate": 0.0009990372252628855,
      "loss": 1.312,
      "step": 458
    },
    {
      "epoch": 2.0585420771179286,
      "grad_norm": 0.18747679889202118,
      "learning_rate": 0.0009990217642946028,
      "loss": 1.4547,
      "step": 459
    },
    {
      "epoch": 2.0630453138193077,
      "grad_norm": 0.8480930328369141,
      "learning_rate": 0.00099900618029277,
      "loss": 1.1074,
      "step": 460
    },
    {
      "epoch": 2.0675485505206868,
      "grad_norm": 0.20828843116760254,
      "learning_rate": 0.00099899047326123,
      "loss": 0.9896,
      "step": 461
    },
    {
      "epoch": 2.072051787222066,
      "grad_norm": 0.17511965334415436,
      "learning_rate": 0.0009989746432038547,
      "loss": 1.3068,
      "step": 462
    },
    {
      "epoch": 2.076555023923445,
      "grad_norm": 0.3560508191585541,
      "learning_rate": 0.0009989586901245472,
      "loss": 1.4486,
      "step": 463
    },
    {
      "epoch": 2.081058260624824,
      "grad_norm": 0.25404202938079834,
      "learning_rate": 0.0009989426140272408,
      "loss": 1.4051,
      "step": 464
    },
    {
      "epoch": 2.085561497326203,
      "grad_norm": 0.7166459560394287,
      "learning_rate": 0.0009989264149158988,
      "loss": 0.9299,
      "step": 465
    },
    {
      "epoch": 2.090064734027582,
      "grad_norm": 0.19846925139427185,
      "learning_rate": 0.0009989100927945153,
      "loss": 1.5832,
      "step": 466
    },
    {
      "epoch": 2.0945679707289613,
      "grad_norm": 0.8051274418830872,
      "learning_rate": 0.0009988936476671146,
      "loss": 1.5853,
      "step": 467
    },
    {
      "epoch": 2.0990712074303404,
      "grad_norm": 0.29330581426620483,
      "learning_rate": 0.0009988770795377512,
      "loss": 1.4431,
      "step": 468
    },
    {
      "epoch": 2.10357444413172,
      "grad_norm": 0.15412311255931854,
      "learning_rate": 0.0009988603884105096,
      "loss": 1.1311,
      "step": 469
    },
    {
      "epoch": 2.108077680833099,
      "grad_norm": 0.26492202281951904,
      "learning_rate": 0.0009988435742895052,
      "loss": 1.3937,
      "step": 470
    },
    {
      "epoch": 2.112580917534478,
      "grad_norm": 0.29791468381881714,
      "learning_rate": 0.0009988266371788838,
      "loss": 1.1633,
      "step": 471
    },
    {
      "epoch": 2.117084154235857,
      "grad_norm": 0.1966175138950348,
      "learning_rate": 0.000998809577082821,
      "loss": 0.9199,
      "step": 472
    },
    {
      "epoch": 2.1215873909372363,
      "grad_norm": 0.1953541785478592,
      "learning_rate": 0.0009987923940055227,
      "loss": 0.8236,
      "step": 473
    },
    {
      "epoch": 2.1260906276386153,
      "grad_norm": 0.21045993268489838,
      "learning_rate": 0.0009987750879512259,
      "loss": 0.9063,
      "step": 474
    },
    {
      "epoch": 2.1305938643399944,
      "grad_norm": 0.3458569645881653,
      "learning_rate": 0.0009987576589241972,
      "loss": 1.4297,
      "step": 475
    },
    {
      "epoch": 2.1350971010413735,
      "grad_norm": 0.22781313955783844,
      "learning_rate": 0.0009987401069287334,
      "loss": 0.8183,
      "step": 476
    },
    {
      "epoch": 2.1396003377427526,
      "grad_norm": 0.23319174349308014,
      "learning_rate": 0.0009987224319691623,
      "loss": 1.6183,
      "step": 477
    },
    {
      "epoch": 2.1441035744441317,
      "grad_norm": 0.25903618335723877,
      "learning_rate": 0.0009987046340498415,
      "loss": 1.307,
      "step": 478
    },
    {
      "epoch": 2.1486068111455108,
      "grad_norm": 0.15177707374095917,
      "learning_rate": 0.0009986867131751593,
      "loss": 0.742,
      "step": 479
    },
    {
      "epoch": 2.15311004784689,
      "grad_norm": 0.2560516595840454,
      "learning_rate": 0.0009986686693495338,
      "loss": 1.14,
      "step": 480
    },
    {
      "epoch": 2.157613284548269,
      "grad_norm": 0.20857809484004974,
      "learning_rate": 0.0009986505025774137,
      "loss": 1.1249,
      "step": 481
    },
    {
      "epoch": 2.162116521249648,
      "grad_norm": 0.25852856040000916,
      "learning_rate": 0.0009986322128632782,
      "loss": 1.6321,
      "step": 482
    },
    {
      "epoch": 2.166619757951027,
      "grad_norm": 0.2672969400882721,
      "learning_rate": 0.0009986138002116363,
      "loss": 1.2712,
      "step": 483
    },
    {
      "epoch": 2.171122994652406,
      "grad_norm": 0.21340304613113403,
      "learning_rate": 0.000998595264627028,
      "loss": 1.1118,
      "step": 484
    },
    {
      "epoch": 2.1756262313537853,
      "grad_norm": 0.13206924498081207,
      "learning_rate": 0.0009985766061140233,
      "loss": 1.0979,
      "step": 485
    },
    {
      "epoch": 2.180129468055165,
      "grad_norm": 0.16125300526618958,
      "learning_rate": 0.000998557824677222,
      "loss": 1.5092,
      "step": 486
    },
    {
      "epoch": 2.184632704756544,
      "grad_norm": 0.2042248696088791,
      "learning_rate": 0.000998538920321255,
      "loss": 1.3333,
      "step": 487
    },
    {
      "epoch": 2.189135941457923,
      "grad_norm": 0.16825899481773376,
      "learning_rate": 0.0009985198930507829,
      "loss": 1.0178,
      "step": 488
    },
    {
      "epoch": 2.193639178159302,
      "grad_norm": 0.11117798835039139,
      "learning_rate": 0.000998500742870497,
      "loss": 1.0432,
      "step": 489
    },
    {
      "epoch": 2.198142414860681,
      "grad_norm": 0.11960960179567337,
      "learning_rate": 0.0009984814697851189,
      "loss": 1.0689,
      "step": 490
    },
    {
      "epoch": 2.2026456515620603,
      "grad_norm": 0.12553143501281738,
      "learning_rate": 0.0009984620737994,
      "loss": 1.1613,
      "step": 491
    },
    {
      "epoch": 2.2071488882634394,
      "grad_norm": 0.187221497297287,
      "learning_rate": 0.000998442554918123,
      "loss": 1.3278,
      "step": 492
    },
    {
      "epoch": 2.2116521249648184,
      "grad_norm": 0.34629207849502563,
      "learning_rate": 0.0009984229131460996,
      "loss": 1.1934,
      "step": 493
    },
    {
      "epoch": 2.2161553616661975,
      "grad_norm": 0.135422021150589,
      "learning_rate": 0.0009984031484881726,
      "loss": 1.1336,
      "step": 494
    },
    {
      "epoch": 2.2206585983675766,
      "grad_norm": 0.24058544635772705,
      "learning_rate": 0.0009983832609492154,
      "loss": 1.4405,
      "step": 495
    },
    {
      "epoch": 2.2251618350689557,
      "grad_norm": 0.2277190387248993,
      "learning_rate": 0.000998363250534131,
      "loss": 1.4616,
      "step": 496
    },
    {
      "epoch": 2.229665071770335,
      "grad_norm": 0.1289585828781128,
      "learning_rate": 0.0009983431172478528,
      "loss": 1.1895,
      "step": 497
    },
    {
      "epoch": 2.234168308471714,
      "grad_norm": 0.16838479042053223,
      "learning_rate": 0.0009983228610953448,
      "loss": 0.9252,
      "step": 498
    },
    {
      "epoch": 2.238671545173093,
      "grad_norm": 0.12891946732997894,
      "learning_rate": 0.0009983024820816012,
      "loss": 1.3014,
      "step": 499
    },
    {
      "epoch": 2.2431747818744725,
      "grad_norm": 0.16923677921295166,
      "learning_rate": 0.0009982819802116464,
      "loss": 1.1501,
      "step": 500
    },
    {
      "epoch": 2.2476780185758516,
      "grad_norm": 0.1571921557188034,
      "learning_rate": 0.0009982613554905349,
      "loss": 1.0988,
      "step": 501
    },
    {
      "epoch": 2.2521812552772307,
      "grad_norm": 0.21712449193000793,
      "learning_rate": 0.0009982406079233521,
      "loss": 1.1457,
      "step": 502
    },
    {
      "epoch": 2.2566844919786098,
      "grad_norm": 0.14359629154205322,
      "learning_rate": 0.0009982197375152128,
      "loss": 1.1822,
      "step": 503
    },
    {
      "epoch": 2.261187728679989,
      "grad_norm": 0.15681937336921692,
      "learning_rate": 0.0009981987442712632,
      "loss": 1.1669,
      "step": 504
    },
    {
      "epoch": 2.265690965381368,
      "grad_norm": 0.13837873935699463,
      "learning_rate": 0.0009981776281966788,
      "loss": 1.1747,
      "step": 505
    },
    {
      "epoch": 2.270194202082747,
      "grad_norm": 0.12345588952302933,
      "learning_rate": 0.000998156389296666,
      "loss": 0.9401,
      "step": 506
    },
    {
      "epoch": 2.274697438784126,
      "grad_norm": 0.1307470053434372,
      "learning_rate": 0.0009981350275764607,
      "loss": 0.7752,
      "step": 507
    },
    {
      "epoch": 2.279200675485505,
      "grad_norm": 0.46069952845573425,
      "learning_rate": 0.0009981135430413301,
      "loss": 1.0121,
      "step": 508
    },
    {
      "epoch": 2.2837039121868843,
      "grad_norm": 0.151067852973938,
      "learning_rate": 0.0009980919356965712,
      "loss": 0.8261,
      "step": 509
    },
    {
      "epoch": 2.2882071488882634,
      "grad_norm": 0.12780015170574188,
      "learning_rate": 0.000998070205547511,
      "loss": 0.6777,
      "step": 510
    },
    {
      "epoch": 2.2927103855896425,
      "grad_norm": 0.26668182015419006,
      "learning_rate": 0.0009980483525995074,
      "loss": 1.1933,
      "step": 511
    },
    {
      "epoch": 2.2972136222910216,
      "grad_norm": 0.18905088305473328,
      "learning_rate": 0.000998026376857948,
      "loss": 0.7722,
      "step": 512
    },
    {
      "epoch": 2.3017168589924006,
      "grad_norm": 0.24637308716773987,
      "learning_rate": 0.0009980042783282509,
      "loss": 1.0601,
      "step": 513
    },
    {
      "epoch": 2.3062200956937797,
      "grad_norm": 0.20673209428787231,
      "learning_rate": 0.0009979820570158646,
      "loss": 1.0058,
      "step": 514
    },
    {
      "epoch": 2.310723332395159,
      "grad_norm": 0.14224596321582794,
      "learning_rate": 0.0009979597129262676,
      "loss": 0.872,
      "step": 515
    },
    {
      "epoch": 2.315226569096538,
      "grad_norm": 0.14475016295909882,
      "learning_rate": 0.000997937246064969,
      "loss": 1.0084,
      "step": 516
    },
    {
      "epoch": 2.3197298057979174,
      "grad_norm": 0.17156586050987244,
      "learning_rate": 0.000997914656437508,
      "loss": 1.1004,
      "step": 517
    },
    {
      "epoch": 2.3242330424992965,
      "grad_norm": 2.700721502304077,
      "learning_rate": 0.0009978919440494537,
      "loss": 1.2179,
      "step": 518
    },
    {
      "epoch": 2.3287362792006756,
      "grad_norm": 0.15702994167804718,
      "learning_rate": 0.0009978691089064062,
      "loss": 1.1083,
      "step": 519
    },
    {
      "epoch": 2.3332395159020547,
      "grad_norm": 0.2511548697948456,
      "learning_rate": 0.0009978461510139955,
      "loss": 1.1398,
      "step": 520
    },
    {
      "epoch": 2.337742752603434,
      "grad_norm": 0.14399786293506622,
      "learning_rate": 0.0009978230703778818,
      "loss": 0.9078,
      "step": 521
    },
    {
      "epoch": 2.342245989304813,
      "grad_norm": 0.22231252491474152,
      "learning_rate": 0.0009977998670037554,
      "loss": 1.5607,
      "step": 522
    },
    {
      "epoch": 2.346749226006192,
      "grad_norm": 1.4338282346725464,
      "learning_rate": 0.0009977765408973375,
      "loss": 0.9531,
      "step": 523
    },
    {
      "epoch": 2.351252462707571,
      "grad_norm": 0.2717461585998535,
      "learning_rate": 0.0009977530920643786,
      "loss": 1.3074,
      "step": 524
    },
    {
      "epoch": 2.35575569940895,
      "grad_norm": 0.14466649293899536,
      "learning_rate": 0.0009977295205106603,
      "loss": 1.061,
      "step": 525
    },
    {
      "epoch": 2.360258936110329,
      "grad_norm": 0.13323399424552917,
      "learning_rate": 0.0009977058262419943,
      "loss": 1.0778,
      "step": 526
    },
    {
      "epoch": 2.3647621728117083,
      "grad_norm": 0.1477186530828476,
      "learning_rate": 0.000997682009264222,
      "loss": 0.9233,
      "step": 527
    },
    {
      "epoch": 2.3692654095130874,
      "grad_norm": 0.13846908509731293,
      "learning_rate": 0.0009976580695832157,
      "loss": 0.6719,
      "step": 528
    },
    {
      "epoch": 2.3737686462144665,
      "grad_norm": 0.12334059178829193,
      "learning_rate": 0.000997634007204878,
      "loss": 1.0392,
      "step": 529
    },
    {
      "epoch": 2.378271882915846,
      "grad_norm": 0.20564603805541992,
      "learning_rate": 0.000997609822135141,
      "loss": 1.0704,
      "step": 530
    },
    {
      "epoch": 2.382775119617225,
      "grad_norm": 0.16263118386268616,
      "learning_rate": 0.000997585514379968,
      "loss": 0.8464,
      "step": 531
    },
    {
      "epoch": 2.387278356318604,
      "grad_norm": 0.15556325018405914,
      "learning_rate": 0.0009975610839453514,
      "loss": 1.1476,
      "step": 532
    },
    {
      "epoch": 2.3917815930199833,
      "grad_norm": 0.16352295875549316,
      "learning_rate": 0.000997536530837315,
      "loss": 1.2685,
      "step": 533
    },
    {
      "epoch": 2.3962848297213624,
      "grad_norm": 0.13277071714401245,
      "learning_rate": 0.0009975118550619123,
      "loss": 1.1851,
      "step": 534
    },
    {
      "epoch": 2.4007880664227415,
      "grad_norm": 0.2217412292957306,
      "learning_rate": 0.0009974870566252269,
      "loss": 1.1222,
      "step": 535
    },
    {
      "epoch": 2.4052913031241205,
      "grad_norm": 0.16995033621788025,
      "learning_rate": 0.0009974621355333731,
      "loss": 1.2592,
      "step": 536
    },
    {
      "epoch": 2.4097945398254996,
      "grad_norm": 0.12359154969453812,
      "learning_rate": 0.000997437091792495,
      "loss": 0.7494,
      "step": 537
    },
    {
      "epoch": 2.4142977765268787,
      "grad_norm": 0.2320525050163269,
      "learning_rate": 0.0009974119254087673,
      "loss": 1.016,
      "step": 538
    },
    {
      "epoch": 2.418801013228258,
      "grad_norm": 0.19028818607330322,
      "learning_rate": 0.0009973866363883945,
      "loss": 1.1097,
      "step": 539
    },
    {
      "epoch": 2.423304249929637,
      "grad_norm": 0.1357511430978775,
      "learning_rate": 0.0009973612247376118,
      "loss": 0.8752,
      "step": 540
    },
    {
      "epoch": 2.427807486631016,
      "grad_norm": 0.15125246345996857,
      "learning_rate": 0.0009973356904626842,
      "loss": 0.7147,
      "step": 541
    },
    {
      "epoch": 2.432310723332395,
      "grad_norm": 0.14084763824939728,
      "learning_rate": 0.0009973100335699074,
      "loss": 0.7812,
      "step": 542
    },
    {
      "epoch": 2.436813960033774,
      "grad_norm": 0.48290303349494934,
      "learning_rate": 0.000997284254065607,
      "loss": 0.7907,
      "step": 543
    },
    {
      "epoch": 2.4413171967351532,
      "grad_norm": 0.10866536945104599,
      "learning_rate": 0.0009972583519561391,
      "loss": 1.0071,
      "step": 544
    },
    {
      "epoch": 2.4458204334365323,
      "grad_norm": 0.25924986600875854,
      "learning_rate": 0.0009972323272478896,
      "loss": 1.1182,
      "step": 545
    },
    {
      "epoch": 2.4503236701379114,
      "grad_norm": 0.18549253046512604,
      "learning_rate": 0.000997206179947275,
      "loss": 1.0477,
      "step": 546
    },
    {
      "epoch": 2.4548269068392905,
      "grad_norm": 0.23297269642353058,
      "learning_rate": 0.0009971799100607418,
      "loss": 1.2253,
      "step": 547
    },
    {
      "epoch": 2.45933014354067,
      "grad_norm": 0.5910038948059082,
      "learning_rate": 0.000997153517594767,
      "loss": 1.252,
      "step": 548
    },
    {
      "epoch": 2.463833380242049,
      "grad_norm": 0.11770720779895782,
      "learning_rate": 0.0009971270025558574,
      "loss": 0.9563,
      "step": 549
    },
    {
      "epoch": 2.468336616943428,
      "grad_norm": 0.10303837805986404,
      "learning_rate": 0.0009971003649505504,
      "loss": 0.8077,
      "step": 550
    },
    {
      "epoch": 2.4728398536448073,
      "grad_norm": 0.15998992323875427,
      "learning_rate": 0.0009970736047854136,
      "loss": 1.4343,
      "step": 551
    },
    {
      "epoch": 2.4773430903461864,
      "grad_norm": 0.16144564747810364,
      "learning_rate": 0.0009970467220670447,
      "loss": 1.145,
      "step": 552
    },
    {
      "epoch": 2.4818463270475655,
      "grad_norm": 0.13657742738723755,
      "learning_rate": 0.0009970197168020713,
      "loss": 0.9477,
      "step": 553
    },
    {
      "epoch": 2.4863495637489446,
      "grad_norm": 0.10431038588285446,
      "learning_rate": 0.000996992588997152,
      "loss": 1.0263,
      "step": 554
    },
    {
      "epoch": 2.4908528004503236,
      "grad_norm": 0.13803769648075104,
      "learning_rate": 0.0009969653386589748,
      "loss": 1.0749,
      "step": 555
    },
    {
      "epoch": 2.4953560371517027,
      "grad_norm": 0.16296249628067017,
      "learning_rate": 0.0009969379657942584,
      "loss": 1.0521,
      "step": 556
    },
    {
      "epoch": 2.499859273853082,
      "grad_norm": 0.14722628891468048,
      "learning_rate": 0.0009969104704097515,
      "loss": 0.7019,
      "step": 557
    },
    {
      "epoch": 2.504362510554461,
      "grad_norm": 0.133378803730011,
      "learning_rate": 0.000996882852512233,
      "loss": 1.2355,
      "step": 558
    },
    {
      "epoch": 2.50886574725584,
      "grad_norm": 0.2248069941997528,
      "learning_rate": 0.0009968551121085122,
      "loss": 1.2527,
      "step": 559
    },
    {
      "epoch": 2.5133689839572195,
      "grad_norm": 0.14193353056907654,
      "learning_rate": 0.0009968272492054285,
      "loss": 0.961,
      "step": 560
    },
    {
      "epoch": 2.5178722206585986,
      "grad_norm": 0.1944849193096161,
      "learning_rate": 0.0009967992638098516,
      "loss": 1.0189,
      "step": 561
    },
    {
      "epoch": 2.5223754573599777,
      "grad_norm": 0.4892809987068176,
      "learning_rate": 0.000996771155928681,
      "loss": 1.002,
      "step": 562
    },
    {
      "epoch": 2.526878694061357,
      "grad_norm": 0.14163336157798767,
      "learning_rate": 0.0009967429255688467,
      "loss": 0.8968,
      "step": 563
    },
    {
      "epoch": 2.531381930762736,
      "grad_norm": 0.32326892018318176,
      "learning_rate": 0.000996714572737309,
      "loss": 1.2391,
      "step": 564
    },
    {
      "epoch": 2.535885167464115,
      "grad_norm": 0.15765081346035004,
      "learning_rate": 0.0009966860974410584,
      "loss": 1.4124,
      "step": 565
    },
    {
      "epoch": 2.540388404165494,
      "grad_norm": 0.13425682485103607,
      "learning_rate": 0.0009966574996871154,
      "loss": 0.6212,
      "step": 566
    },
    {
      "epoch": 2.544891640866873,
      "grad_norm": 0.13404378294944763,
      "learning_rate": 0.0009966287794825304,
      "loss": 0.9758,
      "step": 567
    },
    {
      "epoch": 2.5493948775682522,
      "grad_norm": 0.20124614238739014,
      "learning_rate": 0.000996599936834385,
      "loss": 1.0276,
      "step": 568
    },
    {
      "epoch": 2.5538981142696313,
      "grad_norm": 0.1271163821220398,
      "learning_rate": 0.0009965709717497898,
      "loss": 0.9863,
      "step": 569
    },
    {
      "epoch": 2.5584013509710104,
      "grad_norm": 0.14771033823490143,
      "learning_rate": 0.0009965418842358862,
      "loss": 0.8327,
      "step": 570
    },
    {
      "epoch": 2.5629045876723895,
      "grad_norm": 0.08802194148302078,
      "learning_rate": 0.000996512674299846,
      "loss": 0.7443,
      "step": 571
    },
    {
      "epoch": 2.5674078243737686,
      "grad_norm": 0.36819878220558167,
      "learning_rate": 0.0009964833419488707,
      "loss": 0.6235,
      "step": 572
    },
    {
      "epoch": 2.5719110610751477,
      "grad_norm": 0.10204099118709564,
      "learning_rate": 0.0009964538871901922,
      "loss": 0.806,
      "step": 573
    },
    {
      "epoch": 2.5764142977765268,
      "grad_norm": 0.1561010777950287,
      "learning_rate": 0.0009964243100310725,
      "loss": 1.0987,
      "step": 574
    },
    {
      "epoch": 2.580917534477906,
      "grad_norm": 0.21499024331569672,
      "learning_rate": 0.000996394610478804,
      "loss": 1.1086,
      "step": 575
    },
    {
      "epoch": 2.585420771179285,
      "grad_norm": 0.15785689651966095,
      "learning_rate": 0.0009963647885407089,
      "loss": 1.1417,
      "step": 576
    },
    {
      "epoch": 2.589924007880664,
      "grad_norm": 0.1572544276714325,
      "learning_rate": 0.0009963348442241398,
      "loss": 0.6957,
      "step": 577
    },
    {
      "epoch": 2.594427244582043,
      "grad_norm": 0.1457231044769287,
      "learning_rate": 0.0009963047775364796,
      "loss": 1.2625,
      "step": 578
    },
    {
      "epoch": 2.598930481283422,
      "grad_norm": 0.09696921706199646,
      "learning_rate": 0.0009962745884851412,
      "loss": 0.633,
      "step": 579
    },
    {
      "epoch": 2.6034337179848017,
      "grad_norm": 0.15189386904239655,
      "learning_rate": 0.0009962442770775676,
      "loss": 0.7116,
      "step": 580
    },
    {
      "epoch": 2.607936954686181,
      "grad_norm": 0.13165564835071564,
      "learning_rate": 0.000996213843321232,
      "loss": 0.9362,
      "step": 581
    },
    {
      "epoch": 2.61244019138756,
      "grad_norm": 0.17124739289283752,
      "learning_rate": 0.000996183287223638,
      "loss": 1.0963,
      "step": 582
    },
    {
      "epoch": 2.616943428088939,
      "grad_norm": 0.13028207421302795,
      "learning_rate": 0.0009961526087923192,
      "loss": 0.8432,
      "step": 583
    },
    {
      "epoch": 2.621446664790318,
      "grad_norm": 0.13521641492843628,
      "learning_rate": 0.0009961218080348393,
      "loss": 1.0028,
      "step": 584
    },
    {
      "epoch": 2.625949901491697,
      "grad_norm": 0.1858624368906021,
      "learning_rate": 0.0009960908849587923,
      "loss": 0.8581,
      "step": 585
    },
    {
      "epoch": 2.6304531381930762,
      "grad_norm": 0.1892891526222229,
      "learning_rate": 0.000996059839571802,
      "loss": 0.8953,
      "step": 586
    },
    {
      "epoch": 2.6349563748944553,
      "grad_norm": 0.1336962878704071,
      "learning_rate": 0.0009960286718815226,
      "loss": 1.0846,
      "step": 587
    },
    {
      "epoch": 2.6394596115958344,
      "grad_norm": 0.23112820088863373,
      "learning_rate": 0.000995997381895639,
      "loss": 1.1006,
      "step": 588
    },
    {
      "epoch": 2.6439628482972135,
      "grad_norm": 0.15789584815502167,
      "learning_rate": 0.0009959659696218651,
      "loss": 0.9024,
      "step": 589
    },
    {
      "epoch": 2.6484660849985926,
      "grad_norm": 0.1267884224653244,
      "learning_rate": 0.000995934435067946,
      "loss": 1.2266,
      "step": 590
    },
    {
      "epoch": 2.652969321699972,
      "grad_norm": 0.10338807851076126,
      "learning_rate": 0.0009959027782416563,
      "loss": 0.9254,
      "step": 591
    },
    {
      "epoch": 2.657472558401351,
      "grad_norm": 0.1982329785823822,
      "learning_rate": 0.0009958709991508012,
      "loss": 0.9893,
      "step": 592
    },
    {
      "epoch": 2.6619757951027303,
      "grad_norm": 0.15932127833366394,
      "learning_rate": 0.0009958390978032155,
      "loss": 1.1136,
      "step": 593
    },
    {
      "epoch": 2.6664790318041094,
      "grad_norm": 0.15400917828083038,
      "learning_rate": 0.000995807074206765,
      "loss": 0.9848,
      "step": 594
    },
    {
      "epoch": 2.6709822685054885,
      "grad_norm": 0.10776598751544952,
      "learning_rate": 0.0009957749283693446,
      "loss": 0.6387,
      "step": 595
    },
    {
      "epoch": 2.6754855052068676,
      "grad_norm": 0.11149538308382034,
      "learning_rate": 0.0009957426602988798,
      "loss": 0.8428,
      "step": 596
    },
    {
      "epoch": 2.6799887419082467,
      "grad_norm": 0.12092874199151993,
      "learning_rate": 0.0009957102700033265,
      "loss": 0.7697,
      "step": 597
    },
    {
      "epoch": 2.6844919786096257,
      "grad_norm": 0.14217698574066162,
      "learning_rate": 0.0009956777574906704,
      "loss": 0.8101,
      "step": 598
    },
    {
      "epoch": 2.688995215311005,
      "grad_norm": 0.0997077077627182,
      "learning_rate": 0.0009956451227689277,
      "loss": 1.0751,
      "step": 599
    },
    {
      "epoch": 2.693498452012384,
      "grad_norm": 0.10419438779354095,
      "learning_rate": 0.0009956123658461443,
      "loss": 0.6447,
      "step": 600
    },
    {
      "epoch": 2.698001688713763,
      "grad_norm": 0.10798394680023193,
      "learning_rate": 0.0009955794867303961,
      "loss": 0.7915,
      "step": 601
    },
    {
      "epoch": 2.702504925415142,
      "grad_norm": 0.1452900618314743,
      "learning_rate": 0.00099554648542979,
      "loss": 1.035,
      "step": 602
    },
    {
      "epoch": 2.707008162116521,
      "grad_norm": 0.12537728250026703,
      "learning_rate": 0.0009955133619524623,
      "loss": 0.9794,
      "step": 603
    },
    {
      "epoch": 2.7115113988179003,
      "grad_norm": 0.2331487238407135,
      "learning_rate": 0.0009954801163065791,
      "loss": 0.8003,
      "step": 604
    },
    {
      "epoch": 2.7160146355192794,
      "grad_norm": 0.0931268259882927,
      "learning_rate": 0.0009954467485003375,
      "loss": 0.6606,
      "step": 605
    },
    {
      "epoch": 2.7205178722206584,
      "grad_norm": 0.13165193796157837,
      "learning_rate": 0.0009954132585419644,
      "loss": 0.8452,
      "step": 606
    },
    {
      "epoch": 2.7250211089220375,
      "grad_norm": 0.12202651053667068,
      "learning_rate": 0.0009953796464397167,
      "loss": 0.6763,
      "step": 607
    },
    {
      "epoch": 2.7295243456234166,
      "grad_norm": 0.1674472689628601,
      "learning_rate": 0.000995345912201881,
      "loss": 0.954,
      "step": 608
    },
    {
      "epoch": 2.7340275823247957,
      "grad_norm": 0.12094061821699142,
      "learning_rate": 0.000995312055836775,
      "loss": 0.8871,
      "step": 609
    },
    {
      "epoch": 2.738530819026175,
      "grad_norm": 0.0870937705039978,
      "learning_rate": 0.0009952780773527458,
      "loss": 0.6646,
      "step": 610
    },
    {
      "epoch": 2.7430340557275543,
      "grad_norm": 0.1165396124124527,
      "learning_rate": 0.0009952439767581707,
      "loss": 1.0021,
      "step": 611
    },
    {
      "epoch": 2.7475372924289334,
      "grad_norm": 0.39851081371307373,
      "learning_rate": 0.000995209754061457,
      "loss": 0.8993,
      "step": 612
    },
    {
      "epoch": 2.7520405291303125,
      "grad_norm": 0.31210121512413025,
      "learning_rate": 0.0009951754092710427,
      "loss": 0.6898,
      "step": 613
    },
    {
      "epoch": 2.7565437658316916,
      "grad_norm": 0.21842032670974731,
      "learning_rate": 0.0009951409423953955,
      "loss": 1.4955,
      "step": 614
    },
    {
      "epoch": 2.7610470025330707,
      "grad_norm": 0.26512038707733154,
      "learning_rate": 0.0009951063534430126,
      "loss": 0.818,
      "step": 615
    },
    {
      "epoch": 2.7655502392344498,
      "grad_norm": 0.13316625356674194,
      "learning_rate": 0.0009950716424224225,
      "loss": 1.0264,
      "step": 616
    },
    {
      "epoch": 2.770053475935829,
      "grad_norm": 0.15545238554477692,
      "learning_rate": 0.0009950368093421828,
      "loss": 0.919,
      "step": 617
    },
    {
      "epoch": 2.774556712637208,
      "grad_norm": 0.12765124440193176,
      "learning_rate": 0.0009950018542108818,
      "loss": 1.0841,
      "step": 618
    },
    {
      "epoch": 2.779059949338587,
      "grad_norm": 0.17653916776180267,
      "learning_rate": 0.0009949667770371379,
      "loss": 1.381,
      "step": 619
    },
    {
      "epoch": 2.783563186039966,
      "grad_norm": 0.11456511169672012,
      "learning_rate": 0.0009949315778295987,
      "loss": 1.0194,
      "step": 620
    },
    {
      "epoch": 2.788066422741345,
      "grad_norm": 0.11039788275957108,
      "learning_rate": 0.000994896256596943,
      "loss": 0.8266,
      "step": 621
    },
    {
      "epoch": 2.7925696594427247,
      "grad_norm": 0.11630085855722427,
      "learning_rate": 0.0009948608133478793,
      "loss": 0.9196,
      "step": 622
    },
    {
      "epoch": 2.797072896144104,
      "grad_norm": 0.08234627544879913,
      "learning_rate": 0.0009948252480911457,
      "loss": 0.6561,
      "step": 623
    },
    {
      "epoch": 2.801576132845483,
      "grad_norm": 0.1488044559955597,
      "learning_rate": 0.000994789560835511,
      "loss": 1.3143,
      "step": 624
    },
    {
      "epoch": 2.806079369546862,
      "grad_norm": 0.13403797149658203,
      "learning_rate": 0.0009947537515897743,
      "loss": 0.981,
      "step": 625
    },
    {
      "epoch": 2.810582606248241,
      "grad_norm": 0.15784364938735962,
      "learning_rate": 0.0009947178203627636,
      "loss": 0.8284,
      "step": 626
    },
    {
      "epoch": 2.81508584294962,
      "grad_norm": 0.19434091448783875,
      "learning_rate": 0.0009946817671633384,
      "loss": 0.9051,
      "step": 627
    },
    {
      "epoch": 2.8195890796509993,
      "grad_norm": 0.13563965260982513,
      "learning_rate": 0.0009946455920003872,
      "loss": 1.13,
      "step": 628
    },
    {
      "epoch": 2.8240923163523783,
      "grad_norm": 0.40475231409072876,
      "learning_rate": 0.000994609294882829,
      "loss": 0.9754,
      "step": 629
    },
    {
      "epoch": 2.8285955530537574,
      "grad_norm": 0.2281411588191986,
      "learning_rate": 0.0009945728758196128,
      "loss": 1.4766,
      "step": 630
    },
    {
      "epoch": 2.8330987897551365,
      "grad_norm": 0.20123282074928284,
      "learning_rate": 0.000994536334819718,
      "loss": 0.9393,
      "step": 631
    },
    {
      "epoch": 2.8376020264565156,
      "grad_norm": 0.23836271464824677,
      "learning_rate": 0.0009944996718921535,
      "loss": 1.2972,
      "step": 632
    },
    {
      "epoch": 2.8421052631578947,
      "grad_norm": 0.14121665060520172,
      "learning_rate": 0.0009944628870459586,
      "loss": 1.0502,
      "step": 633
    },
    {
      "epoch": 2.8466084998592738,
      "grad_norm": 0.13507546484470367,
      "learning_rate": 0.0009944259802902027,
      "loss": 0.9352,
      "step": 634
    },
    {
      "epoch": 2.851111736560653,
      "grad_norm": 0.19082310795783997,
      "learning_rate": 0.0009943889516339849,
      "loss": 1.0725,
      "step": 635
    },
    {
      "epoch": 2.855614973262032,
      "grad_norm": 0.12024328857660294,
      "learning_rate": 0.0009943518010864345,
      "loss": 0.6967,
      "step": 636
    },
    {
      "epoch": 2.860118209963411,
      "grad_norm": 0.1185862123966217,
      "learning_rate": 0.0009943145286567113,
      "loss": 1.0261,
      "step": 637
    },
    {
      "epoch": 2.86462144666479,
      "grad_norm": 0.1790914088487625,
      "learning_rate": 0.0009942771343540047,
      "loss": 1.1587,
      "step": 638
    },
    {
      "epoch": 2.869124683366169,
      "grad_norm": 0.14671842753887177,
      "learning_rate": 0.0009942396181875342,
      "loss": 0.8181,
      "step": 639
    },
    {
      "epoch": 2.8736279200675483,
      "grad_norm": 0.1764296591281891,
      "learning_rate": 0.0009942019801665494,
      "loss": 1.0038,
      "step": 640
    },
    {
      "epoch": 2.8781311567689274,
      "grad_norm": 0.1826155185699463,
      "learning_rate": 0.00099416422030033,
      "loss": 1.215,
      "step": 641
    },
    {
      "epoch": 2.882634393470307,
      "grad_norm": 0.13697755336761475,
      "learning_rate": 0.0009941263385981854,
      "loss": 0.8394,
      "step": 642
    },
    {
      "epoch": 2.887137630171686,
      "grad_norm": 0.1854507327079773,
      "learning_rate": 0.0009940883350694556,
      "loss": 1.0394,
      "step": 643
    },
    {
      "epoch": 2.891640866873065,
      "grad_norm": 0.12347421795129776,
      "learning_rate": 0.0009940502097235103,
      "loss": 0.6161,
      "step": 644
    },
    {
      "epoch": 2.896144103574444,
      "grad_norm": 0.09401388466358185,
      "learning_rate": 0.0009940119625697493,
      "loss": 1.1458,
      "step": 645
    },
    {
      "epoch": 2.9006473402758233,
      "grad_norm": 0.12140978872776031,
      "learning_rate": 0.0009939735936176021,
      "loss": 0.8397,
      "step": 646
    },
    {
      "epoch": 2.9051505769772024,
      "grad_norm": 0.12354201823472977,
      "learning_rate": 0.0009939351028765292,
      "loss": 1.0486,
      "step": 647
    },
    {
      "epoch": 2.9096538136785814,
      "grad_norm": 0.1548304706811905,
      "learning_rate": 0.0009938964903560199,
      "loss": 0.8969,
      "step": 648
    },
    {
      "epoch": 2.9141570503799605,
      "grad_norm": 0.17444583773612976,
      "learning_rate": 0.0009938577560655941,
      "loss": 1.1231,
      "step": 649
    },
    {
      "epoch": 2.9186602870813396,
      "grad_norm": 0.12792891263961792,
      "learning_rate": 0.000993818900014802,
      "loss": 1.2907,
      "step": 650
    },
    {
      "epoch": 2.9231635237827187,
      "grad_norm": 0.12986940145492554,
      "learning_rate": 0.0009937799222132235,
      "loss": 1.0949,
      "step": 651
    },
    {
      "epoch": 2.927666760484098,
      "grad_norm": 0.11088778078556061,
      "learning_rate": 0.0009937408226704685,
      "loss": 0.6893,
      "step": 652
    },
    {
      "epoch": 2.9321699971854773,
      "grad_norm": 0.14939911663532257,
      "learning_rate": 0.000993701601396177,
      "loss": 0.9043,
      "step": 653
    },
    {
      "epoch": 2.9366732338868564,
      "grad_norm": 0.10333194583654404,
      "learning_rate": 0.0009936622584000188,
      "loss": 0.8596,
      "step": 654
    },
    {
      "epoch": 2.9411764705882355,
      "grad_norm": 0.10477114468812943,
      "learning_rate": 0.0009936227936916942,
      "loss": 0.8253,
      "step": 655
    },
    {
      "epoch": 2.9456797072896146,
      "grad_norm": 0.14478710293769836,
      "learning_rate": 0.0009935832072809328,
      "loss": 0.8732,
      "step": 656
    },
    {
      "epoch": 2.9501829439909937,
      "grad_norm": 0.15209783613681793,
      "learning_rate": 0.000993543499177495,
      "loss": 0.6839,
      "step": 657
    },
    {
      "epoch": 2.9546861806923728,
      "grad_norm": 0.5184093713760376,
      "learning_rate": 0.0009935036693911707,
      "loss": 0.7023,
      "step": 658
    },
    {
      "epoch": 2.959189417393752,
      "grad_norm": 0.22799955308437347,
      "learning_rate": 0.0009934637179317798,
      "loss": 1.0168,
      "step": 659
    },
    {
      "epoch": 2.963692654095131,
      "grad_norm": 0.19050945341587067,
      "learning_rate": 0.0009934236448091724,
      "loss": 1.1656,
      "step": 660
    },
    {
      "epoch": 2.96819589079651,
      "grad_norm": 0.22195519506931305,
      "learning_rate": 0.0009933834500332286,
      "loss": 0.7016,
      "step": 661
    },
    {
      "epoch": 2.972699127497889,
      "grad_norm": 0.178907573223114,
      "learning_rate": 0.000993343133613858,
      "loss": 1.0354,
      "step": 662
    },
    {
      "epoch": 2.977202364199268,
      "grad_norm": 0.16144432127475739,
      "learning_rate": 0.0009933026955610013,
      "loss": 1.0079,
      "step": 663
    },
    {
      "epoch": 2.9817056009006473,
      "grad_norm": 0.1386166661977768,
      "learning_rate": 0.000993262135884628,
      "loss": 0.8894,
      "step": 664
    },
    {
      "epoch": 2.9862088376020264,
      "grad_norm": 0.15947873890399933,
      "learning_rate": 0.0009932214545947378,
      "loss": 0.9026,
      "step": 665
    },
    {
      "epoch": 2.9907120743034055,
      "grad_norm": 0.13515207171440125,
      "learning_rate": 0.0009931806517013613,
      "loss": 0.9015,
      "step": 666
    },
    {
      "epoch": 2.9952153110047846,
      "grad_norm": 0.1227663904428482,
      "learning_rate": 0.000993139727214558,
      "loss": 0.9356,
      "step": 667
    },
    {
      "epoch": 2.9997185477061636,
      "grad_norm": 0.129755899310112,
      "learning_rate": 0.0009930986811444178,
      "loss": 1.0062,
      "step": 668
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.129755899310112,
      "learning_rate": 0.0009930575135010608,
      "loss": 0.0172,
      "step": 669
    },
    {
      "epoch": 3.0,
      "eval_f1": 0.9745235707121364,
      "eval_loss": 0.03514188900589943,
      "eval_runtime": 26.2363,
      "eval_samples_per_second": 190.5,
      "eval_steps_per_second": 5.984,
      "step": 669
    },
    {
      "epoch": 3.004503236701379,
      "grad_norm": 0.10113213956356049,
      "learning_rate": 0.0009930162242946367,
      "loss": 0.6338,
      "step": 670
    },
    {
      "epoch": 3.009006473402758,
      "grad_norm": 0.11030519753694534,
      "learning_rate": 0.0009929748135353257,
      "loss": 0.6866,
      "step": 671
    },
    {
      "epoch": 3.0135097101041373,
      "grad_norm": 0.12015096098184586,
      "learning_rate": 0.0009929332812333368,
      "loss": 0.5243,
      "step": 672
    },
    {
      "epoch": 3.0180129468055163,
      "grad_norm": 0.18563787639141083,
      "learning_rate": 0.000992891627398911,
      "loss": 0.6869,
      "step": 673
    },
    {
      "epoch": 3.0225161835068954,
      "grad_norm": 0.13205960392951965,
      "learning_rate": 0.0009928498520423166,
      "loss": 0.9937,
      "step": 674
    },
    {
      "epoch": 3.0270194202082745,
      "grad_norm": 0.08609852939844131,
      "learning_rate": 0.0009928079551738544,
      "loss": 0.5112,
      "step": 675
    },
    {
      "epoch": 3.0315226569096536,
      "grad_norm": 0.11583556234836578,
      "learning_rate": 0.0009927659368038533,
      "loss": 0.6249,
      "step": 676
    },
    {
      "epoch": 3.036025893611033,
      "grad_norm": 0.1855442076921463,
      "learning_rate": 0.0009927237969426734,
      "loss": 0.5972,
      "step": 677
    },
    {
      "epoch": 3.0405291303124122,
      "grad_norm": 0.2788764536380768,
      "learning_rate": 0.0009926815356007042,
      "loss": 0.7507,
      "step": 678
    },
    {
      "epoch": 3.0450323670137913,
      "grad_norm": 0.13412787020206451,
      "learning_rate": 0.000992639152788365,
      "loss": 0.8533,
      "step": 679
    },
    {
      "epoch": 3.0495356037151704,
      "grad_norm": 0.1255386620759964,
      "learning_rate": 0.0009925966485161055,
      "loss": 0.5473,
      "step": 680
    },
    {
      "epoch": 3.0540388404165495,
      "grad_norm": 0.1024058535695076,
      "learning_rate": 0.000992554022794405,
      "loss": 0.6718,
      "step": 681
    },
    {
      "epoch": 3.0585420771179286,
      "grad_norm": 0.15843752026557922,
      "learning_rate": 0.000992511275633773,
      "loss": 0.6951,
      "step": 682
    },
    {
      "epoch": 3.0630453138193077,
      "grad_norm": 0.15565325319766998,
      "learning_rate": 0.0009924684070447482,
      "loss": 0.6789,
      "step": 683
    },
    {
      "epoch": 3.0675485505206868,
      "grad_norm": 0.17675890028476715,
      "learning_rate": 0.0009924254170379006,
      "loss": 0.6409,
      "step": 684
    },
    {
      "epoch": 3.072051787222066,
      "grad_norm": 0.06598473340272903,
      "learning_rate": 0.0009923823056238287,
      "loss": 0.2935,
      "step": 685
    },
    {
      "epoch": 3.076555023923445,
      "grad_norm": 0.094123475253582,
      "learning_rate": 0.0009923390728131623,
      "loss": 0.5595,
      "step": 686
    },
    {
      "epoch": 3.081058260624824,
      "grad_norm": 0.15091335773468018,
      "learning_rate": 0.0009922957186165597,
      "loss": 0.7614,
      "step": 687
    },
    {
      "epoch": 3.085561497326203,
      "grad_norm": 0.12661141157150269,
      "learning_rate": 0.0009922522430447103,
      "loss": 0.5857,
      "step": 688
    },
    {
      "epoch": 3.090064734027582,
      "grad_norm": 0.1005832627415657,
      "learning_rate": 0.0009922086461083331,
      "loss": 0.6161,
      "step": 689
    },
    {
      "epoch": 3.0945679707289613,
      "grad_norm": 0.1297786682844162,
      "learning_rate": 0.0009921649278181763,
      "loss": 0.7829,
      "step": 690
    },
    {
      "epoch": 3.0990712074303404,
      "grad_norm": 0.17656376957893372,
      "learning_rate": 0.0009921210881850193,
      "loss": 0.869,
      "step": 691
    },
    {
      "epoch": 3.10357444413172,
      "grad_norm": 0.08393704891204834,
      "learning_rate": 0.0009920771272196702,
      "loss": 0.5016,
      "step": 692
    },
    {
      "epoch": 3.108077680833099,
      "grad_norm": 0.13314197957515717,
      "learning_rate": 0.000992033044932968,
      "loss": 0.8432,
      "step": 693
    },
    {
      "epoch": 3.112580917534478,
      "grad_norm": 0.2546442747116089,
      "learning_rate": 0.0009919888413357806,
      "loss": 0.6742,
      "step": 694
    },
    {
      "epoch": 3.117084154235857,
      "grad_norm": 0.2821494936943054,
      "learning_rate": 0.000991944516439007,
      "loss": 0.7433,
      "step": 695
    },
    {
      "epoch": 3.1215873909372363,
      "grad_norm": 0.0979602187871933,
      "learning_rate": 0.0009919000702535753,
      "loss": 0.4028,
      "step": 696
    },
    {
      "epoch": 3.1260906276386153,
      "grad_norm": 0.3516811728477478,
      "learning_rate": 0.0009918555027904434,
      "loss": 0.7932,
      "step": 697
    },
    {
      "epoch": 3.1305938643399944,
      "grad_norm": 0.0956842228770256,
      "learning_rate": 0.0009918108140605996,
      "loss": 0.4496,
      "step": 698
    },
    {
      "epoch": 3.1350971010413735,
      "grad_norm": 0.18722355365753174,
      "learning_rate": 0.000991766004075062,
      "loss": 0.6809,
      "step": 699
    },
    {
      "epoch": 3.1396003377427526,
      "grad_norm": 0.1505773961544037,
      "learning_rate": 0.0009917210728448782,
      "loss": 0.9279,
      "step": 700
    },
    {
      "epoch": 3.1441035744441317,
      "grad_norm": 0.15176518261432648,
      "learning_rate": 0.0009916760203811262,
      "loss": 0.7916,
      "step": 701
    },
    {
      "epoch": 3.1486068111455108,
      "grad_norm": 0.1013815701007843,
      "learning_rate": 0.0009916308466949133,
      "loss": 0.5765,
      "step": 702
    },
    {
      "epoch": 3.15311004784689,
      "grad_norm": 0.08279461413621902,
      "learning_rate": 0.0009915855517973774,
      "loss": 0.4842,
      "step": 703
    },
    {
      "epoch": 3.157613284548269,
      "grad_norm": 0.11902565509080887,
      "learning_rate": 0.000991540135699686,
      "loss": 0.6661,
      "step": 704
    },
    {
      "epoch": 3.162116521249648,
      "grad_norm": 0.1322593092918396,
      "learning_rate": 0.0009914945984130362,
      "loss": 0.7735,
      "step": 705
    },
    {
      "epoch": 3.166619757951027,
      "grad_norm": 0.1884574145078659,
      "learning_rate": 0.0009914489399486552,
      "loss": 0.9896,
      "step": 706
    },
    {
      "epoch": 3.171122994652406,
      "grad_norm": 0.1558414250612259,
      "learning_rate": 0.0009914031603178001,
      "loss": 0.8515,
      "step": 707
    },
    {
      "epoch": 3.1756262313537853,
      "grad_norm": 0.09824621677398682,
      "learning_rate": 0.000991357259531758,
      "loss": 0.6973,
      "step": 708
    },
    {
      "epoch": 3.180129468055165,
      "grad_norm": 0.29574882984161377,
      "learning_rate": 0.0009913112376018457,
      "loss": 0.9238,
      "step": 709
    },
    {
      "epoch": 3.184632704756544,
      "grad_norm": 0.15289239585399628,
      "learning_rate": 0.0009912650945394096,
      "loss": 0.8281,
      "step": 710
    },
    {
      "epoch": 3.189135941457923,
      "grad_norm": 0.139567032456398,
      "learning_rate": 0.0009912188303558263,
      "loss": 0.8464,
      "step": 711
    },
    {
      "epoch": 3.193639178159302,
      "grad_norm": 0.1690760850906372,
      "learning_rate": 0.0009911724450625023,
      "loss": 0.7776,
      "step": 712
    },
    {
      "epoch": 3.198142414860681,
      "grad_norm": 0.10722412914037704,
      "learning_rate": 0.0009911259386708741,
      "loss": 0.8106,
      "step": 713
    },
    {
      "epoch": 3.2026456515620603,
      "grad_norm": 0.17140261828899384,
      "learning_rate": 0.0009910793111924075,
      "loss": 0.711,
      "step": 714
    },
    {
      "epoch": 3.2071488882634394,
      "grad_norm": 0.12714645266532898,
      "learning_rate": 0.0009910325626385985,
      "loss": 0.6745,
      "step": 715
    },
    {
      "epoch": 3.2116521249648184,
      "grad_norm": 0.17538641393184662,
      "learning_rate": 0.0009909856930209733,
      "loss": 0.7354,
      "step": 716
    },
    {
      "epoch": 3.2161553616661975,
      "grad_norm": 0.10471010953187943,
      "learning_rate": 0.000990938702351087,
      "loss": 0.5481,
      "step": 717
    },
    {
      "epoch": 3.2206585983675766,
      "grad_norm": 0.33238089084625244,
      "learning_rate": 0.0009908915906405257,
      "loss": 0.9142,
      "step": 718
    },
    {
      "epoch": 3.2251618350689557,
      "grad_norm": 0.15574930608272552,
      "learning_rate": 0.0009908443579009043,
      "loss": 0.7483,
      "step": 719
    },
    {
      "epoch": 3.229665071770335,
      "grad_norm": 0.09876535832881927,
      "learning_rate": 0.0009907970041438683,
      "loss": 0.8316,
      "step": 720
    },
    {
      "epoch": 3.234168308471714,
      "grad_norm": 0.1596800833940506,
      "learning_rate": 0.0009907495293810925,
      "loss": 0.7481,
      "step": 721
    },
    {
      "epoch": 3.238671545173093,
      "grad_norm": 0.09097472578287125,
      "learning_rate": 0.0009907019336242821,
      "loss": 0.379,
      "step": 722
    },
    {
      "epoch": 3.2431747818744725,
      "grad_norm": 0.20401576161384583,
      "learning_rate": 0.0009906542168851716,
      "loss": 1.002,
      "step": 723
    },
    {
      "epoch": 3.2476780185758516,
      "grad_norm": 0.19074352085590363,
      "learning_rate": 0.0009906063791755256,
      "loss": 0.7809,
      "step": 724
    },
    {
      "epoch": 3.2521812552772307,
      "grad_norm": 0.11727479845285416,
      "learning_rate": 0.0009905584205071383,
      "loss": 0.7441,
      "step": 725
    },
    {
      "epoch": 3.2566844919786098,
      "grad_norm": 0.1656804233789444,
      "learning_rate": 0.000990510340891834,
      "loss": 0.7625,
      "step": 726
    },
    {
      "epoch": 3.261187728679989,
      "grad_norm": 0.1325007528066635,
      "learning_rate": 0.0009904621403414669,
      "loss": 0.9876,
      "step": 727
    },
    {
      "epoch": 3.265690965381368,
      "grad_norm": 0.131071075797081,
      "learning_rate": 0.0009904138188679206,
      "loss": 0.5201,
      "step": 728
    },
    {
      "epoch": 3.270194202082747,
      "grad_norm": 0.16429318487644196,
      "learning_rate": 0.0009903653764831086,
      "loss": 0.9788,
      "step": 729
    },
    {
      "epoch": 3.274697438784126,
      "grad_norm": 0.1301608830690384,
      "learning_rate": 0.0009903168131989747,
      "loss": 0.9703,
      "step": 730
    },
    {
      "epoch": 3.279200675485505,
      "grad_norm": 0.23617824912071228,
      "learning_rate": 0.000990268129027492,
      "loss": 1.0013,
      "step": 731
    },
    {
      "epoch": 3.2837039121868843,
      "grad_norm": 0.2644500434398651,
      "learning_rate": 0.0009902193239806633,
      "loss": 0.7841,
      "step": 732
    },
    {
      "epoch": 3.2882071488882634,
      "grad_norm": 0.14753706753253937,
      "learning_rate": 0.000990170398070522,
      "loss": 1.0277,
      "step": 733
    },
    {
      "epoch": 3.2927103855896425,
      "grad_norm": 0.11234232038259506,
      "learning_rate": 0.00099012135130913,
      "loss": 0.7937,
      "step": 734
    },
    {
      "epoch": 3.2972136222910216,
      "grad_norm": 0.138881117105484,
      "learning_rate": 0.0009900721837085807,
      "loss": 0.7322,
      "step": 735
    },
    {
      "epoch": 3.3017168589924006,
      "grad_norm": 0.08931535482406616,
      "learning_rate": 0.0009900228952809955,
      "loss": 0.6643,
      "step": 736
    },
    {
      "epoch": 3.3062200956937797,
      "grad_norm": 0.14212343096733093,
      "learning_rate": 0.0009899734860385268,
      "loss": 0.8323,
      "step": 737
    },
    {
      "epoch": 3.310723332395159,
      "grad_norm": 0.27397963404655457,
      "learning_rate": 0.0009899239559933565,
      "loss": 1.2058,
      "step": 738
    },
    {
      "epoch": 3.315226569096538,
      "grad_norm": 0.16406361758708954,
      "learning_rate": 0.0009898743051576962,
      "loss": 0.6805,
      "step": 739
    },
    {
      "epoch": 3.3197298057979174,
      "grad_norm": 0.17904134094715118,
      "learning_rate": 0.0009898245335437869,
      "loss": 0.6903,
      "step": 740
    },
    {
      "epoch": 3.3242330424992965,
      "grad_norm": 0.08154254406690598,
      "learning_rate": 0.0009897746411639003,
      "loss": 0.5142,
      "step": 741
    },
    {
      "epoch": 3.3287362792006756,
      "grad_norm": 0.23382022976875305,
      "learning_rate": 0.000989724628030337,
      "loss": 0.7253,
      "step": 742
    },
    {
      "epoch": 3.3332395159020547,
      "grad_norm": 0.1055716723203659,
      "learning_rate": 0.0009896744941554278,
      "loss": 0.4788,
      "step": 743
    },
    {
      "epoch": 3.337742752603434,
      "grad_norm": 0.1539495438337326,
      "learning_rate": 0.0009896242395515333,
      "loss": 0.6446,
      "step": 744
    },
    {
      "epoch": 3.342245989304813,
      "grad_norm": 0.09186599403619766,
      "learning_rate": 0.0009895738642310434,
      "loss": 0.7221,
      "step": 745
    },
    {
      "epoch": 3.346749226006192,
      "grad_norm": 0.14071957767009735,
      "learning_rate": 0.0009895233682063785,
      "loss": 0.992,
      "step": 746
    },
    {
      "epoch": 3.351252462707571,
      "grad_norm": 0.10257668048143387,
      "learning_rate": 0.0009894727514899882,
      "loss": 0.7395,
      "step": 747
    },
    {
      "epoch": 3.35575569940895,
      "grad_norm": 0.13502322137355804,
      "learning_rate": 0.000989422014094352,
      "loss": 0.6299,
      "step": 748
    },
    {
      "epoch": 3.360258936110329,
      "grad_norm": 0.18531915545463562,
      "learning_rate": 0.0009893711560319794,
      "loss": 0.621,
      "step": 749
    },
    {
      "epoch": 3.3647621728117083,
      "grad_norm": 0.11894150823354721,
      "learning_rate": 0.000989320177315409,
      "loss": 0.7357,
      "step": 750
    },
    {
      "epoch": 3.3692654095130874,
      "grad_norm": 0.10014678537845612,
      "learning_rate": 0.0009892690779572098,
      "loss": 0.9882,
      "step": 751
    },
    {
      "epoch": 3.3737686462144665,
      "grad_norm": 0.1614525020122528,
      "learning_rate": 0.0009892178579699804,
      "loss": 0.9239,
      "step": 752
    },
    {
      "epoch": 3.378271882915846,
      "grad_norm": 0.12224427610635757,
      "learning_rate": 0.000989166517366349,
      "loss": 0.8161,
      "step": 753
    },
    {
      "epoch": 3.382775119617225,
      "grad_norm": 0.16041430830955505,
      "learning_rate": 0.0009891150561589738,
      "loss": 0.7167,
      "step": 754
    },
    {
      "epoch": 3.387278356318604,
      "grad_norm": 0.1368095427751541,
      "learning_rate": 0.000989063474360542,
      "loss": 0.8384,
      "step": 755
    },
    {
      "epoch": 3.3917815930199833,
      "grad_norm": 0.09427144378423691,
      "learning_rate": 0.0009890117719837715,
      "loss": 0.6496,
      "step": 756
    },
    {
      "epoch": 3.3962848297213624,
      "grad_norm": 0.11153404414653778,
      "learning_rate": 0.0009889599490414095,
      "loss": 0.9196,
      "step": 757
    },
    {
      "epoch": 3.4007880664227415,
      "grad_norm": 0.1786532700061798,
      "learning_rate": 0.0009889080055462327,
      "loss": 1.1385,
      "step": 758
    },
    {
      "epoch": 3.4052913031241205,
      "grad_norm": 0.182979017496109,
      "learning_rate": 0.0009888559415110478,
      "loss": 1.0049,
      "step": 759
    },
    {
      "epoch": 3.4097945398254996,
      "grad_norm": 0.15069478750228882,
      "learning_rate": 0.0009888037569486913,
      "loss": 1.0433,
      "step": 760
    },
    {
      "epoch": 3.4142977765268787,
      "grad_norm": 0.12089673429727554,
      "learning_rate": 0.0009887514518720291,
      "loss": 0.7861,
      "step": 761
    },
    {
      "epoch": 3.418801013228258,
      "grad_norm": 0.13528621196746826,
      "learning_rate": 0.000988699026293957,
      "loss": 0.8198,
      "step": 762
    },
    {
      "epoch": 3.423304249929637,
      "grad_norm": 0.10792998969554901,
      "learning_rate": 0.000988646480227401,
      "loss": 0.7352,
      "step": 763
    },
    {
      "epoch": 3.427807486631016,
      "grad_norm": 0.09914269298315048,
      "learning_rate": 0.0009885938136853154,
      "loss": 0.5797,
      "step": 764
    },
    {
      "epoch": 3.432310723332395,
      "grad_norm": 0.10566458106040955,
      "learning_rate": 0.0009885410266806858,
      "loss": 0.5046,
      "step": 765
    },
    {
      "epoch": 3.436813960033774,
      "grad_norm": 0.1034657210111618,
      "learning_rate": 0.0009884881192265265,
      "loss": 0.6327,
      "step": 766
    },
    {
      "epoch": 3.4413171967351532,
      "grad_norm": 0.1431431621313095,
      "learning_rate": 0.0009884350913358817,
      "loss": 0.8306,
      "step": 767
    },
    {
      "epoch": 3.4458204334365323,
      "grad_norm": 0.1105075553059578,
      "learning_rate": 0.000988381943021826,
      "loss": 0.6002,
      "step": 768
    },
    {
      "epoch": 3.4503236701379114,
      "grad_norm": 0.1061355248093605,
      "learning_rate": 0.0009883286742974624,
      "loss": 0.6011,
      "step": 769
    },
    {
      "epoch": 3.4548269068392905,
      "grad_norm": 0.23080554604530334,
      "learning_rate": 0.0009882752851759246,
      "loss": 0.7551,
      "step": 770
    },
    {
      "epoch": 3.45933014354067,
      "grad_norm": 0.10028265416622162,
      "learning_rate": 0.0009882217756703757,
      "loss": 0.8829,
      "step": 771
    },
    {
      "epoch": 3.463833380242049,
      "grad_norm": 0.12576384842395782,
      "learning_rate": 0.0009881681457940084,
      "loss": 0.6492,
      "step": 772
    },
    {
      "epoch": 3.468336616943428,
      "grad_norm": 0.12604109942913055,
      "learning_rate": 0.0009881143955600448,
      "loss": 0.6066,
      "step": 773
    },
    {
      "epoch": 3.4728398536448073,
      "grad_norm": 0.15661783516407013,
      "learning_rate": 0.0009880605249817376,
      "loss": 0.8244,
      "step": 774
    },
    {
      "epoch": 3.4773430903461864,
      "grad_norm": 0.25501641631126404,
      "learning_rate": 0.000988006534072368,
      "loss": 1.3553,
      "step": 775
    },
    {
      "epoch": 3.4818463270475655,
      "grad_norm": 0.11655624210834503,
      "learning_rate": 0.0009879524228452478,
      "loss": 0.7171,
      "step": 776
    },
    {
      "epoch": 3.4863495637489446,
      "grad_norm": 0.1922338604927063,
      "learning_rate": 0.0009878981913137178,
      "loss": 0.7709,
      "step": 777
    },
    {
      "epoch": 3.4908528004503236,
      "grad_norm": 0.14821475744247437,
      "learning_rate": 0.000987843839491149,
      "loss": 0.7205,
      "step": 778
    },
    {
      "epoch": 3.4953560371517027,
      "grad_norm": 0.12147646397352219,
      "learning_rate": 0.0009877893673909417,
      "loss": 0.6113,
      "step": 779
    },
    {
      "epoch": 3.499859273853082,
      "grad_norm": 0.11523240059614182,
      "learning_rate": 0.000987734775026526,
      "loss": 0.534,
      "step": 780
    },
    {
      "epoch": 3.504362510554461,
      "grad_norm": 0.224419504404068,
      "learning_rate": 0.0009876800624113616,
      "loss": 0.9061,
      "step": 781
    },
    {
      "epoch": 3.50886574725584,
      "grad_norm": 0.1860993206501007,
      "learning_rate": 0.0009876252295589378,
      "loss": 0.8932,
      "step": 782
    },
    {
      "epoch": 3.5133689839572195,
      "grad_norm": 0.7176651358604431,
      "learning_rate": 0.0009875702764827739,
      "loss": 0.7532,
      "step": 783
    },
    {
      "epoch": 3.5178722206585986,
      "grad_norm": 0.0813370943069458,
      "learning_rate": 0.000987515203196418,
      "loss": 0.4309,
      "step": 784
    },
    {
      "epoch": 3.5223754573599777,
      "grad_norm": 0.11583853513002396,
      "learning_rate": 0.000987460009713449,
      "loss": 0.841,
      "step": 785
    },
    {
      "epoch": 3.526878694061357,
      "grad_norm": 0.21565106511116028,
      "learning_rate": 0.0009874046960474743,
      "loss": 1.1255,
      "step": 786
    },
    {
      "epoch": 3.531381930762736,
      "grad_norm": 0.20676206052303314,
      "learning_rate": 0.0009873492622121318,
      "loss": 1.1217,
      "step": 787
    },
    {
      "epoch": 3.535885167464115,
      "grad_norm": 0.17137247323989868,
      "learning_rate": 0.0009872937082210887,
      "loss": 1.1789,
      "step": 788
    },
    {
      "epoch": 3.540388404165494,
      "grad_norm": 0.08728805184364319,
      "learning_rate": 0.0009872380340880415,
      "loss": 0.7533,
      "step": 789
    },
    {
      "epoch": 3.544891640866873,
      "grad_norm": 0.15030130743980408,
      "learning_rate": 0.0009871822398267172,
      "loss": 0.7398,
      "step": 790
    },
    {
      "epoch": 3.5493948775682522,
      "grad_norm": 0.14969629049301147,
      "learning_rate": 0.0009871263254508712,
      "loss": 1.1585,
      "step": 791
    },
    {
      "epoch": 3.5538981142696313,
      "grad_norm": 0.20383597910404205,
      "learning_rate": 0.0009870702909742892,
      "loss": 1.0616,
      "step": 792
    },
    {
      "epoch": 3.5584013509710104,
      "grad_norm": 0.15675272047519684,
      "learning_rate": 0.000987014136410787,
      "loss": 0.7219,
      "step": 793
    },
    {
      "epoch": 3.5629045876723895,
      "grad_norm": 0.12023363262414932,
      "learning_rate": 0.000986957861774209,
      "loss": 0.658,
      "step": 794
    },
    {
      "epoch": 3.5674078243737686,
      "grad_norm": 0.1156490221619606,
      "learning_rate": 0.00098690146707843,
      "loss": 0.9112,
      "step": 795
    },
    {
      "epoch": 3.5719110610751477,
      "grad_norm": 0.17019444704055786,
      "learning_rate": 0.0009868449523373537,
      "loss": 1.0948,
      "step": 796
    },
    {
      "epoch": 3.5764142977765268,
      "grad_norm": 0.11532693356275558,
      "learning_rate": 0.0009867883175649142,
      "loss": 0.7423,
      "step": 797
    },
    {
      "epoch": 3.580917534477906,
      "grad_norm": 0.10468601435422897,
      "learning_rate": 0.0009867315627750746,
      "loss": 0.848,
      "step": 798
    },
    {
      "epoch": 3.585420771179285,
      "grad_norm": 0.13912057876586914,
      "learning_rate": 0.0009866746879818279,
      "loss": 0.8355,
      "step": 799
    },
    {
      "epoch": 3.589924007880664,
      "grad_norm": 0.22647997736930847,
      "learning_rate": 0.000986617693199196,
      "loss": 1.1944,
      "step": 800
    },
    {
      "epoch": 3.594427244582043,
      "grad_norm": 0.08722348511219025,
      "learning_rate": 0.0009865605784412316,
      "loss": 0.5687,
      "step": 801
    },
    {
      "epoch": 3.598930481283422,
      "grad_norm": 0.09235977381467819,
      "learning_rate": 0.0009865033437220158,
      "loss": 0.7283,
      "step": 802
    },
    {
      "epoch": 3.6034337179848017,
      "grad_norm": 0.12804865837097168,
      "learning_rate": 0.0009864459890556604,
      "loss": 0.7134,
      "step": 803
    },
    {
      "epoch": 3.607936954686181,
      "grad_norm": 0.15186239778995514,
      "learning_rate": 0.0009863885144563056,
      "loss": 1.1473,
      "step": 804
    },
    {
      "epoch": 3.61244019138756,
      "grad_norm": 0.08852815628051758,
      "learning_rate": 0.0009863309199381219,
      "loss": 0.5631,
      "step": 805
    },
    {
      "epoch": 3.616943428088939,
      "grad_norm": 0.1915520429611206,
      "learning_rate": 0.0009862732055153094,
      "loss": 0.9182,
      "step": 806
    },
    {
      "epoch": 3.621446664790318,
      "grad_norm": 0.1273248940706253,
      "learning_rate": 0.0009862153712020972,
      "loss": 0.6915,
      "step": 807
    },
    {
      "epoch": 3.625949901491697,
      "grad_norm": 0.09217147529125214,
      "learning_rate": 0.0009861574170127445,
      "loss": 0.6577,
      "step": 808
    },
    {
      "epoch": 3.6304531381930762,
      "grad_norm": 0.11342273652553558,
      "learning_rate": 0.0009860993429615399,
      "loss": 0.8063,
      "step": 809
    },
    {
      "epoch": 3.6349563748944553,
      "grad_norm": 0.16213038563728333,
      "learning_rate": 0.0009860411490628016,
      "loss": 0.9061,
      "step": 810
    },
    {
      "epoch": 3.6394596115958344,
      "grad_norm": 0.13941648602485657,
      "learning_rate": 0.000985982835330877,
      "loss": 1.0376,
      "step": 811
    },
    {
      "epoch": 3.6439628482972135,
      "grad_norm": 0.10120633989572525,
      "learning_rate": 0.0009859244017801437,
      "loss": 0.8568,
      "step": 812
    },
    {
      "epoch": 3.6484660849985926,
      "grad_norm": 0.14163650572299957,
      "learning_rate": 0.0009858658484250082,
      "loss": 0.7254,
      "step": 813
    },
    {
      "epoch": 3.652969321699972,
      "grad_norm": 0.11329853534698486,
      "learning_rate": 0.000985807175279907,
      "loss": 0.9517,
      "step": 814
    },
    {
      "epoch": 3.657472558401351,
      "grad_norm": 0.09675170481204987,
      "learning_rate": 0.0009857483823593057,
      "loss": 0.6998,
      "step": 815
    },
    {
      "epoch": 3.6619757951027303,
      "grad_norm": 0.12743115425109863,
      "learning_rate": 0.0009856894696776996,
      "loss": 0.8595,
      "step": 816
    },
    {
      "epoch": 3.6664790318041094,
      "grad_norm": 0.10127178579568863,
      "learning_rate": 0.0009856304372496138,
      "loss": 0.7175,
      "step": 817
    },
    {
      "epoch": 3.6709822685054885,
      "grad_norm": 0.11445493251085281,
      "learning_rate": 0.0009855712850896027,
      "loss": 0.5396,
      "step": 818
    },
    {
      "epoch": 3.6754855052068676,
      "grad_norm": 0.22793090343475342,
      "learning_rate": 0.0009855120132122503,
      "loss": 0.971,
      "step": 819
    },
    {
      "epoch": 3.6799887419082467,
      "grad_norm": 0.12070735543966293,
      "learning_rate": 0.0009854526216321697,
      "loss": 0.4299,
      "step": 820
    },
    {
      "epoch": 3.6844919786096257,
      "grad_norm": 0.13870352506637573,
      "learning_rate": 0.0009853931103640044,
      "loss": 0.6066,
      "step": 821
    },
    {
      "epoch": 3.688995215311005,
      "grad_norm": 0.12705516815185547,
      "learning_rate": 0.0009853334794224264,
      "loss": 0.9321,
      "step": 822
    },
    {
      "epoch": 3.693498452012384,
      "grad_norm": 0.11360303312540054,
      "learning_rate": 0.000985273728822138,
      "loss": 0.731,
      "step": 823
    },
    {
      "epoch": 3.698001688713763,
      "grad_norm": 0.09302346408367157,
      "learning_rate": 0.0009852138585778702,
      "loss": 0.8749,
      "step": 824
    },
    {
      "epoch": 3.702504925415142,
      "grad_norm": 0.08108430355787277,
      "learning_rate": 0.0009851538687043846,
      "loss": 0.4835,
      "step": 825
    },
    {
      "epoch": 3.707008162116521,
      "grad_norm": 0.12268242239952087,
      "learning_rate": 0.0009850937592164714,
      "loss": 0.7283,
      "step": 826
    },
    {
      "epoch": 3.7115113988179003,
      "grad_norm": 0.09284327179193497,
      "learning_rate": 0.0009850335301289505,
      "loss": 0.5919,
      "step": 827
    },
    {
      "epoch": 3.7160146355192794,
      "grad_norm": 0.10810665786266327,
      "learning_rate": 0.0009849731814566712,
      "loss": 0.8298,
      "step": 828
    },
    {
      "epoch": 3.7205178722206584,
      "grad_norm": 0.11290770769119263,
      "learning_rate": 0.0009849127132145127,
      "loss": 0.6386,
      "step": 829
    },
    {
      "epoch": 3.7250211089220375,
      "grad_norm": 0.10635248571634293,
      "learning_rate": 0.0009848521254173835,
      "loss": 0.7606,
      "step": 830
    },
    {
      "epoch": 3.7295243456234166,
      "grad_norm": 0.09401696920394897,
      "learning_rate": 0.0009847914180802213,
      "loss": 0.7516,
      "step": 831
    },
    {
      "epoch": 3.7340275823247957,
      "grad_norm": 0.09904457628726959,
      "learning_rate": 0.0009847305912179932,
      "loss": 0.7925,
      "step": 832
    },
    {
      "epoch": 3.738530819026175,
      "grad_norm": 0.11987961083650589,
      "learning_rate": 0.0009846696448456967,
      "loss": 0.6905,
      "step": 833
    },
    {
      "epoch": 3.7430340557275543,
      "grad_norm": 0.11625512689352036,
      "learning_rate": 0.0009846085789783575,
      "loss": 0.6538,
      "step": 834
    },
    {
      "epoch": 3.7475372924289334,
      "grad_norm": 0.1096663624048233,
      "learning_rate": 0.0009845473936310317,
      "loss": 0.873,
      "step": 835
    },
    {
      "epoch": 3.7520405291303125,
      "grad_norm": 0.1010814756155014,
      "learning_rate": 0.0009844860888188042,
      "loss": 0.6356,
      "step": 836
    },
    {
      "epoch": 3.7565437658316916,
      "grad_norm": 0.07094984501600266,
      "learning_rate": 0.00098442466455679,
      "loss": 0.6757,
      "step": 837
    },
    {
      "epoch": 3.7610470025330707,
      "grad_norm": 0.20959751307964325,
      "learning_rate": 0.0009843631208601331,
      "loss": 0.7153,
      "step": 838
    },
    {
      "epoch": 3.7655502392344498,
      "grad_norm": 0.11412931233644485,
      "learning_rate": 0.0009843014577440071,
      "loss": 0.6431,
      "step": 839
    },
    {
      "epoch": 3.770053475935829,
      "grad_norm": 0.10526051372289658,
      "learning_rate": 0.000984239675223615,
      "loss": 0.8187,
      "step": 840
    },
    {
      "epoch": 3.774556712637208,
      "grad_norm": 0.12954726815223694,
      "learning_rate": 0.0009841777733141889,
      "loss": 0.7789,
      "step": 841
    },
    {
      "epoch": 3.779059949338587,
      "grad_norm": 0.17089031636714935,
      "learning_rate": 0.0009841157520309911,
      "loss": 0.9425,
      "step": 842
    },
    {
      "epoch": 3.783563186039966,
      "grad_norm": 0.1310095191001892,
      "learning_rate": 0.0009840536113893128,
      "loss": 0.6441,
      "step": 843
    },
    {
      "epoch": 3.788066422741345,
      "grad_norm": 0.21387147903442383,
      "learning_rate": 0.0009839913514044748,
      "loss": 0.5601,
      "step": 844
    },
    {
      "epoch": 3.7925696594427247,
      "grad_norm": 0.15321634709835052,
      "learning_rate": 0.000983928972091827,
      "loss": 0.7653,
      "step": 845
    },
    {
      "epoch": 3.797072896144104,
      "grad_norm": 0.27526751160621643,
      "learning_rate": 0.0009838664734667494,
      "loss": 0.8165,
      "step": 846
    },
    {
      "epoch": 3.801576132845483,
      "grad_norm": 0.1577097475528717,
      "learning_rate": 0.0009838038555446509,
      "loss": 0.9268,
      "step": 847
    },
    {
      "epoch": 3.806079369546862,
      "grad_norm": 0.1283535659313202,
      "learning_rate": 0.0009837411183409694,
      "loss": 0.6631,
      "step": 848
    },
    {
      "epoch": 3.810582606248241,
      "grad_norm": 0.07723134756088257,
      "learning_rate": 0.0009836782618711734,
      "loss": 0.605,
      "step": 849
    },
    {
      "epoch": 3.81508584294962,
      "grad_norm": 0.1376231610774994,
      "learning_rate": 0.00098361528615076,
      "loss": 0.892,
      "step": 850
    },
    {
      "epoch": 3.8195890796509993,
      "grad_norm": 0.42439818382263184,
      "learning_rate": 0.0009835521911952553,
      "loss": 0.9302,
      "step": 851
    },
    {
      "epoch": 3.8240923163523783,
      "grad_norm": 0.1116328090429306,
      "learning_rate": 0.000983488977020216,
      "loss": 0.7205,
      "step": 852
    },
    {
      "epoch": 3.8285955530537574,
      "grad_norm": 0.11448086053133011,
      "learning_rate": 0.0009834256436412271,
      "loss": 1.0336,
      "step": 853
    },
    {
      "epoch": 3.8330987897551365,
      "grad_norm": 0.18834951519966125,
      "learning_rate": 0.0009833621910739037,
      "loss": 0.8291,
      "step": 854
    },
    {
      "epoch": 3.8376020264565156,
      "grad_norm": 0.11555318534374237,
      "learning_rate": 0.0009832986193338898,
      "loss": 0.5904,
      "step": 855
    },
    {
      "epoch": 3.8421052631578947,
      "grad_norm": 0.08810210973024368,
      "learning_rate": 0.000983234928436859,
      "loss": 0.4657,
      "step": 856
    },
    {
      "epoch": 3.8466084998592738,
      "grad_norm": 0.10420768707990646,
      "learning_rate": 0.0009831711183985142,
      "loss": 0.744,
      "step": 857
    },
    {
      "epoch": 3.851111736560653,
      "grad_norm": 0.15239037573337555,
      "learning_rate": 0.0009831071892345878,
      "loss": 1.0659,
      "step": 858
    },
    {
      "epoch": 3.855614973262032,
      "grad_norm": 0.1916980892419815,
      "learning_rate": 0.0009830431409608416,
      "loss": 0.8038,
      "step": 859
    },
    {
      "epoch": 3.860118209963411,
      "grad_norm": 0.17360705137252808,
      "learning_rate": 0.0009829789735930666,
      "loss": 1.034,
      "step": 860
    },
    {
      "epoch": 3.86462144666479,
      "grad_norm": 0.1834639012813568,
      "learning_rate": 0.0009829146871470833,
      "loss": 0.6291,
      "step": 861
    },
    {
      "epoch": 3.869124683366169,
      "grad_norm": 0.17546911537647247,
      "learning_rate": 0.0009828502816387411,
      "loss": 1.0919,
      "step": 862
    },
    {
      "epoch": 3.8736279200675483,
      "grad_norm": 0.10700630396604538,
      "learning_rate": 0.0009827857570839198,
      "loss": 0.6744,
      "step": 863
    },
    {
      "epoch": 3.8781311567689274,
      "grad_norm": 0.1361841857433319,
      "learning_rate": 0.0009827211134985272,
      "loss": 0.7799,
      "step": 864
    },
    {
      "epoch": 3.882634393470307,
      "grad_norm": 0.0892362892627716,
      "learning_rate": 0.0009826563508985016,
      "loss": 0.5417,
      "step": 865
    },
    {
      "epoch": 3.887137630171686,
      "grad_norm": 0.09797168523073196,
      "learning_rate": 0.00098259146929981,
      "loss": 0.7722,
      "step": 866
    },
    {
      "epoch": 3.891640866873065,
      "grad_norm": 0.10925912111997604,
      "learning_rate": 0.0009825264687184493,
      "loss": 0.8669,
      "step": 867
    },
    {
      "epoch": 3.896144103574444,
      "grad_norm": 0.10618755966424942,
      "learning_rate": 0.0009824613491704447,
      "loss": 0.7225,
      "step": 868
    },
    {
      "epoch": 3.9006473402758233,
      "grad_norm": 0.11775897443294525,
      "learning_rate": 0.000982396110671852,
      "loss": 0.5338,
      "step": 869
    },
    {
      "epoch": 3.9051505769772024,
      "grad_norm": 0.0740821436047554,
      "learning_rate": 0.0009823307532387552,
      "loss": 0.4767,
      "step": 870
    },
    {
      "epoch": 3.9096538136785814,
      "grad_norm": 0.08315122872591019,
      "learning_rate": 0.0009822652768872687,
      "loss": 0.5426,
      "step": 871
    },
    {
      "epoch": 3.9141570503799605,
      "grad_norm": 0.16300739347934723,
      "learning_rate": 0.0009821996816335352,
      "loss": 0.9993,
      "step": 872
    },
    {
      "epoch": 3.9186602870813396,
      "grad_norm": 0.12459535896778107,
      "learning_rate": 0.0009821339674937273,
      "loss": 0.6711,
      "step": 873
    },
    {
      "epoch": 3.9231635237827187,
      "grad_norm": 0.2725817561149597,
      "learning_rate": 0.0009820681344840467,
      "loss": 0.8349,
      "step": 874
    },
    {
      "epoch": 3.927666760484098,
      "grad_norm": 0.08747030794620514,
      "learning_rate": 0.0009820021826207248,
      "loss": 0.6548,
      "step": 875
    },
    {
      "epoch": 3.9321699971854773,
      "grad_norm": 0.10592935234308243,
      "learning_rate": 0.0009819361119200217,
      "loss": 0.9875,
      "step": 876
    },
    {
      "epoch": 3.9366732338868564,
      "grad_norm": 0.1225012019276619,
      "learning_rate": 0.0009818699223982273,
      "loss": 0.5524,
      "step": 877
    },
    {
      "epoch": 3.9411764705882355,
      "grad_norm": 0.13140971958637238,
      "learning_rate": 0.0009818036140716603,
      "loss": 0.8382,
      "step": 878
    },
    {
      "epoch": 3.9456797072896146,
      "grad_norm": 0.10307566076517105,
      "learning_rate": 0.0009817371869566694,
      "loss": 0.6976,
      "step": 879
    },
    {
      "epoch": 3.9501829439909937,
      "grad_norm": 0.08312429487705231,
      "learning_rate": 0.0009816706410696319,
      "loss": 0.4977,
      "step": 880
    },
    {
      "epoch": 3.9546861806923728,
      "grad_norm": 0.09126194566488266,
      "learning_rate": 0.0009816039764269546,
      "loss": 0.815,
      "step": 881
    },
    {
      "epoch": 3.959189417393752,
      "grad_norm": 0.10371709614992142,
      "learning_rate": 0.0009815371930450736,
      "loss": 0.6847,
      "step": 882
    },
    {
      "epoch": 3.963692654095131,
      "grad_norm": 0.10548315197229385,
      "learning_rate": 0.0009814702909404548,
      "loss": 0.5564,
      "step": 883
    },
    {
      "epoch": 3.96819589079651,
      "grad_norm": 0.1272788643836975,
      "learning_rate": 0.0009814032701295921,
      "loss": 0.6079,
      "step": 884
    },
    {
      "epoch": 3.972699127497889,
      "grad_norm": 0.10798975825309753,
      "learning_rate": 0.0009813361306290102,
      "loss": 0.8404,
      "step": 885
    },
    {
      "epoch": 3.977202364199268,
      "grad_norm": 0.1023717001080513,
      "learning_rate": 0.0009812688724552619,
      "loss": 0.781,
      "step": 886
    },
    {
      "epoch": 3.9817056009006473,
      "grad_norm": 0.09720661491155624,
      "learning_rate": 0.0009812014956249295,
      "loss": 0.9818,
      "step": 887
    },
    {
      "epoch": 3.9862088376020264,
      "grad_norm": 0.0915900319814682,
      "learning_rate": 0.0009811340001546253,
      "loss": 0.7078,
      "step": 888
    },
    {
      "epoch": 3.9907120743034055,
      "grad_norm": 0.10436214506626129,
      "learning_rate": 0.0009810663860609897,
      "loss": 0.7688,
      "step": 889
    },
    {
      "epoch": 3.9952153110047846,
      "grad_norm": 0.1068134754896164,
      "learning_rate": 0.000980998653360693,
      "loss": 0.8846,
      "step": 890
    },
    {
      "epoch": 3.9997185477061636,
      "grad_norm": 0.10988219082355499,
      "learning_rate": 0.0009809308020704353,
      "loss": 0.519,
      "step": 891
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.10988219082355499,
      "learning_rate": 0.0009808628322069443,
      "loss": 0.0729,
      "step": 892
    },
    {
      "epoch": 4.0,
      "eval_f1": 0.9769631410256411,
      "eval_loss": 0.031852975487709045,
      "eval_runtime": 26.0592,
      "eval_samples_per_second": 191.794,
      "eval_steps_per_second": 6.025,
      "step": 892
    },
    {
      "epoch": 4.004503236701379,
      "grad_norm": 0.2445290982723236,
      "learning_rate": 0.000980794743786979,
      "loss": 0.7572,
      "step": 893
    },
    {
      "epoch": 4.009006473402758,
      "grad_norm": 0.11195066571235657,
      "learning_rate": 0.0009807265368273256,
      "loss": 0.5444,
      "step": 894
    },
    {
      "epoch": 4.013509710104137,
      "grad_norm": 0.06663990020751953,
      "learning_rate": 0.0009806582113448007,
      "loss": 0.4876,
      "step": 895
    },
    {
      "epoch": 4.018012946805516,
      "grad_norm": 0.04944173991680145,
      "learning_rate": 0.0009805897673562504,
      "loss": 0.432,
      "step": 896
    },
    {
      "epoch": 4.022516183506895,
      "grad_norm": 0.11033108830451965,
      "learning_rate": 0.0009805212048785493,
      "loss": 0.7823,
      "step": 897
    },
    {
      "epoch": 4.0270194202082745,
      "grad_norm": 0.15743882954120636,
      "learning_rate": 0.0009804525239286014,
      "loss": 0.7741,
      "step": 898
    },
    {
      "epoch": 4.031522656909654,
      "grad_norm": 0.08084051311016083,
      "learning_rate": 0.0009803837245233398,
      "loss": 0.4567,
      "step": 899
    },
    {
      "epoch": 4.036025893611033,
      "grad_norm": 0.05767710879445076,
      "learning_rate": 0.0009803148066797268,
      "loss": 0.5231,
      "step": 900
    },
    {
      "epoch": 4.040529130312412,
      "grad_norm": 0.10810579359531403,
      "learning_rate": 0.0009802457704147548,
      "loss": 0.4755,
      "step": 901
    },
    {
      "epoch": 4.045032367013791,
      "grad_norm": 0.09892449527978897,
      "learning_rate": 0.0009801766157454441,
      "loss": 0.4934,
      "step": 902
    },
    {
      "epoch": 4.04953560371517,
      "grad_norm": 0.10400432348251343,
      "learning_rate": 0.0009801073426888448,
      "loss": 0.4388,
      "step": 903
    },
    {
      "epoch": 4.054038840416549,
      "grad_norm": 0.08462159335613251,
      "learning_rate": 0.0009800379512620362,
      "loss": 0.3855,
      "step": 904
    },
    {
      "epoch": 4.058542077117928,
      "grad_norm": 0.09691896289587021,
      "learning_rate": 0.0009799684414821266,
      "loss": 0.4445,
      "step": 905
    },
    {
      "epoch": 4.063045313819307,
      "grad_norm": 0.1356920450925827,
      "learning_rate": 0.0009798988133662538,
      "loss": 0.5318,
      "step": 906
    },
    {
      "epoch": 4.067548550520686,
      "grad_norm": 0.09305573999881744,
      "learning_rate": 0.0009798290669315844,
      "loss": 0.5244,
      "step": 907
    },
    {
      "epoch": 4.072051787222066,
      "grad_norm": 0.08886074274778366,
      "learning_rate": 0.0009797592021953143,
      "loss": 0.6261,
      "step": 908
    },
    {
      "epoch": 4.076555023923445,
      "grad_norm": 0.08544164150953293,
      "learning_rate": 0.0009796892191746688,
      "loss": 0.6012,
      "step": 909
    },
    {
      "epoch": 4.0810582606248245,
      "grad_norm": 0.15095070004463196,
      "learning_rate": 0.0009796191178869024,
      "loss": 0.3342,
      "step": 910
    },
    {
      "epoch": 4.0855614973262036,
      "grad_norm": 0.064946249127388,
      "learning_rate": 0.000979548898349298,
      "loss": 0.3818,
      "step": 911
    },
    {
      "epoch": 4.090064734027583,
      "grad_norm": 0.05910775437951088,
      "learning_rate": 0.0009794785605791686,
      "loss": 0.3751,
      "step": 912
    },
    {
      "epoch": 4.094567970728962,
      "grad_norm": 0.15947528183460236,
      "learning_rate": 0.0009794081045938555,
      "loss": 0.4339,
      "step": 913
    },
    {
      "epoch": 4.099071207430341,
      "grad_norm": 0.09195874631404877,
      "learning_rate": 0.00097933753041073,
      "loss": 0.3297,
      "step": 914
    },
    {
      "epoch": 4.10357444413172,
      "grad_norm": 0.18316687643527985,
      "learning_rate": 0.0009792668380471919,
      "loss": 0.557,
      "step": 915
    },
    {
      "epoch": 4.108077680833099,
      "grad_norm": 0.1609576940536499,
      "learning_rate": 0.0009791960275206705,
      "loss": 0.7321,
      "step": 916
    },
    {
      "epoch": 4.112580917534478,
      "grad_norm": 0.08769343048334122,
      "learning_rate": 0.0009791250988486241,
      "loss": 0.9474,
      "step": 917
    },
    {
      "epoch": 4.117084154235857,
      "grad_norm": 0.17983943223953247,
      "learning_rate": 0.0009790540520485402,
      "loss": 0.5182,
      "step": 918
    },
    {
      "epoch": 4.121587390937236,
      "grad_norm": 0.05650010332465172,
      "learning_rate": 0.000978982887137935,
      "loss": 0.591,
      "step": 919
    },
    {
      "epoch": 4.126090627638615,
      "grad_norm": 0.08241836726665497,
      "learning_rate": 0.0009789116041343544,
      "loss": 0.4998,
      "step": 920
    },
    {
      "epoch": 4.130593864339994,
      "grad_norm": 0.0863816887140274,
      "learning_rate": 0.0009788402030553734,
      "loss": 0.4658,
      "step": 921
    },
    {
      "epoch": 4.1350971010413735,
      "grad_norm": 0.06707917898893356,
      "learning_rate": 0.0009787686839185955,
      "loss": 0.2932,
      "step": 922
    },
    {
      "epoch": 4.139600337742753,
      "grad_norm": 0.11848688125610352,
      "learning_rate": 0.000978697046741654,
      "loss": 0.4413,
      "step": 923
    },
    {
      "epoch": 4.144103574444132,
      "grad_norm": 0.09922490268945694,
      "learning_rate": 0.0009786252915422106,
      "loss": 0.6891,
      "step": 924
    },
    {
      "epoch": 4.148606811145511,
      "grad_norm": 0.3148607909679413,
      "learning_rate": 0.000978553418337957,
      "loss": 0.6077,
      "step": 925
    },
    {
      "epoch": 4.15311004784689,
      "grad_norm": 0.0770777016878128,
      "learning_rate": 0.0009784814271466134,
      "loss": 0.481,
      "step": 926
    },
    {
      "epoch": 4.157613284548269,
      "grad_norm": 0.0903041809797287,
      "learning_rate": 0.000978409317985929,
      "loss": 0.6409,
      "step": 927
    },
    {
      "epoch": 4.162116521249648,
      "grad_norm": 0.07782484591007233,
      "learning_rate": 0.0009783370908736824,
      "loss": 0.4433,
      "step": 928
    },
    {
      "epoch": 4.166619757951027,
      "grad_norm": 0.10981560498476028,
      "learning_rate": 0.000978264745827681,
      "loss": 0.4276,
      "step": 929
    },
    {
      "epoch": 4.171122994652406,
      "grad_norm": 0.1655774712562561,
      "learning_rate": 0.0009781922828657618,
      "loss": 0.4689,
      "step": 930
    },
    {
      "epoch": 4.175626231353785,
      "grad_norm": 0.09619352966547012,
      "learning_rate": 0.0009781197020057898,
      "loss": 0.7528,
      "step": 931
    },
    {
      "epoch": 4.180129468055164,
      "grad_norm": 0.3370765745639801,
      "learning_rate": 0.0009780470032656609,
      "loss": 0.7355,
      "step": 932
    },
    {
      "epoch": 4.1846327047565435,
      "grad_norm": 0.09942766278982162,
      "learning_rate": 0.0009779741866632976,
      "loss": 0.4342,
      "step": 933
    },
    {
      "epoch": 4.189135941457923,
      "grad_norm": 0.11134544014930725,
      "learning_rate": 0.0009779012522166538,
      "loss": 0.6063,
      "step": 934
    },
    {
      "epoch": 4.193639178159302,
      "grad_norm": 0.09808418154716492,
      "learning_rate": 0.0009778281999437111,
      "loss": 0.5443,
      "step": 935
    },
    {
      "epoch": 4.198142414860681,
      "grad_norm": 0.05754769593477249,
      "learning_rate": 0.0009777550298624804,
      "loss": 0.441,
      "step": 936
    },
    {
      "epoch": 4.20264565156206,
      "grad_norm": 0.10919462889432907,
      "learning_rate": 0.000977681741991002,
      "loss": 0.6199,
      "step": 937
    },
    {
      "epoch": 4.20714888826344,
      "grad_norm": 0.10562308132648468,
      "learning_rate": 0.0009776083363473448,
      "loss": 0.4791,
      "step": 938
    },
    {
      "epoch": 4.211652124964819,
      "grad_norm": 0.1994549036026001,
      "learning_rate": 0.000977534812949607,
      "loss": 0.5797,
      "step": 939
    },
    {
      "epoch": 4.216155361666198,
      "grad_norm": 0.12789972126483917,
      "learning_rate": 0.0009774611718159154,
      "loss": 0.5829,
      "step": 940
    },
    {
      "epoch": 4.220658598367577,
      "grad_norm": 0.10030334442853928,
      "learning_rate": 0.000977387412964427,
      "loss": 0.5734,
      "step": 941
    },
    {
      "epoch": 4.225161835068956,
      "grad_norm": 0.2823273539543152,
      "learning_rate": 0.0009773135364133261,
      "loss": 0.3731,
      "step": 942
    },
    {
      "epoch": 4.229665071770335,
      "grad_norm": 0.13277748227119446,
      "learning_rate": 0.0009772395421808273,
      "loss": 0.575,
      "step": 943
    },
    {
      "epoch": 4.234168308471714,
      "grad_norm": 0.5785771012306213,
      "learning_rate": 0.0009771654302851741,
      "loss": 0.4467,
      "step": 944
    },
    {
      "epoch": 4.238671545173093,
      "grad_norm": 0.11478482186794281,
      "learning_rate": 0.0009770912007446384,
      "loss": 0.5288,
      "step": 945
    },
    {
      "epoch": 4.2431747818744725,
      "grad_norm": 0.09681448340415955,
      "learning_rate": 0.0009770168535775216,
      "loss": 0.3677,
      "step": 946
    },
    {
      "epoch": 4.247678018575852,
      "grad_norm": 0.08025520294904709,
      "learning_rate": 0.000976942388802154,
      "loss": 0.5067,
      "step": 947
    },
    {
      "epoch": 4.252181255277231,
      "grad_norm": 0.08989106863737106,
      "learning_rate": 0.0009768678064368947,
      "loss": 0.6089,
      "step": 948
    },
    {
      "epoch": 4.25668449197861,
      "grad_norm": 0.1783178299665451,
      "learning_rate": 0.000976793106500132,
      "loss": 0.3732,
      "step": 949
    },
    {
      "epoch": 4.261187728679989,
      "grad_norm": 0.15137049555778503,
      "learning_rate": 0.000976718289010283,
      "loss": 0.7578,
      "step": 950
    },
    {
      "epoch": 4.265690965381368,
      "grad_norm": 0.09009763598442078,
      "learning_rate": 0.0009766433539857944,
      "loss": 0.4236,
      "step": 951
    },
    {
      "epoch": 4.270194202082747,
      "grad_norm": 0.11990852653980255,
      "learning_rate": 0.0009765683014451407,
      "loss": 0.7521,
      "step": 952
    },
    {
      "epoch": 4.274697438784126,
      "grad_norm": 0.09232943505048752,
      "learning_rate": 0.0009764931314068267,
      "loss": 0.4441,
      "step": 953
    },
    {
      "epoch": 4.279200675485505,
      "grad_norm": 0.1026497483253479,
      "learning_rate": 0.0009764178438893851,
      "loss": 0.6181,
      "step": 954
    },
    {
      "epoch": 4.283703912186884,
      "grad_norm": 0.1605830043554306,
      "learning_rate": 0.0009763424389113781,
      "loss": 0.5959,
      "step": 955
    },
    {
      "epoch": 4.288207148888263,
      "grad_norm": 0.1669377237558365,
      "learning_rate": 0.0009762669164913968,
      "loss": 0.692,
      "step": 956
    },
    {
      "epoch": 4.2927103855896425,
      "grad_norm": 0.20962762832641602,
      "learning_rate": 0.0009761912766480613,
      "loss": 0.5323,
      "step": 957
    },
    {
      "epoch": 4.2972136222910216,
      "grad_norm": 0.12130682170391083,
      "learning_rate": 0.0009761155194000204,
      "loss": 0.5554,
      "step": 958
    },
    {
      "epoch": 4.301716858992401,
      "grad_norm": 0.1429739147424698,
      "learning_rate": 0.000976039644765952,
      "loss": 0.9799,
      "step": 959
    },
    {
      "epoch": 4.30622009569378,
      "grad_norm": 0.1583244800567627,
      "learning_rate": 0.0009759636527645633,
      "loss": 0.9474,
      "step": 960
    },
    {
      "epoch": 4.310723332395159,
      "grad_norm": 0.11497272551059723,
      "learning_rate": 0.0009758875434145896,
      "loss": 0.53,
      "step": 961
    },
    {
      "epoch": 4.315226569096538,
      "grad_norm": 0.19552642107009888,
      "learning_rate": 0.000975811316734796,
      "loss": 0.648,
      "step": 962
    },
    {
      "epoch": 4.319729805797917,
      "grad_norm": 0.21973024308681488,
      "learning_rate": 0.0009757349727439758,
      "loss": 0.4061,
      "step": 963
    },
    {
      "epoch": 4.324233042499296,
      "grad_norm": 0.09895385801792145,
      "learning_rate": 0.0009756585114609518,
      "loss": 0.5024,
      "step": 964
    },
    {
      "epoch": 4.328736279200675,
      "grad_norm": 0.0714009553194046,
      "learning_rate": 0.0009755819329045756,
      "loss": 0.8114,
      "step": 965
    },
    {
      "epoch": 4.333239515902054,
      "grad_norm": 0.40555086731910706,
      "learning_rate": 0.0009755052370937273,
      "loss": 0.7349,
      "step": 966
    },
    {
      "epoch": 4.337742752603433,
      "grad_norm": 0.2665121555328369,
      "learning_rate": 0.0009754284240473163,
      "loss": 0.5598,
      "step": 967
    },
    {
      "epoch": 4.342245989304812,
      "grad_norm": 0.14703956246376038,
      "learning_rate": 0.0009753514937842811,
      "loss": 0.7009,
      "step": 968
    },
    {
      "epoch": 4.346749226006192,
      "grad_norm": 0.10053818672895432,
      "learning_rate": 0.0009752744463235885,
      "loss": 0.6371,
      "step": 969
    },
    {
      "epoch": 4.351252462707571,
      "grad_norm": 0.14282280206680298,
      "learning_rate": 0.0009751972816842344,
      "loss": 0.9993,
      "step": 970
    },
    {
      "epoch": 4.355755699408951,
      "grad_norm": 0.1837303638458252,
      "learning_rate": 0.0009751199998852442,
      "loss": 0.7207,
      "step": 971
    },
    {
      "epoch": 4.36025893611033,
      "grad_norm": 0.15994028747081757,
      "learning_rate": 0.0009750426009456712,
      "loss": 0.9772,
      "step": 972
    },
    {
      "epoch": 4.364762172811709,
      "grad_norm": 0.12270224094390869,
      "learning_rate": 0.0009749650848845983,
      "loss": 0.3628,
      "step": 973
    },
    {
      "epoch": 4.369265409513088,
      "grad_norm": 0.13778924942016602,
      "learning_rate": 0.000974887451721137,
      "loss": 0.9318,
      "step": 974
    },
    {
      "epoch": 4.373768646214467,
      "grad_norm": 0.32291215658187866,
      "learning_rate": 0.0009748097014744278,
      "loss": 0.6628,
      "step": 975
    },
    {
      "epoch": 4.378271882915846,
      "grad_norm": 0.11615303158760071,
      "learning_rate": 0.0009747318341636398,
      "loss": 0.7302,
      "step": 976
    },
    {
      "epoch": 4.382775119617225,
      "grad_norm": 0.15400493144989014,
      "learning_rate": 0.0009746538498079713,
      "loss": 0.706,
      "step": 977
    },
    {
      "epoch": 4.387278356318604,
      "grad_norm": 0.20082111656665802,
      "learning_rate": 0.0009745757484266492,
      "loss": 0.5834,
      "step": 978
    },
    {
      "epoch": 4.391781593019983,
      "grad_norm": 0.14541082084178925,
      "learning_rate": 0.0009744975300389294,
      "loss": 0.8195,
      "step": 979
    },
    {
      "epoch": 4.396284829721362,
      "grad_norm": 0.13322575390338898,
      "learning_rate": 0.0009744191946640966,
      "loss": 0.8006,
      "step": 980
    },
    {
      "epoch": 4.4007880664227415,
      "grad_norm": 0.1796322762966156,
      "learning_rate": 0.0009743407423214643,
      "loss": 0.9854,
      "step": 981
    },
    {
      "epoch": 4.4052913031241205,
      "grad_norm": 0.09872584789991379,
      "learning_rate": 0.0009742621730303749,
      "loss": 0.4799,
      "step": 982
    },
    {
      "epoch": 4.4097945398255,
      "grad_norm": 0.1391543298959732,
      "learning_rate": 0.0009741834868101998,
      "loss": 0.7143,
      "step": 983
    },
    {
      "epoch": 4.414297776526879,
      "grad_norm": 0.13342344760894775,
      "learning_rate": 0.0009741046836803387,
      "loss": 0.7888,
      "step": 984
    },
    {
      "epoch": 4.418801013228258,
      "grad_norm": 0.10434849560260773,
      "learning_rate": 0.0009740257636602208,
      "loss": 0.6266,
      "step": 985
    },
    {
      "epoch": 4.423304249929637,
      "grad_norm": 0.1245647445321083,
      "learning_rate": 0.0009739467267693036,
      "loss": 0.6149,
      "step": 986
    },
    {
      "epoch": 4.427807486631016,
      "grad_norm": 0.22098322212696075,
      "learning_rate": 0.0009738675730270736,
      "loss": 0.71,
      "step": 987
    },
    {
      "epoch": 4.432310723332395,
      "grad_norm": 0.11361395567655563,
      "learning_rate": 0.0009737883024530463,
      "loss": 0.6067,
      "step": 988
    },
    {
      "epoch": 4.436813960033774,
      "grad_norm": 0.10398190468549728,
      "learning_rate": 0.0009737089150667655,
      "loss": 0.4701,
      "step": 989
    },
    {
      "epoch": 4.441317196735153,
      "grad_norm": 0.2723212242126465,
      "learning_rate": 0.0009736294108878043,
      "loss": 0.6262,
      "step": 990
    },
    {
      "epoch": 4.445820433436532,
      "grad_norm": 0.13466069102287292,
      "learning_rate": 0.0009735497899357646,
      "loss": 0.6272,
      "step": 991
    },
    {
      "epoch": 4.450323670137911,
      "grad_norm": 0.22554096579551697,
      "learning_rate": 0.0009734700522302767,
      "loss": 0.8167,
      "step": 992
    },
    {
      "epoch": 4.4548269068392905,
      "grad_norm": 0.08606036752462387,
      "learning_rate": 0.0009733901977909997,
      "loss": 0.5624,
      "step": 993
    },
    {
      "epoch": 4.45933014354067,
      "grad_norm": 0.2037205994129181,
      "learning_rate": 0.0009733102266376219,
      "loss": 0.8185,
      "step": 994
    },
    {
      "epoch": 4.463833380242049,
      "grad_norm": 0.11004695296287537,
      "learning_rate": 0.0009732301387898603,
      "loss": 0.6616,
      "step": 995
    },
    {
      "epoch": 4.468336616943428,
      "grad_norm": 0.187761127948761,
      "learning_rate": 0.0009731499342674601,
      "loss": 1.0379,
      "step": 996
    },
    {
      "epoch": 4.472839853644807,
      "grad_norm": 0.1137734055519104,
      "learning_rate": 0.0009730696130901961,
      "loss": 0.5381,
      "step": 997
    },
    {
      "epoch": 4.477343090346186,
      "grad_norm": 0.11138558387756348,
      "learning_rate": 0.0009729891752778713,
      "loss": 0.5993,
      "step": 998
    },
    {
      "epoch": 4.481846327047565,
      "grad_norm": 0.08843381702899933,
      "learning_rate": 0.0009729086208503173,
      "loss": 0.4227,
      "step": 999
    },
    {
      "epoch": 4.486349563748945,
      "grad_norm": 0.07969921082258224,
      "learning_rate": 0.0009728279498273953,
      "loss": 0.4111,
      "step": 1000
    },
    {
      "epoch": 4.490852800450323,
      "grad_norm": 0.09050560742616653,
      "learning_rate": 0.0009727471622289942,
      "loss": 0.5289,
      "step": 1001
    },
    {
      "epoch": 4.495356037151703,
      "grad_norm": 0.08372735232114792,
      "learning_rate": 0.0009726662580750324,
      "loss": 0.5424,
      "step": 1002
    },
    {
      "epoch": 4.499859273853082,
      "grad_norm": 0.14002391695976257,
      "learning_rate": 0.0009725852373854568,
      "loss": 0.9296,
      "step": 1003
    },
    {
      "epoch": 4.504362510554461,
      "grad_norm": 0.222365140914917,
      "learning_rate": 0.0009725041001802428,
      "loss": 0.7934,
      "step": 1004
    },
    {
      "epoch": 4.50886574725584,
      "grad_norm": 0.08294914662837982,
      "learning_rate": 0.000972422846479395,
      "loss": 0.45,
      "step": 1005
    },
    {
      "epoch": 4.5133689839572195,
      "grad_norm": 0.09971413761377335,
      "learning_rate": 0.0009723414763029462,
      "loss": 0.724,
      "step": 1006
    },
    {
      "epoch": 4.517872220658599,
      "grad_norm": 0.14214418828487396,
      "learning_rate": 0.0009722599896709584,
      "loss": 1.0255,
      "step": 1007
    },
    {
      "epoch": 4.522375457359978,
      "grad_norm": 0.10200187563896179,
      "learning_rate": 0.0009721783866035218,
      "loss": 0.5794,
      "step": 1008
    },
    {
      "epoch": 4.526878694061357,
      "grad_norm": 0.14080806076526642,
      "learning_rate": 0.0009720966671207561,
      "loss": 0.6473,
      "step": 1009
    },
    {
      "epoch": 4.531381930762736,
      "grad_norm": 0.10576719045639038,
      "learning_rate": 0.0009720148312428085,
      "loss": 0.7116,
      "step": 1010
    },
    {
      "epoch": 4.535885167464115,
      "grad_norm": 0.10739240050315857,
      "learning_rate": 0.0009719328789898563,
      "loss": 0.9342,
      "step": 1011
    },
    {
      "epoch": 4.540388404165494,
      "grad_norm": 0.09626514464616776,
      "learning_rate": 0.0009718508103821042,
      "loss": 0.5467,
      "step": 1012
    },
    {
      "epoch": 4.544891640866873,
      "grad_norm": 0.14277955889701843,
      "learning_rate": 0.0009717686254397866,
      "loss": 0.5492,
      "step": 1013
    },
    {
      "epoch": 4.549394877568252,
      "grad_norm": 0.08355814963579178,
      "learning_rate": 0.0009716863241831658,
      "loss": 0.7118,
      "step": 1014
    },
    {
      "epoch": 4.553898114269631,
      "grad_norm": 0.09215500950813293,
      "learning_rate": 0.0009716039066325334,
      "loss": 0.6809,
      "step": 1015
    },
    {
      "epoch": 4.55840135097101,
      "grad_norm": 0.137551411986351,
      "learning_rate": 0.0009715213728082093,
      "loss": 0.7399,
      "step": 1016
    },
    {
      "epoch": 4.5629045876723895,
      "grad_norm": 0.1334158480167389,
      "learning_rate": 0.0009714387227305421,
      "loss": 0.5712,
      "step": 1017
    },
    {
      "epoch": 4.567407824373769,
      "grad_norm": 0.12956422567367554,
      "learning_rate": 0.0009713559564199092,
      "loss": 0.7547,
      "step": 1018
    },
    {
      "epoch": 4.571911061075148,
      "grad_norm": 0.15655715763568878,
      "learning_rate": 0.0009712730738967167,
      "loss": 0.8568,
      "step": 1019
    },
    {
      "epoch": 4.576414297776527,
      "grad_norm": 0.13495878875255585,
      "learning_rate": 0.0009711900751813991,
      "loss": 0.8044,
      "step": 1020
    },
    {
      "epoch": 4.580917534477906,
      "grad_norm": 0.1476375013589859,
      "learning_rate": 0.0009711069602944198,
      "loss": 0.8189,
      "step": 1021
    },
    {
      "epoch": 4.585420771179285,
      "grad_norm": 0.08140607923269272,
      "learning_rate": 0.0009710237292562705,
      "loss": 0.4791,
      "step": 1022
    },
    {
      "epoch": 4.589924007880664,
      "grad_norm": 0.06019604578614235,
      "learning_rate": 0.000970940382087472,
      "loss": 0.4398,
      "step": 1023
    },
    {
      "epoch": 4.594427244582043,
      "grad_norm": 0.08625218272209167,
      "learning_rate": 0.0009708569188085734,
      "loss": 0.6749,
      "step": 1024
    },
    {
      "epoch": 4.598930481283422,
      "grad_norm": 0.048882339149713516,
      "learning_rate": 0.0009707733394401527,
      "loss": 0.3916,
      "step": 1025
    },
    {
      "epoch": 4.603433717984801,
      "grad_norm": 0.06226281821727753,
      "learning_rate": 0.000970689644002816,
      "loss": 0.4427,
      "step": 1026
    },
    {
      "epoch": 4.60793695468618,
      "grad_norm": 0.09607215970754623,
      "learning_rate": 0.0009706058325171987,
      "loss": 0.4794,
      "step": 1027
    },
    {
      "epoch": 4.6124401913875595,
      "grad_norm": 0.08049770444631577,
      "learning_rate": 0.0009705219050039644,
      "loss": 0.603,
      "step": 1028
    },
    {
      "epoch": 4.6169434280889385,
      "grad_norm": 0.1134570986032486,
      "learning_rate": 0.0009704378614838052,
      "loss": 0.4823,
      "step": 1029
    },
    {
      "epoch": 4.621446664790318,
      "grad_norm": 0.18408848345279694,
      "learning_rate": 0.0009703537019774421,
      "loss": 0.7337,
      "step": 1030
    },
    {
      "epoch": 4.625949901491698,
      "grad_norm": 0.11949241161346436,
      "learning_rate": 0.0009702694265056247,
      "loss": 0.6381,
      "step": 1031
    },
    {
      "epoch": 4.630453138193076,
      "grad_norm": 0.09177172183990479,
      "learning_rate": 0.0009701850350891309,
      "loss": 0.6108,
      "step": 1032
    },
    {
      "epoch": 4.634956374894456,
      "grad_norm": 0.09296312183141708,
      "learning_rate": 0.0009701005277487673,
      "loss": 0.4438,
      "step": 1033
    },
    {
      "epoch": 4.639459611595835,
      "grad_norm": 0.12198404222726822,
      "learning_rate": 0.0009700159045053694,
      "loss": 0.6393,
      "step": 1034
    },
    {
      "epoch": 4.643962848297214,
      "grad_norm": 0.14577582478523254,
      "learning_rate": 0.0009699311653798009,
      "loss": 0.6467,
      "step": 1035
    },
    {
      "epoch": 4.648466084998593,
      "grad_norm": 0.09500247985124588,
      "learning_rate": 0.0009698463103929542,
      "loss": 0.4919,
      "step": 1036
    },
    {
      "epoch": 4.652969321699972,
      "grad_norm": 0.10792126506567001,
      "learning_rate": 0.0009697613395657502,
      "loss": 0.5368,
      "step": 1037
    },
    {
      "epoch": 4.657472558401351,
      "grad_norm": 0.07620467990636826,
      "learning_rate": 0.0009696762529191384,
      "loss": 0.5082,
      "step": 1038
    },
    {
      "epoch": 4.66197579510273,
      "grad_norm": 0.10765343904495239,
      "learning_rate": 0.0009695910504740969,
      "loss": 0.6226,
      "step": 1039
    },
    {
      "epoch": 4.666479031804109,
      "grad_norm": 0.10977230966091156,
      "learning_rate": 0.0009695057322516323,
      "loss": 0.6833,
      "step": 1040
    },
    {
      "epoch": 4.6709822685054885,
      "grad_norm": 0.14494375884532928,
      "learning_rate": 0.0009694202982727798,
      "loss": 0.7863,
      "step": 1041
    },
    {
      "epoch": 4.675485505206868,
      "grad_norm": 0.09589660912752151,
      "learning_rate": 0.000969334748558603,
      "loss": 0.5835,
      "step": 1042
    },
    {
      "epoch": 4.679988741908247,
      "grad_norm": 0.09927289932966232,
      "learning_rate": 0.0009692490831301943,
      "loss": 0.8226,
      "step": 1043
    },
    {
      "epoch": 4.684491978609626,
      "grad_norm": 0.11328839510679245,
      "learning_rate": 0.0009691633020086746,
      "loss": 0.7289,
      "step": 1044
    },
    {
      "epoch": 4.688995215311005,
      "grad_norm": 0.12483274191617966,
      "learning_rate": 0.0009690774052151926,
      "loss": 0.7771,
      "step": 1045
    },
    {
      "epoch": 4.693498452012384,
      "grad_norm": 0.1046975627541542,
      "learning_rate": 0.0009689913927709267,
      "loss": 0.787,
      "step": 1046
    },
    {
      "epoch": 4.698001688713763,
      "grad_norm": 0.10547668486833572,
      "learning_rate": 0.0009689052646970829,
      "loss": 0.7403,
      "step": 1047
    },
    {
      "epoch": 4.702504925415142,
      "grad_norm": 0.09751130640506744,
      "learning_rate": 0.0009688190210148962,
      "loss": 0.5183,
      "step": 1048
    },
    {
      "epoch": 4.707008162116521,
      "grad_norm": 0.10560748726129532,
      "learning_rate": 0.0009687326617456298,
      "loss": 0.7633,
      "step": 1049
    },
    {
      "epoch": 4.7115113988179,
      "grad_norm": 0.10437709838151932,
      "learning_rate": 0.0009686461869105756,
      "loss": 0.6067,
      "step": 1050
    },
    {
      "epoch": 4.716014635519279,
      "grad_norm": 0.10352321714162827,
      "learning_rate": 0.0009685595965310541,
      "loss": 0.3379,
      "step": 1051
    },
    {
      "epoch": 4.720517872220658,
      "grad_norm": 0.110469289124012,
      "learning_rate": 0.0009684728906284137,
      "loss": 0.4424,
      "step": 1052
    },
    {
      "epoch": 4.7250211089220375,
      "grad_norm": 0.1289469450712204,
      "learning_rate": 0.000968386069224032,
      "loss": 0.3109,
      "step": 1053
    },
    {
      "epoch": 4.729524345623417,
      "grad_norm": 0.0818256214261055,
      "learning_rate": 0.0009682991323393149,
      "loss": 0.568,
      "step": 1054
    },
    {
      "epoch": 4.734027582324796,
      "grad_norm": 0.09108423441648483,
      "learning_rate": 0.0009682120799956961,
      "loss": 0.7079,
      "step": 1055
    },
    {
      "epoch": 4.738530819026175,
      "grad_norm": 0.1246730163693428,
      "learning_rate": 0.0009681249122146389,
      "loss": 0.5619,
      "step": 1056
    },
    {
      "epoch": 4.743034055727554,
      "grad_norm": 0.09803016483783722,
      "learning_rate": 0.0009680376290176342,
      "loss": 0.7913,
      "step": 1057
    },
    {
      "epoch": 4.747537292428933,
      "grad_norm": 0.1263139545917511,
      "learning_rate": 0.0009679502304262015,
      "loss": 0.7215,
      "step": 1058
    },
    {
      "epoch": 4.752040529130312,
      "grad_norm": 0.09871133416891098,
      "learning_rate": 0.0009678627164618892,
      "loss": 0.6768,
      "step": 1059
    },
    {
      "epoch": 4.756543765831692,
      "grad_norm": 0.1510414034128189,
      "learning_rate": 0.0009677750871462736,
      "loss": 0.5795,
      "step": 1060
    },
    {
      "epoch": 4.76104700253307,
      "grad_norm": 0.1271173357963562,
      "learning_rate": 0.0009676873425009596,
      "loss": 0.893,
      "step": 1061
    },
    {
      "epoch": 4.76555023923445,
      "grad_norm": 0.10489822179079056,
      "learning_rate": 0.0009675994825475809,
      "loss": 0.6999,
      "step": 1062
    },
    {
      "epoch": 4.770053475935828,
      "grad_norm": 0.0661877691745758,
      "learning_rate": 0.000967511507307799,
      "loss": 0.4747,
      "step": 1063
    },
    {
      "epoch": 4.774556712637208,
      "grad_norm": 0.15575499832630157,
      "learning_rate": 0.0009674234168033042,
      "loss": 0.6373,
      "step": 1064
    },
    {
      "epoch": 4.7790599493385875,
      "grad_norm": 0.1379520297050476,
      "learning_rate": 0.0009673352110558153,
      "loss": 0.6331,
      "step": 1065
    },
    {
      "epoch": 4.7835631860399666,
      "grad_norm": 0.06922975927591324,
      "learning_rate": 0.0009672468900870794,
      "loss": 0.601,
      "step": 1066
    },
    {
      "epoch": 4.788066422741346,
      "grad_norm": 0.14894309639930725,
      "learning_rate": 0.0009671584539188718,
      "loss": 0.5977,
      "step": 1067
    },
    {
      "epoch": 4.792569659442725,
      "grad_norm": 0.09898293763399124,
      "learning_rate": 0.0009670699025729967,
      "loss": 0.6507,
      "step": 1068
    },
    {
      "epoch": 4.797072896144104,
      "grad_norm": 0.0851314589381218,
      "learning_rate": 0.000966981236071286,
      "loss": 0.3823,
      "step": 1069
    },
    {
      "epoch": 4.801576132845483,
      "grad_norm": 0.05887133255600929,
      "learning_rate": 0.0009668924544356006,
      "loss": 0.6111,
      "step": 1070
    },
    {
      "epoch": 4.806079369546862,
      "grad_norm": 0.08778324723243713,
      "learning_rate": 0.0009668035576878295,
      "loss": 0.5906,
      "step": 1071
    },
    {
      "epoch": 4.810582606248241,
      "grad_norm": 0.10832635313272476,
      "learning_rate": 0.0009667145458498903,
      "loss": 0.5324,
      "step": 1072
    },
    {
      "epoch": 4.81508584294962,
      "grad_norm": 0.11729336529970169,
      "learning_rate": 0.0009666254189437286,
      "loss": 0.6142,
      "step": 1073
    },
    {
      "epoch": 4.819589079650999,
      "grad_norm": 0.07557003945112228,
      "learning_rate": 0.0009665361769913187,
      "loss": 0.3847,
      "step": 1074
    },
    {
      "epoch": 4.824092316352378,
      "grad_norm": 0.07683124393224716,
      "learning_rate": 0.0009664468200146632,
      "loss": 0.5021,
      "step": 1075
    },
    {
      "epoch": 4.828595553053757,
      "grad_norm": 0.09780987352132797,
      "learning_rate": 0.0009663573480357928,
      "loss": 0.4867,
      "step": 1076
    },
    {
      "epoch": 4.8330987897551365,
      "grad_norm": 0.0988548994064331,
      "learning_rate": 0.0009662677610767672,
      "loss": 0.5936,
      "step": 1077
    },
    {
      "epoch": 4.837602026456516,
      "grad_norm": 0.0829005315899849,
      "learning_rate": 0.0009661780591596735,
      "loss": 0.6434,
      "step": 1078
    },
    {
      "epoch": 4.842105263157895,
      "grad_norm": 0.24520830810070038,
      "learning_rate": 0.0009660882423066279,
      "loss": 0.4298,
      "step": 1079
    },
    {
      "epoch": 4.846608499859274,
      "grad_norm": 0.08123014122247696,
      "learning_rate": 0.0009659983105397749,
      "loss": 0.4375,
      "step": 1080
    },
    {
      "epoch": 4.851111736560653,
      "grad_norm": 0.16814839839935303,
      "learning_rate": 0.0009659082638812869,
      "loss": 0.7328,
      "step": 1081
    },
    {
      "epoch": 4.855614973262032,
      "grad_norm": 0.11583878844976425,
      "learning_rate": 0.0009658181023533647,
      "loss": 0.4609,
      "step": 1082
    },
    {
      "epoch": 4.860118209963411,
      "grad_norm": 0.14973674714565277,
      "learning_rate": 0.0009657278259782378,
      "loss": 0.7081,
      "step": 1083
    },
    {
      "epoch": 4.86462144666479,
      "grad_norm": 0.09840992838144302,
      "learning_rate": 0.000965637434778164,
      "loss": 0.6254,
      "step": 1084
    },
    {
      "epoch": 4.869124683366169,
      "grad_norm": 0.0833243653178215,
      "learning_rate": 0.0009655469287754287,
      "loss": 0.5309,
      "step": 1085
    },
    {
      "epoch": 4.873627920067548,
      "grad_norm": 0.10967360436916351,
      "learning_rate": 0.0009654563079923465,
      "loss": 0.8611,
      "step": 1086
    },
    {
      "epoch": 4.878131156768927,
      "grad_norm": 0.08096545189619064,
      "learning_rate": 0.0009653655724512598,
      "loss": 0.3859,
      "step": 1087
    },
    {
      "epoch": 4.8826343934703065,
      "grad_norm": 0.10715965181589127,
      "learning_rate": 0.0009652747221745393,
      "loss": 0.8473,
      "step": 1088
    },
    {
      "epoch": 4.887137630171686,
      "grad_norm": 0.19826313853263855,
      "learning_rate": 0.000965183757184584,
      "loss": 0.5728,
      "step": 1089
    },
    {
      "epoch": 4.891640866873065,
      "grad_norm": 0.16027189791202545,
      "learning_rate": 0.0009650926775038217,
      "loss": 0.5111,
      "step": 1090
    },
    {
      "epoch": 4.896144103574445,
      "grad_norm": 0.08542965352535248,
      "learning_rate": 0.0009650014831547076,
      "loss": 0.5045,
      "step": 1091
    },
    {
      "epoch": 4.900647340275823,
      "grad_norm": 0.07572272419929504,
      "learning_rate": 0.000964910174159726,
      "loss": 0.4228,
      "step": 1092
    },
    {
      "epoch": 4.905150576977203,
      "grad_norm": 0.06422586739063263,
      "learning_rate": 0.0009648187505413886,
      "loss": 0.4228,
      "step": 1093
    },
    {
      "epoch": 4.909653813678581,
      "grad_norm": 0.07490701973438263,
      "learning_rate": 0.0009647272123222363,
      "loss": 0.4846,
      "step": 1094
    },
    {
      "epoch": 4.914157050379961,
      "grad_norm": 0.11437075585126877,
      "learning_rate": 0.0009646355595248375,
      "loss": 0.5056,
      "step": 1095
    },
    {
      "epoch": 4.91866028708134,
      "grad_norm": 0.06191461160778999,
      "learning_rate": 0.0009645437921717893,
      "loss": 0.5373,
      "step": 1096
    },
    {
      "epoch": 4.923163523782719,
      "grad_norm": 0.11142086237668991,
      "learning_rate": 0.000964451910285717,
      "loss": 0.5157,
      "step": 1097
    },
    {
      "epoch": 4.927666760484098,
      "grad_norm": 0.07051429897546768,
      "learning_rate": 0.0009643599138892736,
      "loss": 0.3086,
      "step": 1098
    },
    {
      "epoch": 4.932169997185477,
      "grad_norm": 0.06857205182313919,
      "learning_rate": 0.0009642678030051413,
      "loss": 0.6747,
      "step": 1099
    },
    {
      "epoch": 4.936673233886856,
      "grad_norm": 0.09130490571260452,
      "learning_rate": 0.0009641755776560297,
      "loss": 0.322,
      "step": 1100
    },
    {
      "epoch": 4.9411764705882355,
      "grad_norm": 0.11218699812889099,
      "learning_rate": 0.0009640832378646769,
      "loss": 0.806,
      "step": 1101
    },
    {
      "epoch": 4.945679707289615,
      "grad_norm": 0.11041845381259918,
      "learning_rate": 0.0009639907836538492,
      "loss": 0.919,
      "step": 1102
    },
    {
      "epoch": 4.950182943990994,
      "grad_norm": 0.10391785949468613,
      "learning_rate": 0.0009638982150463414,
      "loss": 0.5544,
      "step": 1103
    },
    {
      "epoch": 4.954686180692373,
      "grad_norm": 0.08456560969352722,
      "learning_rate": 0.0009638055320649761,
      "loss": 0.5513,
      "step": 1104
    },
    {
      "epoch": 4.959189417393752,
      "grad_norm": 0.10738201439380646,
      "learning_rate": 0.000963712734732604,
      "loss": 0.6336,
      "step": 1105
    },
    {
      "epoch": 4.963692654095131,
      "grad_norm": 0.05654969438910484,
      "learning_rate": 0.0009636198230721045,
      "loss": 0.2961,
      "step": 1106
    },
    {
      "epoch": 4.96819589079651,
      "grad_norm": 0.08140658587217331,
      "learning_rate": 0.0009635267971063848,
      "loss": 0.5389,
      "step": 1107
    },
    {
      "epoch": 4.972699127497889,
      "grad_norm": 0.5212120413780212,
      "learning_rate": 0.0009634336568583806,
      "loss": 0.5824,
      "step": 1108
    },
    {
      "epoch": 4.977202364199268,
      "grad_norm": 0.0721764862537384,
      "learning_rate": 0.0009633404023510553,
      "loss": 0.4576,
      "step": 1109
    },
    {
      "epoch": 4.981705600900647,
      "grad_norm": 0.12635917961597443,
      "learning_rate": 0.0009632470336074008,
      "loss": 0.4491,
      "step": 1110
    },
    {
      "epoch": 4.986208837602026,
      "grad_norm": 0.096005879342556,
      "learning_rate": 0.0009631535506504374,
      "loss": 0.5493,
      "step": 1111
    },
    {
      "epoch": 4.9907120743034055,
      "grad_norm": 0.09863606095314026,
      "learning_rate": 0.000963059953503213,
      "loss": 0.6223,
      "step": 1112
    },
    {
      "epoch": 4.9952153110047846,
      "grad_norm": 0.06949085742235184,
      "learning_rate": 0.000962966242188804,
      "loss": 0.4764,
      "step": 1113
    },
    {
      "epoch": 4.999718547706164,
      "grad_norm": 0.2344946265220642,
      "learning_rate": 0.0009628724167303148,
      "loss": 0.742,
      "step": 1114
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.2344946265220642,
      "learning_rate": 0.0009627784771508781,
      "loss": 0.0254,
      "step": 1115
    },
    {
      "epoch": 5.0,
      "eval_f1": 0.9787915166066427,
      "eval_loss": 0.032029490917921066,
      "eval_runtime": 26.0654,
      "eval_samples_per_second": 191.748,
      "eval_steps_per_second": 6.023,
      "step": 1115
    },
    {
      "epoch": 5.004503236701379,
      "grad_norm": 0.06028161197900772,
      "learning_rate": 0.0009626844234736546,
      "loss": 0.2805,
      "step": 1116
    },
    {
      "epoch": 5.009006473402758,
      "grad_norm": 0.14486396312713623,
      "learning_rate": 0.0009625902557218333,
      "loss": 0.6203,
      "step": 1117
    },
    {
      "epoch": 5.013509710104137,
      "grad_norm": 0.12742753326892853,
      "learning_rate": 0.0009624959739186311,
      "loss": 0.4345,
      "step": 1118
    },
    {
      "epoch": 5.018012946805516,
      "grad_norm": 0.13317328691482544,
      "learning_rate": 0.0009624015780872931,
      "loss": 0.5246,
      "step": 1119
    },
    {
      "epoch": 5.022516183506895,
      "grad_norm": 0.09302691370248795,
      "learning_rate": 0.0009623070682510926,
      "loss": 0.4912,
      "step": 1120
    },
    {
      "epoch": 5.0270194202082745,
      "grad_norm": 0.06053038686513901,
      "learning_rate": 0.0009622124444333311,
      "loss": 0.3623,
      "step": 1121
    },
    {
      "epoch": 5.031522656909654,
      "grad_norm": 0.1091335266828537,
      "learning_rate": 0.0009621177066573378,
      "loss": 0.4774,
      "step": 1122
    },
    {
      "epoch": 5.036025893611033,
      "grad_norm": 0.13612854480743408,
      "learning_rate": 0.0009620228549464704,
      "loss": 0.404,
      "step": 1123
    },
    {
      "epoch": 5.040529130312412,
      "grad_norm": 0.04605470225214958,
      "learning_rate": 0.0009619278893241144,
      "loss": 0.6102,
      "step": 1124
    },
    {
      "epoch": 5.045032367013791,
      "grad_norm": 0.06341815739870071,
      "learning_rate": 0.0009618328098136837,
      "loss": 0.4576,
      "step": 1125
    },
    {
      "epoch": 5.04953560371517,
      "grad_norm": 0.05513821542263031,
      "learning_rate": 0.0009617376164386199,
      "loss": 0.3443,
      "step": 1126
    },
    {
      "epoch": 5.054038840416549,
      "grad_norm": 0.07247438281774521,
      "learning_rate": 0.000961642309222393,
      "loss": 0.3061,
      "step": 1127
    },
    {
      "epoch": 5.058542077117928,
      "grad_norm": 0.05502570793032646,
      "learning_rate": 0.000961546888188501,
      "loss": 0.3758,
      "step": 1128
    },
    {
      "epoch": 5.063045313819307,
      "grad_norm": 0.1181459054350853,
      "learning_rate": 0.0009614513533604699,
      "loss": 0.3925,
      "step": 1129
    },
    {
      "epoch": 5.067548550520686,
      "grad_norm": 0.09646294265985489,
      "learning_rate": 0.0009613557047618536,
      "loss": 0.4117,
      "step": 1130
    },
    {
      "epoch": 5.072051787222066,
      "grad_norm": 0.09572578966617584,
      "learning_rate": 0.0009612599424162344,
      "loss": 0.2931,
      "step": 1131
    },
    {
      "epoch": 5.076555023923445,
      "grad_norm": 0.06442011147737503,
      "learning_rate": 0.0009611640663472223,
      "loss": 0.3472,
      "step": 1132
    },
    {
      "epoch": 5.0810582606248245,
      "grad_norm": 0.125698521733284,
      "learning_rate": 0.0009610680765784555,
      "loss": 0.3481,
      "step": 1133
    },
    {
      "epoch": 5.0855614973262036,
      "grad_norm": 0.05406249687075615,
      "learning_rate": 0.0009609719731336004,
      "loss": 0.2079,
      "step": 1134
    },
    {
      "epoch": 5.090064734027583,
      "grad_norm": 0.06939451396465302,
      "learning_rate": 0.0009608757560363511,
      "loss": 0.4026,
      "step": 1135
    },
    {
      "epoch": 5.094567970728962,
      "grad_norm": 0.20118644833564758,
      "learning_rate": 0.0009607794253104298,
      "loss": 0.3109,
      "step": 1136
    },
    {
      "epoch": 5.099071207430341,
      "grad_norm": 0.10643661022186279,
      "learning_rate": 0.0009606829809795871,
      "loss": 0.6223,
      "step": 1137
    },
    {
      "epoch": 5.10357444413172,
      "grad_norm": 0.0812755897641182,
      "learning_rate": 0.0009605864230676011,
      "loss": 0.2774,
      "step": 1138
    },
    {
      "epoch": 5.108077680833099,
      "grad_norm": 0.12834002077579498,
      "learning_rate": 0.0009604897515982779,
      "loss": 0.6125,
      "step": 1139
    },
    {
      "epoch": 5.112580917534478,
      "grad_norm": 0.07779565453529358,
      "learning_rate": 0.000960392966595452,
      "loss": 0.3115,
      "step": 1140
    },
    {
      "epoch": 5.117084154235857,
      "grad_norm": 0.07362176477909088,
      "learning_rate": 0.000960296068082986,
      "loss": 0.2759,
      "step": 1141
    },
    {
      "epoch": 5.121587390937236,
      "grad_norm": 0.21050825715065002,
      "learning_rate": 0.0009601990560847695,
      "loss": 0.5197,
      "step": 1142
    },
    {
      "epoch": 5.126090627638615,
      "grad_norm": 0.1253865510225296,
      "learning_rate": 0.0009601019306247214,
      "loss": 0.2502,
      "step": 1143
    },
    {
      "epoch": 5.130593864339994,
      "grad_norm": 0.08058532327413559,
      "learning_rate": 0.0009600046917267875,
      "loss": 0.5132,
      "step": 1144
    },
    {
      "epoch": 5.1350971010413735,
      "grad_norm": 0.14012616872787476,
      "learning_rate": 0.0009599073394149422,
      "loss": 0.3983,
      "step": 1145
    },
    {
      "epoch": 5.139600337742753,
      "grad_norm": 0.05669955909252167,
      "learning_rate": 0.0009598098737131877,
      "loss": 0.3506,
      "step": 1146
    },
    {
      "epoch": 5.144103574444132,
      "grad_norm": 0.054826024919748306,
      "learning_rate": 0.0009597122946455539,
      "loss": 0.4653,
      "step": 1147
    },
    {
      "epoch": 5.148606811145511,
      "grad_norm": 0.09448061138391495,
      "learning_rate": 0.0009596146022360991,
      "loss": 0.2459,
      "step": 1148
    },
    {
      "epoch": 5.15311004784689,
      "grad_norm": 0.09987323731184006,
      "learning_rate": 0.0009595167965089091,
      "loss": 0.4505,
      "step": 1149
    },
    {
      "epoch": 5.157613284548269,
      "grad_norm": 0.22153052687644958,
      "learning_rate": 0.0009594188774880981,
      "loss": 0.4202,
      "step": 1150
    },
    {
      "epoch": 5.162116521249648,
      "grad_norm": 0.08672893792390823,
      "learning_rate": 0.0009593208451978077,
      "loss": 0.1981,
      "step": 1151
    },
    {
      "epoch": 5.166619757951027,
      "grad_norm": 0.06214034929871559,
      "learning_rate": 0.000959222699662208,
      "loss": 0.6248,
      "step": 1152
    },
    {
      "epoch": 5.171122994652406,
      "grad_norm": 0.15637364983558655,
      "learning_rate": 0.0009591244409054965,
      "loss": 0.5011,
      "step": 1153
    },
    {
      "epoch": 5.175626231353785,
      "grad_norm": 0.0913616493344307,
      "learning_rate": 0.0009590260689518989,
      "loss": 0.3618,
      "step": 1154
    },
    {
      "epoch": 5.180129468055164,
      "grad_norm": 0.11646012216806412,
      "learning_rate": 0.0009589275838256688,
      "loss": 0.3794,
      "step": 1155
    },
    {
      "epoch": 5.1846327047565435,
      "grad_norm": 0.13541315495967865,
      "learning_rate": 0.0009588289855510876,
      "loss": 0.6806,
      "step": 1156
    },
    {
      "epoch": 5.189135941457923,
      "grad_norm": 0.13928799331188202,
      "learning_rate": 0.0009587302741524646,
      "loss": 0.4777,
      "step": 1157
    },
    {
      "epoch": 5.193639178159302,
      "grad_norm": 0.06399776041507721,
      "learning_rate": 0.0009586314496541373,
      "loss": 0.2111,
      "step": 1158
    },
    {
      "epoch": 5.198142414860681,
      "grad_norm": 0.07603677362203598,
      "learning_rate": 0.0009585325120804707,
      "loss": 0.4672,
      "step": 1159
    },
    {
      "epoch": 5.20264565156206,
      "grad_norm": 0.06773745268583298,
      "learning_rate": 0.0009584334614558575,
      "loss": 0.4425,
      "step": 1160
    },
    {
      "epoch": 5.20714888826344,
      "grad_norm": 0.09124483168125153,
      "learning_rate": 0.0009583342978047191,
      "loss": 0.7815,
      "step": 1161
    },
    {
      "epoch": 5.211652124964819,
      "grad_norm": 0.14199596643447876,
      "learning_rate": 0.0009582350211515038,
      "loss": 0.5253,
      "step": 1162
    },
    {
      "epoch": 5.216155361666198,
      "grad_norm": 0.15832547843456268,
      "learning_rate": 0.0009581356315206885,
      "loss": 0.2805,
      "step": 1163
    },
    {
      "epoch": 5.220658598367577,
      "grad_norm": 0.053182121366262436,
      "learning_rate": 0.0009580361289367775,
      "loss": 0.4416,
      "step": 1164
    },
    {
      "epoch": 5.225161835068956,
      "grad_norm": 0.07365278154611588,
      "learning_rate": 0.0009579365134243032,
      "loss": 0.2992,
      "step": 1165
    },
    {
      "epoch": 5.229665071770335,
      "grad_norm": 0.1747605800628662,
      "learning_rate": 0.0009578367850078257,
      "loss": 0.2345,
      "step": 1166
    },
    {
      "epoch": 5.234168308471714,
      "grad_norm": 0.07305587083101273,
      "learning_rate": 0.000957736943711933,
      "loss": 0.2452,
      "step": 1167
    },
    {
      "epoch": 5.238671545173093,
      "grad_norm": 0.0995764508843422,
      "learning_rate": 0.0009576369895612409,
      "loss": 0.4539,
      "step": 1168
    },
    {
      "epoch": 5.2431747818744725,
      "grad_norm": 0.20138974487781525,
      "learning_rate": 0.0009575369225803931,
      "loss": 0.3449,
      "step": 1169
    },
    {
      "epoch": 5.247678018575852,
      "grad_norm": 0.10692957788705826,
      "learning_rate": 0.000957436742794061,
      "loss": 0.4542,
      "step": 1170
    },
    {
      "epoch": 5.252181255277231,
      "grad_norm": 0.15700668096542358,
      "learning_rate": 0.0009573364502269439,
      "loss": 0.8035,
      "step": 1171
    },
    {
      "epoch": 5.25668449197861,
      "grad_norm": 0.20681777596473694,
      "learning_rate": 0.0009572360449037688,
      "loss": 0.5042,
      "step": 1172
    },
    {
      "epoch": 5.261187728679989,
      "grad_norm": 0.07712793350219727,
      "learning_rate": 0.0009571355268492908,
      "loss": 0.3298,
      "step": 1173
    },
    {
      "epoch": 5.265690965381368,
      "grad_norm": 0.09027469158172607,
      "learning_rate": 0.0009570348960882922,
      "loss": 0.3586,
      "step": 1174
    },
    {
      "epoch": 5.270194202082747,
      "grad_norm": 0.09203832596540451,
      "learning_rate": 0.0009569341526455839,
      "loss": 0.4082,
      "step": 1175
    },
    {
      "epoch": 5.274697438784126,
      "grad_norm": 0.10381350666284561,
      "learning_rate": 0.0009568332965460038,
      "loss": 0.4917,
      "step": 1176
    },
    {
      "epoch": 5.279200675485505,
      "grad_norm": 0.1264943927526474,
      "learning_rate": 0.0009567323278144181,
      "loss": 0.5963,
      "step": 1177
    },
    {
      "epoch": 5.283703912186884,
      "grad_norm": 0.09214121103286743,
      "learning_rate": 0.0009566312464757206,
      "loss": 0.496,
      "step": 1178
    },
    {
      "epoch": 5.288207148888263,
      "grad_norm": 0.09454386681318283,
      "learning_rate": 0.0009565300525548326,
      "loss": 0.512,
      "step": 1179
    },
    {
      "epoch": 5.2927103855896425,
      "grad_norm": 0.11631331592798233,
      "learning_rate": 0.0009564287460767037,
      "loss": 0.4868,
      "step": 1180
    },
    {
      "epoch": 5.2972136222910216,
      "grad_norm": 0.09333252161741257,
      "learning_rate": 0.0009563273270663109,
      "loss": 0.5647,
      "step": 1181
    },
    {
      "epoch": 5.301716858992401,
      "grad_norm": 0.11652574688196182,
      "learning_rate": 0.0009562257955486589,
      "loss": 0.6448,
      "step": 1182
    },
    {
      "epoch": 5.30622009569378,
      "grad_norm": 0.08360384404659271,
      "learning_rate": 0.0009561241515487802,
      "loss": 0.5423,
      "step": 1183
    },
    {
      "epoch": 5.310723332395159,
      "grad_norm": 0.13730154931545258,
      "learning_rate": 0.0009560223950917353,
      "loss": 0.4993,
      "step": 1184
    },
    {
      "epoch": 5.315226569096538,
      "grad_norm": 0.12595362961292267,
      "learning_rate": 0.000955920526202612,
      "loss": 0.7707,
      "step": 1185
    },
    {
      "epoch": 5.319729805797917,
      "grad_norm": 0.17558614909648895,
      "learning_rate": 0.0009558185449065261,
      "loss": 0.4548,
      "step": 1186
    },
    {
      "epoch": 5.324233042499296,
      "grad_norm": 0.10162810236215591,
      "learning_rate": 0.000955716451228621,
      "loss": 0.5887,
      "step": 1187
    },
    {
      "epoch": 5.328736279200675,
      "grad_norm": 0.1200704351067543,
      "learning_rate": 0.0009556142451940679,
      "loss": 0.5827,
      "step": 1188
    },
    {
      "epoch": 5.333239515902054,
      "grad_norm": 0.12107571214437485,
      "learning_rate": 0.0009555119268280655,
      "loss": 0.5048,
      "step": 1189
    },
    {
      "epoch": 5.337742752603433,
      "grad_norm": 0.06497116386890411,
      "learning_rate": 0.0009554094961558406,
      "loss": 0.2963,
      "step": 1190
    },
    {
      "epoch": 5.342245989304812,
      "grad_norm": 0.07652325183153152,
      "learning_rate": 0.0009553069532026473,
      "loss": 0.4339,
      "step": 1191
    },
    {
      "epoch": 5.346749226006192,
      "grad_norm": 0.08881734311580658,
      "learning_rate": 0.0009552042979937673,
      "loss": 0.4553,
      "step": 1192
    },
    {
      "epoch": 5.351252462707571,
      "grad_norm": 0.11729712784290314,
      "learning_rate": 0.0009551015305545105,
      "loss": 0.5769,
      "step": 1193
    },
    {
      "epoch": 5.355755699408951,
      "grad_norm": 0.10625773668289185,
      "learning_rate": 0.000954998650910214,
      "loss": 0.4779,
      "step": 1194
    },
    {
      "epoch": 5.36025893611033,
      "grad_norm": 0.08792727440595627,
      "learning_rate": 0.0009548956590862426,
      "loss": 0.3631,
      "step": 1195
    },
    {
      "epoch": 5.364762172811709,
      "grad_norm": 0.08786574751138687,
      "learning_rate": 0.0009547925551079892,
      "loss": 0.4049,
      "step": 1196
    },
    {
      "epoch": 5.369265409513088,
      "grad_norm": 0.11808682233095169,
      "learning_rate": 0.0009546893390008737,
      "loss": 0.4784,
      "step": 1197
    },
    {
      "epoch": 5.373768646214467,
      "grad_norm": 0.13810457289218903,
      "learning_rate": 0.0009545860107903443,
      "loss": 0.5,
      "step": 1198
    },
    {
      "epoch": 5.378271882915846,
      "grad_norm": 0.11378622055053711,
      "learning_rate": 0.0009544825705018764,
      "loss": 0.3917,
      "step": 1199
    },
    {
      "epoch": 5.382775119617225,
      "grad_norm": 0.13881051540374756,
      "learning_rate": 0.0009543790181609729,
      "loss": 0.6221,
      "step": 1200
    },
    {
      "epoch": 5.387278356318604,
      "grad_norm": 0.07439996302127838,
      "learning_rate": 0.0009542753537931649,
      "loss": 0.5556,
      "step": 1201
    },
    {
      "epoch": 5.391781593019983,
      "grad_norm": 0.0688275545835495,
      "learning_rate": 0.0009541715774240106,
      "loss": 0.3035,
      "step": 1202
    },
    {
      "epoch": 5.396284829721362,
      "grad_norm": 0.18053697049617767,
      "learning_rate": 0.0009540676890790961,
      "loss": 0.424,
      "step": 1203
    },
    {
      "epoch": 5.4007880664227415,
      "grad_norm": 0.1362679898738861,
      "learning_rate": 0.0009539636887840351,
      "loss": 0.5679,
      "step": 1204
    },
    {
      "epoch": 5.4052913031241205,
      "grad_norm": 0.148960143327713,
      "learning_rate": 0.0009538595765644685,
      "loss": 0.3088,
      "step": 1205
    },
    {
      "epoch": 5.4097945398255,
      "grad_norm": 0.09043637663125992,
      "learning_rate": 0.0009537553524460655,
      "loss": 0.3911,
      "step": 1206
    },
    {
      "epoch": 5.414297776526879,
      "grad_norm": 0.1079460084438324,
      "learning_rate": 0.0009536510164545222,
      "loss": 0.4044,
      "step": 1207
    },
    {
      "epoch": 5.418801013228258,
      "grad_norm": 0.09523529559373856,
      "learning_rate": 0.0009535465686155627,
      "loss": 0.5059,
      "step": 1208
    },
    {
      "epoch": 5.423304249929637,
      "grad_norm": 0.08608290553092957,
      "learning_rate": 0.0009534420089549387,
      "loss": 0.524,
      "step": 1209
    },
    {
      "epoch": 5.427807486631016,
      "grad_norm": 0.06979218870401382,
      "learning_rate": 0.0009533373374984291,
      "loss": 0.4783,
      "step": 1210
    },
    {
      "epoch": 5.432310723332395,
      "grad_norm": 0.049580857157707214,
      "learning_rate": 0.0009532325542718406,
      "loss": 0.3619,
      "step": 1211
    },
    {
      "epoch": 5.436813960033774,
      "grad_norm": 0.1759212166070938,
      "learning_rate": 0.0009531276593010077,
      "loss": 0.3481,
      "step": 1212
    },
    {
      "epoch": 5.441317196735153,
      "grad_norm": 0.10299959033727646,
      "learning_rate": 0.000953022652611792,
      "loss": 0.4225,
      "step": 1213
    },
    {
      "epoch": 5.445820433436532,
      "grad_norm": 0.10642505437135696,
      "learning_rate": 0.0009529175342300828,
      "loss": 0.4498,
      "step": 1214
    },
    {
      "epoch": 5.450323670137911,
      "grad_norm": 0.08431151509284973,
      "learning_rate": 0.0009528123041817971,
      "loss": 0.3883,
      "step": 1215
    },
    {
      "epoch": 5.4548269068392905,
      "grad_norm": 0.11631433665752411,
      "learning_rate": 0.0009527069624928792,
      "loss": 0.5818,
      "step": 1216
    },
    {
      "epoch": 5.45933014354067,
      "grad_norm": 0.07553074508905411,
      "learning_rate": 0.0009526015091893013,
      "loss": 0.3828,
      "step": 1217
    },
    {
      "epoch": 5.463833380242049,
      "grad_norm": 0.08150596916675568,
      "learning_rate": 0.0009524959442970623,
      "loss": 0.4258,
      "step": 1218
    },
    {
      "epoch": 5.468336616943428,
      "grad_norm": 0.11791462451219559,
      "learning_rate": 0.0009523902678421898,
      "loss": 0.6868,
      "step": 1219
    },
    {
      "epoch": 5.472839853644807,
      "grad_norm": 0.10940080881118774,
      "learning_rate": 0.000952284479850738,
      "loss": 0.5329,
      "step": 1220
    },
    {
      "epoch": 5.477343090346186,
      "grad_norm": 0.11507377028465271,
      "learning_rate": 0.0009521785803487888,
      "loss": 0.5387,
      "step": 1221
    },
    {
      "epoch": 5.481846327047565,
      "grad_norm": 0.13263824582099915,
      "learning_rate": 0.0009520725693624517,
      "loss": 0.7114,
      "step": 1222
    },
    {
      "epoch": 5.486349563748945,
      "grad_norm": 0.0971217155456543,
      "learning_rate": 0.0009519664469178637,
      "loss": 0.681,
      "step": 1223
    },
    {
      "epoch": 5.490852800450323,
      "grad_norm": 0.06118227168917656,
      "learning_rate": 0.0009518602130411893,
      "loss": 0.5215,
      "step": 1224
    },
    {
      "epoch": 5.495356037151703,
      "grad_norm": 0.07319777458906174,
      "learning_rate": 0.0009517538677586203,
      "loss": 0.5563,
      "step": 1225
    },
    {
      "epoch": 5.499859273853082,
      "grad_norm": 0.097087062895298,
      "learning_rate": 0.0009516474110963763,
      "loss": 0.6754,
      "step": 1226
    },
    {
      "epoch": 5.504362510554461,
      "grad_norm": 0.1239418312907219,
      "learning_rate": 0.0009515408430807036,
      "loss": 0.5008,
      "step": 1227
    },
    {
      "epoch": 5.50886574725584,
      "grad_norm": 0.09353230148553848,
      "learning_rate": 0.0009514341637378769,
      "loss": 0.35,
      "step": 1228
    },
    {
      "epoch": 5.5133689839572195,
      "grad_norm": 0.08735398948192596,
      "learning_rate": 0.0009513273730941981,
      "loss": 0.4534,
      "step": 1229
    },
    {
      "epoch": 5.517872220658599,
      "grad_norm": 0.08936844766139984,
      "learning_rate": 0.000951220471175996,
      "loss": 0.4821,
      "step": 1230
    },
    {
      "epoch": 5.522375457359978,
      "grad_norm": 0.10031743347644806,
      "learning_rate": 0.0009511134580096273,
      "loss": 0.6162,
      "step": 1231
    },
    {
      "epoch": 5.526878694061357,
      "grad_norm": 0.1103372648358345,
      "learning_rate": 0.000951006333621476,
      "loss": 0.7108,
      "step": 1232
    },
    {
      "epoch": 5.531381930762736,
      "grad_norm": 0.07144084572792053,
      "learning_rate": 0.0009508990980379537,
      "loss": 0.4597,
      "step": 1233
    },
    {
      "epoch": 5.535885167464115,
      "grad_norm": 0.08632030338048935,
      "learning_rate": 0.0009507917512854993,
      "loss": 0.8393,
      "step": 1234
    },
    {
      "epoch": 5.540388404165494,
      "grad_norm": 0.08749809116125107,
      "learning_rate": 0.000950684293390579,
      "loss": 0.5564,
      "step": 1235
    },
    {
      "epoch": 5.544891640866873,
      "grad_norm": 0.08281069993972778,
      "learning_rate": 0.0009505767243796865,
      "loss": 0.5106,
      "step": 1236
    },
    {
      "epoch": 5.549394877568252,
      "grad_norm": 0.09533411264419556,
      "learning_rate": 0.0009504690442793429,
      "loss": 0.5895,
      "step": 1237
    },
    {
      "epoch": 5.553898114269631,
      "grad_norm": 0.07850434631109238,
      "learning_rate": 0.0009503612531160966,
      "loss": 0.4847,
      "step": 1238
    },
    {
      "epoch": 5.55840135097101,
      "grad_norm": 0.060299597680568695,
      "learning_rate": 0.0009502533509165235,
      "loss": 0.4969,
      "step": 1239
    },
    {
      "epoch": 5.5629045876723895,
      "grad_norm": 0.09766830503940582,
      "learning_rate": 0.0009501453377072268,
      "loss": 0.521,
      "step": 1240
    },
    {
      "epoch": 5.567407824373769,
      "grad_norm": 0.0827021598815918,
      "learning_rate": 0.0009500372135148371,
      "loss": 0.399,
      "step": 1241
    },
    {
      "epoch": 5.571911061075148,
      "grad_norm": 0.09252717345952988,
      "learning_rate": 0.0009499289783660125,
      "loss": 0.5063,
      "step": 1242
    },
    {
      "epoch": 5.576414297776527,
      "grad_norm": 0.06622222065925598,
      "learning_rate": 0.0009498206322874381,
      "loss": 0.305,
      "step": 1243
    },
    {
      "epoch": 5.580917534477906,
      "grad_norm": 0.08598536252975464,
      "learning_rate": 0.0009497121753058268,
      "loss": 0.5716,
      "step": 1244
    },
    {
      "epoch": 5.585420771179285,
      "grad_norm": 0.07711371779441833,
      "learning_rate": 0.0009496036074479184,
      "loss": 0.4233,
      "step": 1245
    },
    {
      "epoch": 5.589924007880664,
      "grad_norm": 0.1104951798915863,
      "learning_rate": 0.0009494949287404804,
      "loss": 0.4795,
      "step": 1246
    },
    {
      "epoch": 5.594427244582043,
      "grad_norm": 0.11185768246650696,
      "learning_rate": 0.0009493861392103073,
      "loss": 0.587,
      "step": 1247
    },
    {
      "epoch": 5.598930481283422,
      "grad_norm": 0.14791950583457947,
      "learning_rate": 0.0009492772388842213,
      "loss": 0.6163,
      "step": 1248
    },
    {
      "epoch": 5.603433717984801,
      "grad_norm": 0.05519628897309303,
      "learning_rate": 0.0009491682277890716,
      "loss": 0.2996,
      "step": 1249
    },
    {
      "epoch": 5.60793695468618,
      "grad_norm": 0.0486176423728466,
      "learning_rate": 0.0009490591059517349,
      "loss": 0.3577,
      "step": 1250
    },
    {
      "epoch": 5.6124401913875595,
      "grad_norm": 0.16855287551879883,
      "learning_rate": 0.0009489498733991151,
      "loss": 0.7665,
      "step": 1251
    },
    {
      "epoch": 5.6169434280889385,
      "grad_norm": 0.06757596880197525,
      "learning_rate": 0.0009488405301581435,
      "loss": 0.3905,
      "step": 1252
    },
    {
      "epoch": 5.621446664790318,
      "grad_norm": 0.08086881041526794,
      "learning_rate": 0.0009487310762557784,
      "loss": 0.5753,
      "step": 1253
    },
    {
      "epoch": 5.625949901491698,
      "grad_norm": 0.12735095620155334,
      "learning_rate": 0.0009486215117190057,
      "loss": 0.5275,
      "step": 1254
    },
    {
      "epoch": 5.630453138193076,
      "grad_norm": 0.08893144130706787,
      "learning_rate": 0.0009485118365748387,
      "loss": 0.4576,
      "step": 1255
    },
    {
      "epoch": 5.634956374894456,
      "grad_norm": 0.10888238996267319,
      "learning_rate": 0.0009484020508503173,
      "loss": 0.4553,
      "step": 1256
    },
    {
      "epoch": 5.639459611595835,
      "grad_norm": 0.0549917109310627,
      "learning_rate": 0.0009482921545725096,
      "loss": 0.4059,
      "step": 1257
    },
    {
      "epoch": 5.643962848297214,
      "grad_norm": 0.08577518165111542,
      "learning_rate": 0.0009481821477685101,
      "loss": 0.3801,
      "step": 1258
    },
    {
      "epoch": 5.648466084998593,
      "grad_norm": 0.07623909413814545,
      "learning_rate": 0.0009480720304654411,
      "loss": 0.3461,
      "step": 1259
    },
    {
      "epoch": 5.652969321699972,
      "grad_norm": 0.0884774923324585,
      "learning_rate": 0.000947961802690452,
      "loss": 0.3945,
      "step": 1260
    },
    {
      "epoch": 5.657472558401351,
      "grad_norm": 0.10207516700029373,
      "learning_rate": 0.0009478514644707193,
      "loss": 0.6354,
      "step": 1261
    },
    {
      "epoch": 5.66197579510273,
      "grad_norm": 0.0864701196551323,
      "learning_rate": 0.0009477410158334467,
      "loss": 0.577,
      "step": 1262
    },
    {
      "epoch": 5.666479031804109,
      "grad_norm": 0.14214184880256653,
      "learning_rate": 0.0009476304568058656,
      "loss": 0.4897,
      "step": 1263
    },
    {
      "epoch": 5.6709822685054885,
      "grad_norm": 0.11009703576564789,
      "learning_rate": 0.0009475197874152339,
      "loss": 0.5371,
      "step": 1264
    },
    {
      "epoch": 5.675485505206868,
      "grad_norm": 0.14015041291713715,
      "learning_rate": 0.0009474090076888374,
      "loss": 0.646,
      "step": 1265
    },
    {
      "epoch": 5.679988741908247,
      "grad_norm": 0.1127328872680664,
      "learning_rate": 0.0009472981176539886,
      "loss": 0.5448,
      "step": 1266
    },
    {
      "epoch": 5.684491978609626,
      "grad_norm": 0.07217232882976532,
      "learning_rate": 0.0009471871173380275,
      "loss": 0.336,
      "step": 1267
    },
    {
      "epoch": 5.688995215311005,
      "grad_norm": 0.0652306005358696,
      "learning_rate": 0.000947076006768321,
      "loss": 0.3538,
      "step": 1268
    },
    {
      "epoch": 5.693498452012384,
      "grad_norm": 0.16272762417793274,
      "learning_rate": 0.0009469647859722634,
      "loss": 0.5296,
      "step": 1269
    },
    {
      "epoch": 5.698001688713763,
      "grad_norm": 0.08025287836790085,
      "learning_rate": 0.0009468534549772761,
      "loss": 0.6126,
      "step": 1270
    },
    {
      "epoch": 5.702504925415142,
      "grad_norm": 0.10354768484830856,
      "learning_rate": 0.0009467420138108078,
      "loss": 0.4573,
      "step": 1271
    },
    {
      "epoch": 5.707008162116521,
      "grad_norm": 0.0842965841293335,
      "learning_rate": 0.0009466304625003343,
      "loss": 0.5665,
      "step": 1272
    },
    {
      "epoch": 5.7115113988179,
      "grad_norm": 0.08356692641973495,
      "learning_rate": 0.0009465188010733585,
      "loss": 0.5245,
      "step": 1273
    },
    {
      "epoch": 5.716014635519279,
      "grad_norm": 0.16216731071472168,
      "learning_rate": 0.0009464070295574104,
      "loss": 0.8414,
      "step": 1274
    },
    {
      "epoch": 5.720517872220658,
      "grad_norm": 0.06817365437746048,
      "learning_rate": 0.000946295147980047,
      "loss": 0.264,
      "step": 1275
    },
    {
      "epoch": 5.7250211089220375,
      "grad_norm": 0.11456242948770523,
      "learning_rate": 0.0009461831563688529,
      "loss": 0.6669,
      "step": 1276
    },
    {
      "epoch": 5.729524345623417,
      "grad_norm": 0.10555265098810196,
      "learning_rate": 0.0009460710547514398,
      "loss": 0.6611,
      "step": 1277
    },
    {
      "epoch": 5.734027582324796,
      "grad_norm": 0.11158206313848495,
      "learning_rate": 0.0009459588431554457,
      "loss": 0.4172,
      "step": 1278
    },
    {
      "epoch": 5.738530819026175,
      "grad_norm": 0.08147290349006653,
      "learning_rate": 0.0009458465216085368,
      "loss": 0.5244,
      "step": 1279
    },
    {
      "epoch": 5.743034055727554,
      "grad_norm": 0.10948384553194046,
      "learning_rate": 0.0009457340901384057,
      "loss": 0.4528,
      "step": 1280
    },
    {
      "epoch": 5.747537292428933,
      "grad_norm": 0.12072914838790894,
      "learning_rate": 0.0009456215487727723,
      "loss": 0.8244,
      "step": 1281
    },
    {
      "epoch": 5.752040529130312,
      "grad_norm": 0.09472900629043579,
      "learning_rate": 0.0009455088975393839,
      "loss": 0.5929,
      "step": 1282
    },
    {
      "epoch": 5.756543765831692,
      "grad_norm": 0.09025772660970688,
      "learning_rate": 0.0009453961364660142,
      "loss": 0.686,
      "step": 1283
    },
    {
      "epoch": 5.76104700253307,
      "grad_norm": 0.13966457545757294,
      "learning_rate": 0.0009452832655804646,
      "loss": 0.3909,
      "step": 1284
    },
    {
      "epoch": 5.76555023923445,
      "grad_norm": 0.07174265384674072,
      "learning_rate": 0.0009451702849105632,
      "loss": 0.48,
      "step": 1285
    },
    {
      "epoch": 5.770053475935828,
      "grad_norm": 0.12493699043989182,
      "learning_rate": 0.0009450571944841658,
      "loss": 0.6764,
      "step": 1286
    },
    {
      "epoch": 5.774556712637208,
      "grad_norm": 0.10457960516214371,
      "learning_rate": 0.000944943994329154,
      "loss": 0.6272,
      "step": 1287
    },
    {
      "epoch": 5.7790599493385875,
      "grad_norm": 0.13407182693481445,
      "learning_rate": 0.0009448306844734379,
      "loss": 0.3869,
      "step": 1288
    },
    {
      "epoch": 5.7835631860399666,
      "grad_norm": 0.14149293303489685,
      "learning_rate": 0.0009447172649449538,
      "loss": 0.3981,
      "step": 1289
    },
    {
      "epoch": 5.788066422741346,
      "grad_norm": 0.0637061595916748,
      "learning_rate": 0.0009446037357716651,
      "loss": 0.5754,
      "step": 1290
    },
    {
      "epoch": 5.792569659442725,
      "grad_norm": 0.07574563473463058,
      "learning_rate": 0.0009444900969815623,
      "loss": 0.62,
      "step": 1291
    },
    {
      "epoch": 5.797072896144104,
      "grad_norm": 0.10535331070423126,
      "learning_rate": 0.0009443763486026633,
      "loss": 0.5984,
      "step": 1292
    },
    {
      "epoch": 5.801576132845483,
      "grad_norm": 0.07186339050531387,
      "learning_rate": 0.0009442624906630124,
      "loss": 0.5705,
      "step": 1293
    },
    {
      "epoch": 5.806079369546862,
      "grad_norm": 0.04287143424153328,
      "learning_rate": 0.0009441485231906814,
      "loss": 0.4047,
      "step": 1294
    },
    {
      "epoch": 5.810582606248241,
      "grad_norm": 0.057902731001377106,
      "learning_rate": 0.0009440344462137689,
      "loss": 0.389,
      "step": 1295
    },
    {
      "epoch": 5.81508584294962,
      "grad_norm": 0.09789475053548813,
      "learning_rate": 0.0009439202597604003,
      "loss": 0.5441,
      "step": 1296
    },
    {
      "epoch": 5.819589079650999,
      "grad_norm": 0.0748920738697052,
      "learning_rate": 0.0009438059638587284,
      "loss": 0.353,
      "step": 1297
    },
    {
      "epoch": 5.824092316352378,
      "grad_norm": 0.16373276710510254,
      "learning_rate": 0.0009436915585369329,
      "loss": 0.4605,
      "step": 1298
    },
    {
      "epoch": 5.828595553053757,
      "grad_norm": 0.08354803174734116,
      "learning_rate": 0.0009435770438232201,
      "loss": 0.6573,
      "step": 1299
    },
    {
      "epoch": 5.8330987897551365,
      "grad_norm": 0.07613498717546463,
      "learning_rate": 0.0009434624197458239,
      "loss": 0.5428,
      "step": 1300
    },
    {
      "epoch": 5.837602026456516,
      "grad_norm": 0.08756180107593536,
      "learning_rate": 0.0009433476863330044,
      "loss": 0.6632,
      "step": 1301
    },
    {
      "epoch": 5.842105263157895,
      "grad_norm": 0.07507156580686569,
      "learning_rate": 0.0009432328436130493,
      "loss": 0.3619,
      "step": 1302
    },
    {
      "epoch": 5.846608499859274,
      "grad_norm": 0.16375131905078888,
      "learning_rate": 0.0009431178916142731,
      "loss": 0.7324,
      "step": 1303
    },
    {
      "epoch": 5.851111736560653,
      "grad_norm": 0.0936129242181778,
      "learning_rate": 0.0009430028303650168,
      "loss": 0.4663,
      "step": 1304
    },
    {
      "epoch": 5.855614973262032,
      "grad_norm": 0.10945668816566467,
      "learning_rate": 0.000942887659893649,
      "loss": 0.5342,
      "step": 1305
    },
    {
      "epoch": 5.860118209963411,
      "grad_norm": 0.08724610507488251,
      "learning_rate": 0.0009427723802285648,
      "loss": 0.4399,
      "step": 1306
    },
    {
      "epoch": 5.86462144666479,
      "grad_norm": 0.19402551651000977,
      "learning_rate": 0.0009426569913981864,
      "loss": 0.4359,
      "step": 1307
    },
    {
      "epoch": 5.869124683366169,
      "grad_norm": 0.05808413773775101,
      "learning_rate": 0.0009425414934309628,
      "loss": 0.4935,
      "step": 1308
    },
    {
      "epoch": 5.873627920067548,
      "grad_norm": 0.12590569257736206,
      "learning_rate": 0.0009424258863553701,
      "loss": 0.6058,
      "step": 1309
    },
    {
      "epoch": 5.878131156768927,
      "grad_norm": 0.11527678370475769,
      "learning_rate": 0.0009423101701999108,
      "loss": 0.5659,
      "step": 1310
    },
    {
      "epoch": 5.8826343934703065,
      "grad_norm": 0.08477621525526047,
      "learning_rate": 0.0009421943449931152,
      "loss": 0.5733,
      "step": 1311
    },
    {
      "epoch": 5.887137630171686,
      "grad_norm": 0.14586658775806427,
      "learning_rate": 0.0009420784107635394,
      "loss": 0.6316,
      "step": 1312
    },
    {
      "epoch": 5.891640866873065,
      "grad_norm": 0.07059560716152191,
      "learning_rate": 0.0009419623675397672,
      "loss": 0.6323,
      "step": 1313
    },
    {
      "epoch": 5.896144103574445,
      "grad_norm": 0.08588016033172607,
      "learning_rate": 0.000941846215350409,
      "loss": 0.6668,
      "step": 1314
    },
    {
      "epoch": 5.900647340275823,
      "grad_norm": 0.26543933153152466,
      "learning_rate": 0.0009417299542241021,
      "loss": 0.5081,
      "step": 1315
    },
    {
      "epoch": 5.905150576977203,
      "grad_norm": 0.08802288770675659,
      "learning_rate": 0.0009416135841895104,
      "loss": 0.8376,
      "step": 1316
    },
    {
      "epoch": 5.909653813678581,
      "grad_norm": 0.1077086329460144,
      "learning_rate": 0.0009414971052753251,
      "loss": 0.4865,
      "step": 1317
    },
    {
      "epoch": 5.914157050379961,
      "grad_norm": 0.08680754899978638,
      "learning_rate": 0.0009413805175102638,
      "loss": 0.3909,
      "step": 1318
    },
    {
      "epoch": 5.91866028708134,
      "grad_norm": 0.10530715435743332,
      "learning_rate": 0.0009412638209230715,
      "loss": 0.4989,
      "step": 1319
    },
    {
      "epoch": 5.923163523782719,
      "grad_norm": 0.0804671198129654,
      "learning_rate": 0.0009411470155425192,
      "loss": 0.4513,
      "step": 1320
    },
    {
      "epoch": 5.927666760484098,
      "grad_norm": 0.10142022371292114,
      "learning_rate": 0.0009410301013974056,
      "loss": 0.3765,
      "step": 1321
    },
    {
      "epoch": 5.932169997185477,
      "grad_norm": 0.083460733294487,
      "learning_rate": 0.0009409130785165558,
      "loss": 0.4533,
      "step": 1322
    },
    {
      "epoch": 5.936673233886856,
      "grad_norm": 0.10020339488983154,
      "learning_rate": 0.0009407959469288214,
      "loss": 0.5874,
      "step": 1323
    },
    {
      "epoch": 5.9411764705882355,
      "grad_norm": 0.09166290611028671,
      "learning_rate": 0.0009406787066630815,
      "loss": 0.5667,
      "step": 1324
    },
    {
      "epoch": 5.945679707289615,
      "grad_norm": 0.08459731936454773,
      "learning_rate": 0.0009405613577482414,
      "loss": 0.4344,
      "step": 1325
    },
    {
      "epoch": 5.950182943990994,
      "grad_norm": 0.1058153435587883,
      "learning_rate": 0.0009404439002132335,
      "loss": 0.3952,
      "step": 1326
    },
    {
      "epoch": 5.954686180692373,
      "grad_norm": 0.06494715064764023,
      "learning_rate": 0.0009403263340870168,
      "loss": 0.2728,
      "step": 1327
    },
    {
      "epoch": 5.959189417393752,
      "grad_norm": 0.08051876723766327,
      "learning_rate": 0.0009402086593985773,
      "loss": 0.2336,
      "step": 1328
    },
    {
      "epoch": 5.963692654095131,
      "grad_norm": 0.12833565473556519,
      "learning_rate": 0.0009400908761769275,
      "loss": 0.4109,
      "step": 1329
    },
    {
      "epoch": 5.96819589079651,
      "grad_norm": 0.06802072376012802,
      "learning_rate": 0.0009399729844511069,
      "loss": 0.5692,
      "step": 1330
    },
    {
      "epoch": 5.972699127497889,
      "grad_norm": 0.19477833807468414,
      "learning_rate": 0.0009398549842501816,
      "loss": 0.7562,
      "step": 1331
    },
    {
      "epoch": 5.977202364199268,
      "grad_norm": 0.20591849088668823,
      "learning_rate": 0.0009397368756032445,
      "loss": 0.5946,
      "step": 1332
    },
    {
      "epoch": 5.981705600900647,
      "grad_norm": 0.14964157342910767,
      "learning_rate": 0.0009396186585394153,
      "loss": 0.3459,
      "step": 1333
    },
    {
      "epoch": 5.986208837602026,
      "grad_norm": 0.09349194169044495,
      "learning_rate": 0.0009395003330878401,
      "loss": 0.5511,
      "step": 1334
    },
    {
      "epoch": 5.9907120743034055,
      "grad_norm": 0.06418263167142868,
      "learning_rate": 0.0009393818992776922,
      "loss": 0.5591,
      "step": 1335
    },
    {
      "epoch": 5.9952153110047846,
      "grad_norm": 0.26020410656929016,
      "learning_rate": 0.0009392633571381714,
      "loss": 0.5318,
      "step": 1336
    },
    {
      "epoch": 5.999718547706164,
      "grad_norm": 0.08038589358329773,
      "learning_rate": 0.0009391447066985041,
      "loss": 0.7299,
      "step": 1337
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.08038589358329773,
      "learning_rate": 0.0009390259479879435,
      "loss": 0.0258,
      "step": 1338
    },
    {
      "epoch": 6.0,
      "eval_f1": 0.9797676282051282,
      "eval_loss": 0.028845086693763733,
      "eval_runtime": 26.0885,
      "eval_samples_per_second": 191.579,
      "eval_steps_per_second": 6.018,
      "step": 1338
    },
    {
      "epoch": 6.004503236701379,
      "grad_norm": 0.1450279802083969,
      "learning_rate": 0.0009389070810357696,
      "loss": 0.4325,
      "step": 1339
    },
    {
      "epoch": 6.009006473402758,
      "grad_norm": 0.08790446817874908,
      "learning_rate": 0.0009387881058712888,
      "loss": 0.4289,
      "step": 1340
    },
    {
      "epoch": 6.013509710104137,
      "grad_norm": 0.15131878852844238,
      "learning_rate": 0.0009386690225238345,
      "loss": 0.4252,
      "step": 1341
    },
    {
      "epoch": 6.018012946805516,
      "grad_norm": 0.09026917070150375,
      "learning_rate": 0.0009385498310227668,
      "loss": 0.2751,
      "step": 1342
    },
    {
      "epoch": 6.022516183506895,
      "grad_norm": 0.06495746970176697,
      "learning_rate": 0.0009384305313974719,
      "loss": 0.4114,
      "step": 1343
    },
    {
      "epoch": 6.0270194202082745,
      "grad_norm": 0.10402292758226395,
      "learning_rate": 0.0009383111236773635,
      "loss": 0.5102,
      "step": 1344
    },
    {
      "epoch": 6.031522656909654,
      "grad_norm": 0.1689908355474472,
      "learning_rate": 0.000938191607891881,
      "loss": 0.9067,
      "step": 1345
    },
    {
      "epoch": 6.036025893611033,
      "grad_norm": 0.09830690920352936,
      "learning_rate": 0.0009380719840704915,
      "loss": 0.4971,
      "step": 1346
    },
    {
      "epoch": 6.040529130312412,
      "grad_norm": 0.11703472584486008,
      "learning_rate": 0.0009379522522426879,
      "loss": 0.3051,
      "step": 1347
    },
    {
      "epoch": 6.045032367013791,
      "grad_norm": 0.08282050490379333,
      "learning_rate": 0.00093783241243799,
      "loss": 0.3608,
      "step": 1348
    },
    {
      "epoch": 6.04953560371517,
      "grad_norm": 0.12572023272514343,
      "learning_rate": 0.0009377124646859443,
      "loss": 0.4418,
      "step": 1349
    },
    {
      "epoch": 6.054038840416549,
      "grad_norm": 0.07367894798517227,
      "learning_rate": 0.0009375924090161237,
      "loss": 0.3918,
      "step": 1350
    },
    {
      "epoch": 6.058542077117928,
      "grad_norm": 0.08918030560016632,
      "learning_rate": 0.0009374722454581282,
      "loss": 0.2645,
      "step": 1351
    },
    {
      "epoch": 6.063045313819307,
      "grad_norm": 0.08083635568618774,
      "learning_rate": 0.0009373519740415838,
      "loss": 0.3992,
      "step": 1352
    },
    {
      "epoch": 6.067548550520686,
      "grad_norm": 0.06779368966817856,
      "learning_rate": 0.0009372315947961434,
      "loss": 0.516,
      "step": 1353
    },
    {
      "epoch": 6.072051787222066,
      "grad_norm": 0.15224002301692963,
      "learning_rate": 0.0009371111077514865,
      "loss": 0.4124,
      "step": 1354
    },
    {
      "epoch": 6.076555023923445,
      "grad_norm": 0.12939833104610443,
      "learning_rate": 0.0009369905129373191,
      "loss": 0.3947,
      "step": 1355
    },
    {
      "epoch": 6.0810582606248245,
      "grad_norm": 0.11052621155977249,
      "learning_rate": 0.0009368698103833736,
      "loss": 0.3582,
      "step": 1356
    },
    {
      "epoch": 6.0855614973262036,
      "grad_norm": 0.06394345313310623,
      "learning_rate": 0.0009367490001194094,
      "loss": 0.4584,
      "step": 1357
    },
    {
      "epoch": 6.090064734027583,
      "grad_norm": 0.16547536849975586,
      "learning_rate": 0.0009366280821752123,
      "loss": 0.5427,
      "step": 1358
    },
    {
      "epoch": 6.094567970728962,
      "grad_norm": 0.0828453078866005,
      "learning_rate": 0.0009365070565805941,
      "loss": 0.3481,
      "step": 1359
    },
    {
      "epoch": 6.099071207430341,
      "grad_norm": 0.07380790263414383,
      "learning_rate": 0.000936385923365394,
      "loss": 0.3383,
      "step": 1360
    },
    {
      "epoch": 6.10357444413172,
      "grad_norm": 0.07968577742576599,
      "learning_rate": 0.0009362646825594772,
      "loss": 0.4475,
      "step": 1361
    },
    {
      "epoch": 6.108077680833099,
      "grad_norm": 0.07646510750055313,
      "learning_rate": 0.0009361433341927354,
      "loss": 0.1992,
      "step": 1362
    },
    {
      "epoch": 6.112580917534478,
      "grad_norm": 0.06380511820316315,
      "learning_rate": 0.0009360218782950874,
      "loss": 0.3079,
      "step": 1363
    },
    {
      "epoch": 6.117084154235857,
      "grad_norm": 0.08953851461410522,
      "learning_rate": 0.0009359003148964776,
      "loss": 0.4599,
      "step": 1364
    },
    {
      "epoch": 6.121587390937236,
      "grad_norm": 0.05774137005209923,
      "learning_rate": 0.0009357786440268777,
      "loss": 0.3621,
      "step": 1365
    },
    {
      "epoch": 6.126090627638615,
      "grad_norm": 0.1342305690050125,
      "learning_rate": 0.0009356568657162855,
      "loss": 0.2414,
      "step": 1366
    },
    {
      "epoch": 6.130593864339994,
      "grad_norm": 0.06113848090171814,
      "learning_rate": 0.0009355349799947254,
      "loss": 0.2595,
      "step": 1367
    },
    {
      "epoch": 6.1350971010413735,
      "grad_norm": 0.05875455588102341,
      "learning_rate": 0.0009354129868922482,
      "loss": 0.4709,
      "step": 1368
    },
    {
      "epoch": 6.139600337742753,
      "grad_norm": 0.06553123146295547,
      "learning_rate": 0.0009352908864389312,
      "loss": 0.3849,
      "step": 1369
    },
    {
      "epoch": 6.144103574444132,
      "grad_norm": 0.0658620148897171,
      "learning_rate": 0.0009351686786648783,
      "loss": 0.3268,
      "step": 1370
    },
    {
      "epoch": 6.148606811145511,
      "grad_norm": 0.056567441672086716,
      "learning_rate": 0.0009350463636002197,
      "loss": 0.3318,
      "step": 1371
    },
    {
      "epoch": 6.15311004784689,
      "grad_norm": 0.06624245643615723,
      "learning_rate": 0.0009349239412751123,
      "loss": 0.4304,
      "step": 1372
    },
    {
      "epoch": 6.157613284548269,
      "grad_norm": 0.10821964591741562,
      "learning_rate": 0.000934801411719739,
      "loss": 0.3316,
      "step": 1373
    },
    {
      "epoch": 6.162116521249648,
      "grad_norm": 0.056350551545619965,
      "learning_rate": 0.0009346787749643095,
      "loss": 0.2955,
      "step": 1374
    },
    {
      "epoch": 6.166619757951027,
      "grad_norm": 0.10596491396427155,
      "learning_rate": 0.0009345560310390598,
      "loss": 0.4827,
      "step": 1375
    },
    {
      "epoch": 6.171122994652406,
      "grad_norm": 0.06154473498463631,
      "learning_rate": 0.0009344331799742524,
      "loss": 0.3845,
      "step": 1376
    },
    {
      "epoch": 6.175626231353785,
      "grad_norm": 0.09777870774269104,
      "learning_rate": 0.0009343102218001763,
      "loss": 0.4835,
      "step": 1377
    },
    {
      "epoch": 6.180129468055164,
      "grad_norm": 0.08085225522518158,
      "learning_rate": 0.0009341871565471464,
      "loss": 0.3517,
      "step": 1378
    },
    {
      "epoch": 6.1846327047565435,
      "grad_norm": 0.10261356830596924,
      "learning_rate": 0.0009340639842455045,
      "loss": 0.7422,
      "step": 1379
    },
    {
      "epoch": 6.189135941457923,
      "grad_norm": 0.11413674056529999,
      "learning_rate": 0.000933940704925619,
      "loss": 0.5564,
      "step": 1380
    },
    {
      "epoch": 6.193639178159302,
      "grad_norm": 0.07350828498601913,
      "learning_rate": 0.000933817318617884,
      "loss": 0.4308,
      "step": 1381
    },
    {
      "epoch": 6.198142414860681,
      "grad_norm": 0.10299907624721527,
      "learning_rate": 0.0009336938253527204,
      "loss": 0.556,
      "step": 1382
    },
    {
      "epoch": 6.20264565156206,
      "grad_norm": 0.07758642733097076,
      "learning_rate": 0.0009335702251605755,
      "loss": 0.1855,
      "step": 1383
    },
    {
      "epoch": 6.20714888826344,
      "grad_norm": 0.057610318064689636,
      "learning_rate": 0.0009334465180719227,
      "loss": 0.4723,
      "step": 1384
    },
    {
      "epoch": 6.211652124964819,
      "grad_norm": 0.08613967895507812,
      "learning_rate": 0.0009333227041172621,
      "loss": 0.4454,
      "step": 1385
    },
    {
      "epoch": 6.216155361666198,
      "grad_norm": 0.10416276007890701,
      "learning_rate": 0.0009331987833271198,
      "loss": 0.4325,
      "step": 1386
    },
    {
      "epoch": 6.220658598367577,
      "grad_norm": 0.09015539288520813,
      "learning_rate": 0.0009330747557320484,
      "loss": 0.3844,
      "step": 1387
    },
    {
      "epoch": 6.225161835068956,
      "grad_norm": 0.05747148394584656,
      "learning_rate": 0.0009329506213626271,
      "loss": 0.5155,
      "step": 1388
    },
    {
      "epoch": 6.229665071770335,
      "grad_norm": 0.08715355396270752,
      "learning_rate": 0.0009328263802494609,
      "loss": 0.4258,
      "step": 1389
    },
    {
      "epoch": 6.234168308471714,
      "grad_norm": 0.07282046228647232,
      "learning_rate": 0.0009327020324231814,
      "loss": 0.6134,
      "step": 1390
    },
    {
      "epoch": 6.238671545173093,
      "grad_norm": 0.24154670536518097,
      "learning_rate": 0.0009325775779144466,
      "loss": 0.5045,
      "step": 1391
    },
    {
      "epoch": 6.2431747818744725,
      "grad_norm": 0.28469717502593994,
      "learning_rate": 0.0009324530167539407,
      "loss": 0.5673,
      "step": 1392
    },
    {
      "epoch": 6.247678018575852,
      "grad_norm": 0.05443422496318817,
      "learning_rate": 0.000932328348972374,
      "loss": 0.4711,
      "step": 1393
    },
    {
      "epoch": 6.252181255277231,
      "grad_norm": 0.1089063435792923,
      "learning_rate": 0.0009322035746004835,
      "loss": 0.4508,
      "step": 1394
    },
    {
      "epoch": 6.25668449197861,
      "grad_norm": 0.1050432026386261,
      "learning_rate": 0.000932078693669032,
      "loss": 0.3956,
      "step": 1395
    },
    {
      "epoch": 6.261187728679989,
      "grad_norm": 0.06943032890558243,
      "learning_rate": 0.0009319537062088091,
      "loss": 0.4518,
      "step": 1396
    },
    {
      "epoch": 6.265690965381368,
      "grad_norm": 0.10523981600999832,
      "learning_rate": 0.0009318286122506303,
      "loss": 0.3977,
      "step": 1397
    },
    {
      "epoch": 6.270194202082747,
      "grad_norm": 0.08078065514564514,
      "learning_rate": 0.0009317034118253374,
      "loss": 0.5414,
      "step": 1398
    },
    {
      "epoch": 6.274697438784126,
      "grad_norm": 0.08310290426015854,
      "learning_rate": 0.0009315781049637986,
      "loss": 0.2958,
      "step": 1399
    },
    {
      "epoch": 6.279200675485505,
      "grad_norm": 0.08156247437000275,
      "learning_rate": 0.0009314526916969079,
      "loss": 0.4831,
      "step": 1400
    },
    {
      "epoch": 6.283703912186884,
      "grad_norm": 0.08694770187139511,
      "learning_rate": 0.0009313271720555865,
      "loss": 0.4486,
      "step": 1401
    },
    {
      "epoch": 6.288207148888263,
      "grad_norm": 0.07112166285514832,
      "learning_rate": 0.0009312015460707806,
      "loss": 0.3016,
      "step": 1402
    },
    {
      "epoch": 6.2927103855896425,
      "grad_norm": 0.061440568417310715,
      "learning_rate": 0.0009310758137734634,
      "loss": 0.3647,
      "step": 1403
    },
    {
      "epoch": 6.2972136222910216,
      "grad_norm": 0.054811030626297,
      "learning_rate": 0.0009309499751946344,
      "loss": 0.3675,
      "step": 1404
    },
    {
      "epoch": 6.301716858992401,
      "grad_norm": 0.09041961282491684,
      "learning_rate": 0.0009308240303653187,
      "loss": 0.4146,
      "step": 1405
    },
    {
      "epoch": 6.30622009569378,
      "grad_norm": 0.11662831902503967,
      "learning_rate": 0.0009306979793165681,
      "loss": 0.4856,
      "step": 1406
    },
    {
      "epoch": 6.310723332395159,
      "grad_norm": 0.13647586107254028,
      "learning_rate": 0.0009305718220794603,
      "loss": 0.4461,
      "step": 1407
    },
    {
      "epoch": 6.315226569096538,
      "grad_norm": 0.06449735164642334,
      "learning_rate": 0.0009304455586850994,
      "loss": 0.3098,
      "step": 1408
    },
    {
      "epoch": 6.319729805797917,
      "grad_norm": 0.05954645201563835,
      "learning_rate": 0.0009303191891646156,
      "loss": 0.1752,
      "step": 1409
    },
    {
      "epoch": 6.324233042499296,
      "grad_norm": 0.1132112592458725,
      "learning_rate": 0.000930192713549165,
      "loss": 0.2688,
      "step": 1410
    },
    {
      "epoch": 6.328736279200675,
      "grad_norm": 0.1325664520263672,
      "learning_rate": 0.0009300661318699305,
      "loss": 0.494,
      "step": 1411
    },
    {
      "epoch": 6.333239515902054,
      "grad_norm": 0.07670119404792786,
      "learning_rate": 0.0009299394441581204,
      "loss": 0.4197,
      "step": 1412
    },
    {
      "epoch": 6.337742752603433,
      "grad_norm": 0.1366402804851532,
      "learning_rate": 0.0009298126504449696,
      "loss": 0.6024,
      "step": 1413
    },
    {
      "epoch": 6.342245989304812,
      "grad_norm": 0.09827199578285217,
      "learning_rate": 0.0009296857507617391,
      "loss": 0.1707,
      "step": 1414
    },
    {
      "epoch": 6.346749226006192,
      "grad_norm": 0.051855601370334625,
      "learning_rate": 0.0009295587451397158,
      "loss": 0.3776,
      "step": 1415
    },
    {
      "epoch": 6.351252462707571,
      "grad_norm": 0.08350247889757156,
      "learning_rate": 0.0009294316336102131,
      "loss": 0.2363,
      "step": 1416
    },
    {
      "epoch": 6.355755699408951,
      "grad_norm": 0.09750883281230927,
      "learning_rate": 0.00092930441620457,
      "loss": 0.4931,
      "step": 1417
    },
    {
      "epoch": 6.36025893611033,
      "grad_norm": 0.08953899890184402,
      "learning_rate": 0.0009291770929541521,
      "loss": 0.5646,
      "step": 1418
    },
    {
      "epoch": 6.364762172811709,
      "grad_norm": 0.09128762781620026,
      "learning_rate": 0.0009290496638903507,
      "loss": 0.4534,
      "step": 1419
    },
    {
      "epoch": 6.369265409513088,
      "grad_norm": 0.06929455697536469,
      "learning_rate": 0.0009289221290445835,
      "loss": 0.4027,
      "step": 1420
    },
    {
      "epoch": 6.373768646214467,
      "grad_norm": 0.06534884870052338,
      "learning_rate": 0.0009287944884482941,
      "loss": 0.3808,
      "step": 1421
    },
    {
      "epoch": 6.378271882915846,
      "grad_norm": 0.0820256918668747,
      "learning_rate": 0.0009286667421329522,
      "loss": 0.3225,
      "step": 1422
    },
    {
      "epoch": 6.382775119617225,
      "grad_norm": 0.09441404789686203,
      "learning_rate": 0.0009285388901300537,
      "loss": 0.5216,
      "step": 1423
    },
    {
      "epoch": 6.387278356318604,
      "grad_norm": 0.09526938199996948,
      "learning_rate": 0.0009284109324711203,
      "loss": 0.4282,
      "step": 1424
    },
    {
      "epoch": 6.391781593019983,
      "grad_norm": 0.09365232288837433,
      "learning_rate": 0.0009282828691876999,
      "loss": 0.5729,
      "step": 1425
    },
    {
      "epoch": 6.396284829721362,
      "grad_norm": 0.1742340475320816,
      "learning_rate": 0.0009281547003113667,
      "loss": 0.4915,
      "step": 1426
    },
    {
      "epoch": 6.4007880664227415,
      "grad_norm": 0.05670752748847008,
      "learning_rate": 0.0009280264258737201,
      "loss": 0.2845,
      "step": 1427
    },
    {
      "epoch": 6.4052913031241205,
      "grad_norm": 0.06540518254041672,
      "learning_rate": 0.0009278980459063867,
      "loss": 0.3929,
      "step": 1428
    },
    {
      "epoch": 6.4097945398255,
      "grad_norm": 0.1467975378036499,
      "learning_rate": 0.0009277695604410181,
      "loss": 0.4865,
      "step": 1429
    },
    {
      "epoch": 6.414297776526879,
      "grad_norm": 0.06687245517969131,
      "learning_rate": 0.0009276409695092927,
      "loss": 0.4421,
      "step": 1430
    },
    {
      "epoch": 6.418801013228258,
      "grad_norm": 0.08572660386562347,
      "learning_rate": 0.0009275122731429142,
      "loss": 0.422,
      "step": 1431
    },
    {
      "epoch": 6.423304249929637,
      "grad_norm": 0.11521577090024948,
      "learning_rate": 0.0009273834713736127,
      "loss": 0.4233,
      "step": 1432
    },
    {
      "epoch": 6.427807486631016,
      "grad_norm": 0.08188657462596893,
      "learning_rate": 0.0009272545642331442,
      "loss": 0.5195,
      "step": 1433
    },
    {
      "epoch": 6.432310723332395,
      "grad_norm": 0.04930894449353218,
      "learning_rate": 0.0009271255517532908,
      "loss": 0.2753,
      "step": 1434
    },
    {
      "epoch": 6.436813960033774,
      "grad_norm": 0.09923030436038971,
      "learning_rate": 0.0009269964339658605,
      "loss": 0.4931,
      "step": 1435
    },
    {
      "epoch": 6.441317196735153,
      "grad_norm": 0.11483825743198395,
      "learning_rate": 0.0009268672109026869,
      "loss": 0.4902,
      "step": 1436
    },
    {
      "epoch": 6.445820433436532,
      "grad_norm": 0.08180076628923416,
      "learning_rate": 0.0009267378825956301,
      "loss": 0.6164,
      "step": 1437
    },
    {
      "epoch": 6.450323670137911,
      "grad_norm": 0.0974326804280281,
      "learning_rate": 0.000926608449076576,
      "loss": 0.4383,
      "step": 1438
    },
    {
      "epoch": 6.4548269068392905,
      "grad_norm": 0.10790204256772995,
      "learning_rate": 0.0009264789103774363,
      "loss": 0.5371,
      "step": 1439
    },
    {
      "epoch": 6.45933014354067,
      "grad_norm": 0.10142936557531357,
      "learning_rate": 0.0009263492665301485,
      "loss": 0.78,
      "step": 1440
    },
    {
      "epoch": 6.463833380242049,
      "grad_norm": 0.11438379436731339,
      "learning_rate": 0.0009262195175666764,
      "loss": 0.5669,
      "step": 1441
    },
    {
      "epoch": 6.468336616943428,
      "grad_norm": 0.08042047917842865,
      "learning_rate": 0.0009260896635190096,
      "loss": 0.2775,
      "step": 1442
    },
    {
      "epoch": 6.472839853644807,
      "grad_norm": 0.08334458619356155,
      "learning_rate": 0.0009259597044191636,
      "loss": 0.3021,
      "step": 1443
    },
    {
      "epoch": 6.477343090346186,
      "grad_norm": 0.09734959155321121,
      "learning_rate": 0.0009258296402991795,
      "loss": 0.526,
      "step": 1444
    },
    {
      "epoch": 6.481846327047565,
      "grad_norm": 0.05811024829745293,
      "learning_rate": 0.0009256994711911246,
      "loss": 0.5058,
      "step": 1445
    },
    {
      "epoch": 6.486349563748945,
      "grad_norm": 0.08536931127309799,
      "learning_rate": 0.0009255691971270922,
      "loss": 0.2998,
      "step": 1446
    },
    {
      "epoch": 6.490852800450323,
      "grad_norm": 0.06619327515363693,
      "learning_rate": 0.000925438818139201,
      "loss": 0.4193,
      "step": 1447
    },
    {
      "epoch": 6.495356037151703,
      "grad_norm": 0.07202907651662827,
      "learning_rate": 0.0009253083342595963,
      "loss": 0.5828,
      "step": 1448
    },
    {
      "epoch": 6.499859273853082,
      "grad_norm": 0.07339324057102203,
      "learning_rate": 0.0009251777455204484,
      "loss": 0.5295,
      "step": 1449
    },
    {
      "epoch": 6.504362510554461,
      "grad_norm": 0.07928577065467834,
      "learning_rate": 0.0009250470519539542,
      "loss": 0.3336,
      "step": 1450
    },
    {
      "epoch": 6.50886574725584,
      "grad_norm": 0.0543120801448822,
      "learning_rate": 0.0009249162535923358,
      "loss": 0.344,
      "step": 1451
    },
    {
      "epoch": 6.5133689839572195,
      "grad_norm": 0.09984056651592255,
      "learning_rate": 0.0009247853504678419,
      "loss": 0.3897,
      "step": 1452
    },
    {
      "epoch": 6.517872220658599,
      "grad_norm": 0.06860477477312088,
      "learning_rate": 0.0009246543426127462,
      "loss": 0.2984,
      "step": 1453
    },
    {
      "epoch": 6.522375457359978,
      "grad_norm": 0.1109590083360672,
      "learning_rate": 0.0009245232300593489,
      "loss": 0.5102,
      "step": 1454
    },
    {
      "epoch": 6.526878694061357,
      "grad_norm": 0.0657636970281601,
      "learning_rate": 0.0009243920128399756,
      "loss": 0.3236,
      "step": 1455
    },
    {
      "epoch": 6.531381930762736,
      "grad_norm": 0.08471164107322693,
      "learning_rate": 0.0009242606909869777,
      "loss": 0.4698,
      "step": 1456
    },
    {
      "epoch": 6.535885167464115,
      "grad_norm": 0.09710278362035751,
      "learning_rate": 0.0009241292645327328,
      "loss": 0.3063,
      "step": 1457
    },
    {
      "epoch": 6.540388404165494,
      "grad_norm": 0.05620415508747101,
      "learning_rate": 0.0009239977335096438,
      "loss": 0.2744,
      "step": 1458
    },
    {
      "epoch": 6.544891640866873,
      "grad_norm": 0.07800104469060898,
      "learning_rate": 0.0009238660979501398,
      "loss": 0.2906,
      "step": 1459
    },
    {
      "epoch": 6.549394877568252,
      "grad_norm": 0.06841320544481277,
      "learning_rate": 0.0009237343578866754,
      "loss": 0.325,
      "step": 1460
    },
    {
      "epoch": 6.553898114269631,
      "grad_norm": 0.08558560162782669,
      "learning_rate": 0.000923602513351731,
      "loss": 0.649,
      "step": 1461
    },
    {
      "epoch": 6.55840135097101,
      "grad_norm": 0.09476114809513092,
      "learning_rate": 0.0009234705643778127,
      "loss": 0.3095,
      "step": 1462
    },
    {
      "epoch": 6.5629045876723895,
      "grad_norm": 0.07139263302087784,
      "learning_rate": 0.0009233385109974528,
      "loss": 0.42,
      "step": 1463
    },
    {
      "epoch": 6.567407824373769,
      "grad_norm": 0.13792891800403595,
      "learning_rate": 0.0009232063532432085,
      "loss": 0.434,
      "step": 1464
    },
    {
      "epoch": 6.571911061075148,
      "grad_norm": 0.07519562542438507,
      "learning_rate": 0.0009230740911476636,
      "loss": 0.3782,
      "step": 1465
    },
    {
      "epoch": 6.576414297776527,
      "grad_norm": 0.14468522369861603,
      "learning_rate": 0.0009229417247434272,
      "loss": 0.6011,
      "step": 1466
    },
    {
      "epoch": 6.580917534477906,
      "grad_norm": 0.09176944941282272,
      "learning_rate": 0.000922809254063134,
      "loss": 0.5106,
      "step": 1467
    },
    {
      "epoch": 6.585420771179285,
      "grad_norm": 0.10200922936201096,
      "learning_rate": 0.0009226766791394448,
      "loss": 0.5925,
      "step": 1468
    },
    {
      "epoch": 6.589924007880664,
      "grad_norm": 1.941265344619751,
      "learning_rate": 0.0009225440000050455,
      "loss": 0.5267,
      "step": 1469
    },
    {
      "epoch": 6.594427244582043,
      "grad_norm": 0.08884334564208984,
      "learning_rate": 0.0009224112166926486,
      "loss": 0.3791,
      "step": 1470
    },
    {
      "epoch": 6.598930481283422,
      "grad_norm": 0.08366131782531738,
      "learning_rate": 0.0009222783292349914,
      "loss": 0.4174,
      "step": 1471
    },
    {
      "epoch": 6.603433717984801,
      "grad_norm": 0.09604223817586899,
      "learning_rate": 0.0009221453376648373,
      "loss": 0.4027,
      "step": 1472
    },
    {
      "epoch": 6.60793695468618,
      "grad_norm": 0.1434226781129837,
      "learning_rate": 0.0009220122420149753,
      "loss": 0.3874,
      "step": 1473
    },
    {
      "epoch": 6.6124401913875595,
      "grad_norm": 0.11437004059553146,
      "learning_rate": 0.0009218790423182199,
      "loss": 0.3543,
      "step": 1474
    },
    {
      "epoch": 6.6169434280889385,
      "grad_norm": 0.10077915340662003,
      "learning_rate": 0.0009217457386074117,
      "loss": 0.472,
      "step": 1475
    },
    {
      "epoch": 6.621446664790318,
      "grad_norm": 0.09917768090963364,
      "learning_rate": 0.0009216123309154167,
      "loss": 0.2541,
      "step": 1476
    },
    {
      "epoch": 6.625949901491698,
      "grad_norm": 0.0830211266875267,
      "learning_rate": 0.0009214788192751262,
      "loss": 0.5524,
      "step": 1477
    },
    {
      "epoch": 6.630453138193076,
      "grad_norm": 0.07851926982402802,
      "learning_rate": 0.0009213452037194575,
      "loss": 0.4161,
      "step": 1478
    },
    {
      "epoch": 6.634956374894456,
      "grad_norm": 0.09327851235866547,
      "learning_rate": 0.0009212114842813537,
      "loss": 0.5699,
      "step": 1479
    },
    {
      "epoch": 6.639459611595835,
      "grad_norm": 0.07334925979375839,
      "learning_rate": 0.0009210776609937829,
      "loss": 0.5237,
      "step": 1480
    },
    {
      "epoch": 6.643962848297214,
      "grad_norm": 0.10715918242931366,
      "learning_rate": 0.0009209437338897394,
      "loss": 0.3751,
      "step": 1481
    },
    {
      "epoch": 6.648466084998593,
      "grad_norm": 0.06412607431411743,
      "learning_rate": 0.0009208097030022427,
      "loss": 0.3359,
      "step": 1482
    },
    {
      "epoch": 6.652969321699972,
      "grad_norm": 0.0778106227517128,
      "learning_rate": 0.0009206755683643382,
      "loss": 0.3198,
      "step": 1483
    },
    {
      "epoch": 6.657472558401351,
      "grad_norm": 0.07474933564662933,
      "learning_rate": 0.0009205413300090965,
      "loss": 0.4948,
      "step": 1484
    },
    {
      "epoch": 6.66197579510273,
      "grad_norm": 0.11281298846006393,
      "learning_rate": 0.0009204069879696145,
      "loss": 0.5259,
      "step": 1485
    },
    {
      "epoch": 6.666479031804109,
      "grad_norm": 0.1281653195619583,
      "learning_rate": 0.0009202725422790134,
      "loss": 0.499,
      "step": 1486
    },
    {
      "epoch": 6.6709822685054885,
      "grad_norm": 0.07346780598163605,
      "learning_rate": 0.0009201379929704413,
      "loss": 0.3875,
      "step": 1487
    },
    {
      "epoch": 6.675485505206868,
      "grad_norm": 0.0620255246758461,
      "learning_rate": 0.0009200033400770711,
      "loss": 0.5238,
      "step": 1488
    },
    {
      "epoch": 6.679988741908247,
      "grad_norm": 0.10100599378347397,
      "learning_rate": 0.0009198685836321012,
      "loss": 0.521,
      "step": 1489
    },
    {
      "epoch": 6.684491978609626,
      "grad_norm": 1.1902687549591064,
      "learning_rate": 0.0009197337236687562,
      "loss": 0.4524,
      "step": 1490
    },
    {
      "epoch": 6.688995215311005,
      "grad_norm": 0.046514417976140976,
      "learning_rate": 0.0009195987602202853,
      "loss": 0.4469,
      "step": 1491
    },
    {
      "epoch": 6.693498452012384,
      "grad_norm": 0.07525373250246048,
      "learning_rate": 0.0009194636933199638,
      "loss": 0.3689,
      "step": 1492
    },
    {
      "epoch": 6.698001688713763,
      "grad_norm": 0.05902209132909775,
      "learning_rate": 0.0009193285230010923,
      "loss": 0.3743,
      "step": 1493
    },
    {
      "epoch": 6.702504925415142,
      "grad_norm": 0.09081993997097015,
      "learning_rate": 0.0009191932492969971,
      "loss": 0.5349,
      "step": 1494
    },
    {
      "epoch": 6.707008162116521,
      "grad_norm": 0.140928253531456,
      "learning_rate": 0.0009190578722410299,
      "loss": 0.3087,
      "step": 1495
    },
    {
      "epoch": 6.7115113988179,
      "grad_norm": 0.09260060638189316,
      "learning_rate": 0.0009189223918665677,
      "loss": 0.3114,
      "step": 1496
    },
    {
      "epoch": 6.716014635519279,
      "grad_norm": 0.053141187876462936,
      "learning_rate": 0.0009187868082070132,
      "loss": 0.412,
      "step": 1497
    },
    {
      "epoch": 6.720517872220658,
      "grad_norm": 0.08928318321704865,
      "learning_rate": 0.0009186511212957945,
      "loss": 0.2309,
      "step": 1498
    },
    {
      "epoch": 6.7250211089220375,
      "grad_norm": 0.05634560063481331,
      "learning_rate": 0.0009185153311663651,
      "loss": 0.4114,
      "step": 1499
    },
    {
      "epoch": 6.729524345623417,
      "grad_norm": 0.07631494849920273,
      "learning_rate": 0.0009183794378522039,
      "loss": 0.4789,
      "step": 1500
    },
    {
      "epoch": 6.734027582324796,
      "grad_norm": 0.05764037370681763,
      "learning_rate": 0.0009182434413868155,
      "loss": 0.3468,
      "step": 1501
    },
    {
      "epoch": 6.738530819026175,
      "grad_norm": 0.06887269020080566,
      "learning_rate": 0.0009181073418037296,
      "loss": 0.5872,
      "step": 1502
    },
    {
      "epoch": 6.743034055727554,
      "grad_norm": 0.16049276292324066,
      "learning_rate": 0.0009179711391365015,
      "loss": 0.4527,
      "step": 1503
    },
    {
      "epoch": 6.747537292428933,
      "grad_norm": 0.11513242870569229,
      "learning_rate": 0.0009178348334187118,
      "loss": 0.2828,
      "step": 1504
    },
    {
      "epoch": 6.752040529130312,
      "grad_norm": 0.13139216601848602,
      "learning_rate": 0.000917698424683967,
      "loss": 0.2235,
      "step": 1505
    },
    {
      "epoch": 6.756543765831692,
      "grad_norm": 0.05579729378223419,
      "learning_rate": 0.0009175619129658983,
      "loss": 0.3935,
      "step": 1506
    },
    {
      "epoch": 6.76104700253307,
      "grad_norm": 0.11639657616615295,
      "learning_rate": 0.0009174252982981626,
      "loss": 0.1714,
      "step": 1507
    },
    {
      "epoch": 6.76555023923445,
      "grad_norm": 0.05162953957915306,
      "learning_rate": 0.000917288580714442,
      "loss": 0.7774,
      "step": 1508
    },
    {
      "epoch": 6.770053475935828,
      "grad_norm": 0.17755770683288574,
      "learning_rate": 0.0009171517602484445,
      "loss": 0.5881,
      "step": 1509
    },
    {
      "epoch": 6.774556712637208,
      "grad_norm": 0.21078579127788544,
      "learning_rate": 0.0009170148369339031,
      "loss": 0.448,
      "step": 1510
    },
    {
      "epoch": 6.7790599493385875,
      "grad_norm": 0.09733401983976364,
      "learning_rate": 0.0009168778108045759,
      "loss": 0.4414,
      "step": 1511
    },
    {
      "epoch": 6.7835631860399666,
      "grad_norm": 0.04841551184654236,
      "learning_rate": 0.0009167406818942467,
      "loss": 0.2566,
      "step": 1512
    },
    {
      "epoch": 6.788066422741346,
      "grad_norm": 0.05079065263271332,
      "learning_rate": 0.0009166034502367246,
      "loss": 0.1479,
      "step": 1513
    },
    {
      "epoch": 6.792569659442725,
      "grad_norm": 0.07070789486169815,
      "learning_rate": 0.000916466115865844,
      "loss": 0.4042,
      "step": 1514
    },
    {
      "epoch": 6.797072896144104,
      "grad_norm": 0.07016270607709885,
      "learning_rate": 0.0009163286788154647,
      "loss": 0.6232,
      "step": 1515
    },
    {
      "epoch": 6.801576132845483,
      "grad_norm": 0.06288184225559235,
      "learning_rate": 0.0009161911391194715,
      "loss": 0.3565,
      "step": 1516
    },
    {
      "epoch": 6.806079369546862,
      "grad_norm": 0.07155149430036545,
      "learning_rate": 0.0009160534968117751,
      "loss": 0.4675,
      "step": 1517
    },
    {
      "epoch": 6.810582606248241,
      "grad_norm": 0.044155143201351166,
      "learning_rate": 0.0009159157519263108,
      "loss": 0.4354,
      "step": 1518
    },
    {
      "epoch": 6.81508584294962,
      "grad_norm": 0.10306254029273987,
      "learning_rate": 0.0009157779044970395,
      "loss": 0.372,
      "step": 1519
    },
    {
      "epoch": 6.819589079650999,
      "grad_norm": 0.08569873124361038,
      "learning_rate": 0.0009156399545579479,
      "loss": 0.3064,
      "step": 1520
    },
    {
      "epoch": 6.824092316352378,
      "grad_norm": 0.2004804164171219,
      "learning_rate": 0.0009155019021430469,
      "loss": 0.4147,
      "step": 1521
    },
    {
      "epoch": 6.828595553053757,
      "grad_norm": 0.09390757977962494,
      "learning_rate": 0.0009153637472863736,
      "loss": 0.5018,
      "step": 1522
    },
    {
      "epoch": 6.8330987897551365,
      "grad_norm": 0.1332402229309082,
      "learning_rate": 0.0009152254900219899,
      "loss": 0.4275,
      "step": 1523
    },
    {
      "epoch": 6.837602026456516,
      "grad_norm": 0.05919042229652405,
      "learning_rate": 0.000915087130383983,
      "loss": 0.404,
      "step": 1524
    },
    {
      "epoch": 6.842105263157895,
      "grad_norm": 0.08764979243278503,
      "learning_rate": 0.0009149486684064654,
      "loss": 0.3845,
      "step": 1525
    },
    {
      "epoch": 6.846608499859274,
      "grad_norm": 0.04298609867691994,
      "learning_rate": 0.0009148101041235751,
      "loss": 0.3942,
      "step": 1526
    },
    {
      "epoch": 6.851111736560653,
      "grad_norm": 0.05204153433442116,
      "learning_rate": 0.0009146714375694745,
      "loss": 0.2679,
      "step": 1527
    },
    {
      "epoch": 6.855614973262032,
      "grad_norm": 0.07747334241867065,
      "learning_rate": 0.0009145326687783523,
      "loss": 0.5492,
      "step": 1528
    },
    {
      "epoch": 6.860118209963411,
      "grad_norm": 0.0999750941991806,
      "learning_rate": 0.0009143937977844216,
      "loss": 0.4909,
      "step": 1529
    },
    {
      "epoch": 6.86462144666479,
      "grad_norm": 0.0772954523563385,
      "learning_rate": 0.0009142548246219211,
      "loss": 0.55,
      "step": 1530
    },
    {
      "epoch": 6.869124683366169,
      "grad_norm": 0.09413810819387436,
      "learning_rate": 0.0009141157493251144,
      "loss": 0.3329,
      "step": 1531
    },
    {
      "epoch": 6.873627920067548,
      "grad_norm": 0.056155722588300705,
      "learning_rate": 0.0009139765719282907,
      "loss": 0.321,
      "step": 1532
    },
    {
      "epoch": 6.878131156768927,
      "grad_norm": 0.0805450826883316,
      "learning_rate": 0.0009138372924657638,
      "loss": 0.5358,
      "step": 1533
    },
    {
      "epoch": 6.8826343934703065,
      "grad_norm": 0.18947845697402954,
      "learning_rate": 0.000913697910971873,
      "loss": 0.4856,
      "step": 1534
    },
    {
      "epoch": 6.887137630171686,
      "grad_norm": 0.060172658413648605,
      "learning_rate": 0.0009135584274809832,
      "loss": 0.3312,
      "step": 1535
    },
    {
      "epoch": 6.891640866873065,
      "grad_norm": 0.04359237849712372,
      "learning_rate": 0.0009134188420274834,
      "loss": 0.4747,
      "step": 1536
    },
    {
      "epoch": 6.896144103574445,
      "grad_norm": 0.06207389011979103,
      "learning_rate": 0.0009132791546457886,
      "loss": 0.3352,
      "step": 1537
    },
    {
      "epoch": 6.900647340275823,
      "grad_norm": 0.06629844754934311,
      "learning_rate": 0.0009131393653703386,
      "loss": 0.3601,
      "step": 1538
    },
    {
      "epoch": 6.905150576977203,
      "grad_norm": 0.08343984931707382,
      "learning_rate": 0.0009129994742355983,
      "loss": 0.4374,
      "step": 1539
    },
    {
      "epoch": 6.909653813678581,
      "grad_norm": 0.08105940371751785,
      "learning_rate": 0.000912859481276058,
      "loss": 0.6504,
      "step": 1540
    },
    {
      "epoch": 6.914157050379961,
      "grad_norm": 0.06581833958625793,
      "learning_rate": 0.0009127193865262327,
      "loss": 0.3213,
      "step": 1541
    },
    {
      "epoch": 6.91866028708134,
      "grad_norm": 0.08120320737361908,
      "learning_rate": 0.0009125791900206627,
      "loss": 0.6676,
      "step": 1542
    },
    {
      "epoch": 6.923163523782719,
      "grad_norm": 0.07177069038152695,
      "learning_rate": 0.0009124388917939135,
      "loss": 0.2752,
      "step": 1543
    },
    {
      "epoch": 6.927666760484098,
      "grad_norm": 0.1076611578464508,
      "learning_rate": 0.0009122984918805753,
      "loss": 0.3891,
      "step": 1544
    },
    {
      "epoch": 6.932169997185477,
      "grad_norm": 0.08709556609392166,
      "learning_rate": 0.000912157990315264,
      "loss": 0.6509,
      "step": 1545
    },
    {
      "epoch": 6.936673233886856,
      "grad_norm": 0.06682464480400085,
      "learning_rate": 0.0009120173871326198,
      "loss": 0.291,
      "step": 1546
    },
    {
      "epoch": 6.9411764705882355,
      "grad_norm": 0.15897834300994873,
      "learning_rate": 0.0009118766823673085,
      "loss": 0.5054,
      "step": 1547
    },
    {
      "epoch": 6.945679707289615,
      "grad_norm": 0.08942339569330215,
      "learning_rate": 0.000911735876054021,
      "loss": 0.2167,
      "step": 1548
    },
    {
      "epoch": 6.950182943990994,
      "grad_norm": 0.11362768709659576,
      "learning_rate": 0.0009115949682274726,
      "loss": 0.3964,
      "step": 1549
    },
    {
      "epoch": 6.954686180692373,
      "grad_norm": 0.07688134163618088,
      "learning_rate": 0.0009114539589224045,
      "loss": 0.5074,
      "step": 1550
    },
    {
      "epoch": 6.959189417393752,
      "grad_norm": 0.06926853209733963,
      "learning_rate": 0.000911312848173582,
      "loss": 0.5772,
      "step": 1551
    },
    {
      "epoch": 6.963692654095131,
      "grad_norm": 0.07948535680770874,
      "learning_rate": 0.0009111716360157962,
      "loss": 0.3654,
      "step": 1552
    },
    {
      "epoch": 6.96819589079651,
      "grad_norm": 0.16262967884540558,
      "learning_rate": 0.0009110303224838627,
      "loss": 0.5285,
      "step": 1553
    },
    {
      "epoch": 6.972699127497889,
      "grad_norm": 0.18207553029060364,
      "learning_rate": 0.0009108889076126225,
      "loss": 0.5039,
      "step": 1554
    },
    {
      "epoch": 6.977202364199268,
      "grad_norm": 0.05651411414146423,
      "learning_rate": 0.0009107473914369413,
      "loss": 0.4851,
      "step": 1555
    },
    {
      "epoch": 6.981705600900647,
      "grad_norm": 0.05773608013987541,
      "learning_rate": 0.0009106057739917098,
      "loss": 0.3422,
      "step": 1556
    },
    {
      "epoch": 6.986208837602026,
      "grad_norm": 0.10075550526380539,
      "learning_rate": 0.0009104640553118435,
      "loss": 0.4375,
      "step": 1557
    },
    {
      "epoch": 6.9907120743034055,
      "grad_norm": 0.07935135066509247,
      "learning_rate": 0.0009103222354322833,
      "loss": 0.3169,
      "step": 1558
    },
    {
      "epoch": 6.9952153110047846,
      "grad_norm": 0.09188997000455856,
      "learning_rate": 0.0009101803143879947,
      "loss": 0.5829,
      "step": 1559
    },
    {
      "epoch": 6.999718547706164,
      "grad_norm": 0.11139890551567078,
      "learning_rate": 0.0009100382922139685,
      "loss": 0.5914,
      "step": 1560
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.11139890551567078,
      "learning_rate": 0.0009098961689452199,
      "loss": 0.017,
      "step": 1561
    },
    {
      "epoch": 7.0,
      "eval_f1": 0.9811811811811811,
      "eval_loss": 0.030211910605430603,
      "eval_runtime": 26.1693,
      "eval_samples_per_second": 190.987,
      "eval_steps_per_second": 5.999,
      "step": 1561
    },
    {
      "epoch": 7.004503236701379,
      "grad_norm": 0.06576965749263763,
      "learning_rate": 0.0009097539446167895,
      "loss": 0.3277,
      "step": 1562
    },
    {
      "epoch": 7.009006473402758,
      "grad_norm": 0.13186390697956085,
      "learning_rate": 0.0009096116192637424,
      "loss": 0.5986,
      "step": 1563
    },
    {
      "epoch": 7.013509710104137,
      "grad_norm": 0.19828422367572784,
      "learning_rate": 0.0009094691929211692,
      "loss": 0.568,
      "step": 1564
    },
    {
      "epoch": 7.018012946805516,
      "grad_norm": 0.10676681995391846,
      "learning_rate": 0.0009093266656241847,
      "loss": 0.4853,
      "step": 1565
    },
    {
      "epoch": 7.022516183506895,
      "grad_norm": 0.10771653056144714,
      "learning_rate": 0.000909184037407929,
      "loss": 0.3692,
      "step": 1566
    },
    {
      "epoch": 7.0270194202082745,
      "grad_norm": 0.0634947270154953,
      "learning_rate": 0.0009090413083075672,
      "loss": 0.2078,
      "step": 1567
    },
    {
      "epoch": 7.031522656909654,
      "grad_norm": 0.08081803470849991,
      "learning_rate": 0.000908898478358289,
      "loss": 0.3821,
      "step": 1568
    },
    {
      "epoch": 7.036025893611033,
      "grad_norm": 0.07276219874620438,
      "learning_rate": 0.0009087555475953089,
      "loss": 0.2657,
      "step": 1569
    },
    {
      "epoch": 7.040529130312412,
      "grad_norm": 0.04832777753472328,
      "learning_rate": 0.0009086125160538666,
      "loss": 0.3338,
      "step": 1570
    },
    {
      "epoch": 7.045032367013791,
      "grad_norm": 0.0939602255821228,
      "learning_rate": 0.0009084693837692262,
      "loss": 0.1733,
      "step": 1571
    },
    {
      "epoch": 7.04953560371517,
      "grad_norm": 0.04935694485902786,
      "learning_rate": 0.0009083261507766772,
      "loss": 0.3577,
      "step": 1572
    },
    {
      "epoch": 7.054038840416549,
      "grad_norm": 0.1190931648015976,
      "learning_rate": 0.0009081828171115334,
      "loss": 0.3063,
      "step": 1573
    },
    {
      "epoch": 7.058542077117928,
      "grad_norm": 0.05675501376390457,
      "learning_rate": 0.0009080393828091337,
      "loss": 0.2058,
      "step": 1574
    },
    {
      "epoch": 7.063045313819307,
      "grad_norm": 0.03562117740511894,
      "learning_rate": 0.0009078958479048419,
      "loss": 0.2255,
      "step": 1575
    },
    {
      "epoch": 7.067548550520686,
      "grad_norm": 0.06185721978545189,
      "learning_rate": 0.000907752212434046,
      "loss": 0.2454,
      "step": 1576
    },
    {
      "epoch": 7.072051787222066,
      "grad_norm": 0.04334304854273796,
      "learning_rate": 0.0009076084764321599,
      "loss": 0.4308,
      "step": 1577
    },
    {
      "epoch": 7.076555023923445,
      "grad_norm": 0.05574113130569458,
      "learning_rate": 0.0009074646399346211,
      "loss": 0.1545,
      "step": 1578
    },
    {
      "epoch": 7.0810582606248245,
      "grad_norm": 0.053374141454696655,
      "learning_rate": 0.0009073207029768926,
      "loss": 0.1013,
      "step": 1579
    },
    {
      "epoch": 7.0855614973262036,
      "grad_norm": 0.0629059448838234,
      "learning_rate": 0.000907176665594462,
      "loss": 0.2635,
      "step": 1580
    },
    {
      "epoch": 7.090064734027583,
      "grad_norm": 0.04479435086250305,
      "learning_rate": 0.0009070325278228417,
      "loss": 0.2922,
      "step": 1581
    },
    {
      "epoch": 7.094567970728962,
      "grad_norm": 0.08144761621952057,
      "learning_rate": 0.0009068882896975687,
      "loss": 0.4174,
      "step": 1582
    },
    {
      "epoch": 7.099071207430341,
      "grad_norm": 0.12121202051639557,
      "learning_rate": 0.0009067439512542049,
      "loss": 0.5474,
      "step": 1583
    },
    {
      "epoch": 7.10357444413172,
      "grad_norm": 0.09957768768072128,
      "learning_rate": 0.0009065995125283366,
      "loss": 0.285,
      "step": 1584
    },
    {
      "epoch": 7.108077680833099,
      "grad_norm": 0.1631874293088913,
      "learning_rate": 0.0009064549735555756,
      "loss": 0.2871,
      "step": 1585
    },
    {
      "epoch": 7.112580917534478,
      "grad_norm": 0.08003062009811401,
      "learning_rate": 0.0009063103343715574,
      "loss": 0.2873,
      "step": 1586
    },
    {
      "epoch": 7.117084154235857,
      "grad_norm": 0.06739203631877899,
      "learning_rate": 0.0009061655950119429,
      "loss": 0.1775,
      "step": 1587
    },
    {
      "epoch": 7.121587390937236,
      "grad_norm": 0.05887503921985626,
      "learning_rate": 0.0009060207555124178,
      "loss": 0.1969,
      "step": 1588
    },
    {
      "epoch": 7.126090627638615,
      "grad_norm": 0.04776658117771149,
      "learning_rate": 0.0009058758159086917,
      "loss": 0.1603,
      "step": 1589
    },
    {
      "epoch": 7.130593864339994,
      "grad_norm": 0.034622207283973694,
      "learning_rate": 0.0009057307762364997,
      "loss": 0.2899,
      "step": 1590
    },
    {
      "epoch": 7.1350971010413735,
      "grad_norm": 0.10920119285583496,
      "learning_rate": 0.0009055856365316011,
      "loss": 0.2464,
      "step": 1591
    },
    {
      "epoch": 7.139600337742753,
      "grad_norm": 0.12720799446105957,
      "learning_rate": 0.0009054403968297802,
      "loss": 0.4318,
      "step": 1592
    },
    {
      "epoch": 7.144103574444132,
      "grad_norm": 0.04475581645965576,
      "learning_rate": 0.0009052950571668457,
      "loss": 0.2403,
      "step": 1593
    },
    {
      "epoch": 7.148606811145511,
      "grad_norm": 0.12097372859716415,
      "learning_rate": 0.0009051496175786309,
      "loss": 0.4394,
      "step": 1594
    },
    {
      "epoch": 7.15311004784689,
      "grad_norm": 0.2840014696121216,
      "learning_rate": 0.0009050040781009939,
      "loss": 0.7149,
      "step": 1595
    },
    {
      "epoch": 7.157613284548269,
      "grad_norm": 0.07011990249156952,
      "learning_rate": 0.0009048584387698176,
      "loss": 0.2491,
      "step": 1596
    },
    {
      "epoch": 7.162116521249648,
      "grad_norm": 0.06763210892677307,
      "learning_rate": 0.0009047126996210089,
      "loss": 0.1711,
      "step": 1597
    },
    {
      "epoch": 7.166619757951027,
      "grad_norm": 0.04023761674761772,
      "learning_rate": 0.0009045668606905,
      "loss": 0.193,
      "step": 1598
    },
    {
      "epoch": 7.171122994652406,
      "grad_norm": 0.06212441995739937,
      "learning_rate": 0.0009044209220142471,
      "loss": 0.4229,
      "step": 1599
    },
    {
      "epoch": 7.175626231353785,
      "grad_norm": 0.09316956251859665,
      "learning_rate": 0.0009042748836282319,
      "loss": 0.2004,
      "step": 1600
    },
    {
      "epoch": 7.180129468055164,
      "grad_norm": 0.049991313368082047,
      "learning_rate": 0.0009041287455684596,
      "loss": 0.3703,
      "step": 1601
    },
    {
      "epoch": 7.1846327047565435,
      "grad_norm": 0.1299816220998764,
      "learning_rate": 0.0009039825078709606,
      "loss": 0.5818,
      "step": 1602
    },
    {
      "epoch": 7.189135941457923,
      "grad_norm": 0.07516305893659592,
      "learning_rate": 0.0009038361705717896,
      "loss": 0.303,
      "step": 1603
    },
    {
      "epoch": 7.193639178159302,
      "grad_norm": 0.04942949861288071,
      "learning_rate": 0.0009036897337070262,
      "loss": 0.1877,
      "step": 1604
    },
    {
      "epoch": 7.198142414860681,
      "grad_norm": 0.13136452436447144,
      "learning_rate": 0.0009035431973127742,
      "loss": 0.5301,
      "step": 1605
    },
    {
      "epoch": 7.20264565156206,
      "grad_norm": 0.05286114662885666,
      "learning_rate": 0.0009033965614251622,
      "loss": 0.5189,
      "step": 1606
    },
    {
      "epoch": 7.20714888826344,
      "grad_norm": 0.08862702548503876,
      "learning_rate": 0.0009032498260803429,
      "loss": 0.302,
      "step": 1607
    },
    {
      "epoch": 7.211652124964819,
      "grad_norm": 0.04042870178818703,
      "learning_rate": 0.0009031029913144942,
      "loss": 0.2131,
      "step": 1608
    },
    {
      "epoch": 7.216155361666198,
      "grad_norm": 0.05691101774573326,
      "learning_rate": 0.0009029560571638177,
      "loss": 0.3523,
      "step": 1609
    },
    {
      "epoch": 7.220658598367577,
      "grad_norm": 0.12395468354225159,
      "learning_rate": 0.0009028090236645403,
      "loss": 0.2752,
      "step": 1610
    },
    {
      "epoch": 7.225161835068956,
      "grad_norm": 0.0775739997625351,
      "learning_rate": 0.000902661890852913,
      "loss": 0.2502,
      "step": 1611
    },
    {
      "epoch": 7.229665071770335,
      "grad_norm": 0.1407470405101776,
      "learning_rate": 0.0009025146587652112,
      "loss": 0.5121,
      "step": 1612
    },
    {
      "epoch": 7.234168308471714,
      "grad_norm": 0.11039695143699646,
      "learning_rate": 0.0009023673274377349,
      "loss": 0.4103,
      "step": 1613
    },
    {
      "epoch": 7.238671545173093,
      "grad_norm": 0.06478039175271988,
      "learning_rate": 0.0009022198969068086,
      "loss": 0.184,
      "step": 1614
    },
    {
      "epoch": 7.2431747818744725,
      "grad_norm": 0.05004693567752838,
      "learning_rate": 0.0009020723672087811,
      "loss": 0.2122,
      "step": 1615
    },
    {
      "epoch": 7.247678018575852,
      "grad_norm": 0.07778089493513107,
      "learning_rate": 0.0009019247383800261,
      "loss": 0.2941,
      "step": 1616
    },
    {
      "epoch": 7.252181255277231,
      "grad_norm": 0.143906369805336,
      "learning_rate": 0.000901777010456941,
      "loss": 0.3949,
      "step": 1617
    },
    {
      "epoch": 7.25668449197861,
      "grad_norm": 0.04352843016386032,
      "learning_rate": 0.0009016291834759482,
      "loss": 0.1863,
      "step": 1618
    },
    {
      "epoch": 7.261187728679989,
      "grad_norm": 0.0933784693479538,
      "learning_rate": 0.0009014812574734945,
      "loss": 0.3044,
      "step": 1619
    },
    {
      "epoch": 7.265690965381368,
      "grad_norm": 0.06796123832464218,
      "learning_rate": 0.0009013332324860508,
      "loss": 0.2619,
      "step": 1620
    },
    {
      "epoch": 7.270194202082747,
      "grad_norm": 0.10987222194671631,
      "learning_rate": 0.0009011851085501126,
      "loss": 0.3234,
      "step": 1621
    },
    {
      "epoch": 7.274697438784126,
      "grad_norm": 0.06332720816135406,
      "learning_rate": 0.0009010368857022,
      "loss": 0.2733,
      "step": 1622
    },
    {
      "epoch": 7.279200675485505,
      "grad_norm": 0.06513237208127975,
      "learning_rate": 0.0009008885639788569,
      "loss": 0.1992,
      "step": 1623
    },
    {
      "epoch": 7.283703912186884,
      "grad_norm": 0.07959070056676865,
      "learning_rate": 0.0009007401434166523,
      "loss": 0.2756,
      "step": 1624
    },
    {
      "epoch": 7.288207148888263,
      "grad_norm": 0.07102302461862564,
      "learning_rate": 0.0009005916240521788,
      "loss": 0.302,
      "step": 1625
    },
    {
      "epoch": 7.2927103855896425,
      "grad_norm": 0.04772469773888588,
      "learning_rate": 0.0009004430059220541,
      "loss": 0.3315,
      "step": 1626
    },
    {
      "epoch": 7.2972136222910216,
      "grad_norm": 0.11421514302492142,
      "learning_rate": 0.0009002942890629198,
      "loss": 0.2457,
      "step": 1627
    },
    {
      "epoch": 7.301716858992401,
      "grad_norm": 0.14864592254161835,
      "learning_rate": 0.0009001454735114421,
      "loss": 0.4158,
      "step": 1628
    },
    {
      "epoch": 7.30622009569378,
      "grad_norm": 0.13626593351364136,
      "learning_rate": 0.0008999965593043111,
      "loss": 0.3584,
      "step": 1629
    },
    {
      "epoch": 7.310723332395159,
      "grad_norm": 0.08590643852949142,
      "learning_rate": 0.0008998475464782418,
      "loss": 0.4772,
      "step": 1630
    },
    {
      "epoch": 7.315226569096538,
      "grad_norm": 0.10446175187826157,
      "learning_rate": 0.0008996984350699733,
      "loss": 0.3251,
      "step": 1631
    },
    {
      "epoch": 7.319729805797917,
      "grad_norm": 0.10401637107133865,
      "learning_rate": 0.0008995492251162686,
      "loss": 0.2883,
      "step": 1632
    },
    {
      "epoch": 7.324233042499296,
      "grad_norm": 0.1308896392583847,
      "learning_rate": 0.0008993999166539155,
      "loss": 0.3784,
      "step": 1633
    },
    {
      "epoch": 7.328736279200675,
      "grad_norm": 0.052227266132831573,
      "learning_rate": 0.0008992505097197262,
      "loss": 0.2337,
      "step": 1634
    },
    {
      "epoch": 7.333239515902054,
      "grad_norm": 0.09166130423545837,
      "learning_rate": 0.0008991010043505363,
      "loss": 0.5343,
      "step": 1635
    },
    {
      "epoch": 7.337742752603433,
      "grad_norm": 0.12123578786849976,
      "learning_rate": 0.0008989514005832066,
      "loss": 0.4115,
      "step": 1636
    },
    {
      "epoch": 7.342245989304812,
      "grad_norm": 0.10816178470849991,
      "learning_rate": 0.000898801698454622,
      "loss": 0.3787,
      "step": 1637
    },
    {
      "epoch": 7.346749226006192,
      "grad_norm": 0.0925973504781723,
      "learning_rate": 0.0008986518980016912,
      "loss": 0.3387,
      "step": 1638
    },
    {
      "epoch": 7.351252462707571,
      "grad_norm": 0.08934091031551361,
      "learning_rate": 0.0008985019992613477,
      "loss": 0.5929,
      "step": 1639
    },
    {
      "epoch": 7.355755699408951,
      "grad_norm": 0.1033063754439354,
      "learning_rate": 0.0008983520022705486,
      "loss": 0.3088,
      "step": 1640
    },
    {
      "epoch": 7.36025893611033,
      "grad_norm": 0.11358599364757538,
      "learning_rate": 0.0008982019070662758,
      "loss": 0.2552,
      "step": 1641
    },
    {
      "epoch": 7.364762172811709,
      "grad_norm": 0.12668916583061218,
      "learning_rate": 0.0008980517136855352,
      "loss": 0.3703,
      "step": 1642
    },
    {
      "epoch": 7.369265409513088,
      "grad_norm": 0.1180613711476326,
      "learning_rate": 0.0008979014221653568,
      "loss": 0.2921,
      "step": 1643
    },
    {
      "epoch": 7.373768646214467,
      "grad_norm": 0.06527373939752579,
      "learning_rate": 0.000897751032542795,
      "loss": 0.361,
      "step": 1644
    },
    {
      "epoch": 7.378271882915846,
      "grad_norm": 0.06666488945484161,
      "learning_rate": 0.0008976005448549282,
      "loss": 0.2411,
      "step": 1645
    },
    {
      "epoch": 7.382775119617225,
      "grad_norm": 0.09141896665096283,
      "learning_rate": 0.0008974499591388591,
      "loss": 0.5209,
      "step": 1646
    },
    {
      "epoch": 7.387278356318604,
      "grad_norm": 0.0951898917555809,
      "learning_rate": 0.0008972992754317144,
      "loss": 0.3869,
      "step": 1647
    },
    {
      "epoch": 7.391781593019983,
      "grad_norm": 0.07334449887275696,
      "learning_rate": 0.0008971484937706453,
      "loss": 0.4067,
      "step": 1648
    },
    {
      "epoch": 7.396284829721362,
      "grad_norm": 0.12815561890602112,
      "learning_rate": 0.0008969976141928269,
      "loss": 0.3968,
      "step": 1649
    },
    {
      "epoch": 7.4007880664227415,
      "grad_norm": 0.1635531336069107,
      "learning_rate": 0.0008968466367354584,
      "loss": 0.3995,
      "step": 1650
    },
    {
      "epoch": 7.4052913031241205,
      "grad_norm": 0.10309773683547974,
      "learning_rate": 0.0008966955614357632,
      "loss": 0.3777,
      "step": 1651
    },
    {
      "epoch": 7.4097945398255,
      "grad_norm": 0.06397483497858047,
      "learning_rate": 0.000896544388330989,
      "loss": 0.2914,
      "step": 1652
    },
    {
      "epoch": 7.414297776526879,
      "grad_norm": 0.13983199000358582,
      "learning_rate": 0.0008963931174584071,
      "loss": 0.2717,
      "step": 1653
    },
    {
      "epoch": 7.418801013228258,
      "grad_norm": 0.05658523365855217,
      "learning_rate": 0.0008962417488553136,
      "loss": 0.3495,
      "step": 1654
    },
    {
      "epoch": 7.423304249929637,
      "grad_norm": 0.05545440688729286,
      "learning_rate": 0.0008960902825590281,
      "loss": 0.3201,
      "step": 1655
    },
    {
      "epoch": 7.427807486631016,
      "grad_norm": 0.08171921223402023,
      "learning_rate": 0.0008959387186068948,
      "loss": 0.4085,
      "step": 1656
    },
    {
      "epoch": 7.432310723332395,
      "grad_norm": 0.11182873696088791,
      "learning_rate": 0.0008957870570362815,
      "loss": 0.4216,
      "step": 1657
    },
    {
      "epoch": 7.436813960033774,
      "grad_norm": 0.07318370044231415,
      "learning_rate": 0.0008956352978845803,
      "loss": 0.2945,
      "step": 1658
    },
    {
      "epoch": 7.441317196735153,
      "grad_norm": 0.09808418154716492,
      "learning_rate": 0.0008954834411892074,
      "loss": 0.2223,
      "step": 1659
    },
    {
      "epoch": 7.445820433436532,
      "grad_norm": 0.051618821918964386,
      "learning_rate": 0.000895331486987603,
      "loss": 0.244,
      "step": 1660
    },
    {
      "epoch": 7.450323670137911,
      "grad_norm": 0.08566868305206299,
      "learning_rate": 0.0008951794353172313,
      "loss": 0.3156,
      "step": 1661
    },
    {
      "epoch": 7.4548269068392905,
      "grad_norm": 0.0700860321521759,
      "learning_rate": 0.0008950272862155806,
      "loss": 0.3884,
      "step": 1662
    },
    {
      "epoch": 7.45933014354067,
      "grad_norm": 0.09542466700077057,
      "learning_rate": 0.0008948750397201631,
      "loss": 0.4369,
      "step": 1663
    },
    {
      "epoch": 7.463833380242049,
      "grad_norm": 0.09354452788829803,
      "learning_rate": 0.000894722695868515,
      "loss": 0.3431,
      "step": 1664
    },
    {
      "epoch": 7.468336616943428,
      "grad_norm": 0.046127621084451675,
      "learning_rate": 0.0008945702546981969,
      "loss": 0.3573,
      "step": 1665
    },
    {
      "epoch": 7.472839853644807,
      "grad_norm": 0.07942082732915878,
      "learning_rate": 0.0008944177162467928,
      "loss": 0.5954,
      "step": 1666
    },
    {
      "epoch": 7.477343090346186,
      "grad_norm": 0.11423034965991974,
      "learning_rate": 0.000894265080551911,
      "loss": 0.3101,
      "step": 1667
    },
    {
      "epoch": 7.481846327047565,
      "grad_norm": 0.08501949161291122,
      "learning_rate": 0.000894112347651184,
      "loss": 0.3262,
      "step": 1668
    },
    {
      "epoch": 7.486349563748945,
      "grad_norm": 0.1272641271352768,
      "learning_rate": 0.0008939595175822678,
      "loss": 0.6203,
      "step": 1669
    },
    {
      "epoch": 7.490852800450323,
      "grad_norm": 0.14102059602737427,
      "learning_rate": 0.0008938065903828426,
      "loss": 0.5576,
      "step": 1670
    },
    {
      "epoch": 7.495356037151703,
      "grad_norm": 0.04527214169502258,
      "learning_rate": 0.0008936535660906125,
      "loss": 0.2683,
      "step": 1671
    },
    {
      "epoch": 7.499859273853082,
      "grad_norm": 0.05739332363009453,
      "learning_rate": 0.0008935004447433057,
      "loss": 0.1718,
      "step": 1672
    },
    {
      "epoch": 7.504362510554461,
      "grad_norm": 0.06999195367097855,
      "learning_rate": 0.000893347226378674,
      "loss": 0.4113,
      "step": 1673
    },
    {
      "epoch": 7.50886574725584,
      "grad_norm": 0.07777431607246399,
      "learning_rate": 0.0008931939110344934,
      "loss": 0.3765,
      "step": 1674
    },
    {
      "epoch": 7.5133689839572195,
      "grad_norm": 0.09011925011873245,
      "learning_rate": 0.0008930404987485637,
      "loss": 0.357,
      "step": 1675
    },
    {
      "epoch": 7.517872220658599,
      "grad_norm": 0.12918643653392792,
      "learning_rate": 0.0008928869895587087,
      "loss": 0.4863,
      "step": 1676
    },
    {
      "epoch": 7.522375457359978,
      "grad_norm": 0.048667337745428085,
      "learning_rate": 0.0008927333835027759,
      "loss": 0.2227,
      "step": 1677
    },
    {
      "epoch": 7.526878694061357,
      "grad_norm": 0.0642324909567833,
      "learning_rate": 0.0008925796806186368,
      "loss": 0.3624,
      "step": 1678
    },
    {
      "epoch": 7.531381930762736,
      "grad_norm": 0.07552828639745712,
      "learning_rate": 0.0008924258809441867,
      "loss": 0.3804,
      "step": 1679
    },
    {
      "epoch": 7.535885167464115,
      "grad_norm": 0.09915008395910263,
      "learning_rate": 0.0008922719845173452,
      "loss": 0.4446,
      "step": 1680
    },
    {
      "epoch": 7.540388404165494,
      "grad_norm": 0.05956939607858658,
      "learning_rate": 0.0008921179913760549,
      "loss": 0.3163,
      "step": 1681
    },
    {
      "epoch": 7.544891640866873,
      "grad_norm": 0.078404501080513,
      "learning_rate": 0.0008919639015582828,
      "loss": 0.476,
      "step": 1682
    },
    {
      "epoch": 7.549394877568252,
      "grad_norm": 0.09605114161968231,
      "learning_rate": 0.0008918097151020199,
      "loss": 0.3932,
      "step": 1683
    },
    {
      "epoch": 7.553898114269631,
      "grad_norm": 0.0917096808552742,
      "learning_rate": 0.0008916554320452807,
      "loss": 0.4833,
      "step": 1684
    },
    {
      "epoch": 7.55840135097101,
      "grad_norm": 0.07117170095443726,
      "learning_rate": 0.0008915010524261036,
      "loss": 0.4475,
      "step": 1685
    },
    {
      "epoch": 7.5629045876723895,
      "grad_norm": 0.17952747642993927,
      "learning_rate": 0.0008913465762825508,
      "loss": 0.4241,
      "step": 1686
    },
    {
      "epoch": 7.567407824373769,
      "grad_norm": 0.04458596184849739,
      "learning_rate": 0.0008911920036527084,
      "loss": 0.2486,
      "step": 1687
    },
    {
      "epoch": 7.571911061075148,
      "grad_norm": 0.06423614919185638,
      "learning_rate": 0.0008910373345746859,
      "loss": 0.4934,
      "step": 1688
    },
    {
      "epoch": 7.576414297776527,
      "grad_norm": 0.08143899589776993,
      "learning_rate": 0.0008908825690866171,
      "loss": 0.2582,
      "step": 1689
    },
    {
      "epoch": 7.580917534477906,
      "grad_norm": 0.10352250933647156,
      "learning_rate": 0.0008907277072266595,
      "loss": 0.7115,
      "step": 1690
    },
    {
      "epoch": 7.585420771179285,
      "grad_norm": 0.05257021263241768,
      "learning_rate": 0.0008905727490329939,
      "loss": 0.2708,
      "step": 1691
    },
    {
      "epoch": 7.589924007880664,
      "grad_norm": 0.03687167912721634,
      "learning_rate": 0.0008904176945438253,
      "loss": 0.1843,
      "step": 1692
    },
    {
      "epoch": 7.594427244582043,
      "grad_norm": 0.05416913703083992,
      "learning_rate": 0.0008902625437973824,
      "loss": 0.1965,
      "step": 1693
    },
    {
      "epoch": 7.598930481283422,
      "grad_norm": 0.07243660092353821,
      "learning_rate": 0.0008901072968319172,
      "loss": 0.5775,
      "step": 1694
    },
    {
      "epoch": 7.603433717984801,
      "grad_norm": 0.14117345213890076,
      "learning_rate": 0.0008899519536857064,
      "loss": 0.5845,
      "step": 1695
    },
    {
      "epoch": 7.60793695468618,
      "grad_norm": 0.07482239603996277,
      "learning_rate": 0.000889796514397049,
      "loss": 0.2439,
      "step": 1696
    },
    {
      "epoch": 7.6124401913875595,
      "grad_norm": 0.05790310725569725,
      "learning_rate": 0.000889640979004269,
      "loss": 0.3567,
      "step": 1697
    },
    {
      "epoch": 7.6169434280889385,
      "grad_norm": 0.07952552288770676,
      "learning_rate": 0.0008894853475457134,
      "loss": 0.3428,
      "step": 1698
    },
    {
      "epoch": 7.621446664790318,
      "grad_norm": 0.06998881697654724,
      "learning_rate": 0.0008893296200597529,
      "loss": 0.4071,
      "step": 1699
    },
    {
      "epoch": 7.625949901491698,
      "grad_norm": 0.08094320446252823,
      "learning_rate": 0.0008891737965847823,
      "loss": 0.4106,
      "step": 1700
    },
    {
      "epoch": 7.630453138193076,
      "grad_norm": 0.07734676450490952,
      "learning_rate": 0.0008890178771592198,
      "loss": 0.1776,
      "step": 1701
    },
    {
      "epoch": 7.634956374894456,
      "grad_norm": 0.06020578369498253,
      "learning_rate": 0.000888861861821507,
      "loss": 0.3715,
      "step": 1702
    },
    {
      "epoch": 7.639459611595835,
      "grad_norm": 0.10200587660074234,
      "learning_rate": 0.0008887057506101095,
      "loss": 0.4612,
      "step": 1703
    },
    {
      "epoch": 7.643962848297214,
      "grad_norm": 0.057546865195035934,
      "learning_rate": 0.0008885495435635166,
      "loss": 0.1518,
      "step": 1704
    },
    {
      "epoch": 7.648466084998593,
      "grad_norm": 0.07326411455869675,
      "learning_rate": 0.0008883932407202408,
      "loss": 0.4492,
      "step": 1705
    },
    {
      "epoch": 7.652969321699972,
      "grad_norm": 0.05380614474415779,
      "learning_rate": 0.0008882368421188187,
      "loss": 0.4177,
      "step": 1706
    },
    {
      "epoch": 7.657472558401351,
      "grad_norm": 0.06208481639623642,
      "learning_rate": 0.0008880803477978102,
      "loss": 0.4423,
      "step": 1707
    },
    {
      "epoch": 7.66197579510273,
      "grad_norm": 0.1244039461016655,
      "learning_rate": 0.0008879237577957989,
      "loss": 0.3088,
      "step": 1708
    },
    {
      "epoch": 7.666479031804109,
      "grad_norm": 0.13015511631965637,
      "learning_rate": 0.0008877670721513919,
      "loss": 0.3705,
      "step": 1709
    },
    {
      "epoch": 7.6709822685054885,
      "grad_norm": 0.07786192744970322,
      "learning_rate": 0.00088761029090322,
      "loss": 0.4248,
      "step": 1710
    },
    {
      "epoch": 7.675485505206868,
      "grad_norm": 0.11961527168750763,
      "learning_rate": 0.0008874534140899378,
      "loss": 0.6498,
      "step": 1711
    },
    {
      "epoch": 7.679988741908247,
      "grad_norm": 0.07202515006065369,
      "learning_rate": 0.0008872964417502228,
      "loss": 0.3384,
      "step": 1712
    },
    {
      "epoch": 7.684491978609626,
      "grad_norm": 0.08002480119466782,
      "learning_rate": 0.0008871393739227764,
      "loss": 0.4476,
      "step": 1713
    },
    {
      "epoch": 7.688995215311005,
      "grad_norm": 0.05647056922316551,
      "learning_rate": 0.0008869822106463241,
      "loss": 0.2779,
      "step": 1714
    },
    {
      "epoch": 7.693498452012384,
      "grad_norm": 0.05942634120583534,
      "learning_rate": 0.0008868249519596141,
      "loss": 0.4154,
      "step": 1715
    },
    {
      "epoch": 7.698001688713763,
      "grad_norm": 0.06595657765865326,
      "learning_rate": 0.0008866675979014185,
      "loss": 0.3018,
      "step": 1716
    },
    {
      "epoch": 7.702504925415142,
      "grad_norm": 0.04999343678355217,
      "learning_rate": 0.0008865101485105327,
      "loss": 0.3323,
      "step": 1717
    },
    {
      "epoch": 7.707008162116521,
      "grad_norm": 0.0721658319234848,
      "learning_rate": 0.0008863526038257759,
      "loss": 0.3925,
      "step": 1718
    },
    {
      "epoch": 7.7115113988179,
      "grad_norm": 0.07750474661588669,
      "learning_rate": 0.0008861949638859908,
      "loss": 0.2224,
      "step": 1719
    },
    {
      "epoch": 7.716014635519279,
      "grad_norm": 0.08922658115625381,
      "learning_rate": 0.0008860372287300432,
      "loss": 0.4337,
      "step": 1720
    },
    {
      "epoch": 7.720517872220658,
      "grad_norm": 0.10097388923168182,
      "learning_rate": 0.0008858793983968226,
      "loss": 0.5796,
      "step": 1721
    },
    {
      "epoch": 7.7250211089220375,
      "grad_norm": 0.05776912719011307,
      "learning_rate": 0.0008857214729252422,
      "loss": 0.2957,
      "step": 1722
    },
    {
      "epoch": 7.729524345623417,
      "grad_norm": 0.05578470975160599,
      "learning_rate": 0.0008855634523542384,
      "loss": 0.1919,
      "step": 1723
    },
    {
      "epoch": 7.734027582324796,
      "grad_norm": 0.035979095846414566,
      "learning_rate": 0.000885405336722771,
      "loss": 0.2334,
      "step": 1724
    },
    {
      "epoch": 7.738530819026175,
      "grad_norm": 0.07255363464355469,
      "learning_rate": 0.0008852471260698232,
      "loss": 0.4153,
      "step": 1725
    },
    {
      "epoch": 7.743034055727554,
      "grad_norm": 0.06643114984035492,
      "learning_rate": 0.0008850888204344021,
      "loss": 0.4076,
      "step": 1726
    },
    {
      "epoch": 7.747537292428933,
      "grad_norm": 0.05766237899661064,
      "learning_rate": 0.0008849304198555376,
      "loss": 0.2598,
      "step": 1727
    },
    {
      "epoch": 7.752040529130312,
      "grad_norm": 0.05594389885663986,
      "learning_rate": 0.0008847719243722834,
      "loss": 0.2522,
      "step": 1728
    },
    {
      "epoch": 7.756543765831692,
      "grad_norm": 0.08759734779596329,
      "learning_rate": 0.0008846133340237163,
      "loss": 0.3919,
      "step": 1729
    },
    {
      "epoch": 7.76104700253307,
      "grad_norm": 0.05905687063932419,
      "learning_rate": 0.0008844546488489368,
      "loss": 0.2552,
      "step": 1730
    },
    {
      "epoch": 7.76555023923445,
      "grad_norm": 0.12884265184402466,
      "learning_rate": 0.0008842958688870687,
      "loss": 0.4117,
      "step": 1731
    },
    {
      "epoch": 7.770053475935828,
      "grad_norm": 0.08918136358261108,
      "learning_rate": 0.0008841369941772591,
      "loss": 0.3682,
      "step": 1732
    },
    {
      "epoch": 7.774556712637208,
      "grad_norm": 0.07713360339403152,
      "learning_rate": 0.0008839780247586784,
      "loss": 0.3469,
      "step": 1733
    },
    {
      "epoch": 7.7790599493385875,
      "grad_norm": 0.06647558510303497,
      "learning_rate": 0.0008838189606705203,
      "loss": 0.424,
      "step": 1734
    },
    {
      "epoch": 7.7835631860399666,
      "grad_norm": 0.052776504307985306,
      "learning_rate": 0.0008836598019520024,
      "loss": 0.2919,
      "step": 1735
    },
    {
      "epoch": 7.788066422741346,
      "grad_norm": 0.15956652164459229,
      "learning_rate": 0.0008835005486423648,
      "loss": 0.3055,
      "step": 1736
    },
    {
      "epoch": 7.792569659442725,
      "grad_norm": 0.09703324735164642,
      "learning_rate": 0.0008833412007808714,
      "loss": 0.4336,
      "step": 1737
    },
    {
      "epoch": 7.797072896144104,
      "grad_norm": 0.09225603193044662,
      "learning_rate": 0.0008831817584068093,
      "loss": 0.2908,
      "step": 1738
    },
    {
      "epoch": 7.801576132845483,
      "grad_norm": 0.07228130847215652,
      "learning_rate": 0.000883022221559489,
      "loss": 0.3208,
      "step": 1739
    },
    {
      "epoch": 7.806079369546862,
      "grad_norm": 0.07664933055639267,
      "learning_rate": 0.0008828625902782444,
      "loss": 0.3631,
      "step": 1740
    },
    {
      "epoch": 7.810582606248241,
      "grad_norm": 0.053091518580913544,
      "learning_rate": 0.0008827028646024323,
      "loss": 0.4142,
      "step": 1741
    },
    {
      "epoch": 7.81508584294962,
      "grad_norm": 0.08724284172058105,
      "learning_rate": 0.0008825430445714329,
      "loss": 0.3331,
      "step": 1742
    },
    {
      "epoch": 7.819589079650999,
      "grad_norm": 0.11168557405471802,
      "learning_rate": 0.0008823831302246498,
      "loss": 0.2724,
      "step": 1743
    },
    {
      "epoch": 7.824092316352378,
      "grad_norm": 0.03915277495980263,
      "learning_rate": 0.00088222312160151,
      "loss": 0.3151,
      "step": 1744
    },
    {
      "epoch": 7.828595553053757,
      "grad_norm": 0.060918647795915604,
      "learning_rate": 0.0008820630187414632,
      "loss": 0.3017,
      "step": 1745
    },
    {
      "epoch": 7.8330987897551365,
      "grad_norm": 0.0790693610906601,
      "learning_rate": 0.0008819028216839831,
      "loss": 0.2617,
      "step": 1746
    },
    {
      "epoch": 7.837602026456516,
      "grad_norm": 0.11486002802848816,
      "learning_rate": 0.0008817425304685658,
      "loss": 0.4518,
      "step": 1747
    },
    {
      "epoch": 7.842105263157895,
      "grad_norm": 0.11473194509744644,
      "learning_rate": 0.0008815821451347313,
      "loss": 0.4351,
      "step": 1748
    },
    {
      "epoch": 7.846608499859274,
      "grad_norm": 0.0463389977812767,
      "learning_rate": 0.0008814216657220222,
      "loss": 0.2584,
      "step": 1749
    },
    {
      "epoch": 7.851111736560653,
      "grad_norm": 0.054516904056072235,
      "learning_rate": 0.0008812610922700049,
      "loss": 0.3264,
      "step": 1750
    },
    {
      "epoch": 7.855614973262032,
      "grad_norm": 0.07013993710279465,
      "learning_rate": 0.0008811004248182688,
      "loss": 0.3989,
      "step": 1751
    },
    {
      "epoch": 7.860118209963411,
      "grad_norm": 0.07254378497600555,
      "learning_rate": 0.000880939663406426,
      "loss": 0.2745,
      "step": 1752
    },
    {
      "epoch": 7.86462144666479,
      "grad_norm": 0.05737537518143654,
      "learning_rate": 0.0008807788080741123,
      "loss": 0.3263,
      "step": 1753
    },
    {
      "epoch": 7.869124683366169,
      "grad_norm": 0.1280941516160965,
      "learning_rate": 0.0008806178588609866,
      "loss": 0.3952,
      "step": 1754
    },
    {
      "epoch": 7.873627920067548,
      "grad_norm": 0.0757765918970108,
      "learning_rate": 0.0008804568158067307,
      "loss": 0.3665,
      "step": 1755
    },
    {
      "epoch": 7.878131156768927,
      "grad_norm": 0.07264057546854019,
      "learning_rate": 0.0008802956789510499,
      "loss": 0.1652,
      "step": 1756
    },
    {
      "epoch": 7.8826343934703065,
      "grad_norm": 0.06239451467990875,
      "learning_rate": 0.000880134448333672,
      "loss": 0.2993,
      "step": 1757
    },
    {
      "epoch": 7.887137630171686,
      "grad_norm": 0.04581277444958687,
      "learning_rate": 0.0008799731239943487,
      "loss": 0.1905,
      "step": 1758
    },
    {
      "epoch": 7.891640866873065,
      "grad_norm": 0.058850932866334915,
      "learning_rate": 0.0008798117059728543,
      "loss": 0.2934,
      "step": 1759
    },
    {
      "epoch": 7.896144103574445,
      "grad_norm": 0.07106682658195496,
      "learning_rate": 0.0008796501943089864,
      "loss": 0.4148,
      "step": 1760
    },
    {
      "epoch": 7.900647340275823,
      "grad_norm": 0.07012353837490082,
      "learning_rate": 0.0008794885890425655,
      "loss": 0.3776,
      "step": 1761
    },
    {
      "epoch": 7.905150576977203,
      "grad_norm": 0.0806594043970108,
      "learning_rate": 0.0008793268902134352,
      "loss": 0.5779,
      "step": 1762
    },
    {
      "epoch": 7.909653813678581,
      "grad_norm": 0.16136452555656433,
      "learning_rate": 0.0008791650978614628,
      "loss": 0.5084,
      "step": 1763
    },
    {
      "epoch": 7.914157050379961,
      "grad_norm": 0.0628836378455162,
      "learning_rate": 0.0008790032120265372,
      "loss": 0.4029,
      "step": 1764
    },
    {
      "epoch": 7.91866028708134,
      "grad_norm": 0.04953857511281967,
      "learning_rate": 0.000878841232748572,
      "loss": 0.5134,
      "step": 1765
    },
    {
      "epoch": 7.923163523782719,
      "grad_norm": 0.09832076728343964,
      "learning_rate": 0.0008786791600675029,
      "loss": 0.2583,
      "step": 1766
    },
    {
      "epoch": 7.927666760484098,
      "grad_norm": 0.15364781022071838,
      "learning_rate": 0.0008785169940232889,
      "loss": 0.2851,
      "step": 1767
    },
    {
      "epoch": 7.932169997185477,
      "grad_norm": 0.13288865983486176,
      "learning_rate": 0.0008783547346559118,
      "loss": 0.5877,
      "step": 1768
    },
    {
      "epoch": 7.936673233886856,
      "grad_norm": 0.08921842277050018,
      "learning_rate": 0.0008781923820053765,
      "loss": 0.4808,
      "step": 1769
    },
    {
      "epoch": 7.9411764705882355,
      "grad_norm": 0.08208951354026794,
      "learning_rate": 0.0008780299361117113,
      "loss": 0.2508,
      "step": 1770
    },
    {
      "epoch": 7.945679707289615,
      "grad_norm": 0.06136009842157364,
      "learning_rate": 0.0008778673970149667,
      "loss": 0.2003,
      "step": 1771
    },
    {
      "epoch": 7.950182943990994,
      "grad_norm": 0.05777551606297493,
      "learning_rate": 0.000877704764755217,
      "loss": 0.4452,
      "step": 1772
    },
    {
      "epoch": 7.954686180692373,
      "grad_norm": 0.07273076474666595,
      "learning_rate": 0.0008775420393725591,
      "loss": 0.4365,
      "step": 1773
    },
    {
      "epoch": 7.959189417393752,
      "grad_norm": 0.15983368456363678,
      "learning_rate": 0.0008773792209071126,
      "loss": 0.5152,
      "step": 1774
    },
    {
      "epoch": 7.963692654095131,
      "grad_norm": 0.07771027833223343,
      "learning_rate": 0.0008772163093990203,
      "loss": 0.3734,
      "step": 1775
    },
    {
      "epoch": 7.96819589079651,
      "grad_norm": 0.08477289974689484,
      "learning_rate": 0.0008770533048884482,
      "loss": 0.5177,
      "step": 1776
    },
    {
      "epoch": 7.972699127497889,
      "grad_norm": 0.06011897698044777,
      "learning_rate": 0.0008768902074155848,
      "loss": 0.2339,
      "step": 1777
    },
    {
      "epoch": 7.977202364199268,
      "grad_norm": 0.0771511048078537,
      "learning_rate": 0.0008767270170206417,
      "loss": 0.4165,
      "step": 1778
    },
    {
      "epoch": 7.981705600900647,
      "grad_norm": 0.17537586390972137,
      "learning_rate": 0.0008765637337438535,
      "loss": 0.284,
      "step": 1779
    },
    {
      "epoch": 7.986208837602026,
      "grad_norm": 0.03393183648586273,
      "learning_rate": 0.0008764003576254776,
      "loss": 0.2997,
      "step": 1780
    },
    {
      "epoch": 7.9907120743034055,
      "grad_norm": 0.07005364447832108,
      "learning_rate": 0.0008762368887057941,
      "loss": 0.3938,
      "step": 1781
    },
    {
      "epoch": 7.9952153110047846,
      "grad_norm": 0.08319363743066788,
      "learning_rate": 0.0008760733270251064,
      "loss": 0.4003,
      "step": 1782
    },
    {
      "epoch": 7.999718547706164,
      "grad_norm": 0.06930596381425858,
      "learning_rate": 0.0008759096726237406,
      "loss": 0.3299,
      "step": 1783
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.06930596381425858,
      "learning_rate": 0.0008757459255420453,
      "loss": 0.0278,
      "step": 1784
    },
    {
      "epoch": 8.0,
      "eval_f1": 0.9806671341280176,
      "eval_loss": 0.03018096834421158,
      "eval_runtime": 26.2914,
      "eval_samples_per_second": 190.1,
      "eval_steps_per_second": 5.972,
      "step": 1784
    },
    {
      "epoch": 8.00450323670138,
      "grad_norm": 0.06690437346696854,
      "learning_rate": 0.0008755820858203924,
      "loss": 0.4017,
      "step": 1785
    },
    {
      "epoch": 8.009006473402758,
      "grad_norm": 0.09589995443820953,
      "learning_rate": 0.0008754181534991767,
      "loss": 0.2885,
      "step": 1786
    },
    {
      "epoch": 8.013509710104138,
      "grad_norm": 0.06308700889348984,
      "learning_rate": 0.0008752541286188154,
      "loss": 0.2439,
      "step": 1787
    },
    {
      "epoch": 8.018012946805516,
      "grad_norm": 0.06391268223524094,
      "learning_rate": 0.0008750900112197487,
      "loss": 0.2031,
      "step": 1788
    },
    {
      "epoch": 8.022516183506896,
      "grad_norm": 0.03856707364320755,
      "learning_rate": 0.0008749258013424397,
      "loss": 0.2833,
      "step": 1789
    },
    {
      "epoch": 8.027019420208275,
      "grad_norm": 0.09378140419721603,
      "learning_rate": 0.0008747614990273745,
      "loss": 0.424,
      "step": 1790
    },
    {
      "epoch": 8.031522656909655,
      "grad_norm": 0.05156037211418152,
      "learning_rate": 0.0008745971043150613,
      "loss": 0.1883,
      "step": 1791
    },
    {
      "epoch": 8.036025893611033,
      "grad_norm": 0.06283283233642578,
      "learning_rate": 0.000874432617246032,
      "loss": 0.4143,
      "step": 1792
    },
    {
      "epoch": 8.040529130312413,
      "grad_norm": 0.09933985769748688,
      "learning_rate": 0.0008742680378608405,
      "loss": 0.2908,
      "step": 1793
    },
    {
      "epoch": 8.04503236701379,
      "grad_norm": 0.0676550567150116,
      "learning_rate": 0.000874103366200064,
      "loss": 0.3491,
      "step": 1794
    },
    {
      "epoch": 8.04953560371517,
      "grad_norm": 0.09364111721515656,
      "learning_rate": 0.0008739386023043019,
      "loss": 0.2314,
      "step": 1795
    },
    {
      "epoch": 8.054038840416549,
      "grad_norm": 0.05478716269135475,
      "learning_rate": 0.0008737737462141768,
      "loss": 0.1864,
      "step": 1796
    },
    {
      "epoch": 8.058542077117929,
      "grad_norm": 0.0454578772187233,
      "learning_rate": 0.0008736087979703339,
      "loss": 0.1689,
      "step": 1797
    },
    {
      "epoch": 8.063045313819307,
      "grad_norm": 0.03974846377968788,
      "learning_rate": 0.0008734437576134411,
      "loss": 0.3828,
      "step": 1798
    },
    {
      "epoch": 8.067548550520687,
      "grad_norm": 0.07317045331001282,
      "learning_rate": 0.0008732786251841892,
      "loss": 0.3063,
      "step": 1799
    },
    {
      "epoch": 8.072051787222065,
      "grad_norm": 0.03322969377040863,
      "learning_rate": 0.000873113400723291,
      "loss": 0.142,
      "step": 1800
    },
    {
      "epoch": 8.076555023923445,
      "grad_norm": 0.04819765314459801,
      "learning_rate": 0.0008729480842714829,
      "loss": 0.2541,
      "step": 1801
    },
    {
      "epoch": 8.081058260624824,
      "grad_norm": 0.05788927152752876,
      "learning_rate": 0.0008727826758695235,
      "loss": 0.2407,
      "step": 1802
    },
    {
      "epoch": 8.085561497326204,
      "grad_norm": 0.05090617388486862,
      "learning_rate": 0.0008726171755581942,
      "loss": 0.3355,
      "step": 1803
    },
    {
      "epoch": 8.090064734027582,
      "grad_norm": 0.08251400291919708,
      "learning_rate": 0.0008724515833782989,
      "loss": 0.2893,
      "step": 1804
    },
    {
      "epoch": 8.094567970728962,
      "grad_norm": 0.09957440197467804,
      "learning_rate": 0.0008722858993706644,
      "loss": 0.0932,
      "step": 1805
    },
    {
      "epoch": 8.09907120743034,
      "grad_norm": 0.036456845700740814,
      "learning_rate": 0.00087212012357614,
      "loss": 0.2131,
      "step": 1806
    },
    {
      "epoch": 8.10357444413172,
      "grad_norm": 0.05457502231001854,
      "learning_rate": 0.0008719542560355975,
      "loss": 0.2702,
      "step": 1807
    },
    {
      "epoch": 8.108077680833098,
      "grad_norm": 0.06239028647542,
      "learning_rate": 0.0008717882967899316,
      "loss": 0.184,
      "step": 1808
    },
    {
      "epoch": 8.112580917534478,
      "grad_norm": 0.049588195979595184,
      "learning_rate": 0.0008716222458800591,
      "loss": 0.2331,
      "step": 1809
    },
    {
      "epoch": 8.117084154235856,
      "grad_norm": 0.3301171362400055,
      "learning_rate": 0.0008714561033469204,
      "loss": 0.2037,
      "step": 1810
    },
    {
      "epoch": 8.121587390937236,
      "grad_norm": 0.08611912280321121,
      "learning_rate": 0.0008712898692314772,
      "loss": 0.2192,
      "step": 1811
    },
    {
      "epoch": 8.126090627638614,
      "grad_norm": 0.03958626091480255,
      "learning_rate": 0.0008711235435747149,
      "loss": 0.306,
      "step": 1812
    },
    {
      "epoch": 8.130593864339994,
      "grad_norm": 0.09495647251605988,
      "learning_rate": 0.0008709571264176408,
      "loss": 0.3149,
      "step": 1813
    },
    {
      "epoch": 8.135097101041373,
      "grad_norm": 0.18292246758937836,
      "learning_rate": 0.000870790617801285,
      "loss": 0.3324,
      "step": 1814
    },
    {
      "epoch": 8.139600337742753,
      "grad_norm": 0.1396922469139099,
      "learning_rate": 0.0008706240177667002,
      "loss": 0.2518,
      "step": 1815
    },
    {
      "epoch": 8.144103574444133,
      "grad_norm": 0.06007128953933716,
      "learning_rate": 0.0008704573263549613,
      "loss": 0.3193,
      "step": 1816
    },
    {
      "epoch": 8.14860681114551,
      "grad_norm": 0.14844448864459991,
      "learning_rate": 0.0008702905436071662,
      "loss": 0.5234,
      "step": 1817
    },
    {
      "epoch": 8.15311004784689,
      "grad_norm": 0.1647496074438095,
      "learning_rate": 0.000870123669564435,
      "loss": 0.4241,
      "step": 1818
    },
    {
      "epoch": 8.157613284548269,
      "grad_norm": 0.11640612781047821,
      "learning_rate": 0.0008699567042679104,
      "loss": 0.3982,
      "step": 1819
    },
    {
      "epoch": 8.162116521249649,
      "grad_norm": 0.09505638480186462,
      "learning_rate": 0.0008697896477587578,
      "loss": 0.2936,
      "step": 1820
    },
    {
      "epoch": 8.166619757951027,
      "grad_norm": 0.11219636350870132,
      "learning_rate": 0.0008696225000781646,
      "loss": 0.3051,
      "step": 1821
    },
    {
      "epoch": 8.171122994652407,
      "grad_norm": 0.07356765866279602,
      "learning_rate": 0.0008694552612673412,
      "loss": 0.4728,
      "step": 1822
    },
    {
      "epoch": 8.175626231353785,
      "grad_norm": 0.056268129497766495,
      "learning_rate": 0.0008692879313675202,
      "loss": 0.1982,
      "step": 1823
    },
    {
      "epoch": 8.180129468055165,
      "grad_norm": 0.07558734714984894,
      "learning_rate": 0.0008691205104199564,
      "loss": 0.2423,
      "step": 1824
    },
    {
      "epoch": 8.184632704756543,
      "grad_norm": 0.06821562349796295,
      "learning_rate": 0.0008689529984659278,
      "loss": 0.1861,
      "step": 1825
    },
    {
      "epoch": 8.189135941457923,
      "grad_norm": 0.15080642700195312,
      "learning_rate": 0.0008687853955467341,
      "loss": 0.3059,
      "step": 1826
    },
    {
      "epoch": 8.193639178159302,
      "grad_norm": 0.07859524339437485,
      "learning_rate": 0.0008686177017036978,
      "loss": 0.3315,
      "step": 1827
    },
    {
      "epoch": 8.198142414860682,
      "grad_norm": 0.05349256470799446,
      "learning_rate": 0.0008684499169781636,
      "loss": 0.2343,
      "step": 1828
    },
    {
      "epoch": 8.20264565156206,
      "grad_norm": 0.07680819183588028,
      "learning_rate": 0.0008682820414114992,
      "loss": 0.4058,
      "step": 1829
    },
    {
      "epoch": 8.20714888826344,
      "grad_norm": 0.1616140604019165,
      "learning_rate": 0.0008681140750450935,
      "loss": 0.3657,
      "step": 1830
    },
    {
      "epoch": 8.211652124964818,
      "grad_norm": 0.08776074647903442,
      "learning_rate": 0.0008679460179203591,
      "loss": 0.5951,
      "step": 1831
    },
    {
      "epoch": 8.216155361666198,
      "grad_norm": 0.057906363159418106,
      "learning_rate": 0.00086777787007873,
      "loss": 0.1292,
      "step": 1832
    },
    {
      "epoch": 8.220658598367576,
      "grad_norm": 0.03495416045188904,
      "learning_rate": 0.0008676096315616633,
      "loss": 0.1692,
      "step": 1833
    },
    {
      "epoch": 8.225161835068956,
      "grad_norm": 0.07541340589523315,
      "learning_rate": 0.000867441302410638,
      "loss": 0.1887,
      "step": 1834
    },
    {
      "epoch": 8.229665071770334,
      "grad_norm": 0.10447963327169418,
      "learning_rate": 0.0008672728826671554,
      "loss": 0.41,
      "step": 1835
    },
    {
      "epoch": 8.234168308471714,
      "grad_norm": 0.10836194455623627,
      "learning_rate": 0.0008671043723727396,
      "loss": 0.4468,
      "step": 1836
    },
    {
      "epoch": 8.238671545173093,
      "grad_norm": 0.11810783296823502,
      "learning_rate": 0.0008669357715689363,
      "loss": 0.304,
      "step": 1837
    },
    {
      "epoch": 8.243174781874473,
      "grad_norm": 0.04381277784705162,
      "learning_rate": 0.0008667670802973144,
      "loss": 0.468,
      "step": 1838
    },
    {
      "epoch": 8.24767801857585,
      "grad_norm": 0.12261731177568436,
      "learning_rate": 0.0008665982985994645,
      "loss": 0.4261,
      "step": 1839
    },
    {
      "epoch": 8.25218125527723,
      "grad_norm": 0.0685332790017128,
      "learning_rate": 0.0008664294265169994,
      "loss": 0.1042,
      "step": 1840
    },
    {
      "epoch": 8.256684491978609,
      "grad_norm": 0.03746499493718147,
      "learning_rate": 0.0008662604640915546,
      "loss": 0.1396,
      "step": 1841
    },
    {
      "epoch": 8.261187728679989,
      "grad_norm": 0.051602110266685486,
      "learning_rate": 0.0008660914113647877,
      "loss": 0.1189,
      "step": 1842
    },
    {
      "epoch": 8.265690965381367,
      "grad_norm": 0.09137359261512756,
      "learning_rate": 0.0008659222683783785,
      "loss": 0.3605,
      "step": 1843
    },
    {
      "epoch": 8.270194202082747,
      "grad_norm": 0.16805218160152435,
      "learning_rate": 0.0008657530351740293,
      "loss": 0.37,
      "step": 1844
    },
    {
      "epoch": 8.274697438784127,
      "grad_norm": 0.1436355859041214,
      "learning_rate": 0.0008655837117934642,
      "loss": 0.3381,
      "step": 1845
    },
    {
      "epoch": 8.279200675485505,
      "grad_norm": 0.06170627474784851,
      "learning_rate": 0.00086541429827843,
      "loss": 0.3665,
      "step": 1846
    },
    {
      "epoch": 8.283703912186885,
      "grad_norm": 0.09600202739238739,
      "learning_rate": 0.0008652447946706954,
      "loss": 0.3287,
      "step": 1847
    },
    {
      "epoch": 8.288207148888263,
      "grad_norm": 0.047976355999708176,
      "learning_rate": 0.0008650752010120514,
      "loss": 0.3153,
      "step": 1848
    },
    {
      "epoch": 8.292710385589643,
      "grad_norm": 0.09136838465929031,
      "learning_rate": 0.0008649055173443112,
      "loss": 0.3286,
      "step": 1849
    },
    {
      "epoch": 8.297213622291022,
      "grad_norm": 0.0744832307100296,
      "learning_rate": 0.0008647357437093104,
      "loss": 0.2587,
      "step": 1850
    },
    {
      "epoch": 8.301716858992402,
      "grad_norm": 0.07012026757001877,
      "learning_rate": 0.0008645658801489064,
      "loss": 0.3029,
      "step": 1851
    },
    {
      "epoch": 8.30622009569378,
      "grad_norm": 0.0986141562461853,
      "learning_rate": 0.0008643959267049793,
      "loss": 0.2791,
      "step": 1852
    },
    {
      "epoch": 8.31072333239516,
      "grad_norm": 0.14714178442955017,
      "learning_rate": 0.0008642258834194305,
      "loss": 0.3408,
      "step": 1853
    },
    {
      "epoch": 8.315226569096538,
      "grad_norm": 0.08494109660387039,
      "learning_rate": 0.0008640557503341844,
      "loss": 0.2576,
      "step": 1854
    },
    {
      "epoch": 8.319729805797918,
      "grad_norm": 0.05823889002203941,
      "learning_rate": 0.0008638855274911872,
      "loss": 0.1981,
      "step": 1855
    },
    {
      "epoch": 8.324233042499296,
      "grad_norm": 0.06311173737049103,
      "learning_rate": 0.0008637152149324074,
      "loss": 0.3422,
      "step": 1856
    },
    {
      "epoch": 8.328736279200676,
      "grad_norm": 0.06920821964740753,
      "learning_rate": 0.0008635448126998352,
      "loss": 0.288,
      "step": 1857
    },
    {
      "epoch": 8.333239515902054,
      "grad_norm": 0.09647835046052933,
      "learning_rate": 0.0008633743208354833,
      "loss": 0.3492,
      "step": 1858
    },
    {
      "epoch": 8.337742752603434,
      "grad_norm": 0.08365684002637863,
      "learning_rate": 0.0008632037393813863,
      "loss": 0.3568,
      "step": 1859
    },
    {
      "epoch": 8.342245989304812,
      "grad_norm": 0.0807105004787445,
      "learning_rate": 0.0008630330683796011,
      "loss": 0.2762,
      "step": 1860
    },
    {
      "epoch": 8.346749226006192,
      "grad_norm": 0.09912598133087158,
      "learning_rate": 0.0008628623078722064,
      "loss": 0.2278,
      "step": 1861
    },
    {
      "epoch": 8.35125246270757,
      "grad_norm": 0.08970822393894196,
      "learning_rate": 0.0008626914579013034,
      "loss": 0.2942,
      "step": 1862
    },
    {
      "epoch": 8.35575569940895,
      "grad_norm": 0.18310090899467468,
      "learning_rate": 0.0008625205185090147,
      "loss": 0.166,
      "step": 1863
    },
    {
      "epoch": 8.360258936110329,
      "grad_norm": 0.07925103604793549,
      "learning_rate": 0.0008623494897374855,
      "loss": 0.2816,
      "step": 1864
    },
    {
      "epoch": 8.364762172811709,
      "grad_norm": 0.04606112092733383,
      "learning_rate": 0.000862178371628883,
      "loss": 0.2424,
      "step": 1865
    },
    {
      "epoch": 8.369265409513087,
      "grad_norm": 0.05380513146519661,
      "learning_rate": 0.0008620071642253958,
      "loss": 0.3961,
      "step": 1866
    },
    {
      "epoch": 8.373768646214467,
      "grad_norm": 0.14679309725761414,
      "learning_rate": 0.0008618358675692355,
      "loss": 0.3946,
      "step": 1867
    },
    {
      "epoch": 8.378271882915845,
      "grad_norm": 0.15802039206027985,
      "learning_rate": 0.0008616644817026349,
      "loss": 0.459,
      "step": 1868
    },
    {
      "epoch": 8.382775119617225,
      "grad_norm": 0.08293430507183075,
      "learning_rate": 0.0008614930066678493,
      "loss": 0.287,
      "step": 1869
    },
    {
      "epoch": 8.387278356318603,
      "grad_norm": 0.08313391357660294,
      "learning_rate": 0.0008613214425071554,
      "loss": 0.3094,
      "step": 1870
    },
    {
      "epoch": 8.391781593019983,
      "grad_norm": 0.15337511897087097,
      "learning_rate": 0.0008611497892628528,
      "loss": 0.42,
      "step": 1871
    },
    {
      "epoch": 8.396284829721361,
      "grad_norm": 0.0772693008184433,
      "learning_rate": 0.0008609780469772622,
      "loss": 0.2622,
      "step": 1872
    },
    {
      "epoch": 8.400788066422741,
      "grad_norm": 0.05527626350522041,
      "learning_rate": 0.0008608062156927267,
      "loss": 0.4082,
      "step": 1873
    },
    {
      "epoch": 8.40529130312412,
      "grad_norm": 0.06785427033901215,
      "learning_rate": 0.000860634295451611,
      "loss": 0.2647,
      "step": 1874
    },
    {
      "epoch": 8.4097945398255,
      "grad_norm": 0.13987866044044495,
      "learning_rate": 0.0008604622862963021,
      "loss": 0.3149,
      "step": 1875
    },
    {
      "epoch": 8.41429777652688,
      "grad_norm": 0.13183270394802094,
      "learning_rate": 0.0008602901882692087,
      "loss": 0.3541,
      "step": 1876
    },
    {
      "epoch": 8.418801013228258,
      "grad_norm": 0.057269636541604996,
      "learning_rate": 0.0008601180014127614,
      "loss": 0.4225,
      "step": 1877
    },
    {
      "epoch": 8.423304249929638,
      "grad_norm": 0.1046316996216774,
      "learning_rate": 0.0008599457257694131,
      "loss": 0.4032,
      "step": 1878
    },
    {
      "epoch": 8.427807486631016,
      "grad_norm": 0.08861000090837479,
      "learning_rate": 0.0008597733613816378,
      "loss": 0.5043,
      "step": 1879
    },
    {
      "epoch": 8.432310723332396,
      "grad_norm": 0.06046188622713089,
      "learning_rate": 0.0008596009082919325,
      "loss": 0.2127,
      "step": 1880
    },
    {
      "epoch": 8.436813960033774,
      "grad_norm": 0.052737757563591,
      "learning_rate": 0.0008594283665428146,
      "loss": 0.3787,
      "step": 1881
    },
    {
      "epoch": 8.441317196735154,
      "grad_norm": 0.06914902478456497,
      "learning_rate": 0.000859255736176825,
      "loss": 0.3867,
      "step": 1882
    },
    {
      "epoch": 8.445820433436532,
      "grad_norm": 0.10860659927129745,
      "learning_rate": 0.0008590830172365249,
      "loss": 0.4609,
      "step": 1883
    },
    {
      "epoch": 8.450323670137912,
      "grad_norm": 0.06711150705814362,
      "learning_rate": 0.0008589102097644985,
      "loss": 0.1401,
      "step": 1884
    },
    {
      "epoch": 8.45482690683929,
      "grad_norm": 0.051428671926259995,
      "learning_rate": 0.0008587373138033512,
      "loss": 0.1749,
      "step": 1885
    },
    {
      "epoch": 8.45933014354067,
      "grad_norm": 0.05703508108854294,
      "learning_rate": 0.0008585643293957106,
      "loss": 0.3241,
      "step": 1886
    },
    {
      "epoch": 8.463833380242049,
      "grad_norm": 0.09356828033924103,
      "learning_rate": 0.0008583912565842257,
      "loss": 0.4016,
      "step": 1887
    },
    {
      "epoch": 8.468336616943429,
      "grad_norm": 0.13490629196166992,
      "learning_rate": 0.0008582180954115675,
      "loss": 0.579,
      "step": 1888
    },
    {
      "epoch": 8.472839853644807,
      "grad_norm": 0.06269712001085281,
      "learning_rate": 0.0008580448459204291,
      "loss": 0.4037,
      "step": 1889
    },
    {
      "epoch": 8.477343090346187,
      "grad_norm": 0.14472267031669617,
      "learning_rate": 0.0008578715081535249,
      "loss": 0.5818,
      "step": 1890
    },
    {
      "epoch": 8.481846327047565,
      "grad_norm": 0.0956985205411911,
      "learning_rate": 0.0008576980821535911,
      "loss": 0.5035,
      "step": 1891
    },
    {
      "epoch": 8.486349563748945,
      "grad_norm": 0.07666395604610443,
      "learning_rate": 0.0008575245679633859,
      "loss": 0.364,
      "step": 1892
    },
    {
      "epoch": 8.490852800450323,
      "grad_norm": 0.1046328991651535,
      "learning_rate": 0.000857350965625689,
      "loss": 0.4698,
      "step": 1893
    },
    {
      "epoch": 8.495356037151703,
      "grad_norm": 0.06993874907493591,
      "learning_rate": 0.0008571772751833022,
      "loss": 0.3531,
      "step": 1894
    },
    {
      "epoch": 8.499859273853081,
      "grad_norm": 0.06312994658946991,
      "learning_rate": 0.0008570034966790486,
      "loss": 0.3386,
      "step": 1895
    },
    {
      "epoch": 8.504362510554461,
      "grad_norm": 0.06843777745962143,
      "learning_rate": 0.0008568296301557733,
      "loss": 0.4265,
      "step": 1896
    },
    {
      "epoch": 8.50886574725584,
      "grad_norm": 0.06037609651684761,
      "learning_rate": 0.000856655675656343,
      "loss": 0.293,
      "step": 1897
    },
    {
      "epoch": 8.51336898395722,
      "grad_norm": 0.11430444568395615,
      "learning_rate": 0.000856481633223646,
      "loss": 0.2939,
      "step": 1898
    },
    {
      "epoch": 8.517872220658598,
      "grad_norm": 0.07251372933387756,
      "learning_rate": 0.0008563075029005924,
      "loss": 0.245,
      "step": 1899
    },
    {
      "epoch": 8.522375457359978,
      "grad_norm": 0.04387254640460014,
      "learning_rate": 0.0008561332847301142,
      "loss": 0.1994,
      "step": 1900
    },
    {
      "epoch": 8.526878694061356,
      "grad_norm": 0.0388309545814991,
      "learning_rate": 0.0008559589787551644,
      "loss": 0.2589,
      "step": 1901
    },
    {
      "epoch": 8.531381930762736,
      "grad_norm": 0.05837107077240944,
      "learning_rate": 0.0008557845850187182,
      "loss": 0.3281,
      "step": 1902
    },
    {
      "epoch": 8.535885167464114,
      "grad_norm": 0.05848858132958412,
      "learning_rate": 0.0008556101035637722,
      "loss": 0.3333,
      "step": 1903
    },
    {
      "epoch": 8.540388404165494,
      "grad_norm": 0.096542589366436,
      "learning_rate": 0.0008554355344333449,
      "loss": 0.2473,
      "step": 1904
    },
    {
      "epoch": 8.544891640866872,
      "grad_norm": 0.039129290729761124,
      "learning_rate": 0.0008552608776704762,
      "loss": 0.2268,
      "step": 1905
    },
    {
      "epoch": 8.549394877568252,
      "grad_norm": 0.08543335646390915,
      "learning_rate": 0.0008550861333182274,
      "loss": 0.3446,
      "step": 1906
    },
    {
      "epoch": 8.553898114269632,
      "grad_norm": 0.10348688066005707,
      "learning_rate": 0.0008549113014196817,
      "loss": 0.3306,
      "step": 1907
    },
    {
      "epoch": 8.55840135097101,
      "grad_norm": 0.035614367574453354,
      "learning_rate": 0.0008547363820179441,
      "loss": 0.2839,
      "step": 1908
    },
    {
      "epoch": 8.562904587672389,
      "grad_norm": 0.07761340588331223,
      "learning_rate": 0.0008545613751561406,
      "loss": 0.198,
      "step": 1909
    },
    {
      "epoch": 8.567407824373769,
      "grad_norm": 0.20411573350429535,
      "learning_rate": 0.0008543862808774193,
      "loss": 0.4615,
      "step": 1910
    },
    {
      "epoch": 8.571911061075149,
      "grad_norm": 0.1502954065799713,
      "learning_rate": 0.0008542110992249492,
      "loss": 0.293,
      "step": 1911
    },
    {
      "epoch": 8.576414297776527,
      "grad_norm": 0.0850919634103775,
      "learning_rate": 0.0008540358302419216,
      "loss": 0.5423,
      "step": 1912
    },
    {
      "epoch": 8.580917534477907,
      "grad_norm": 0.12430749088525772,
      "learning_rate": 0.0008538604739715487,
      "loss": 0.4297,
      "step": 1913
    },
    {
      "epoch": 8.585420771179285,
      "grad_norm": 0.10570672899484634,
      "learning_rate": 0.0008536850304570647,
      "loss": 0.5651,
      "step": 1914
    },
    {
      "epoch": 8.589924007880665,
      "grad_norm": 0.1958889663219452,
      "learning_rate": 0.000853509499741725,
      "loss": 0.1978,
      "step": 1915
    },
    {
      "epoch": 8.594427244582043,
      "grad_norm": 0.0735931396484375,
      "learning_rate": 0.0008533338818688067,
      "loss": 0.35,
      "step": 1916
    },
    {
      "epoch": 8.598930481283423,
      "grad_norm": 0.11583113670349121,
      "learning_rate": 0.0008531581768816083,
      "loss": 0.3543,
      "step": 1917
    },
    {
      "epoch": 8.603433717984801,
      "grad_norm": 0.05123050510883331,
      "learning_rate": 0.0008529823848234495,
      "loss": 0.3404,
      "step": 1918
    },
    {
      "epoch": 8.607936954686181,
      "grad_norm": 0.10390806198120117,
      "learning_rate": 0.0008528065057376722,
      "loss": 0.31,
      "step": 1919
    },
    {
      "epoch": 8.61244019138756,
      "grad_norm": 0.10488726943731308,
      "learning_rate": 0.0008526305396676391,
      "loss": 0.4117,
      "step": 1920
    },
    {
      "epoch": 8.61694342808894,
      "grad_norm": 0.1309749335050583,
      "learning_rate": 0.0008524544866567343,
      "loss": 0.3057,
      "step": 1921
    },
    {
      "epoch": 8.621446664790318,
      "grad_norm": 0.127833291888237,
      "learning_rate": 0.0008522783467483638,
      "loss": 0.3899,
      "step": 1922
    },
    {
      "epoch": 8.625949901491698,
      "grad_norm": 0.09737295657396317,
      "learning_rate": 0.0008521021199859546,
      "loss": 0.485,
      "step": 1923
    },
    {
      "epoch": 8.630453138193076,
      "grad_norm": 0.1080465242266655,
      "learning_rate": 0.0008519258064129558,
      "loss": 0.4344,
      "step": 1924
    },
    {
      "epoch": 8.634956374894456,
      "grad_norm": 0.09867062419652939,
      "learning_rate": 0.0008517494060728369,
      "loss": 0.3281,
      "step": 1925
    },
    {
      "epoch": 8.639459611595834,
      "grad_norm": 0.10717136412858963,
      "learning_rate": 0.0008515729190090895,
      "loss": 0.578,
      "step": 1926
    },
    {
      "epoch": 8.643962848297214,
      "grad_norm": 0.15256626904010773,
      "learning_rate": 0.0008513963452652265,
      "loss": 0.5602,
      "step": 1927
    },
    {
      "epoch": 8.648466084998592,
      "grad_norm": 0.10434337705373764,
      "learning_rate": 0.000851219684884782,
      "loss": 0.336,
      "step": 1928
    },
    {
      "epoch": 8.652969321699972,
      "grad_norm": 0.06221700832247734,
      "learning_rate": 0.0008510429379113114,
      "loss": 0.3496,
      "step": 1929
    },
    {
      "epoch": 8.65747255840135,
      "grad_norm": 0.062488652765750885,
      "learning_rate": 0.0008508661043883915,
      "loss": 0.3937,
      "step": 1930
    },
    {
      "epoch": 8.66197579510273,
      "grad_norm": 0.09013738483190536,
      "learning_rate": 0.0008506891843596208,
      "loss": 0.4581,
      "step": 1931
    },
    {
      "epoch": 8.666479031804109,
      "grad_norm": 0.08384894579648972,
      "learning_rate": 0.0008505121778686187,
      "loss": 0.3002,
      "step": 1932
    },
    {
      "epoch": 8.670982268505488,
      "grad_norm": 0.0692359134554863,
      "learning_rate": 0.0008503350849590262,
      "loss": 0.3655,
      "step": 1933
    },
    {
      "epoch": 8.675485505206867,
      "grad_norm": 0.06980855017900467,
      "learning_rate": 0.000850157905674505,
      "loss": 0.192,
      "step": 1934
    },
    {
      "epoch": 8.679988741908247,
      "grad_norm": 0.2905886173248291,
      "learning_rate": 0.000849980640058739,
      "loss": 0.3264,
      "step": 1935
    },
    {
      "epoch": 8.684491978609625,
      "grad_norm": 0.057317424565553665,
      "learning_rate": 0.0008498032881554331,
      "loss": 0.224,
      "step": 1936
    },
    {
      "epoch": 8.688995215311005,
      "grad_norm": 0.06956135481595993,
      "learning_rate": 0.0008496258500083128,
      "loss": 0.2338,
      "step": 1937
    },
    {
      "epoch": 8.693498452012385,
      "grad_norm": 0.10941426455974579,
      "learning_rate": 0.0008494483256611256,
      "loss": 0.3927,
      "step": 1938
    },
    {
      "epoch": 8.698001688713763,
      "grad_norm": 0.09277644008398056,
      "learning_rate": 0.00084927071515764,
      "loss": 0.3976,
      "step": 1939
    },
    {
      "epoch": 8.702504925415141,
      "grad_norm": 0.07648922502994537,
      "learning_rate": 0.000849093018541646,
      "loss": 0.317,
      "step": 1940
    },
    {
      "epoch": 8.707008162116521,
      "grad_norm": 0.09796898066997528,
      "learning_rate": 0.0008489152358569543,
      "loss": 0.4468,
      "step": 1941
    },
    {
      "epoch": 8.711511398817901,
      "grad_norm": 0.10715959221124649,
      "learning_rate": 0.0008487373671473974,
      "loss": 0.564,
      "step": 1942
    },
    {
      "epoch": 8.71601463551928,
      "grad_norm": 0.18039287626743317,
      "learning_rate": 0.0008485594124568286,
      "loss": 0.3878,
      "step": 1943
    },
    {
      "epoch": 8.72051787222066,
      "grad_norm": 0.09584596008062363,
      "learning_rate": 0.0008483813718291222,
      "loss": 0.3219,
      "step": 1944
    },
    {
      "epoch": 8.725021108922038,
      "grad_norm": 0.1461019366979599,
      "learning_rate": 0.0008482032453081748,
      "loss": 0.4141,
      "step": 1945
    },
    {
      "epoch": 8.729524345623418,
      "grad_norm": 0.08470366895198822,
      "learning_rate": 0.0008480250329379027,
      "loss": 0.45,
      "step": 1946
    },
    {
      "epoch": 8.734027582324796,
      "grad_norm": 0.11918581277132034,
      "learning_rate": 0.0008478467347622443,
      "loss": 0.3828,
      "step": 1947
    },
    {
      "epoch": 8.738530819026176,
      "grad_norm": 0.07183313369750977,
      "learning_rate": 0.0008476683508251591,
      "loss": 0.3176,
      "step": 1948
    },
    {
      "epoch": 8.743034055727554,
      "grad_norm": 0.04808293655514717,
      "learning_rate": 0.0008474898811706272,
      "loss": 0.4636,
      "step": 1949
    },
    {
      "epoch": 8.747537292428934,
      "grad_norm": 0.11848541349172592,
      "learning_rate": 0.0008473113258426506,
      "loss": 0.3509,
      "step": 1950
    },
    {
      "epoch": 8.752040529130312,
      "grad_norm": 0.09763966500759125,
      "learning_rate": 0.0008471326848852516,
      "loss": 0.4316,
      "step": 1951
    },
    {
      "epoch": 8.756543765831692,
      "grad_norm": 0.31170105934143066,
      "learning_rate": 0.0008469539583424744,
      "loss": 0.628,
      "step": 1952
    },
    {
      "epoch": 8.76104700253307,
      "grad_norm": 0.08219307661056519,
      "learning_rate": 0.0008467751462583837,
      "loss": 0.297,
      "step": 1953
    },
    {
      "epoch": 8.76555023923445,
      "grad_norm": 0.24784772098064423,
      "learning_rate": 0.0008465962486770656,
      "loss": 0.5048,
      "step": 1954
    },
    {
      "epoch": 8.770053475935828,
      "grad_norm": 0.09750121831893921,
      "learning_rate": 0.0008464172656426272,
      "loss": 0.4412,
      "step": 1955
    },
    {
      "epoch": 8.774556712637208,
      "grad_norm": 0.12887825071811676,
      "learning_rate": 0.0008462381971991968,
      "loss": 0.2987,
      "step": 1956
    },
    {
      "epoch": 8.779059949338587,
      "grad_norm": 0.09695728123188019,
      "learning_rate": 0.0008460590433909235,
      "loss": 0.4956,
      "step": 1957
    },
    {
      "epoch": 8.783563186039967,
      "grad_norm": 0.15699432790279388,
      "learning_rate": 0.0008458798042619776,
      "loss": 0.6477,
      "step": 1958
    },
    {
      "epoch": 8.788066422741345,
      "grad_norm": 0.10428563505411148,
      "learning_rate": 0.0008457004798565504,
      "loss": 0.5171,
      "step": 1959
    },
    {
      "epoch": 8.792569659442725,
      "grad_norm": 0.15465928614139557,
      "learning_rate": 0.0008455210702188541,
      "loss": 0.4046,
      "step": 1960
    },
    {
      "epoch": 8.797072896144103,
      "grad_norm": 0.12086082249879837,
      "learning_rate": 0.0008453415753931221,
      "loss": 0.2634,
      "step": 1961
    },
    {
      "epoch": 8.801576132845483,
      "grad_norm": 0.05797402560710907,
      "learning_rate": 0.0008451619954236092,
      "loss": 0.5237,
      "step": 1962
    },
    {
      "epoch": 8.806079369546861,
      "grad_norm": 0.1219102218747139,
      "learning_rate": 0.0008449823303545901,
      "loss": 0.3709,
      "step": 1963
    },
    {
      "epoch": 8.810582606248241,
      "grad_norm": 0.10171040147542953,
      "learning_rate": 0.0008448025802303616,
      "loss": 0.3943,
      "step": 1964
    },
    {
      "epoch": 8.81508584294962,
      "grad_norm": 0.10405184328556061,
      "learning_rate": 0.0008446227450952408,
      "loss": 0.453,
      "step": 1965
    },
    {
      "epoch": 8.819589079651,
      "grad_norm": 0.09518814831972122,
      "learning_rate": 0.0008444428249935658,
      "loss": 0.3658,
      "step": 1966
    },
    {
      "epoch": 8.824092316352377,
      "grad_norm": 0.204016774892807,
      "learning_rate": 0.0008442628199696961,
      "loss": 0.6961,
      "step": 1967
    },
    {
      "epoch": 8.828595553053757,
      "grad_norm": 0.11339818686246872,
      "learning_rate": 0.0008440827300680117,
      "loss": 0.4297,
      "step": 1968
    },
    {
      "epoch": 8.833098789755137,
      "grad_norm": 0.11445248126983643,
      "learning_rate": 0.0008439025553329136,
      "loss": 0.5582,
      "step": 1969
    },
    {
      "epoch": 8.837602026456516,
      "grad_norm": 0.12211579829454422,
      "learning_rate": 0.000843722295808824,
      "loss": 0.3253,
      "step": 1970
    },
    {
      "epoch": 8.842105263157894,
      "grad_norm": 0.06199125945568085,
      "learning_rate": 0.0008435419515401857,
      "loss": 0.4647,
      "step": 1971
    },
    {
      "epoch": 8.846608499859274,
      "grad_norm": 0.12085645645856857,
      "learning_rate": 0.0008433615225714623,
      "loss": 0.6793,
      "step": 1972
    },
    {
      "epoch": 8.851111736560654,
      "grad_norm": 0.11750008910894394,
      "learning_rate": 0.0008431810089471385,
      "loss": 0.4636,
      "step": 1973
    },
    {
      "epoch": 8.855614973262032,
      "grad_norm": 0.10955202579498291,
      "learning_rate": 0.0008430004107117202,
      "loss": 0.6542,
      "step": 1974
    },
    {
      "epoch": 8.860118209963412,
      "grad_norm": 0.0982838049530983,
      "learning_rate": 0.0008428197279097335,
      "loss": 0.3248,
      "step": 1975
    },
    {
      "epoch": 8.86462144666479,
      "grad_norm": 0.06933493912220001,
      "learning_rate": 0.0008426389605857256,
      "loss": 0.3703,
      "step": 1976
    },
    {
      "epoch": 8.86912468336617,
      "grad_norm": 0.16653454303741455,
      "learning_rate": 0.0008424581087842647,
      "loss": 0.4903,
      "step": 1977
    },
    {
      "epoch": 8.873627920067548,
      "grad_norm": 0.06152796372771263,
      "learning_rate": 0.0008422771725499397,
      "loss": 0.5491,
      "step": 1978
    },
    {
      "epoch": 8.878131156768928,
      "grad_norm": 0.09598948061466217,
      "learning_rate": 0.0008420961519273604,
      "loss": 0.6364,
      "step": 1979
    },
    {
      "epoch": 8.882634393470306,
      "grad_norm": 0.0822795033454895,
      "learning_rate": 0.0008419150469611571,
      "loss": 0.351,
      "step": 1980
    },
    {
      "epoch": 8.887137630171686,
      "grad_norm": 0.07682384550571442,
      "learning_rate": 0.0008417338576959814,
      "loss": 0.5484,
      "step": 1981
    },
    {
      "epoch": 8.891640866873065,
      "grad_norm": 0.07547378540039062,
      "learning_rate": 0.0008415525841765055,
      "loss": 0.4595,
      "step": 1982
    },
    {
      "epoch": 8.896144103574445,
      "grad_norm": 0.16534613072872162,
      "learning_rate": 0.0008413712264474218,
      "loss": 0.5438,
      "step": 1983
    },
    {
      "epoch": 8.900647340275823,
      "grad_norm": 0.07589936256408691,
      "learning_rate": 0.0008411897845534445,
      "loss": 0.231,
      "step": 1984
    },
    {
      "epoch": 8.905150576977203,
      "grad_norm": 0.10982394963502884,
      "learning_rate": 0.0008410082585393076,
      "loss": 0.4152,
      "step": 1985
    },
    {
      "epoch": 8.909653813678581,
      "grad_norm": 0.16935814917087555,
      "learning_rate": 0.0008408266484497665,
      "loss": 0.4099,
      "step": 1986
    },
    {
      "epoch": 8.914157050379961,
      "grad_norm": 0.0971125140786171,
      "learning_rate": 0.0008406449543295969,
      "loss": 0.3997,
      "step": 1987
    },
    {
      "epoch": 8.91866028708134,
      "grad_norm": 0.1047784686088562,
      "learning_rate": 0.0008404631762235955,
      "loss": 0.2583,
      "step": 1988
    },
    {
      "epoch": 8.92316352378272,
      "grad_norm": 0.06963129341602325,
      "learning_rate": 0.0008402813141765795,
      "loss": 0.1885,
      "step": 1989
    },
    {
      "epoch": 8.927666760484097,
      "grad_norm": 0.07655113190412521,
      "learning_rate": 0.000840099368233387,
      "loss": 0.5004,
      "step": 1990
    },
    {
      "epoch": 8.932169997185477,
      "grad_norm": 0.13153523206710815,
      "learning_rate": 0.0008399173384388766,
      "loss": 0.2742,
      "step": 1991
    },
    {
      "epoch": 8.936673233886856,
      "grad_norm": 0.07067295163869858,
      "learning_rate": 0.0008397352248379277,
      "loss": 0.4383,
      "step": 1992
    },
    {
      "epoch": 8.941176470588236,
      "grad_norm": 0.25003716349601746,
      "learning_rate": 0.0008395530274754402,
      "loss": 0.6596,
      "step": 1993
    },
    {
      "epoch": 8.945679707289614,
      "grad_norm": 0.07610464096069336,
      "learning_rate": 0.0008393707463963349,
      "loss": 0.6477,
      "step": 1994
    },
    {
      "epoch": 8.950182943990994,
      "grad_norm": 0.1348927617073059,
      "learning_rate": 0.000839188381645553,
      "loss": 0.443,
      "step": 1995
    },
    {
      "epoch": 8.954686180692372,
      "grad_norm": 0.11343273520469666,
      "learning_rate": 0.0008390059332680567,
      "loss": 0.418,
      "step": 1996
    },
    {
      "epoch": 8.959189417393752,
      "grad_norm": 0.06906835734844208,
      "learning_rate": 0.000838823401308828,
      "loss": 0.4215,
      "step": 1997
    },
    {
      "epoch": 8.96369265409513,
      "grad_norm": 0.10947497189044952,
      "learning_rate": 0.0008386407858128706,
      "loss": 0.3758,
      "step": 1998
    },
    {
      "epoch": 8.96819589079651,
      "grad_norm": 0.11809783428907394,
      "learning_rate": 0.000838458086825208,
      "loss": 0.4505,
      "step": 1999
    },
    {
      "epoch": 8.97269912749789,
      "grad_norm": 0.08637679368257523,
      "learning_rate": 0.0008382753043908845,
      "loss": 0.53,
      "step": 2000
    },
    {
      "epoch": 8.977202364199268,
      "grad_norm": 0.12074711918830872,
      "learning_rate": 0.000838092438554965,
      "loss": 0.4237,
      "step": 2001
    },
    {
      "epoch": 8.981705600900646,
      "grad_norm": 0.07246307283639908,
      "learning_rate": 0.0008379094893625354,
      "loss": 0.3355,
      "step": 2002
    },
    {
      "epoch": 8.986208837602026,
      "grad_norm": 0.06213076785206795,
      "learning_rate": 0.0008377264568587012,
      "loss": 0.338,
      "step": 2003
    },
    {
      "epoch": 8.990712074303406,
      "grad_norm": 0.10500394552946091,
      "learning_rate": 0.0008375433410885891,
      "loss": 0.3757,
      "step": 2004
    },
    {
      "epoch": 8.995215311004785,
      "grad_norm": 0.0804063081741333,
      "learning_rate": 0.0008373601420973464,
      "loss": 0.4694,
      "step": 2005
    },
    {
      "epoch": 8.999718547706165,
      "grad_norm": 0.10703501850366592,
      "learning_rate": 0.0008371768599301404,
      "loss": 0.4701,
      "step": 2006
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.10703501850366592,
      "learning_rate": 0.0008369934946321594,
      "loss": 0.0105,
      "step": 2007
    },
    {
      "epoch": 9.0,
      "eval_f1": 0.9796939081724517,
      "eval_loss": 0.03384348377585411,
      "eval_runtime": 26.1736,
      "eval_samples_per_second": 190.956,
      "eval_steps_per_second": 5.998,
      "step": 2007
    },
    {
      "epoch": 9.00450323670138,
      "grad_norm": 0.2153954803943634,
      "learning_rate": 0.0008368100462486122,
      "loss": 0.3482,
      "step": 2008
    },
    {
      "epoch": 9.009006473402758,
      "grad_norm": 0.08520273119211197,
      "learning_rate": 0.0008366265148247274,
      "loss": 0.234,
      "step": 2009
    },
    {
      "epoch": 9.013509710104138,
      "grad_norm": 0.03429681807756424,
      "learning_rate": 0.0008364429004057551,
      "loss": 0.207,
      "step": 2010
    },
    {
      "epoch": 9.018012946805516,
      "grad_norm": 0.058159057050943375,
      "learning_rate": 0.000836259203036965,
      "loss": 0.2294,
      "step": 2011
    },
    {
      "epoch": 9.022516183506896,
      "grad_norm": 0.10710062086582184,
      "learning_rate": 0.0008360754227636478,
      "loss": 0.2484,
      "step": 2012
    },
    {
      "epoch": 9.027019420208275,
      "grad_norm": 0.0513453483581543,
      "learning_rate": 0.0008358915596311143,
      "loss": 0.3011,
      "step": 2013
    },
    {
      "epoch": 9.031522656909655,
      "grad_norm": 0.1409132182598114,
      "learning_rate": 0.0008357076136846958,
      "loss": 0.4094,
      "step": 2014
    },
    {
      "epoch": 9.036025893611033,
      "grad_norm": 0.052514366805553436,
      "learning_rate": 0.0008355235849697442,
      "loss": 0.2209,
      "step": 2015
    },
    {
      "epoch": 9.040529130312413,
      "grad_norm": 0.10342535376548767,
      "learning_rate": 0.0008353394735316317,
      "loss": 0.2161,
      "step": 2016
    },
    {
      "epoch": 9.04503236701379,
      "grad_norm": 0.07295510172843933,
      "learning_rate": 0.0008351552794157509,
      "loss": 0.3853,
      "step": 2017
    },
    {
      "epoch": 9.04953560371517,
      "grad_norm": 0.10487388074398041,
      "learning_rate": 0.0008349710026675145,
      "loss": 0.5517,
      "step": 2018
    },
    {
      "epoch": 9.054038840416549,
      "grad_norm": 0.10061918944120407,
      "learning_rate": 0.0008347866433323562,
      "loss": 0.4797,
      "step": 2019
    },
    {
      "epoch": 9.058542077117929,
      "grad_norm": 0.0833238735795021,
      "learning_rate": 0.0008346022014557293,
      "loss": 0.3021,
      "step": 2020
    },
    {
      "epoch": 9.063045313819307,
      "grad_norm": 0.07145080715417862,
      "learning_rate": 0.0008344176770831083,
      "loss": 0.227,
      "step": 2021
    },
    {
      "epoch": 9.067548550520687,
      "grad_norm": 0.04269488528370857,
      "learning_rate": 0.0008342330702599872,
      "loss": 0.6044,
      "step": 2022
    },
    {
      "epoch": 9.072051787222065,
      "grad_norm": 0.13006086647510529,
      "learning_rate": 0.0008340483810318808,
      "loss": 0.3822,
      "step": 2023
    },
    {
      "epoch": 9.076555023923445,
      "grad_norm": 0.056194305419921875,
      "learning_rate": 0.0008338636094443241,
      "loss": 0.2837,
      "step": 2024
    },
    {
      "epoch": 9.081058260624824,
      "grad_norm": 0.08691722899675369,
      "learning_rate": 0.0008336787555428729,
      "loss": 0.4454,
      "step": 2025
    },
    {
      "epoch": 9.085561497326204,
      "grad_norm": 0.10125855356454849,
      "learning_rate": 0.0008334938193731022,
      "loss": 0.4622,
      "step": 2026
    },
    {
      "epoch": 9.090064734027582,
      "grad_norm": 0.06770553439855576,
      "learning_rate": 0.0008333088009806083,
      "loss": 0.2228,
      "step": 2027
    },
    {
      "epoch": 9.094567970728962,
      "grad_norm": 0.04462182894349098,
      "learning_rate": 0.000833123700411007,
      "loss": 0.1823,
      "step": 2028
    },
    {
      "epoch": 9.09907120743034,
      "grad_norm": 0.10591661930084229,
      "learning_rate": 0.0008329385177099352,
      "loss": 0.3357,
      "step": 2029
    },
    {
      "epoch": 9.10357444413172,
      "grad_norm": 0.12699857354164124,
      "learning_rate": 0.0008327532529230495,
      "loss": 0.3558,
      "step": 2030
    },
    {
      "epoch": 9.108077680833098,
      "grad_norm": 0.06106475740671158,
      "learning_rate": 0.0008325679060960265,
      "loss": 0.1909,
      "step": 2031
    },
    {
      "epoch": 9.112580917534478,
      "grad_norm": 0.08216794580221176,
      "learning_rate": 0.0008323824772745638,
      "loss": 0.3644,
      "step": 2032
    },
    {
      "epoch": 9.117084154235856,
      "grad_norm": 0.06294625997543335,
      "learning_rate": 0.0008321969665043785,
      "loss": 0.3466,
      "step": 2033
    },
    {
      "epoch": 9.121587390937236,
      "grad_norm": 0.046267781406641006,
      "learning_rate": 0.0008320113738312082,
      "loss": 0.2307,
      "step": 2034
    },
    {
      "epoch": 9.126090627638614,
      "grad_norm": 0.2637033760547638,
      "learning_rate": 0.0008318256993008106,
      "loss": 0.3016,
      "step": 2035
    },
    {
      "epoch": 9.130593864339994,
      "grad_norm": 0.10124122351408005,
      "learning_rate": 0.0008316399429589641,
      "loss": 0.4442,
      "step": 2036
    },
    {
      "epoch": 9.135097101041373,
      "grad_norm": 0.17694492638111115,
      "learning_rate": 0.0008314541048514663,
      "loss": 0.3203,
      "step": 2037
    },
    {
      "epoch": 9.139600337742753,
      "grad_norm": 0.43599140644073486,
      "learning_rate": 0.0008312681850241357,
      "loss": 0.2059,
      "step": 2038
    },
    {
      "epoch": 9.144103574444133,
      "grad_norm": 0.03514642268419266,
      "learning_rate": 0.0008310821835228108,
      "loss": 0.1203,
      "step": 2039
    },
    {
      "epoch": 9.14860681114551,
      "grad_norm": 0.0666399821639061,
      "learning_rate": 0.0008308961003933501,
      "loss": 0.2421,
      "step": 2040
    },
    {
      "epoch": 9.15311004784689,
      "grad_norm": 0.0791858434677124,
      "learning_rate": 0.0008307099356816323,
      "loss": 0.3224,
      "step": 2041
    },
    {
      "epoch": 9.157613284548269,
      "grad_norm": 0.32035374641418457,
      "learning_rate": 0.0008305236894335563,
      "loss": 0.3631,
      "step": 2042
    },
    {
      "epoch": 9.162116521249649,
      "grad_norm": 0.06805362552404404,
      "learning_rate": 0.0008303373616950407,
      "loss": 0.3762,
      "step": 2043
    },
    {
      "epoch": 9.166619757951027,
      "grad_norm": 0.10206292569637299,
      "learning_rate": 0.000830150952512025,
      "loss": 0.4606,
      "step": 2044
    },
    {
      "epoch": 9.171122994652407,
      "grad_norm": 0.06371667981147766,
      "learning_rate": 0.0008299644619304678,
      "loss": 0.3933,
      "step": 2045
    },
    {
      "epoch": 9.175626231353785,
      "grad_norm": 0.08027879893779755,
      "learning_rate": 0.0008297778899963484,
      "loss": 0.3947,
      "step": 2046
    },
    {
      "epoch": 9.180129468055165,
      "grad_norm": 0.10737516731023788,
      "learning_rate": 0.0008295912367556664,
      "loss": 0.2963,
      "step": 2047
    },
    {
      "epoch": 9.184632704756543,
      "grad_norm": 0.09309432655572891,
      "learning_rate": 0.0008294045022544405,
      "loss": 0.3038,
      "step": 2048
    },
    {
      "epoch": 9.189135941457923,
      "grad_norm": 0.06824678182601929,
      "learning_rate": 0.0008292176865387103,
      "loss": 0.2436,
      "step": 2049
    },
    {
      "epoch": 9.193639178159302,
      "grad_norm": 0.08936330676078796,
      "learning_rate": 0.0008290307896545348,
      "loss": 0.538,
      "step": 2050
    },
    {
      "epoch": 9.198142414860682,
      "grad_norm": 0.15298908948898315,
      "learning_rate": 0.0008288438116479939,
      "loss": 0.2804,
      "step": 2051
    },
    {
      "epoch": 9.20264565156206,
      "grad_norm": 0.044623494148254395,
      "learning_rate": 0.0008286567525651865,
      "loss": 0.2482,
      "step": 2052
    },
    {
      "epoch": 9.20714888826344,
      "grad_norm": 0.07690257579088211,
      "learning_rate": 0.0008284696124522319,
      "loss": 0.3283,
      "step": 2053
    },
    {
      "epoch": 9.211652124964818,
      "grad_norm": 0.10280773788690567,
      "learning_rate": 0.0008282823913552697,
      "loss": 0.4701,
      "step": 2054
    },
    {
      "epoch": 9.216155361666198,
      "grad_norm": 0.09106867760419846,
      "learning_rate": 0.0008280950893204587,
      "loss": 0.3395,
      "step": 2055
    },
    {
      "epoch": 9.220658598367576,
      "grad_norm": 0.078373022377491,
      "learning_rate": 0.0008279077063939786,
      "loss": 0.4637,
      "step": 2056
    },
    {
      "epoch": 9.225161835068956,
      "grad_norm": 0.051221322268247604,
      "learning_rate": 0.0008277202426220283,
      "loss": 0.4624,
      "step": 2057
    },
    {
      "epoch": 9.229665071770334,
      "grad_norm": 0.11038239300251007,
      "learning_rate": 0.0008275326980508268,
      "loss": 0.2415,
      "step": 2058
    },
    {
      "epoch": 9.234168308471714,
      "grad_norm": 0.08344730734825134,
      "learning_rate": 0.0008273450727266134,
      "loss": 0.1978,
      "step": 2059
    },
    {
      "epoch": 9.238671545173093,
      "grad_norm": 0.04552781209349632,
      "learning_rate": 0.0008271573666956469,
      "loss": 0.5367,
      "step": 2060
    },
    {
      "epoch": 9.243174781874473,
      "grad_norm": 0.11755525320768356,
      "learning_rate": 0.0008269695800042061,
      "loss": 0.3536,
      "step": 2061
    },
    {
      "epoch": 9.24767801857585,
      "grad_norm": 0.06245279312133789,
      "learning_rate": 0.0008267817126985897,
      "loss": 0.2762,
      "step": 2062
    },
    {
      "epoch": 9.25218125527723,
      "grad_norm": 0.09329251945018768,
      "learning_rate": 0.0008265937648251162,
      "loss": 0.4495,
      "step": 2063
    },
    {
      "epoch": 9.256684491978609,
      "grad_norm": 0.18435288965702057,
      "learning_rate": 0.0008264057364301242,
      "loss": 0.3695,
      "step": 2064
    },
    {
      "epoch": 9.261187728679989,
      "grad_norm": 0.08732841908931732,
      "learning_rate": 0.000826217627559972,
      "loss": 0.3213,
      "step": 2065
    },
    {
      "epoch": 9.265690965381367,
      "grad_norm": 0.061275631189346313,
      "learning_rate": 0.0008260294382610375,
      "loss": 0.1934,
      "step": 2066
    },
    {
      "epoch": 9.270194202082747,
      "grad_norm": 0.05930888280272484,
      "learning_rate": 0.000825841168579719,
      "loss": 0.5085,
      "step": 2067
    },
    {
      "epoch": 9.274697438784127,
      "grad_norm": 0.06331052631139755,
      "learning_rate": 0.0008256528185624342,
      "loss": 0.1554,
      "step": 2068
    },
    {
      "epoch": 9.279200675485505,
      "grad_norm": 0.05260743200778961,
      "learning_rate": 0.0008254643882556205,
      "loss": 0.2145,
      "step": 2069
    },
    {
      "epoch": 9.283703912186885,
      "grad_norm": 0.038385938853025436,
      "learning_rate": 0.0008252758777057356,
      "loss": 0.3517,
      "step": 2070
    },
    {
      "epoch": 9.288207148888263,
      "grad_norm": 0.0439242348074913,
      "learning_rate": 0.0008250872869592562,
      "loss": 0.2747,
      "step": 2071
    },
    {
      "epoch": 9.292710385589643,
      "grad_norm": 0.10498878359794617,
      "learning_rate": 0.0008248986160626799,
      "loss": 0.4256,
      "step": 2072
    },
    {
      "epoch": 9.297213622291022,
      "grad_norm": 0.0611993782222271,
      "learning_rate": 0.0008247098650625229,
      "loss": 0.3073,
      "step": 2073
    },
    {
      "epoch": 9.301716858992402,
      "grad_norm": 0.096958689391613,
      "learning_rate": 0.0008245210340053217,
      "loss": 0.2418,
      "step": 2074
    },
    {
      "epoch": 9.30622009569378,
      "grad_norm": 0.05918624997138977,
      "learning_rate": 0.0008243321229376328,
      "loss": 0.3018,
      "step": 2075
    },
    {
      "epoch": 9.31072333239516,
      "grad_norm": 0.1625831574201584,
      "learning_rate": 0.0008241431319060318,
      "loss": 0.1926,
      "step": 2076
    },
    {
      "epoch": 9.315226569096538,
      "grad_norm": 0.061186205595731735,
      "learning_rate": 0.0008239540609571147,
      "loss": 0.3106,
      "step": 2077
    },
    {
      "epoch": 9.319729805797918,
      "grad_norm": 0.06241680309176445,
      "learning_rate": 0.0008237649101374965,
      "loss": 0.3182,
      "step": 2078
    },
    {
      "epoch": 9.324233042499296,
      "grad_norm": 0.09005969762802124,
      "learning_rate": 0.0008235756794938122,
      "loss": 0.3621,
      "step": 2079
    },
    {
      "epoch": 9.328736279200676,
      "grad_norm": 0.11966113746166229,
      "learning_rate": 0.0008233863690727168,
      "loss": 0.4846,
      "step": 2080
    },
    {
      "epoch": 9.333239515902054,
      "grad_norm": 0.07535311579704285,
      "learning_rate": 0.0008231969789208847,
      "loss": 0.348,
      "step": 2081
    },
    {
      "epoch": 9.337742752603434,
      "grad_norm": 0.0615447498857975,
      "learning_rate": 0.0008230075090850096,
      "loss": 0.4027,
      "step": 2082
    },
    {
      "epoch": 9.342245989304812,
      "grad_norm": 0.07391244918107986,
      "learning_rate": 0.0008228179596118054,
      "loss": 0.2163,
      "step": 2083
    },
    {
      "epoch": 9.346749226006192,
      "grad_norm": 0.09077667444944382,
      "learning_rate": 0.0008226283305480056,
      "loss": 0.3936,
      "step": 2084
    },
    {
      "epoch": 9.35125246270757,
      "grad_norm": 0.07419968396425247,
      "learning_rate": 0.0008224386219403626,
      "loss": 0.172,
      "step": 2085
    },
    {
      "epoch": 9.35575569940895,
      "grad_norm": 0.04717467352747917,
      "learning_rate": 0.0008222488338356495,
      "loss": 0.3506,
      "step": 2086
    },
    {
      "epoch": 9.360258936110329,
      "grad_norm": 0.07267177850008011,
      "learning_rate": 0.0008220589662806582,
      "loss": 0.4441,
      "step": 2087
    },
    {
      "epoch": 9.364762172811709,
      "grad_norm": 0.12353967130184174,
      "learning_rate": 0.0008218690193222007,
      "loss": 0.2221,
      "step": 2088
    },
    {
      "epoch": 9.369265409513087,
      "grad_norm": 0.13511571288108826,
      "learning_rate": 0.0008216789930071078,
      "loss": 0.5107,
      "step": 2089
    },
    {
      "epoch": 9.373768646214467,
      "grad_norm": 0.0685398057103157,
      "learning_rate": 0.0008214888873822311,
      "loss": 0.2955,
      "step": 2090
    },
    {
      "epoch": 9.378271882915845,
      "grad_norm": 0.057841625064611435,
      "learning_rate": 0.0008212987024944403,
      "loss": 0.2588,
      "step": 2091
    },
    {
      "epoch": 9.382775119617225,
      "grad_norm": 0.04780278727412224,
      "learning_rate": 0.0008211084383906259,
      "loss": 0.1803,
      "step": 2092
    },
    {
      "epoch": 9.387278356318603,
      "grad_norm": 0.14439243078231812,
      "learning_rate": 0.0008209180951176973,
      "loss": 0.2468,
      "step": 2093
    },
    {
      "epoch": 9.391781593019983,
      "grad_norm": 0.07926052063703537,
      "learning_rate": 0.0008207276727225832,
      "loss": 0.4547,
      "step": 2094
    },
    {
      "epoch": 9.396284829721361,
      "grad_norm": 0.0879351943731308,
      "learning_rate": 0.0008205371712522328,
      "loss": 0.3462,
      "step": 2095
    },
    {
      "epoch": 9.400788066422741,
      "grad_norm": 0.0552872009575367,
      "learning_rate": 0.0008203465907536134,
      "loss": 0.2828,
      "step": 2096
    },
    {
      "epoch": 9.40529130312412,
      "grad_norm": 0.058073919266462326,
      "learning_rate": 0.0008201559312737131,
      "loss": 0.1889,
      "step": 2097
    },
    {
      "epoch": 9.4097945398255,
      "grad_norm": 0.07879973948001862,
      "learning_rate": 0.0008199651928595386,
      "loss": 0.2618,
      "step": 2098
    },
    {
      "epoch": 9.41429777652688,
      "grad_norm": 0.10171739757061005,
      "learning_rate": 0.0008197743755581164,
      "loss": 0.2697,
      "step": 2099
    },
    {
      "epoch": 9.418801013228258,
      "grad_norm": 0.07448595017194748,
      "learning_rate": 0.0008195834794164924,
      "loss": 0.2473,
      "step": 2100
    },
    {
      "epoch": 9.423304249929638,
      "grad_norm": 0.10849462449550629,
      "learning_rate": 0.0008193925044817321,
      "loss": 0.348,
      "step": 2101
    },
    {
      "epoch": 9.427807486631016,
      "grad_norm": 0.056745901703834534,
      "learning_rate": 0.0008192014508009201,
      "loss": 0.3915,
      "step": 2102
    },
    {
      "epoch": 9.432310723332396,
      "grad_norm": 0.09211180359125137,
      "learning_rate": 0.0008190103184211605,
      "loss": 0.1614,
      "step": 2103
    },
    {
      "epoch": 9.436813960033774,
      "grad_norm": 0.039565570652484894,
      "learning_rate": 0.0008188191073895772,
      "loss": 0.285,
      "step": 2104
    },
    {
      "epoch": 9.441317196735154,
      "grad_norm": 0.07233273983001709,
      "learning_rate": 0.0008186278177533128,
      "loss": 0.1899,
      "step": 2105
    },
    {
      "epoch": 9.445820433436532,
      "grad_norm": 0.09247384965419769,
      "learning_rate": 0.00081843644955953,
      "loss": 0.3798,
      "step": 2106
    },
    {
      "epoch": 9.450323670137912,
      "grad_norm": 0.08376811444759369,
      "learning_rate": 0.0008182450028554102,
      "loss": 0.2473,
      "step": 2107
    },
    {
      "epoch": 9.45482690683929,
      "grad_norm": 0.06819691509008408,
      "learning_rate": 0.0008180534776881548,
      "loss": 0.448,
      "step": 2108
    },
    {
      "epoch": 9.45933014354067,
      "grad_norm": 0.10064099729061127,
      "learning_rate": 0.0008178618741049842,
      "loss": 0.4012,
      "step": 2109
    },
    {
      "epoch": 9.463833380242049,
      "grad_norm": 0.07912016659975052,
      "learning_rate": 0.0008176701921531377,
      "loss": 0.3358,
      "step": 2110
    },
    {
      "epoch": 9.468336616943429,
      "grad_norm": 0.12919557094573975,
      "learning_rate": 0.0008174784318798749,
      "loss": 0.4329,
      "step": 2111
    },
    {
      "epoch": 9.472839853644807,
      "grad_norm": 0.05838630720973015,
      "learning_rate": 0.000817286593332474,
      "loss": 0.1392,
      "step": 2112
    },
    {
      "epoch": 9.477343090346187,
      "grad_norm": 0.05183481052517891,
      "learning_rate": 0.0008170946765582327,
      "loss": 0.1974,
      "step": 2113
    },
    {
      "epoch": 9.481846327047565,
      "grad_norm": 0.059186533093452454,
      "learning_rate": 0.0008169026816044681,
      "loss": 0.3949,
      "step": 2114
    },
    {
      "epoch": 9.486349563748945,
      "grad_norm": 0.077262744307518,
      "learning_rate": 0.0008167106085185161,
      "loss": 0.4098,
      "step": 2115
    },
    {
      "epoch": 9.490852800450323,
      "grad_norm": 0.09299839287996292,
      "learning_rate": 0.0008165184573477326,
      "loss": 0.5137,
      "step": 2116
    },
    {
      "epoch": 9.495356037151703,
      "grad_norm": 0.05131236091256142,
      "learning_rate": 0.0008163262281394922,
      "loss": 0.1831,
      "step": 2117
    },
    {
      "epoch": 9.499859273853081,
      "grad_norm": 0.07898574322462082,
      "learning_rate": 0.000816133920941189,
      "loss": 0.2782,
      "step": 2118
    },
    {
      "epoch": 9.504362510554461,
      "grad_norm": 0.09054697304964066,
      "learning_rate": 0.000815941535800236,
      "loss": 0.2274,
      "step": 2119
    },
    {
      "epoch": 9.50886574725584,
      "grad_norm": 0.05785088241100311,
      "learning_rate": 0.000815749072764066,
      "loss": 0.2433,
      "step": 2120
    },
    {
      "epoch": 9.51336898395722,
      "grad_norm": 0.029610399156808853,
      "learning_rate": 0.0008155565318801306,
      "loss": 0.1919,
      "step": 2121
    },
    {
      "epoch": 9.517872220658598,
      "grad_norm": 0.12417545914649963,
      "learning_rate": 0.0008153639131959003,
      "loss": 0.2628,
      "step": 2122
    },
    {
      "epoch": 9.522375457359978,
      "grad_norm": 0.04460054636001587,
      "learning_rate": 0.0008151712167588654,
      "loss": 0.278,
      "step": 2123
    },
    {
      "epoch": 9.526878694061356,
      "grad_norm": 0.07879230380058289,
      "learning_rate": 0.0008149784426165351,
      "loss": 0.2224,
      "step": 2124
    },
    {
      "epoch": 9.531381930762736,
      "grad_norm": 0.08809828013181686,
      "learning_rate": 0.0008147855908164378,
      "loss": 0.4307,
      "step": 2125
    },
    {
      "epoch": 9.535885167464114,
      "grad_norm": 0.09354556351900101,
      "learning_rate": 0.0008145926614061208,
      "loss": 0.1448,
      "step": 2126
    },
    {
      "epoch": 9.540388404165494,
      "grad_norm": 0.052105728536844254,
      "learning_rate": 0.0008143996544331512,
      "loss": 0.3482,
      "step": 2127
    },
    {
      "epoch": 9.544891640866872,
      "grad_norm": 0.1698106825351715,
      "learning_rate": 0.0008142065699451142,
      "loss": 0.2403,
      "step": 2128
    },
    {
      "epoch": 9.549394877568252,
      "grad_norm": 0.058599844574928284,
      "learning_rate": 0.0008140134079896149,
      "loss": 0.3911,
      "step": 2129
    },
    {
      "epoch": 9.553898114269632,
      "grad_norm": 0.06787560135126114,
      "learning_rate": 0.0008138201686142773,
      "loss": 0.1458,
      "step": 2130
    },
    {
      "epoch": 9.55840135097101,
      "grad_norm": 0.09510170668363571,
      "learning_rate": 0.0008136268518667446,
      "loss": 0.3118,
      "step": 2131
    },
    {
      "epoch": 9.562904587672389,
      "grad_norm": 0.05985966697335243,
      "learning_rate": 0.0008134334577946787,
      "loss": 0.3906,
      "step": 2132
    },
    {
      "epoch": 9.567407824373769,
      "grad_norm": 0.06165501847863197,
      "learning_rate": 0.0008132399864457609,
      "loss": 0.3421,
      "step": 2133
    },
    {
      "epoch": 9.571911061075149,
      "grad_norm": 0.07219774276018143,
      "learning_rate": 0.0008130464378676918,
      "loss": 0.288,
      "step": 2134
    },
    {
      "epoch": 9.576414297776527,
      "grad_norm": 0.07032082974910736,
      "learning_rate": 0.0008128528121081899,
      "loss": 0.3168,
      "step": 2135
    },
    {
      "epoch": 9.580917534477907,
      "grad_norm": 0.05590350180864334,
      "learning_rate": 0.0008126591092149944,
      "loss": 0.1932,
      "step": 2136
    },
    {
      "epoch": 9.585420771179285,
      "grad_norm": 0.08842547982931137,
      "learning_rate": 0.0008124653292358622,
      "loss": 0.4006,
      "step": 2137
    },
    {
      "epoch": 9.589924007880665,
      "grad_norm": 0.10020443052053452,
      "learning_rate": 0.0008122714722185695,
      "loss": 0.3315,
      "step": 2138
    },
    {
      "epoch": 9.594427244582043,
      "grad_norm": 0.08513257652521133,
      "learning_rate": 0.000812077538210912,
      "loss": 0.5288,
      "step": 2139
    },
    {
      "epoch": 9.598930481283423,
      "grad_norm": 0.13473910093307495,
      "learning_rate": 0.0008118835272607037,
      "loss": 0.2447,
      "step": 2140
    },
    {
      "epoch": 9.603433717984801,
      "grad_norm": 0.03927126154303551,
      "learning_rate": 0.0008116894394157782,
      "loss": 0.2327,
      "step": 2141
    },
    {
      "epoch": 9.607936954686181,
      "grad_norm": 0.04941796883940697,
      "learning_rate": 0.0008114952747239876,
      "loss": 0.4205,
      "step": 2142
    },
    {
      "epoch": 9.61244019138756,
      "grad_norm": 0.07691516727209091,
      "learning_rate": 0.0008113010332332031,
      "loss": 0.2822,
      "step": 2143
    },
    {
      "epoch": 9.61694342808894,
      "grad_norm": 0.108820840716362,
      "learning_rate": 0.000811106714991315,
      "loss": 0.3065,
      "step": 2144
    },
    {
      "epoch": 9.621446664790318,
      "grad_norm": 0.05232818052172661,
      "learning_rate": 0.000810912320046232,
      "loss": 0.2332,
      "step": 2145
    },
    {
      "epoch": 9.625949901491698,
      "grad_norm": 0.08889167755842209,
      "learning_rate": 0.0008107178484458823,
      "loss": 0.3554,
      "step": 2146
    },
    {
      "epoch": 9.630453138193076,
      "grad_norm": 0.0847586840391159,
      "learning_rate": 0.0008105233002382129,
      "loss": 0.4929,
      "step": 2147
    },
    {
      "epoch": 9.634956374894456,
      "grad_norm": 0.11911285668611526,
      "learning_rate": 0.0008103286754711894,
      "loss": 0.3143,
      "step": 2148
    },
    {
      "epoch": 9.639459611595834,
      "grad_norm": 0.060286473482847214,
      "learning_rate": 0.0008101339741927964,
      "loss": 0.2091,
      "step": 2149
    },
    {
      "epoch": 9.643962848297214,
      "grad_norm": 0.07159017026424408,
      "learning_rate": 0.0008099391964510374,
      "loss": 0.4391,
      "step": 2150
    },
    {
      "epoch": 9.648466084998592,
      "grad_norm": 0.10754828155040741,
      "learning_rate": 0.000809744342293935,
      "loss": 0.3559,
      "step": 2151
    },
    {
      "epoch": 9.652969321699972,
      "grad_norm": 0.10255667567253113,
      "learning_rate": 0.0008095494117695299,
      "loss": 0.4264,
      "step": 2152
    },
    {
      "epoch": 9.65747255840135,
      "grad_norm": 0.07686930894851685,
      "learning_rate": 0.0008093544049258825,
      "loss": 0.325,
      "step": 2153
    },
    {
      "epoch": 9.66197579510273,
      "grad_norm": 0.08774430304765701,
      "learning_rate": 0.0008091593218110715,
      "loss": 0.1965,
      "step": 2154
    },
    {
      "epoch": 9.666479031804109,
      "grad_norm": 0.028937609866261482,
      "learning_rate": 0.0008089641624731947,
      "loss": 0.1872,
      "step": 2155
    },
    {
      "epoch": 9.670982268505488,
      "grad_norm": 0.03926035016775131,
      "learning_rate": 0.0008087689269603683,
      "loss": 0.1541,
      "step": 2156
    },
    {
      "epoch": 9.675485505206867,
      "grad_norm": 0.05314048379659653,
      "learning_rate": 0.0008085736153207277,
      "loss": 0.2167,
      "step": 2157
    },
    {
      "epoch": 9.679988741908247,
      "grad_norm": 0.05622466281056404,
      "learning_rate": 0.0008083782276024267,
      "loss": 0.3435,
      "step": 2158
    },
    {
      "epoch": 9.684491978609625,
      "grad_norm": 0.10773374885320663,
      "learning_rate": 0.0008081827638536381,
      "loss": 0.5554,
      "step": 2159
    },
    {
      "epoch": 9.688995215311005,
      "grad_norm": 0.26076680421829224,
      "learning_rate": 0.0008079872241225534,
      "loss": 0.3552,
      "step": 2160
    },
    {
      "epoch": 9.693498452012385,
      "grad_norm": 0.03618110343813896,
      "learning_rate": 0.0008077916084573829,
      "loss": 0.1776,
      "step": 2161
    },
    {
      "epoch": 9.698001688713763,
      "grad_norm": 0.037813495844602585,
      "learning_rate": 0.0008075959169063555,
      "loss": 0.3296,
      "step": 2162
    },
    {
      "epoch": 9.702504925415141,
      "grad_norm": 0.08431995660066605,
      "learning_rate": 0.0008074001495177186,
      "loss": 0.3859,
      "step": 2163
    },
    {
      "epoch": 9.707008162116521,
      "grad_norm": 0.047368910163640976,
      "learning_rate": 0.0008072043063397391,
      "loss": 0.1856,
      "step": 2164
    },
    {
      "epoch": 9.711511398817901,
      "grad_norm": 0.05730884522199631,
      "learning_rate": 0.0008070083874207014,
      "loss": 0.4351,
      "step": 2165
    },
    {
      "epoch": 9.71601463551928,
      "grad_norm": 0.0924108475446701,
      "learning_rate": 0.0008068123928089097,
      "loss": 0.5131,
      "step": 2166
    },
    {
      "epoch": 9.72051787222066,
      "grad_norm": 0.15155856311321259,
      "learning_rate": 0.0008066163225526861,
      "loss": 0.4799,
      "step": 2167
    },
    {
      "epoch": 9.725021108922038,
      "grad_norm": 0.09972972422838211,
      "learning_rate": 0.0008064201767003716,
      "loss": 0.3347,
      "step": 2168
    },
    {
      "epoch": 9.729524345623418,
      "grad_norm": 0.047965046018362045,
      "learning_rate": 0.0008062239553003258,
      "loss": 0.1381,
      "step": 2169
    },
    {
      "epoch": 9.734027582324796,
      "grad_norm": 0.08405253291130066,
      "learning_rate": 0.0008060276584009274,
      "loss": 0.3266,
      "step": 2170
    },
    {
      "epoch": 9.738530819026176,
      "grad_norm": 0.061567384749650955,
      "learning_rate": 0.000805831286050573,
      "loss": 0.1377,
      "step": 2171
    },
    {
      "epoch": 9.743034055727554,
      "grad_norm": 0.04222710430622101,
      "learning_rate": 0.000805634838297678,
      "loss": 0.3143,
      "step": 2172
    },
    {
      "epoch": 9.747537292428934,
      "grad_norm": 0.04897413030266762,
      "learning_rate": 0.0008054383151906765,
      "loss": 0.2787,
      "step": 2173
    },
    {
      "epoch": 9.752040529130312,
      "grad_norm": 0.08403515815734863,
      "learning_rate": 0.0008052417167780215,
      "loss": 0.2465,
      "step": 2174
    },
    {
      "epoch": 9.756543765831692,
      "grad_norm": 0.058705396950244904,
      "learning_rate": 0.0008050450431081838,
      "loss": 0.3152,
      "step": 2175
    },
    {
      "epoch": 9.76104700253307,
      "grad_norm": 0.04946725070476532,
      "learning_rate": 0.0008048482942296536,
      "loss": 0.1655,
      "step": 2176
    },
    {
      "epoch": 9.76555023923445,
      "grad_norm": 0.06158599257469177,
      "learning_rate": 0.0008046514701909388,
      "loss": 0.1772,
      "step": 2177
    },
    {
      "epoch": 9.770053475935828,
      "grad_norm": 0.042780421674251556,
      "learning_rate": 0.0008044545710405665,
      "loss": 0.1619,
      "step": 2178
    },
    {
      "epoch": 9.774556712637208,
      "grad_norm": 0.04550801217556,
      "learning_rate": 0.0008042575968270821,
      "loss": 0.3306,
      "step": 2179
    },
    {
      "epoch": 9.779059949338587,
      "grad_norm": 0.09339936822652817,
      "learning_rate": 0.0008040605475990495,
      "loss": 0.3889,
      "step": 2180
    },
    {
      "epoch": 9.783563186039967,
      "grad_norm": 0.07803941518068314,
      "learning_rate": 0.0008038634234050511,
      "loss": 0.181,
      "step": 2181
    },
    {
      "epoch": 9.788066422741345,
      "grad_norm": 0.04555182904005051,
      "learning_rate": 0.0008036662242936877,
      "loss": 0.3262,
      "step": 2182
    },
    {
      "epoch": 9.792569659442725,
      "grad_norm": 0.07670591026544571,
      "learning_rate": 0.0008034689503135784,
      "loss": 0.2031,
      "step": 2183
    },
    {
      "epoch": 9.797072896144103,
      "grad_norm": 0.07921399921178818,
      "learning_rate": 0.0008032716015133614,
      "loss": 0.2827,
      "step": 2184
    },
    {
      "epoch": 9.801576132845483,
      "grad_norm": 0.0719347596168518,
      "learning_rate": 0.0008030741779416927,
      "loss": 0.249,
      "step": 2185
    },
    {
      "epoch": 9.806079369546861,
      "grad_norm": 0.0747213140130043,
      "learning_rate": 0.0008028766796472471,
      "loss": 0.3072,
      "step": 2186
    },
    {
      "epoch": 9.810582606248241,
      "grad_norm": 0.09278484433889389,
      "learning_rate": 0.0008026791066787176,
      "loss": 0.1812,
      "step": 2187
    },
    {
      "epoch": 9.81508584294962,
      "grad_norm": 0.06688928604125977,
      "learning_rate": 0.0008024814590848157,
      "loss": 0.3379,
      "step": 2188
    },
    {
      "epoch": 9.819589079651,
      "grad_norm": 0.05609602481126785,
      "learning_rate": 0.0008022837369142715,
      "loss": 0.0785,
      "step": 2189
    },
    {
      "epoch": 9.824092316352377,
      "grad_norm": 0.04360011965036392,
      "learning_rate": 0.0008020859402158332,
      "loss": 0.3463,
      "step": 2190
    },
    {
      "epoch": 9.828595553053757,
      "grad_norm": 0.05992114916443825,
      "learning_rate": 0.0008018880690382671,
      "loss": 0.3199,
      "step": 2191
    },
    {
      "epoch": 9.833098789755137,
      "grad_norm": 0.07030566781759262,
      "learning_rate": 0.0008016901234303589,
      "loss": 0.2941,
      "step": 2192
    },
    {
      "epoch": 9.837602026456516,
      "grad_norm": 0.05917280539870262,
      "learning_rate": 0.0008014921034409115,
      "loss": 0.1953,
      "step": 2193
    },
    {
      "epoch": 9.842105263157894,
      "grad_norm": 0.049805253744125366,
      "learning_rate": 0.0008012940091187468,
      "loss": 0.2066,
      "step": 2194
    },
    {
      "epoch": 9.846608499859274,
      "grad_norm": 0.08867662400007248,
      "learning_rate": 0.0008010958405127048,
      "loss": 0.2466,
      "step": 2195
    },
    {
      "epoch": 9.851111736560654,
      "grad_norm": 0.06397893279790878,
      "learning_rate": 0.0008008975976716439,
      "loss": 0.2727,
      "step": 2196
    },
    {
      "epoch": 9.855614973262032,
      "grad_norm": 0.08952797204256058,
      "learning_rate": 0.0008006992806444407,
      "loss": 0.3738,
      "step": 2197
    },
    {
      "epoch": 9.860118209963412,
      "grad_norm": 0.0849025547504425,
      "learning_rate": 0.0008005008894799902,
      "loss": 0.3168,
      "step": 2198
    },
    {
      "epoch": 9.86462144666479,
      "grad_norm": 0.06474285572767258,
      "learning_rate": 0.0008003024242272058,
      "loss": 0.2547,
      "step": 2199
    },
    {
      "epoch": 9.86912468336617,
      "grad_norm": 0.0926055982708931,
      "learning_rate": 0.0008001038849350186,
      "loss": 0.3687,
      "step": 2200
    },
    {
      "epoch": 9.873627920067548,
      "grad_norm": 0.0542713925242424,
      "learning_rate": 0.0007999052716523789,
      "loss": 0.2289,
      "step": 2201
    },
    {
      "epoch": 9.878131156768928,
      "grad_norm": 0.04907412827014923,
      "learning_rate": 0.000799706584428254,
      "loss": 0.2023,
      "step": 2202
    },
    {
      "epoch": 9.882634393470306,
      "grad_norm": 0.0653294026851654,
      "learning_rate": 0.000799507823311631,
      "loss": 0.4341,
      "step": 2203
    },
    {
      "epoch": 9.887137630171686,
      "grad_norm": 0.08848886936903,
      "learning_rate": 0.0007993089883515136,
      "loss": 0.2137,
      "step": 2204
    },
    {
      "epoch": 9.891640866873065,
      "grad_norm": 0.05040488392114639,
      "learning_rate": 0.0007991100795969248,
      "loss": 0.1982,
      "step": 2205
    },
    {
      "epoch": 9.896144103574445,
      "grad_norm": 0.11956003308296204,
      "learning_rate": 0.0007989110970969053,
      "loss": 0.3864,
      "step": 2206
    },
    {
      "epoch": 9.900647340275823,
      "grad_norm": 0.08633874356746674,
      "learning_rate": 0.0007987120409005142,
      "loss": 0.1968,
      "step": 2207
    },
    {
      "epoch": 9.905150576977203,
      "grad_norm": 0.02773400768637657,
      "learning_rate": 0.0007985129110568287,
      "loss": 0.2294,
      "step": 2208
    },
    {
      "epoch": 9.909653813678581,
      "grad_norm": 0.11136708408594131,
      "learning_rate": 0.0007983137076149442,
      "loss": 0.4972,
      "step": 2209
    },
    {
      "epoch": 9.914157050379961,
      "grad_norm": 0.11021771281957626,
      "learning_rate": 0.0007981144306239742,
      "loss": 0.3525,
      "step": 2210
    },
    {
      "epoch": 9.91866028708134,
      "grad_norm": 0.11763551086187363,
      "learning_rate": 0.0007979150801330503,
      "loss": 0.4423,
      "step": 2211
    },
    {
      "epoch": 9.92316352378272,
      "grad_norm": 0.04422377049922943,
      "learning_rate": 0.0007977156561913224,
      "loss": 0.3393,
      "step": 2212
    },
    {
      "epoch": 9.927666760484097,
      "grad_norm": 0.07618439197540283,
      "learning_rate": 0.0007975161588479581,
      "loss": 0.2349,
      "step": 2213
    },
    {
      "epoch": 9.932169997185477,
      "grad_norm": 0.07061569392681122,
      "learning_rate": 0.0007973165881521434,
      "loss": 0.4056,
      "step": 2214
    },
    {
      "epoch": 9.936673233886856,
      "grad_norm": 0.0535888634622097,
      "learning_rate": 0.0007971169441530825,
      "loss": 0.1923,
      "step": 2215
    },
    {
      "epoch": 9.941176470588236,
      "grad_norm": 0.04917022958397865,
      "learning_rate": 0.0007969172268999973,
      "loss": 0.2095,
      "step": 2216
    },
    {
      "epoch": 9.945679707289614,
      "grad_norm": 0.05638818070292473,
      "learning_rate": 0.0007967174364421284,
      "loss": 0.2708,
      "step": 2217
    },
    {
      "epoch": 9.950182943990994,
      "grad_norm": 0.05614108964800835,
      "learning_rate": 0.0007965175728287337,
      "loss": 0.2946,
      "step": 2218
    },
    {
      "epoch": 9.954686180692372,
      "grad_norm": 0.11458837240934372,
      "learning_rate": 0.0007963176361090894,
      "loss": 0.5301,
      "step": 2219
    },
    {
      "epoch": 9.959189417393752,
      "grad_norm": 0.05027564615011215,
      "learning_rate": 0.00079611762633249,
      "loss": 0.2672,
      "step": 2220
    },
    {
      "epoch": 9.96369265409513,
      "grad_norm": 0.05382874608039856,
      "learning_rate": 0.0007959175435482478,
      "loss": 0.2466,
      "step": 2221
    },
    {
      "epoch": 9.96819589079651,
      "grad_norm": 0.34932801127433777,
      "learning_rate": 0.000795717387805693,
      "loss": 0.231,
      "step": 2222
    },
    {
      "epoch": 9.97269912749789,
      "grad_norm": 0.032891519367694855,
      "learning_rate": 0.0007955171591541739,
      "loss": 0.0839,
      "step": 2223
    },
    {
      "epoch": 9.977202364199268,
      "grad_norm": 0.07612551748752594,
      "learning_rate": 0.0007953168576430568,
      "loss": 0.5021,
      "step": 2224
    },
    {
      "epoch": 9.981705600900646,
      "grad_norm": 0.10167297720909119,
      "learning_rate": 0.0007951164833217261,
      "loss": 0.4053,
      "step": 2225
    },
    {
      "epoch": 9.986208837602026,
      "grad_norm": 0.06276644766330719,
      "learning_rate": 0.0007949160362395835,
      "loss": 0.2753,
      "step": 2226
    },
    {
      "epoch": 9.990712074303406,
      "grad_norm": 0.05334273725748062,
      "learning_rate": 0.0007947155164460496,
      "loss": 0.3851,
      "step": 2227
    },
    {
      "epoch": 9.995215311004785,
      "grad_norm": 0.06998559832572937,
      "learning_rate": 0.0007945149239905622,
      "loss": 0.3558,
      "step": 2228
    },
    {
      "epoch": 9.999718547706165,
      "grad_norm": 0.17926661670207977,
      "learning_rate": 0.0007943142589225776,
      "loss": 0.5678,
      "step": 2229
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.17926661670207977,
      "learning_rate": 0.0007941135212915691,
      "loss": 0.0503,
      "step": 2230
    },
    {
      "epoch": 10.0,
      "eval_f1": 0.9807807807807808,
      "eval_loss": 0.029675371944904327,
      "eval_runtime": 26.2757,
      "eval_samples_per_second": 190.214,
      "eval_steps_per_second": 5.975,
      "step": 2230
    },
    {
      "epoch": 10.00450323670138,
      "grad_norm": 0.10039044171571732,
      "learning_rate": 0.0007939127111470289,
      "loss": 0.1343,
      "step": 2231
    },
    {
      "epoch": 10.009006473402758,
      "grad_norm": 0.04535982012748718,
      "learning_rate": 0.0007937118285384666,
      "loss": 0.2013,
      "step": 2232
    },
    {
      "epoch": 10.013509710104138,
      "grad_norm": 0.06166650354862213,
      "learning_rate": 0.0007935108735154093,
      "loss": 0.4577,
      "step": 2233
    },
    {
      "epoch": 10.018012946805516,
      "grad_norm": 0.08762913942337036,
      "learning_rate": 0.0007933098461274029,
      "loss": 0.2986,
      "step": 2234
    },
    {
      "epoch": 10.022516183506896,
      "grad_norm": 0.05079120025038719,
      "learning_rate": 0.0007931087464240102,
      "loss": 0.1522,
      "step": 2235
    },
    {
      "epoch": 10.027019420208275,
      "grad_norm": 0.09241707623004913,
      "learning_rate": 0.0007929075744548124,
      "loss": 0.2786,
      "step": 2236
    },
    {
      "epoch": 10.031522656909655,
      "grad_norm": 0.05286942422389984,
      "learning_rate": 0.0007927063302694084,
      "loss": 0.3059,
      "step": 2237
    },
    {
      "epoch": 10.036025893611033,
      "grad_norm": 0.0909542441368103,
      "learning_rate": 0.0007925050139174148,
      "loss": 0.3391,
      "step": 2238
    },
    {
      "epoch": 10.040529130312413,
      "grad_norm": 0.07376760989427567,
      "learning_rate": 0.0007923036254484658,
      "loss": 0.276,
      "step": 2239
    },
    {
      "epoch": 10.04503236701379,
      "grad_norm": 0.05665191262960434,
      "learning_rate": 0.000792102164912214,
      "loss": 0.2279,
      "step": 2240
    },
    {
      "epoch": 10.04953560371517,
      "grad_norm": 0.044853176921606064,
      "learning_rate": 0.0007919006323583291,
      "loss": 0.1813,
      "step": 2241
    },
    {
      "epoch": 10.054038840416549,
      "grad_norm": 0.07322114706039429,
      "learning_rate": 0.000791699027836499,
      "loss": 0.2362,
      "step": 2242
    },
    {
      "epoch": 10.058542077117929,
      "grad_norm": 0.0377047061920166,
      "learning_rate": 0.000791497351396429,
      "loss": 0.1515,
      "step": 2243
    },
    {
      "epoch": 10.063045313819307,
      "grad_norm": 0.03979792073369026,
      "learning_rate": 0.0007912956030878427,
      "loss": 0.248,
      "step": 2244
    },
    {
      "epoch": 10.067548550520687,
      "grad_norm": 0.11043985188007355,
      "learning_rate": 0.0007910937829604806,
      "loss": 0.1739,
      "step": 2245
    },
    {
      "epoch": 10.072051787222065,
      "grad_norm": 0.03771059587597847,
      "learning_rate": 0.0007908918910641017,
      "loss": 0.2276,
      "step": 2246
    },
    {
      "epoch": 10.076555023923445,
      "grad_norm": 0.08204385638237,
      "learning_rate": 0.000790689927448482,
      "loss": 0.1833,
      "step": 2247
    },
    {
      "epoch": 10.081058260624824,
      "grad_norm": 0.051249001175165176,
      "learning_rate": 0.0007904878921634157,
      "loss": 0.3897,
      "step": 2248
    },
    {
      "epoch": 10.085561497326204,
      "grad_norm": 0.07343392074108124,
      "learning_rate": 0.0007902857852587147,
      "loss": 0.2396,
      "step": 2249
    },
    {
      "epoch": 10.090064734027582,
      "grad_norm": 0.060468241572380066,
      "learning_rate": 0.0007900836067842079,
      "loss": 0.1856,
      "step": 2250
    },
    {
      "epoch": 10.094567970728962,
      "grad_norm": 0.04140040650963783,
      "learning_rate": 0.0007898813567897427,
      "loss": 0.0784,
      "step": 2251
    },
    {
      "epoch": 10.09907120743034,
      "grad_norm": 0.04167743772268295,
      "learning_rate": 0.0007896790353251835,
      "loss": 0.1888,
      "step": 2252
    },
    {
      "epoch": 10.10357444413172,
      "grad_norm": 0.11016375571489334,
      "learning_rate": 0.0007894766424404125,
      "loss": 0.1425,
      "step": 2253
    },
    {
      "epoch": 10.108077680833098,
      "grad_norm": 0.019908223301172256,
      "learning_rate": 0.0007892741781853298,
      "loss": 0.196,
      "step": 2254
    },
    {
      "epoch": 10.112580917534478,
      "grad_norm": 0.03980129584670067,
      "learning_rate": 0.0007890716426098528,
      "loss": 0.1374,
      "step": 2255
    },
    {
      "epoch": 10.117084154235856,
      "grad_norm": 0.06756479293107986,
      "learning_rate": 0.0007888690357639163,
      "loss": 0.1986,
      "step": 2256
    },
    {
      "epoch": 10.121587390937236,
      "grad_norm": 0.03037215769290924,
      "learning_rate": 0.0007886663576974734,
      "loss": 0.0621,
      "step": 2257
    },
    {
      "epoch": 10.126090627638614,
      "grad_norm": 0.06844878196716309,
      "learning_rate": 0.0007884636084604935,
      "loss": 0.1972,
      "step": 2258
    },
    {
      "epoch": 10.130593864339994,
      "grad_norm": 0.07004830241203308,
      "learning_rate": 0.0007882607881029651,
      "loss": 0.1777,
      "step": 2259
    },
    {
      "epoch": 10.135097101041373,
      "grad_norm": 0.04645134136080742,
      "learning_rate": 0.0007880578966748929,
      "loss": 0.1843,
      "step": 2260
    },
    {
      "epoch": 10.139600337742753,
      "grad_norm": 0.057516369968652725,
      "learning_rate": 0.0007878549342263,
      "loss": 0.1873,
      "step": 2261
    },
    {
      "epoch": 10.144103574444133,
      "grad_norm": 0.025244170799851418,
      "learning_rate": 0.0007876519008072264,
      "loss": 0.2117,
      "step": 2262
    },
    {
      "epoch": 10.14860681114551,
      "grad_norm": 0.24111910164356232,
      "learning_rate": 0.0007874487964677301,
      "loss": 0.0648,
      "step": 2263
    },
    {
      "epoch": 10.15311004784689,
      "grad_norm": 0.026326701045036316,
      "learning_rate": 0.0007872456212578865,
      "loss": 0.1245,
      "step": 2264
    },
    {
      "epoch": 10.157613284548269,
      "grad_norm": 0.0669790729880333,
      "learning_rate": 0.000787042375227788,
      "loss": 0.2444,
      "step": 2265
    },
    {
      "epoch": 10.162116521249649,
      "grad_norm": 0.16093209385871887,
      "learning_rate": 0.000786839058427545,
      "loss": 0.3072,
      "step": 2266
    },
    {
      "epoch": 10.166619757951027,
      "grad_norm": 0.10951560735702515,
      "learning_rate": 0.0007866356709072851,
      "loss": 0.1417,
      "step": 2267
    },
    {
      "epoch": 10.171122994652407,
      "grad_norm": 0.03666035085916519,
      "learning_rate": 0.0007864322127171533,
      "loss": 0.2065,
      "step": 2268
    },
    {
      "epoch": 10.175626231353785,
      "grad_norm": 0.09547030925750732,
      "learning_rate": 0.0007862286839073123,
      "loss": 0.1037,
      "step": 2269
    },
    {
      "epoch": 10.180129468055165,
      "grad_norm": 0.08010785281658173,
      "learning_rate": 0.0007860250845279418,
      "loss": 0.1927,
      "step": 2270
    },
    {
      "epoch": 10.184632704756543,
      "grad_norm": 0.06744477152824402,
      "learning_rate": 0.0007858214146292394,
      "loss": 0.2848,
      "step": 2271
    },
    {
      "epoch": 10.189135941457923,
      "grad_norm": 0.030819321051239967,
      "learning_rate": 0.0007856176742614195,
      "loss": 0.0923,
      "step": 2272
    },
    {
      "epoch": 10.193639178159302,
      "grad_norm": 0.06678271293640137,
      "learning_rate": 0.0007854138634747145,
      "loss": 0.2167,
      "step": 2273
    },
    {
      "epoch": 10.198142414860682,
      "grad_norm": 0.054209526628255844,
      "learning_rate": 0.0007852099823193735,
      "loss": 0.0807,
      "step": 2274
    },
    {
      "epoch": 10.20264565156206,
      "grad_norm": 0.10592645406723022,
      "learning_rate": 0.0007850060308456635,
      "loss": 0.3772,
      "step": 2275
    },
    {
      "epoch": 10.20714888826344,
      "grad_norm": 0.11059582233428955,
      "learning_rate": 0.0007848020091038684,
      "loss": 0.2773,
      "step": 2276
    },
    {
      "epoch": 10.211652124964818,
      "grad_norm": 0.06688273698091507,
      "learning_rate": 0.00078459791714429,
      "loss": 0.1519,
      "step": 2277
    },
    {
      "epoch": 10.216155361666198,
      "grad_norm": 0.17398230731487274,
      "learning_rate": 0.0007843937550172468,
      "loss": 0.1771,
      "step": 2278
    },
    {
      "epoch": 10.220658598367576,
      "grad_norm": 0.06484521180391312,
      "learning_rate": 0.0007841895227730751,
      "loss": 0.2431,
      "step": 2279
    },
    {
      "epoch": 10.225161835068956,
      "grad_norm": 0.07591580599546432,
      "learning_rate": 0.0007839852204621281,
      "loss": 0.2715,
      "step": 2280
    },
    {
      "epoch": 10.229665071770334,
      "grad_norm": 0.14557664096355438,
      "learning_rate": 0.0007837808481347764,
      "loss": 0.3473,
      "step": 2281
    },
    {
      "epoch": 10.234168308471714,
      "grad_norm": 0.2770090699195862,
      "learning_rate": 0.0007835764058414079,
      "loss": 0.2208,
      "step": 2282
    },
    {
      "epoch": 10.238671545173093,
      "grad_norm": 0.08295353502035141,
      "learning_rate": 0.0007833718936324277,
      "loss": 0.2998,
      "step": 2283
    },
    {
      "epoch": 10.243174781874473,
      "grad_norm": 0.12923409044742584,
      "learning_rate": 0.0007831673115582582,
      "loss": 0.4037,
      "step": 2284
    },
    {
      "epoch": 10.24767801857585,
      "grad_norm": 0.07009966671466827,
      "learning_rate": 0.0007829626596693392,
      "loss": 0.3356,
      "step": 2285
    },
    {
      "epoch": 10.25218125527723,
      "grad_norm": 0.08176571130752563,
      "learning_rate": 0.0007827579380161271,
      "loss": 0.1733,
      "step": 2286
    },
    {
      "epoch": 10.256684491978609,
      "grad_norm": 0.046325597912073135,
      "learning_rate": 0.0007825531466490965,
      "loss": 0.2608,
      "step": 2287
    },
    {
      "epoch": 10.261187728679989,
      "grad_norm": 0.05495789647102356,
      "learning_rate": 0.0007823482856187381,
      "loss": 0.3254,
      "step": 2288
    },
    {
      "epoch": 10.265690965381367,
      "grad_norm": 0.05971965193748474,
      "learning_rate": 0.0007821433549755603,
      "loss": 0.3379,
      "step": 2289
    },
    {
      "epoch": 10.270194202082747,
      "grad_norm": 0.05080058053135872,
      "learning_rate": 0.0007819383547700889,
      "loss": 0.1668,
      "step": 2290
    },
    {
      "epoch": 10.274697438784127,
      "grad_norm": 0.11693309247493744,
      "learning_rate": 0.0007817332850528666,
      "loss": 0.2138,
      "step": 2291
    },
    {
      "epoch": 10.279200675485505,
      "grad_norm": 0.05315998196601868,
      "learning_rate": 0.000781528145874453,
      "loss": 0.2719,
      "step": 2292
    },
    {
      "epoch": 10.283703912186885,
      "grad_norm": 0.0753539502620697,
      "learning_rate": 0.0007813229372854251,
      "loss": 0.1839,
      "step": 2293
    },
    {
      "epoch": 10.288207148888263,
      "grad_norm": 0.050890784710645676,
      "learning_rate": 0.0007811176593363772,
      "loss": 0.2777,
      "step": 2294
    },
    {
      "epoch": 10.292710385589643,
      "grad_norm": 0.05763149634003639,
      "learning_rate": 0.00078091231207792,
      "loss": 0.185,
      "step": 2295
    },
    {
      "epoch": 10.297213622291022,
      "grad_norm": 0.02125394344329834,
      "learning_rate": 0.0007807068955606824,
      "loss": 0.1583,
      "step": 2296
    },
    {
      "epoch": 10.301716858992402,
      "grad_norm": 0.049654122442007065,
      "learning_rate": 0.0007805014098353092,
      "loss": 0.1139,
      "step": 2297
    },
    {
      "epoch": 10.30622009569378,
      "grad_norm": 0.033708758652210236,
      "learning_rate": 0.0007802958549524631,
      "loss": 0.3471,
      "step": 2298
    },
    {
      "epoch": 10.31072333239516,
      "grad_norm": 0.0698724091053009,
      "learning_rate": 0.0007800902309628233,
      "loss": 0.2053,
      "step": 2299
    },
    {
      "epoch": 10.315226569096538,
      "grad_norm": 0.24943025410175323,
      "learning_rate": 0.0007798845379170863,
      "loss": 0.1596,
      "step": 2300
    },
    {
      "epoch": 10.319729805797918,
      "grad_norm": 0.1099226251244545,
      "learning_rate": 0.000779678775865966,
      "loss": 0.1354,
      "step": 2301
    },
    {
      "epoch": 10.324233042499296,
      "grad_norm": 0.1054379865527153,
      "learning_rate": 0.0007794729448601925,
      "loss": 0.1415,
      "step": 2302
    },
    {
      "epoch": 10.328736279200676,
      "grad_norm": 0.14046058058738708,
      "learning_rate": 0.0007792670449505135,
      "loss": 0.2255,
      "step": 2303
    },
    {
      "epoch": 10.333239515902054,
      "grad_norm": 0.0649074912071228,
      "learning_rate": 0.0007790610761876935,
      "loss": 0.137,
      "step": 2304
    },
    {
      "epoch": 10.337742752603434,
      "grad_norm": 0.048118263483047485,
      "learning_rate": 0.000778855038622514,
      "loss": 0.4246,
      "step": 2305
    },
    {
      "epoch": 10.342245989304812,
      "grad_norm": 0.09341078251600266,
      "learning_rate": 0.0007786489323057732,
      "loss": 0.2266,
      "step": 2306
    },
    {
      "epoch": 10.346749226006192,
      "grad_norm": 0.09344159811735153,
      "learning_rate": 0.000778442757288287,
      "loss": 0.2825,
      "step": 2307
    },
    {
      "epoch": 10.35125246270757,
      "grad_norm": 0.09561210870742798,
      "learning_rate": 0.0007782365136208875,
      "loss": 0.26,
      "step": 2308
    },
    {
      "epoch": 10.35575569940895,
      "grad_norm": 0.08166302740573883,
      "learning_rate": 0.0007780302013544238,
      "loss": 0.3321,
      "step": 2309
    },
    {
      "epoch": 10.360258936110329,
      "grad_norm": 0.054745905101299286,
      "learning_rate": 0.0007778238205397623,
      "loss": 0.1472,
      "step": 2310
    },
    {
      "epoch": 10.364762172811709,
      "grad_norm": 0.0654776394367218,
      "learning_rate": 0.0007776173712277859,
      "loss": 0.2332,
      "step": 2311
    },
    {
      "epoch": 10.369265409513087,
      "grad_norm": 0.052726686000823975,
      "learning_rate": 0.0007774108534693947,
      "loss": 0.2401,
      "step": 2312
    },
    {
      "epoch": 10.373768646214467,
      "grad_norm": 0.05678197368979454,
      "learning_rate": 0.0007772042673155055,
      "loss": 0.1038,
      "step": 2313
    },
    {
      "epoch": 10.378271882915845,
      "grad_norm": 0.02901473455131054,
      "learning_rate": 0.0007769976128170522,
      "loss": 0.3239,
      "step": 2314
    },
    {
      "epoch": 10.382775119617225,
      "grad_norm": 0.0972340926527977,
      "learning_rate": 0.0007767908900249849,
      "loss": 0.2613,
      "step": 2315
    },
    {
      "epoch": 10.387278356318603,
      "grad_norm": 0.05523224547505379,
      "learning_rate": 0.0007765840989902714,
      "loss": 0.2872,
      "step": 2316
    },
    {
      "epoch": 10.391781593019983,
      "grad_norm": 0.050498053431510925,
      "learning_rate": 0.0007763772397638958,
      "loss": 0.1986,
      "step": 2317
    },
    {
      "epoch": 10.396284829721361,
      "grad_norm": 0.056296683847904205,
      "learning_rate": 0.000776170312396859,
      "loss": 0.2477,
      "step": 2318
    },
    {
      "epoch": 10.400788066422741,
      "grad_norm": 0.0827767550945282,
      "learning_rate": 0.0007759633169401789,
      "loss": 0.1942,
      "step": 2319
    },
    {
      "epoch": 10.40529130312412,
      "grad_norm": 0.04351319745182991,
      "learning_rate": 0.0007757562534448904,
      "loss": 0.1635,
      "step": 2320
    },
    {
      "epoch": 10.4097945398255,
      "grad_norm": 0.05296842381358147,
      "learning_rate": 0.0007755491219620446,
      "loss": 0.1121,
      "step": 2321
    },
    {
      "epoch": 10.41429777652688,
      "grad_norm": 0.03337697684764862,
      "learning_rate": 0.0007753419225427097,
      "loss": 0.1571,
      "step": 2322
    },
    {
      "epoch": 10.418801013228258,
      "grad_norm": 0.05641510337591171,
      "learning_rate": 0.0007751346552379706,
      "loss": 0.2149,
      "step": 2323
    },
    {
      "epoch": 10.423304249929638,
      "grad_norm": 0.06491590291261673,
      "learning_rate": 0.0007749273200989288,
      "loss": 0.3324,
      "step": 2324
    },
    {
      "epoch": 10.427807486631016,
      "grad_norm": 0.07022533565759659,
      "learning_rate": 0.000774719917176703,
      "loss": 0.139,
      "step": 2325
    },
    {
      "epoch": 10.432310723332396,
      "grad_norm": 0.030715571716427803,
      "learning_rate": 0.0007745124465224282,
      "loss": 0.2069,
      "step": 2326
    },
    {
      "epoch": 10.436813960033774,
      "grad_norm": 0.03313959389925003,
      "learning_rate": 0.0007743049081872559,
      "loss": 0.1968,
      "step": 2327
    },
    {
      "epoch": 10.441317196735154,
      "grad_norm": 0.07086480408906937,
      "learning_rate": 0.000774097302222355,
      "loss": 0.1884,
      "step": 2328
    },
    {
      "epoch": 10.445820433436532,
      "grad_norm": 0.020139072090387344,
      "learning_rate": 0.0007738896286789102,
      "loss": 0.0938,
      "step": 2329
    },
    {
      "epoch": 10.450323670137912,
      "grad_norm": 0.05708615854382515,
      "learning_rate": 0.0007736818876081235,
      "loss": 0.2158,
      "step": 2330
    },
    {
      "epoch": 10.45482690683929,
      "grad_norm": 0.05974878370761871,
      "learning_rate": 0.0007734740790612135,
      "loss": 0.2905,
      "step": 2331
    },
    {
      "epoch": 10.45933014354067,
      "grad_norm": 0.05787580832839012,
      "learning_rate": 0.0007732662030894151,
      "loss": 0.1642,
      "step": 2332
    },
    {
      "epoch": 10.463833380242049,
      "grad_norm": 0.044422347098588943,
      "learning_rate": 0.0007730582597439799,
      "loss": 0.2856,
      "step": 2333
    },
    {
      "epoch": 10.468336616943429,
      "grad_norm": 0.042060643434524536,
      "learning_rate": 0.0007728502490761764,
      "loss": 0.1034,
      "step": 2334
    },
    {
      "epoch": 10.472839853644807,
      "grad_norm": 0.0329890102148056,
      "learning_rate": 0.0007726421711372896,
      "loss": 0.2571,
      "step": 2335
    },
    {
      "epoch": 10.477343090346187,
      "grad_norm": 0.07249760627746582,
      "learning_rate": 0.0007724340259786208,
      "loss": 0.2517,
      "step": 2336
    },
    {
      "epoch": 10.481846327047565,
      "grad_norm": 0.06466857343912125,
      "learning_rate": 0.0007722258136514884,
      "loss": 0.19,
      "step": 2337
    },
    {
      "epoch": 10.486349563748945,
      "grad_norm": 0.05917622521519661,
      "learning_rate": 0.0007720175342072267,
      "loss": 0.2282,
      "step": 2338
    },
    {
      "epoch": 10.490852800450323,
      "grad_norm": 0.06262793391942978,
      "learning_rate": 0.0007718091876971868,
      "loss": 0.2483,
      "step": 2339
    },
    {
      "epoch": 10.495356037151703,
      "grad_norm": 0.06049475818872452,
      "learning_rate": 0.0007716007741727368,
      "loss": 0.1605,
      "step": 2340
    },
    {
      "epoch": 10.499859273853081,
      "grad_norm": 0.04021340236067772,
      "learning_rate": 0.0007713922936852607,
      "loss": 0.1994,
      "step": 2341
    },
    {
      "epoch": 10.504362510554461,
      "grad_norm": 0.05479058623313904,
      "learning_rate": 0.0007711837462861593,
      "loss": 0.2492,
      "step": 2342
    },
    {
      "epoch": 10.50886574725584,
      "grad_norm": 0.06847067922353745,
      "learning_rate": 0.0007709751320268499,
      "loss": 0.1994,
      "step": 2343
    },
    {
      "epoch": 10.51336898395722,
      "grad_norm": 0.029042087495326996,
      "learning_rate": 0.0007707664509587662,
      "loss": 0.1746,
      "step": 2344
    },
    {
      "epoch": 10.517872220658598,
      "grad_norm": 0.05359946936368942,
      "learning_rate": 0.0007705577031333583,
      "loss": 0.2004,
      "step": 2345
    },
    {
      "epoch": 10.522375457359978,
      "grad_norm": 0.05005541816353798,
      "learning_rate": 0.0007703488886020931,
      "loss": 0.1139,
      "step": 2346
    },
    {
      "epoch": 10.526878694061356,
      "grad_norm": 0.035181913524866104,
      "learning_rate": 0.0007701400074164535,
      "loss": 0.1146,
      "step": 2347
    },
    {
      "epoch": 10.531381930762736,
      "grad_norm": 0.049433574080467224,
      "learning_rate": 0.0007699310596279392,
      "loss": 0.1515,
      "step": 2348
    },
    {
      "epoch": 10.535885167464114,
      "grad_norm": 0.05536685138940811,
      "learning_rate": 0.000769722045288066,
      "loss": 0.1949,
      "step": 2349
    },
    {
      "epoch": 10.540388404165494,
      "grad_norm": 0.032849714159965515,
      "learning_rate": 0.0007695129644483664,
      "loss": 0.0813,
      "step": 2350
    },
    {
      "epoch": 10.544891640866872,
      "grad_norm": 0.06362531334161758,
      "learning_rate": 0.0007693038171603892,
      "loss": 0.2659,
      "step": 2351
    },
    {
      "epoch": 10.549394877568252,
      "grad_norm": 0.07026795297861099,
      "learning_rate": 0.0007690946034756994,
      "loss": 0.1284,
      "step": 2352
    },
    {
      "epoch": 10.553898114269632,
      "grad_norm": 0.05596381798386574,
      "learning_rate": 0.0007688853234458786,
      "loss": 0.2139,
      "step": 2353
    },
    {
      "epoch": 10.55840135097101,
      "grad_norm": 0.04154973477125168,
      "learning_rate": 0.000768675977122525,
      "loss": 0.0617,
      "step": 2354
    },
    {
      "epoch": 10.562904587672389,
      "grad_norm": 0.03940907120704651,
      "learning_rate": 0.000768466564557252,
      "loss": 0.3044,
      "step": 2355
    },
    {
      "epoch": 10.567407824373769,
      "grad_norm": 0.06972789764404297,
      "learning_rate": 0.000768257085801691,
      "loss": 0.1329,
      "step": 2356
    },
    {
      "epoch": 10.571911061075149,
      "grad_norm": 0.05388365313410759,
      "learning_rate": 0.0007680475409074884,
      "loss": 0.2549,
      "step": 2357
    },
    {
      "epoch": 10.576414297776527,
      "grad_norm": 0.04659845307469368,
      "learning_rate": 0.0007678379299263077,
      "loss": 0.1439,
      "step": 2358
    },
    {
      "epoch": 10.580917534477907,
      "grad_norm": 0.0279664508998394,
      "learning_rate": 0.000767628252909828,
      "loss": 0.2179,
      "step": 2359
    },
    {
      "epoch": 10.585420771179285,
      "grad_norm": 0.0644262433052063,
      "learning_rate": 0.0007674185099097453,
      "loss": 0.4131,
      "step": 2360
    },
    {
      "epoch": 10.589924007880665,
      "grad_norm": 0.10180768370628357,
      "learning_rate": 0.0007672087009777716,
      "loss": 0.2375,
      "step": 2361
    },
    {
      "epoch": 10.594427244582043,
      "grad_norm": 0.019632328301668167,
      "learning_rate": 0.0007669988261656351,
      "loss": 0.1847,
      "step": 2362
    },
    {
      "epoch": 10.598930481283423,
      "grad_norm": 0.06397772580385208,
      "learning_rate": 0.0007667888855250807,
      "loss": 0.1463,
      "step": 2363
    },
    {
      "epoch": 10.603433717984801,
      "grad_norm": 0.03224172815680504,
      "learning_rate": 0.0007665788791078685,
      "loss": 0.4864,
      "step": 2364
    },
    {
      "epoch": 10.607936954686181,
      "grad_norm": 0.09944373369216919,
      "learning_rate": 0.0007663688069657759,
      "loss": 0.059,
      "step": 2365
    },
    {
      "epoch": 10.61244019138756,
      "grad_norm": 0.047334007918834686,
      "learning_rate": 0.0007661586691505961,
      "loss": 0.3151,
      "step": 2366
    },
    {
      "epoch": 10.61694342808894,
      "grad_norm": 0.04089812934398651,
      "learning_rate": 0.0007659484657141383,
      "loss": 0.2738,
      "step": 2367
    },
    {
      "epoch": 10.621446664790318,
      "grad_norm": 0.05393354967236519,
      "learning_rate": 0.000765738196708228,
      "loss": 0.2627,
      "step": 2368
    },
    {
      "epoch": 10.625949901491698,
      "grad_norm": 0.0250508114695549,
      "learning_rate": 0.0007655278621847071,
      "loss": 0.0674,
      "step": 2369
    },
    {
      "epoch": 10.630453138193076,
      "grad_norm": 0.03790974244475365,
      "learning_rate": 0.0007653174621954334,
      "loss": 0.1888,
      "step": 2370
    },
    {
      "epoch": 10.634956374894456,
      "grad_norm": 0.04975062236189842,
      "learning_rate": 0.0007651069967922807,
      "loss": 0.0679,
      "step": 2371
    },
    {
      "epoch": 10.639459611595834,
      "grad_norm": 0.059794411063194275,
      "learning_rate": 0.0007648964660271394,
      "loss": 0.1899,
      "step": 2372
    },
    {
      "epoch": 10.643962848297214,
      "grad_norm": 0.042282626032829285,
      "learning_rate": 0.0007646858699519158,
      "loss": 0.2517,
      "step": 2373
    },
    {
      "epoch": 10.648466084998592,
      "grad_norm": 0.03720250353217125,
      "learning_rate": 0.0007644752086185319,
      "loss": 0.2139,
      "step": 2374
    },
    {
      "epoch": 10.652969321699972,
      "grad_norm": 0.08110038191080093,
      "learning_rate": 0.0007642644820789265,
      "loss": 0.0964,
      "step": 2375
    },
    {
      "epoch": 10.65747255840135,
      "grad_norm": 0.03606828674674034,
      "learning_rate": 0.0007640536903850539,
      "loss": 0.3773,
      "step": 2376
    },
    {
      "epoch": 10.66197579510273,
      "grad_norm": 0.06478875875473022,
      "learning_rate": 0.0007638428335888847,
      "loss": 0.1178,
      "step": 2377
    },
    {
      "epoch": 10.666479031804109,
      "grad_norm": 0.04078910872340202,
      "learning_rate": 0.0007636319117424056,
      "loss": 0.2283,
      "step": 2378
    },
    {
      "epoch": 10.670982268505488,
      "grad_norm": 0.035971153527498245,
      "learning_rate": 0.0007634209248976193,
      "loss": 0.2067,
      "step": 2379
    },
    {
      "epoch": 10.675485505206867,
      "grad_norm": 0.03025689162313938,
      "learning_rate": 0.0007632098731065444,
      "loss": 0.1242,
      "step": 2380
    },
    {
      "epoch": 10.679988741908247,
      "grad_norm": 0.05587160214781761,
      "learning_rate": 0.0007629987564212156,
      "loss": 0.1834,
      "step": 2381
    },
    {
      "epoch": 10.684491978609625,
      "grad_norm": 0.03542497754096985,
      "learning_rate": 0.0007627875748936837,
      "loss": 0.2899,
      "step": 2382
    },
    {
      "epoch": 10.688995215311005,
      "grad_norm": 0.1635400652885437,
      "learning_rate": 0.0007625763285760153,
      "loss": 0.1965,
      "step": 2383
    },
    {
      "epoch": 10.693498452012385,
      "grad_norm": 0.03147006779909134,
      "learning_rate": 0.0007623650175202931,
      "loss": 0.1279,
      "step": 2384
    },
    {
      "epoch": 10.698001688713763,
      "grad_norm": 0.061395302414894104,
      "learning_rate": 0.0007621536417786159,
      "loss": 0.3915,
      "step": 2385
    },
    {
      "epoch": 10.702504925415141,
      "grad_norm": 0.08318410813808441,
      "learning_rate": 0.000761942201403098,
      "loss": 0.2212,
      "step": 2386
    },
    {
      "epoch": 10.707008162116521,
      "grad_norm": 0.04253353551030159,
      "learning_rate": 0.0007617306964458699,
      "loss": 0.1972,
      "step": 2387
    },
    {
      "epoch": 10.711511398817901,
      "grad_norm": 0.0705832988023758,
      "learning_rate": 0.0007615191269590784,
      "loss": 0.3596,
      "step": 2388
    },
    {
      "epoch": 10.71601463551928,
      "grad_norm": 0.12103552371263504,
      "learning_rate": 0.0007613074929948856,
      "loss": 0.2725,
      "step": 2389
    },
    {
      "epoch": 10.72051787222066,
      "grad_norm": 0.03151853382587433,
      "learning_rate": 0.0007610957946054695,
      "loss": 0.2735,
      "step": 2390
    },
    {
      "epoch": 10.725021108922038,
      "grad_norm": 0.09395933896303177,
      "learning_rate": 0.0007608840318430246,
      "loss": 0.1219,
      "step": 2391
    },
    {
      "epoch": 10.729524345623418,
      "grad_norm": 0.037324387580156326,
      "learning_rate": 0.0007606722047597607,
      "loss": 0.2413,
      "step": 2392
    },
    {
      "epoch": 10.734027582324796,
      "grad_norm": 0.04419972375035286,
      "learning_rate": 0.0007604603134079039,
      "loss": 0.1838,
      "step": 2393
    },
    {
      "epoch": 10.738530819026176,
      "grad_norm": 0.05056736618280411,
      "learning_rate": 0.0007602483578396955,
      "loss": 0.1054,
      "step": 2394
    },
    {
      "epoch": 10.743034055727554,
      "grad_norm": 0.027830855920910835,
      "learning_rate": 0.0007600363381073935,
      "loss": 0.2181,
      "step": 2395
    },
    {
      "epoch": 10.747537292428934,
      "grad_norm": 0.03699440881609917,
      "learning_rate": 0.0007598242542632707,
      "loss": 0.0569,
      "step": 2396
    },
    {
      "epoch": 10.752040529130312,
      "grad_norm": 0.03435641527175903,
      "learning_rate": 0.0007596121063596168,
      "loss": 0.1387,
      "step": 2397
    },
    {
      "epoch": 10.756543765831692,
      "grad_norm": 0.0781673938035965,
      "learning_rate": 0.0007593998944487364,
      "loss": 0.4425,
      "step": 2398
    },
    {
      "epoch": 10.76104700253307,
      "grad_norm": 0.09064383804798126,
      "learning_rate": 0.0007591876185829505,
      "loss": 0.2291,
      "step": 2399
    },
    {
      "epoch": 10.76555023923445,
      "grad_norm": 0.05169505253434181,
      "learning_rate": 0.0007589752788145954,
      "loss": 0.1615,
      "step": 2400
    },
    {
      "epoch": 10.770053475935828,
      "grad_norm": 0.06793984770774841,
      "learning_rate": 0.0007587628751960231,
      "loss": 0.3232,
      "step": 2401
    },
    {
      "epoch": 10.774556712637208,
      "grad_norm": 0.03856664150953293,
      "learning_rate": 0.0007585504077796024,
      "loss": 0.1494,
      "step": 2402
    },
    {
      "epoch": 10.779059949338587,
      "grad_norm": 0.06251906603574753,
      "learning_rate": 0.0007583378766177162,
      "loss": 0.2334,
      "step": 2403
    },
    {
      "epoch": 10.783563186039967,
      "grad_norm": 0.0879875123500824,
      "learning_rate": 0.0007581252817627644,
      "loss": 0.3731,
      "step": 2404
    },
    {
      "epoch": 10.788066422741345,
      "grad_norm": 0.07494139671325684,
      "learning_rate": 0.0007579126232671621,
      "loss": 0.1733,
      "step": 2405
    },
    {
      "epoch": 10.792569659442725,
      "grad_norm": 0.06109757348895073,
      "learning_rate": 0.0007576999011833399,
      "loss": 0.1651,
      "step": 2406
    },
    {
      "epoch": 10.797072896144103,
      "grad_norm": 0.04772808402776718,
      "learning_rate": 0.0007574871155637446,
      "loss": 0.0558,
      "step": 2407
    },
    {
      "epoch": 10.801576132845483,
      "grad_norm": 0.0583798922598362,
      "learning_rate": 0.000757274266460838,
      "loss": 0.3948,
      "step": 2408
    },
    {
      "epoch": 10.806079369546861,
      "grad_norm": 0.09347712248563766,
      "learning_rate": 0.0007570613539270985,
      "loss": 0.3274,
      "step": 2409
    },
    {
      "epoch": 10.810582606248241,
      "grad_norm": 0.06047486141324043,
      "learning_rate": 0.0007568483780150193,
      "loss": 0.2422,
      "step": 2410
    },
    {
      "epoch": 10.81508584294962,
      "grad_norm": 0.06931871920824051,
      "learning_rate": 0.0007566353387771093,
      "loss": 0.2168,
      "step": 2411
    },
    {
      "epoch": 10.819589079651,
      "grad_norm": 0.09491472691297531,
      "learning_rate": 0.0007564222362658934,
      "loss": 0.2377,
      "step": 2412
    },
    {
      "epoch": 10.824092316352377,
      "grad_norm": 0.04105512425303459,
      "learning_rate": 0.0007562090705339119,
      "loss": 0.1238,
      "step": 2413
    },
    {
      "epoch": 10.828595553053757,
      "grad_norm": 0.06553606688976288,
      "learning_rate": 0.0007559958416337207,
      "loss": 0.3534,
      "step": 2414
    },
    {
      "epoch": 10.833098789755137,
      "grad_norm": 0.035659417510032654,
      "learning_rate": 0.0007557825496178913,
      "loss": 0.2917,
      "step": 2415
    },
    {
      "epoch": 10.837602026456516,
      "grad_norm": 0.052975453436374664,
      "learning_rate": 0.0007555691945390106,
      "loss": 0.189,
      "step": 2416
    },
    {
      "epoch": 10.842105263157894,
      "grad_norm": 0.03611024096608162,
      "learning_rate": 0.0007553557764496812,
      "loss": 0.1207,
      "step": 2417
    },
    {
      "epoch": 10.846608499859274,
      "grad_norm": 0.06664176285266876,
      "learning_rate": 0.0007551422954025216,
      "loss": 0.3606,
      "step": 2418
    },
    {
      "epoch": 10.851111736560654,
      "grad_norm": 0.06279917061328888,
      "learning_rate": 0.0007549287514501648,
      "loss": 0.2951,
      "step": 2419
    },
    {
      "epoch": 10.855614973262032,
      "grad_norm": 0.04579063877463341,
      "learning_rate": 0.0007547151446452605,
      "loss": 0.1309,
      "step": 2420
    },
    {
      "epoch": 10.860118209963412,
      "grad_norm": 0.2236577719449997,
      "learning_rate": 0.000754501475040473,
      "loss": 0.3942,
      "step": 2421
    },
    {
      "epoch": 10.86462144666479,
      "grad_norm": 0.07037026435136795,
      "learning_rate": 0.0007542877426884824,
      "loss": 0.105,
      "step": 2422
    },
    {
      "epoch": 10.86912468336617,
      "grad_norm": 0.0514504536986351,
      "learning_rate": 0.0007540739476419847,
      "loss": 0.2388,
      "step": 2423
    },
    {
      "epoch": 10.873627920067548,
      "grad_norm": 0.04230201989412308,
      "learning_rate": 0.0007538600899536905,
      "loss": 0.3093,
      "step": 2424
    },
    {
      "epoch": 10.878131156768928,
      "grad_norm": 0.0987936407327652,
      "learning_rate": 0.0007536461696763266,
      "loss": 0.2863,
      "step": 2425
    },
    {
      "epoch": 10.882634393470306,
      "grad_norm": 0.043754830956459045,
      "learning_rate": 0.0007534321868626348,
      "loss": 0.1384,
      "step": 2426
    },
    {
      "epoch": 10.887137630171686,
      "grad_norm": 0.055315617471933365,
      "learning_rate": 0.0007532181415653725,
      "loss": 0.2925,
      "step": 2427
    },
    {
      "epoch": 10.891640866873065,
      "grad_norm": 0.05506232753396034,
      "learning_rate": 0.0007530040338373126,
      "loss": 0.1476,
      "step": 2428
    },
    {
      "epoch": 10.896144103574445,
      "grad_norm": 0.060176171362400055,
      "learning_rate": 0.0007527898637312427,
      "loss": 0.3418,
      "step": 2429
    },
    {
      "epoch": 10.900647340275823,
      "grad_norm": 0.08292575925588608,
      "learning_rate": 0.000752575631299967,
      "loss": 0.2874,
      "step": 2430
    },
    {
      "epoch": 10.905150576977203,
      "grad_norm": 0.03185742720961571,
      "learning_rate": 0.0007523613365963038,
      "loss": 0.1688,
      "step": 2431
    },
    {
      "epoch": 10.909653813678581,
      "grad_norm": 0.06468402594327927,
      "learning_rate": 0.0007521469796730879,
      "loss": 0.4258,
      "step": 2432
    },
    {
      "epoch": 10.914157050379961,
      "grad_norm": 0.09304972738027573,
      "learning_rate": 0.0007519325605831684,
      "loss": 0.2555,
      "step": 2433
    },
    {
      "epoch": 10.91866028708134,
      "grad_norm": 0.049203235656023026,
      "learning_rate": 0.0007517180793794104,
      "loss": 0.2034,
      "step": 2434
    },
    {
      "epoch": 10.92316352378272,
      "grad_norm": 0.03846996650099754,
      "learning_rate": 0.0007515035361146945,
      "loss": 0.1567,
      "step": 2435
    },
    {
      "epoch": 10.927666760484097,
      "grad_norm": 0.1029997244477272,
      "learning_rate": 0.0007512889308419156,
      "loss": 0.2722,
      "step": 2436
    },
    {
      "epoch": 10.932169997185477,
      "grad_norm": 0.03453804552555084,
      "learning_rate": 0.0007510742636139849,
      "loss": 0.1924,
      "step": 2437
    },
    {
      "epoch": 10.936673233886856,
      "grad_norm": 0.06227787956595421,
      "learning_rate": 0.0007508595344838284,
      "loss": 0.2125,
      "step": 2438
    },
    {
      "epoch": 10.941176470588236,
      "grad_norm": 0.03483812138438225,
      "learning_rate": 0.0007506447435043875,
      "loss": 0.1751,
      "step": 2439
    },
    {
      "epoch": 10.945679707289614,
      "grad_norm": 0.0429140105843544,
      "learning_rate": 0.0007504298907286186,
      "loss": 0.2687,
      "step": 2440
    },
    {
      "epoch": 10.950182943990994,
      "grad_norm": 0.05145404487848282,
      "learning_rate": 0.0007502149762094939,
      "loss": 0.46,
      "step": 2441
    },
    {
      "epoch": 10.954686180692372,
      "grad_norm": 0.0999293401837349,
      "learning_rate": 0.00075,
      "loss": 0.1923,
      "step": 2442
    },
    {
      "epoch": 10.959189417393752,
      "grad_norm": 0.03870170935988426,
      "learning_rate": 0.0007497849621531395,
      "loss": 0.2523,
      "step": 2443
    },
    {
      "epoch": 10.96369265409513,
      "grad_norm": 0.05696319416165352,
      "learning_rate": 0.0007495698627219299,
      "loss": 0.1611,
      "step": 2444
    },
    {
      "epoch": 10.96819589079651,
      "grad_norm": 0.039302997291088104,
      "learning_rate": 0.0007493547017594036,
      "loss": 0.2687,
      "step": 2445
    },
    {
      "epoch": 10.97269912749789,
      "grad_norm": 0.07751357555389404,
      "learning_rate": 0.0007491394793186086,
      "loss": 0.1629,
      "step": 2446
    },
    {
      "epoch": 10.977202364199268,
      "grad_norm": 0.05938604101538658,
      "learning_rate": 0.0007489241954526079,
      "loss": 0.2669,
      "step": 2447
    },
    {
      "epoch": 10.981705600900646,
      "grad_norm": 0.08522454649209976,
      "learning_rate": 0.0007487088502144793,
      "loss": 0.5934,
      "step": 2448
    },
    {
      "epoch": 10.986208837602026,
      "grad_norm": 0.07057350128889084,
      "learning_rate": 0.0007484934436573165,
      "loss": 0.3309,
      "step": 2449
    },
    {
      "epoch": 10.990712074303406,
      "grad_norm": 0.08071473985910416,
      "learning_rate": 0.0007482779758342277,
      "loss": 0.1799,
      "step": 2450
    },
    {
      "epoch": 10.995215311004785,
      "grad_norm": 0.05251423269510269,
      "learning_rate": 0.0007480624467983361,
      "loss": 0.1307,
      "step": 2451
    },
    {
      "epoch": 10.999718547706165,
      "grad_norm": 0.03495193272829056,
      "learning_rate": 0.0007478468566027808,
      "loss": 0.1709,
      "step": 2452
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.03495193272829056,
      "learning_rate": 0.000747631205300715,
      "loss": 0.0148,
      "step": 2453
    },
    {
      "epoch": 11.0,
      "eval_f1": 0.9845907544526716,
      "eval_loss": 0.025670213624835014,
      "eval_runtime": 26.0833,
      "eval_samples_per_second": 191.617,
      "eval_steps_per_second": 6.019,
      "step": 2453
    },
    {
      "epoch": 11.00450323670138,
      "grad_norm": 0.03954986482858658,
      "learning_rate": 0.0007474154929453076,
      "loss": 0.0911,
      "step": 2454
    },
    {
      "epoch": 11.009006473402758,
      "grad_norm": 0.05747522786259651,
      "learning_rate": 0.0007471997195897425,
      "loss": 0.3631,
      "step": 2455
    },
    {
      "epoch": 11.013509710104138,
      "grad_norm": 0.06303751468658447,
      "learning_rate": 0.0007469838852872184,
      "loss": 0.1897,
      "step": 2456
    },
    {
      "epoch": 11.018012946805516,
      "grad_norm": 0.02553853951394558,
      "learning_rate": 0.0007467679900909489,
      "loss": 0.1278,
      "step": 2457
    },
    {
      "epoch": 11.022516183506896,
      "grad_norm": 0.0282453503459692,
      "learning_rate": 0.0007465520340541632,
      "loss": 0.1609,
      "step": 2458
    },
    {
      "epoch": 11.027019420208275,
      "grad_norm": 0.06510782986879349,
      "learning_rate": 0.0007463360172301048,
      "loss": 0.0949,
      "step": 2459
    },
    {
      "epoch": 11.031522656909655,
      "grad_norm": 0.04653576761484146,
      "learning_rate": 0.0007461199396720328,
      "loss": 0.2048,
      "step": 2460
    },
    {
      "epoch": 11.036025893611033,
      "grad_norm": 0.02240215428173542,
      "learning_rate": 0.0007459038014332209,
      "loss": 0.0628,
      "step": 2461
    },
    {
      "epoch": 11.040529130312413,
      "grad_norm": 0.04258202761411667,
      "learning_rate": 0.0007456876025669579,
      "loss": 0.0801,
      "step": 2462
    },
    {
      "epoch": 11.04503236701379,
      "grad_norm": 0.03712861239910126,
      "learning_rate": 0.0007454713431265475,
      "loss": 0.1295,
      "step": 2463
    },
    {
      "epoch": 11.04953560371517,
      "grad_norm": 0.03550327941775322,
      "learning_rate": 0.0007452550231653083,
      "loss": 0.0834,
      "step": 2464
    },
    {
      "epoch": 11.054038840416549,
      "grad_norm": 0.03796960413455963,
      "learning_rate": 0.0007450386427365741,
      "loss": 0.1155,
      "step": 2465
    },
    {
      "epoch": 11.058542077117929,
      "grad_norm": 0.05703643336892128,
      "learning_rate": 0.0007448222018936929,
      "loss": 0.1367,
      "step": 2466
    },
    {
      "epoch": 11.063045313819307,
      "grad_norm": 0.04055227339267731,
      "learning_rate": 0.0007446057006900286,
      "loss": 0.2156,
      "step": 2467
    },
    {
      "epoch": 11.067548550520687,
      "grad_norm": 0.04289466142654419,
      "learning_rate": 0.0007443891391789591,
      "loss": 0.0883,
      "step": 2468
    },
    {
      "epoch": 11.072051787222065,
      "grad_norm": 0.01545453630387783,
      "learning_rate": 0.0007441725174138778,
      "loss": 0.1358,
      "step": 2469
    },
    {
      "epoch": 11.076555023923445,
      "grad_norm": 0.09767184406518936,
      "learning_rate": 0.0007439558354481923,
      "loss": 0.1175,
      "step": 2470
    },
    {
      "epoch": 11.081058260624824,
      "grad_norm": 0.03710478916764259,
      "learning_rate": 0.0007437390933353259,
      "loss": 0.2175,
      "step": 2471
    },
    {
      "epoch": 11.085561497326204,
      "grad_norm": 0.02991439588367939,
      "learning_rate": 0.0007435222911287159,
      "loss": 0.1139,
      "step": 2472
    },
    {
      "epoch": 11.090064734027582,
      "grad_norm": 0.049733951687812805,
      "learning_rate": 0.0007433054288818149,
      "loss": 0.2372,
      "step": 2473
    },
    {
      "epoch": 11.094567970728962,
      "grad_norm": 0.025509975850582123,
      "learning_rate": 0.0007430885066480903,
      "loss": 0.1697,
      "step": 2474
    },
    {
      "epoch": 11.09907120743034,
      "grad_norm": 0.0762975737452507,
      "learning_rate": 0.0007428715244810238,
      "loss": 0.0928,
      "step": 2475
    },
    {
      "epoch": 11.10357444413172,
      "grad_norm": 0.03364270552992821,
      "learning_rate": 0.0007426544824341126,
      "loss": 0.0596,
      "step": 2476
    },
    {
      "epoch": 11.108077680833098,
      "grad_norm": 0.030731074512004852,
      "learning_rate": 0.0007424373805608681,
      "loss": 0.1177,
      "step": 2477
    },
    {
      "epoch": 11.112580917534478,
      "grad_norm": 0.05075474828481674,
      "learning_rate": 0.0007422202189148166,
      "loss": 0.0687,
      "step": 2478
    },
    {
      "epoch": 11.117084154235856,
      "grad_norm": 0.043622616678476334,
      "learning_rate": 0.0007420029975494996,
      "loss": 0.1226,
      "step": 2479
    },
    {
      "epoch": 11.121587390937236,
      "grad_norm": 0.04692355915904045,
      "learning_rate": 0.0007417857165184723,
      "loss": 0.1116,
      "step": 2480
    },
    {
      "epoch": 11.126090627638614,
      "grad_norm": 0.03648876026272774,
      "learning_rate": 0.0007415683758753056,
      "loss": 0.1184,
      "step": 2481
    },
    {
      "epoch": 11.130593864339994,
      "grad_norm": 0.06700985133647919,
      "learning_rate": 0.0007413509756735846,
      "loss": 0.033,
      "step": 2482
    },
    {
      "epoch": 11.135097101041373,
      "grad_norm": 0.030423017218708992,
      "learning_rate": 0.0007411335159669092,
      "loss": 0.1676,
      "step": 2483
    },
    {
      "epoch": 11.139600337742753,
      "grad_norm": 0.026642940938472748,
      "learning_rate": 0.0007409159968088942,
      "loss": 0.1194,
      "step": 2484
    },
    {
      "epoch": 11.144103574444133,
      "grad_norm": 0.05493389442563057,
      "learning_rate": 0.0007406984182531687,
      "loss": 0.1227,
      "step": 2485
    },
    {
      "epoch": 11.14860681114551,
      "grad_norm": 0.0348251648247242,
      "learning_rate": 0.0007404807803533764,
      "loss": 0.1619,
      "step": 2486
    },
    {
      "epoch": 11.15311004784689,
      "grad_norm": 0.04758727177977562,
      "learning_rate": 0.0007402630831631759,
      "loss": 0.0537,
      "step": 2487
    },
    {
      "epoch": 11.157613284548269,
      "grad_norm": 0.05342406406998634,
      "learning_rate": 0.0007400453267362403,
      "loss": 0.0909,
      "step": 2488
    },
    {
      "epoch": 11.162116521249649,
      "grad_norm": 0.06072809547185898,
      "learning_rate": 0.0007398275111262577,
      "loss": 0.1316,
      "step": 2489
    },
    {
      "epoch": 11.166619757951027,
      "grad_norm": 0.05408365651965141,
      "learning_rate": 0.0007396096363869298,
      "loss": 0.1314,
      "step": 2490
    },
    {
      "epoch": 11.171122994652407,
      "grad_norm": 0.07557924091815948,
      "learning_rate": 0.000739391702571974,
      "loss": 0.2261,
      "step": 2491
    },
    {
      "epoch": 11.175626231353785,
      "grad_norm": 0.05012860894203186,
      "learning_rate": 0.0007391737097351216,
      "loss": 0.1763,
      "step": 2492
    },
    {
      "epoch": 11.180129468055165,
      "grad_norm": 0.09762582182884216,
      "learning_rate": 0.0007389556579301185,
      "loss": 0.2431,
      "step": 2493
    },
    {
      "epoch": 11.184632704756543,
      "grad_norm": 0.05884184315800667,
      "learning_rate": 0.0007387375472107254,
      "loss": 0.1341,
      "step": 2494
    },
    {
      "epoch": 11.189135941457923,
      "grad_norm": 0.08545896410942078,
      "learning_rate": 0.0007385193776307175,
      "loss": 0.0865,
      "step": 2495
    },
    {
      "epoch": 11.193639178159302,
      "grad_norm": 0.12571965157985687,
      "learning_rate": 0.000738301149243884,
      "loss": 0.1539,
      "step": 2496
    },
    {
      "epoch": 11.198142414860682,
      "grad_norm": 0.051995065063238144,
      "learning_rate": 0.0007380828621040294,
      "loss": 0.1167,
      "step": 2497
    },
    {
      "epoch": 11.20264565156206,
      "grad_norm": 0.044894441962242126,
      "learning_rate": 0.0007378645162649719,
      "loss": 0.1343,
      "step": 2498
    },
    {
      "epoch": 11.20714888826344,
      "grad_norm": 0.04428713023662567,
      "learning_rate": 0.000737646111780545,
      "loss": 0.2164,
      "step": 2499
    },
    {
      "epoch": 11.211652124964818,
      "grad_norm": 0.03916269540786743,
      "learning_rate": 0.0007374276487045959,
      "loss": 0.199,
      "step": 2500
    },
    {
      "epoch": 11.216155361666198,
      "grad_norm": 0.08767496049404144,
      "learning_rate": 0.0007372091270909866,
      "loss": 0.5148,
      "step": 2501
    },
    {
      "epoch": 11.220658598367576,
      "grad_norm": 0.10932974517345428,
      "learning_rate": 0.0007369905469935935,
      "loss": 0.1126,
      "step": 2502
    },
    {
      "epoch": 11.225161835068956,
      "grad_norm": 0.038932107388973236,
      "learning_rate": 0.0007367719084663074,
      "loss": 0.1253,
      "step": 2503
    },
    {
      "epoch": 11.229665071770334,
      "grad_norm": 0.026796437799930573,
      "learning_rate": 0.0007365532115630336,
      "loss": 0.0501,
      "step": 2504
    },
    {
      "epoch": 11.234168308471714,
      "grad_norm": 0.017635934054851532,
      "learning_rate": 0.0007363344563376914,
      "loss": 0.0812,
      "step": 2505
    },
    {
      "epoch": 11.238671545173093,
      "grad_norm": 0.0327015183866024,
      "learning_rate": 0.0007361156428442153,
      "loss": 0.2321,
      "step": 2506
    },
    {
      "epoch": 11.243174781874473,
      "grad_norm": 0.07793612778186798,
      "learning_rate": 0.0007358967711365531,
      "loss": 0.0871,
      "step": 2507
    },
    {
      "epoch": 11.24767801857585,
      "grad_norm": 0.07075991481542587,
      "learning_rate": 0.0007356778412686679,
      "loss": 0.1309,
      "step": 2508
    },
    {
      "epoch": 11.25218125527723,
      "grad_norm": 0.053497765213251114,
      "learning_rate": 0.0007354588532945366,
      "loss": 0.0578,
      "step": 2509
    },
    {
      "epoch": 11.256684491978609,
      "grad_norm": 0.03600572422146797,
      "learning_rate": 0.0007352398072681506,
      "loss": 0.1082,
      "step": 2510
    },
    {
      "epoch": 11.261187728679989,
      "grad_norm": 0.06848575174808502,
      "learning_rate": 0.0007350207032435157,
      "loss": 0.1159,
      "step": 2511
    },
    {
      "epoch": 11.265690965381367,
      "grad_norm": 0.06165415421128273,
      "learning_rate": 0.0007348015412746515,
      "loss": 0.2063,
      "step": 2512
    },
    {
      "epoch": 11.270194202082747,
      "grad_norm": 0.06836362928152084,
      "learning_rate": 0.0007345823214155927,
      "loss": 0.1417,
      "step": 2513
    },
    {
      "epoch": 11.274697438784127,
      "grad_norm": 0.043425556272268295,
      "learning_rate": 0.0007343630437203876,
      "loss": 0.1199,
      "step": 2514
    },
    {
      "epoch": 11.279200675485505,
      "grad_norm": 0.028231775388121605,
      "learning_rate": 0.000734143708243099,
      "loss": 0.2582,
      "step": 2515
    },
    {
      "epoch": 11.283703912186885,
      "grad_norm": 0.08281897753477097,
      "learning_rate": 0.000733924315037804,
      "loss": 0.2058,
      "step": 2516
    },
    {
      "epoch": 11.288207148888263,
      "grad_norm": 0.0382046140730381,
      "learning_rate": 0.0007337048641585937,
      "loss": 0.1459,
      "step": 2517
    },
    {
      "epoch": 11.292710385589643,
      "grad_norm": 0.03811516612768173,
      "learning_rate": 0.000733485355659574,
      "loss": 0.1296,
      "step": 2518
    },
    {
      "epoch": 11.297213622291022,
      "grad_norm": 0.0511767715215683,
      "learning_rate": 0.0007332657895948643,
      "loss": 0.1391,
      "step": 2519
    },
    {
      "epoch": 11.301716858992402,
      "grad_norm": 0.05741105601191521,
      "learning_rate": 0.0007330461660185986,
      "loss": 0.1967,
      "step": 2520
    },
    {
      "epoch": 11.30622009569378,
      "grad_norm": 0.03016544319689274,
      "learning_rate": 0.0007328264849849248,
      "loss": 0.1011,
      "step": 2521
    },
    {
      "epoch": 11.31072333239516,
      "grad_norm": 0.04120498150587082,
      "learning_rate": 0.0007326067465480055,
      "loss": 0.123,
      "step": 2522
    },
    {
      "epoch": 11.315226569096538,
      "grad_norm": 0.046677689999341965,
      "learning_rate": 0.0007323869507620169,
      "loss": 0.216,
      "step": 2523
    },
    {
      "epoch": 11.319729805797918,
      "grad_norm": 0.06476197391748428,
      "learning_rate": 0.0007321670976811492,
      "loss": 0.1598,
      "step": 2524
    },
    {
      "epoch": 11.324233042499296,
      "grad_norm": 0.029870709404349327,
      "learning_rate": 0.0007319471873596076,
      "loss": 0.0662,
      "step": 2525
    },
    {
      "epoch": 11.328736279200676,
      "grad_norm": 0.026445144787430763,
      "learning_rate": 0.0007317272198516106,
      "loss": 0.1378,
      "step": 2526
    },
    {
      "epoch": 11.333239515902054,
      "grad_norm": 0.04803525283932686,
      "learning_rate": 0.000731507195211391,
      "loss": 0.2047,
      "step": 2527
    },
    {
      "epoch": 11.337742752603434,
      "grad_norm": 0.09012172371149063,
      "learning_rate": 0.000731287113493196,
      "loss": 0.1267,
      "step": 2528
    },
    {
      "epoch": 11.342245989304812,
      "grad_norm": 0.051939334720373154,
      "learning_rate": 0.0007310669747512865,
      "loss": 0.0522,
      "step": 2529
    },
    {
      "epoch": 11.346749226006192,
      "grad_norm": 0.016112731769680977,
      "learning_rate": 0.0007308467790399375,
      "loss": 0.0379,
      "step": 2530
    },
    {
      "epoch": 11.35125246270757,
      "grad_norm": 0.021884523332118988,
      "learning_rate": 0.0007306265264134384,
      "loss": 0.2075,
      "step": 2531
    },
    {
      "epoch": 11.35575569940895,
      "grad_norm": 0.06233549863100052,
      "learning_rate": 0.0007304062169260921,
      "loss": 0.1444,
      "step": 2532
    },
    {
      "epoch": 11.360258936110329,
      "grad_norm": 0.07067837566137314,
      "learning_rate": 0.0007301858506322159,
      "loss": 0.1872,
      "step": 2533
    },
    {
      "epoch": 11.364762172811709,
      "grad_norm": 0.06894746422767639,
      "learning_rate": 0.0007299654275861409,
      "loss": 0.202,
      "step": 2534
    },
    {
      "epoch": 11.369265409513087,
      "grad_norm": 0.07810939103364944,
      "learning_rate": 0.0007297449478422124,
      "loss": 0.0915,
      "step": 2535
    },
    {
      "epoch": 11.373768646214467,
      "grad_norm": 0.05276015028357506,
      "learning_rate": 0.0007295244114547897,
      "loss": 0.0624,
      "step": 2536
    },
    {
      "epoch": 11.378271882915845,
      "grad_norm": 0.015940813347697258,
      "learning_rate": 0.0007293038184782454,
      "loss": 0.1517,
      "step": 2537
    },
    {
      "epoch": 11.382775119617225,
      "grad_norm": 0.07906308770179749,
      "learning_rate": 0.0007290831689669672,
      "loss": 0.2173,
      "step": 2538
    },
    {
      "epoch": 11.387278356318603,
      "grad_norm": 0.09912394732236862,
      "learning_rate": 0.0007288624629753558,
      "loss": 0.1264,
      "step": 2539
    },
    {
      "epoch": 11.391781593019983,
      "grad_norm": 0.03396051749587059,
      "learning_rate": 0.0007286417005578261,
      "loss": 0.0555,
      "step": 2540
    },
    {
      "epoch": 11.396284829721361,
      "grad_norm": 0.06695876270532608,
      "learning_rate": 0.0007284208817688072,
      "loss": 0.1214,
      "step": 2541
    },
    {
      "epoch": 11.400788066422741,
      "grad_norm": 0.1256123036146164,
      "learning_rate": 0.0007282000066627416,
      "loss": 0.2559,
      "step": 2542
    },
    {
      "epoch": 11.40529130312412,
      "grad_norm": 0.08746019750833511,
      "learning_rate": 0.000727979075294086,
      "loss": 0.1785,
      "step": 2543
    },
    {
      "epoch": 11.4097945398255,
      "grad_norm": 0.0464242547750473,
      "learning_rate": 0.000727758087717311,
      "loss": 0.2186,
      "step": 2544
    },
    {
      "epoch": 11.41429777652688,
      "grad_norm": 0.08202636986970901,
      "learning_rate": 0.000727537043986901,
      "loss": 0.3857,
      "step": 2545
    },
    {
      "epoch": 11.418801013228258,
      "grad_norm": 0.08953353762626648,
      "learning_rate": 0.000727315944157354,
      "loss": 0.1768,
      "step": 2546
    },
    {
      "epoch": 11.423304249929638,
      "grad_norm": 0.049441251903772354,
      "learning_rate": 0.0007270947882831822,
      "loss": 0.0779,
      "step": 2547
    },
    {
      "epoch": 11.427807486631016,
      "grad_norm": 0.059575408697128296,
      "learning_rate": 0.0007268735764189116,
      "loss": 0.1785,
      "step": 2548
    },
    {
      "epoch": 11.432310723332396,
      "grad_norm": 0.13132132589817047,
      "learning_rate": 0.0007266523086190816,
      "loss": 0.179,
      "step": 2549
    },
    {
      "epoch": 11.436813960033774,
      "grad_norm": 0.048474013805389404,
      "learning_rate": 0.0007264309849382459,
      "loss": 0.0674,
      "step": 2550
    },
    {
      "epoch": 11.441317196735154,
      "grad_norm": 0.05859615281224251,
      "learning_rate": 0.0007262096054309714,
      "loss": 0.3404,
      "step": 2551
    },
    {
      "epoch": 11.445820433436532,
      "grad_norm": 0.06347058713436127,
      "learning_rate": 0.0007259881701518395,
      "loss": 0.1955,
      "step": 2552
    },
    {
      "epoch": 11.450323670137912,
      "grad_norm": 0.1835005134344101,
      "learning_rate": 0.0007257666791554447,
      "loss": 0.2939,
      "step": 2553
    },
    {
      "epoch": 11.45482690683929,
      "grad_norm": 0.04689846932888031,
      "learning_rate": 0.0007255451324963955,
      "loss": 0.0323,
      "step": 2554
    },
    {
      "epoch": 11.45933014354067,
      "grad_norm": 0.014190738089382648,
      "learning_rate": 0.0007253235302293142,
      "loss": 0.1912,
      "step": 2555
    },
    {
      "epoch": 11.463833380242049,
      "grad_norm": 0.0260294321924448,
      "learning_rate": 0.0007251018724088366,
      "loss": 0.0955,
      "step": 2556
    },
    {
      "epoch": 11.468336616943429,
      "grad_norm": 0.056263480335474014,
      "learning_rate": 0.0007248801590896126,
      "loss": 0.3171,
      "step": 2557
    },
    {
      "epoch": 11.472839853644807,
      "grad_norm": 0.19532085955142975,
      "learning_rate": 0.0007246583903263051,
      "loss": 0.2912,
      "step": 2558
    },
    {
      "epoch": 11.477343090346187,
      "grad_norm": 0.08604269474744797,
      "learning_rate": 0.0007244365661735914,
      "loss": 0.1764,
      "step": 2559
    },
    {
      "epoch": 11.481846327047565,
      "grad_norm": 0.05747193843126297,
      "learning_rate": 0.0007242146866861619,
      "loss": 0.2588,
      "step": 2560
    },
    {
      "epoch": 11.486349563748945,
      "grad_norm": 0.09251751750707626,
      "learning_rate": 0.0007239927519187209,
      "loss": 0.3647,
      "step": 2561
    },
    {
      "epoch": 11.490852800450323,
      "grad_norm": 0.09273235499858856,
      "learning_rate": 0.0007237707619259865,
      "loss": 0.2179,
      "step": 2562
    },
    {
      "epoch": 11.495356037151703,
      "grad_norm": 0.040312595665454865,
      "learning_rate": 0.00072354871676269,
      "loss": 0.2079,
      "step": 2563
    },
    {
      "epoch": 11.499859273853081,
      "grad_norm": 0.04385344311594963,
      "learning_rate": 0.0007233266164835765,
      "loss": 0.0863,
      "step": 2564
    },
    {
      "epoch": 11.504362510554461,
      "grad_norm": 0.03771580010652542,
      "learning_rate": 0.0007231044611434048,
      "loss": 0.1104,
      "step": 2565
    },
    {
      "epoch": 11.50886574725584,
      "grad_norm": 0.030479753389954567,
      "learning_rate": 0.0007228822507969472,
      "loss": 0.2425,
      "step": 2566
    },
    {
      "epoch": 11.51336898395722,
      "grad_norm": 0.06123333051800728,
      "learning_rate": 0.0007226599854989897,
      "loss": 0.1307,
      "step": 2567
    },
    {
      "epoch": 11.517872220658598,
      "grad_norm": 0.06322381645441055,
      "learning_rate": 0.0007224376653043314,
      "loss": 0.3609,
      "step": 2568
    },
    {
      "epoch": 11.522375457359978,
      "grad_norm": 0.04361942037940025,
      "learning_rate": 0.0007222152902677853,
      "loss": 0.1656,
      "step": 2569
    },
    {
      "epoch": 11.526878694061356,
      "grad_norm": 0.048002783209085464,
      "learning_rate": 0.0007219928604441779,
      "loss": 0.2064,
      "step": 2570
    },
    {
      "epoch": 11.531381930762736,
      "grad_norm": 0.042636189609766006,
      "learning_rate": 0.0007217703758883491,
      "loss": 0.1284,
      "step": 2571
    },
    {
      "epoch": 11.535885167464114,
      "grad_norm": 0.05750741437077522,
      "learning_rate": 0.0007215478366551524,
      "loss": 0.2732,
      "step": 2572
    },
    {
      "epoch": 11.540388404165494,
      "grad_norm": 0.18320214748382568,
      "learning_rate": 0.0007213252427994548,
      "loss": 0.3433,
      "step": 2573
    },
    {
      "epoch": 11.544891640866872,
      "grad_norm": 0.05905821919441223,
      "learning_rate": 0.0007211025943761367,
      "loss": 0.1376,
      "step": 2574
    },
    {
      "epoch": 11.549394877568252,
      "grad_norm": 0.06649275869131088,
      "learning_rate": 0.0007208798914400916,
      "loss": 0.1561,
      "step": 2575
    },
    {
      "epoch": 11.553898114269632,
      "grad_norm": 0.055338285863399506,
      "learning_rate": 0.0007206571340462272,
      "loss": 0.2987,
      "step": 2576
    },
    {
      "epoch": 11.55840135097101,
      "grad_norm": 0.07450004667043686,
      "learning_rate": 0.000720434322249464,
      "loss": 0.1711,
      "step": 2577
    },
    {
      "epoch": 11.562904587672389,
      "grad_norm": 0.04787197336554527,
      "learning_rate": 0.0007202114561047362,
      "loss": 0.2303,
      "step": 2578
    },
    {
      "epoch": 11.567407824373769,
      "grad_norm": 0.09524595737457275,
      "learning_rate": 0.0007199885356669913,
      "loss": 0.3808,
      "step": 2579
    },
    {
      "epoch": 11.571911061075149,
      "grad_norm": 0.10373654961585999,
      "learning_rate": 0.0007197655609911904,
      "loss": 0.2269,
      "step": 2580
    },
    {
      "epoch": 11.576414297776527,
      "grad_norm": 0.04513859003782272,
      "learning_rate": 0.0007195425321323075,
      "loss": 0.168,
      "step": 2581
    },
    {
      "epoch": 11.580917534477907,
      "grad_norm": 0.05174409598112106,
      "learning_rate": 0.0007193194491453305,
      "loss": 0.1703,
      "step": 2582
    },
    {
      "epoch": 11.585420771179285,
      "grad_norm": 0.03500627726316452,
      "learning_rate": 0.0007190963120852601,
      "loss": 0.1518,
      "step": 2583
    },
    {
      "epoch": 11.589924007880665,
      "grad_norm": 0.04465150460600853,
      "learning_rate": 0.0007188731210071107,
      "loss": 0.2125,
      "step": 2584
    },
    {
      "epoch": 11.594427244582043,
      "grad_norm": 0.07352469861507416,
      "learning_rate": 0.0007186498759659103,
      "loss": 0.131,
      "step": 2585
    },
    {
      "epoch": 11.598930481283423,
      "grad_norm": 0.04099336266517639,
      "learning_rate": 0.0007184265770166994,
      "loss": 0.1076,
      "step": 2586
    },
    {
      "epoch": 11.603433717984801,
      "grad_norm": 0.26880794763565063,
      "learning_rate": 0.0007182032242145324,
      "loss": 0.2991,
      "step": 2587
    },
    {
      "epoch": 11.607936954686181,
      "grad_norm": 0.05455533787608147,
      "learning_rate": 0.0007179798176144771,
      "loss": 0.2683,
      "step": 2588
    },
    {
      "epoch": 11.61244019138756,
      "grad_norm": 0.05498657003045082,
      "learning_rate": 0.0007177563572716137,
      "loss": 0.1228,
      "step": 2589
    },
    {
      "epoch": 11.61694342808894,
      "grad_norm": 0.031142553314566612,
      "learning_rate": 0.0007175328432410367,
      "loss": 0.1093,
      "step": 2590
    },
    {
      "epoch": 11.621446664790318,
      "grad_norm": 0.03831448033452034,
      "learning_rate": 0.000717309275577853,
      "loss": 0.1056,
      "step": 2591
    },
    {
      "epoch": 11.625949901491698,
      "grad_norm": 0.030979063361883163,
      "learning_rate": 0.0007170856543371835,
      "loss": 0.0636,
      "step": 2592
    },
    {
      "epoch": 11.630453138193076,
      "grad_norm": 0.08727655559778214,
      "learning_rate": 0.0007168619795741615,
      "loss": 0.2413,
      "step": 2593
    },
    {
      "epoch": 11.634956374894456,
      "grad_norm": 0.05288998410105705,
      "learning_rate": 0.0007166382513439343,
      "loss": 0.3847,
      "step": 2594
    },
    {
      "epoch": 11.639459611595834,
      "grad_norm": 0.08515091240406036,
      "learning_rate": 0.0007164144697016616,
      "loss": 0.3549,
      "step": 2595
    },
    {
      "epoch": 11.643962848297214,
      "grad_norm": 0.38888680934906006,
      "learning_rate": 0.0007161906347025169,
      "loss": 0.2847,
      "step": 2596
    },
    {
      "epoch": 11.648466084998592,
      "grad_norm": 0.03881511464715004,
      "learning_rate": 0.0007159667464016865,
      "loss": 0.1188,
      "step": 2597
    },
    {
      "epoch": 11.652969321699972,
      "grad_norm": 0.10683295130729675,
      "learning_rate": 0.0007157428048543698,
      "loss": 0.2569,
      "step": 2598
    },
    {
      "epoch": 11.65747255840135,
      "grad_norm": 0.046675801277160645,
      "learning_rate": 0.0007155188101157797,
      "loss": 0.2495,
      "step": 2599
    },
    {
      "epoch": 11.66197579510273,
      "grad_norm": 0.1566818803548813,
      "learning_rate": 0.0007152947622411418,
      "loss": 0.1497,
      "step": 2600
    },
    {
      "epoch": 11.666479031804109,
      "grad_norm": 0.0316009521484375,
      "learning_rate": 0.0007150706612856952,
      "loss": 0.1405,
      "step": 2601
    },
    {
      "epoch": 11.670982268505488,
      "grad_norm": 0.073332779109478,
      "learning_rate": 0.0007148465073046917,
      "loss": 0.1319,
      "step": 2602
    },
    {
      "epoch": 11.675485505206867,
      "grad_norm": 0.13901029527187347,
      "learning_rate": 0.0007146223003533964,
      "loss": 0.1798,
      "step": 2603
    },
    {
      "epoch": 11.679988741908247,
      "grad_norm": 0.11418351531028748,
      "learning_rate": 0.0007143980404870874,
      "loss": 0.4207,
      "step": 2604
    },
    {
      "epoch": 11.684491978609625,
      "grad_norm": 0.12423431128263474,
      "learning_rate": 0.0007141737277610559,
      "loss": 0.1334,
      "step": 2605
    },
    {
      "epoch": 11.688995215311005,
      "grad_norm": 0.037262436002492905,
      "learning_rate": 0.0007139493622306059,
      "loss": 0.2163,
      "step": 2606
    },
    {
      "epoch": 11.693498452012385,
      "grad_norm": 0.06963760405778885,
      "learning_rate": 0.0007137249439510548,
      "loss": 0.2358,
      "step": 2607
    },
    {
      "epoch": 11.698001688713763,
      "grad_norm": 0.0697629302740097,
      "learning_rate": 0.0007135004729777328,
      "loss": 0.22,
      "step": 2608
    },
    {
      "epoch": 11.702504925415141,
      "grad_norm": 0.04927131161093712,
      "learning_rate": 0.0007132759493659828,
      "loss": 0.2464,
      "step": 2609
    },
    {
      "epoch": 11.707008162116521,
      "grad_norm": 0.10986299067735672,
      "learning_rate": 0.0007130513731711615,
      "loss": 0.1845,
      "step": 2610
    },
    {
      "epoch": 11.711511398817901,
      "grad_norm": 0.18604061007499695,
      "learning_rate": 0.0007128267444486377,
      "loss": 0.3621,
      "step": 2611
    },
    {
      "epoch": 11.71601463551928,
      "grad_norm": 0.0897548720240593,
      "learning_rate": 0.0007126020632537935,
      "loss": 0.1627,
      "step": 2612
    },
    {
      "epoch": 11.72051787222066,
      "grad_norm": 0.08401378989219666,
      "learning_rate": 0.000712377329642024,
      "loss": 0.4299,
      "step": 2613
    },
    {
      "epoch": 11.725021108922038,
      "grad_norm": 0.18011607229709625,
      "learning_rate": 0.0007121525436687371,
      "loss": 0.086,
      "step": 2614
    },
    {
      "epoch": 11.729524345623418,
      "grad_norm": 0.07261025160551071,
      "learning_rate": 0.0007119277053893536,
      "loss": 0.3717,
      "step": 2615
    },
    {
      "epoch": 11.734027582324796,
      "grad_norm": 0.07622221857309341,
      "learning_rate": 0.0007117028148593075,
      "loss": 0.2171,
      "step": 2616
    },
    {
      "epoch": 11.738530819026176,
      "grad_norm": 0.08239344507455826,
      "learning_rate": 0.0007114778721340452,
      "loss": 0.1466,
      "step": 2617
    },
    {
      "epoch": 11.743034055727554,
      "grad_norm": 0.101324662566185,
      "learning_rate": 0.0007112528772690263,
      "loss": 0.2111,
      "step": 2618
    },
    {
      "epoch": 11.747537292428934,
      "grad_norm": 0.17328280210494995,
      "learning_rate": 0.0007110278303197232,
      "loss": 0.3527,
      "step": 2619
    },
    {
      "epoch": 11.752040529130312,
      "grad_norm": 0.04610591009259224,
      "learning_rate": 0.000710802731341621,
      "loss": 0.1791,
      "step": 2620
    },
    {
      "epoch": 11.756543765831692,
      "grad_norm": 0.06493724882602692,
      "learning_rate": 0.0007105775803902178,
      "loss": 0.2595,
      "step": 2621
    },
    {
      "epoch": 11.76104700253307,
      "grad_norm": 0.1148054227232933,
      "learning_rate": 0.0007103523775210246,
      "loss": 0.292,
      "step": 2622
    },
    {
      "epoch": 11.76555023923445,
      "grad_norm": 0.05878845602273941,
      "learning_rate": 0.0007101271227895646,
      "loss": 0.2712,
      "step": 2623
    },
    {
      "epoch": 11.770053475935828,
      "grad_norm": 0.06047752499580383,
      "learning_rate": 0.0007099018162513748,
      "loss": 0.1385,
      "step": 2624
    },
    {
      "epoch": 11.774556712637208,
      "grad_norm": 0.06557833403348923,
      "learning_rate": 0.000709676457962004,
      "loss": 0.2572,
      "step": 2625
    },
    {
      "epoch": 11.779059949338587,
      "grad_norm": 0.04250669106841087,
      "learning_rate": 0.0007094510479770144,
      "loss": 0.247,
      "step": 2626
    },
    {
      "epoch": 11.783563186039967,
      "grad_norm": 0.06071401759982109,
      "learning_rate": 0.0007092255863519805,
      "loss": 0.2808,
      "step": 2627
    },
    {
      "epoch": 11.788066422741345,
      "grad_norm": 0.09799616783857346,
      "learning_rate": 0.0007090000731424899,
      "loss": 0.2691,
      "step": 2628
    },
    {
      "epoch": 11.792569659442725,
      "grad_norm": 0.06475330889225006,
      "learning_rate": 0.0007087745084041428,
      "loss": 0.2035,
      "step": 2629
    },
    {
      "epoch": 11.797072896144103,
      "grad_norm": 0.06687426567077637,
      "learning_rate": 0.0007085488921925519,
      "loss": 0.2583,
      "step": 2630
    },
    {
      "epoch": 11.801576132845483,
      "grad_norm": 0.08527737110853195,
      "learning_rate": 0.0007083232245633428,
      "loss": 0.1932,
      "step": 2631
    },
    {
      "epoch": 11.806079369546861,
      "grad_norm": 0.04775992035865784,
      "learning_rate": 0.0007080975055721538,
      "loss": 0.1814,
      "step": 2632
    },
    {
      "epoch": 11.810582606248241,
      "grad_norm": 0.07511933892965317,
      "learning_rate": 0.0007078717352746359,
      "loss": 0.2151,
      "step": 2633
    },
    {
      "epoch": 11.81508584294962,
      "grad_norm": 0.06847228109836578,
      "learning_rate": 0.0007076459137264524,
      "loss": 0.1933,
      "step": 2634
    },
    {
      "epoch": 11.819589079651,
      "grad_norm": 0.058003347367048264,
      "learning_rate": 0.0007074200409832796,
      "loss": 0.2641,
      "step": 2635
    },
    {
      "epoch": 11.824092316352377,
      "grad_norm": 0.13349030911922455,
      "learning_rate": 0.0007071941171008062,
      "loss": 0.2605,
      "step": 2636
    },
    {
      "epoch": 11.828595553053757,
      "grad_norm": 0.047262612730264664,
      "learning_rate": 0.000706968142134734,
      "loss": 0.0866,
      "step": 2637
    },
    {
      "epoch": 11.833098789755137,
      "grad_norm": 0.09219563007354736,
      "learning_rate": 0.0007067421161407765,
      "loss": 0.1444,
      "step": 2638
    },
    {
      "epoch": 11.837602026456516,
      "grad_norm": 0.09455970674753189,
      "learning_rate": 0.0007065160391746606,
      "loss": 0.1416,
      "step": 2639
    },
    {
      "epoch": 11.842105263157894,
      "grad_norm": 0.04502265155315399,
      "learning_rate": 0.0007062899112921251,
      "loss": 0.2258,
      "step": 2640
    },
    {
      "epoch": 11.846608499859274,
      "grad_norm": 0.08059521019458771,
      "learning_rate": 0.0007060637325489223,
      "loss": 0.4131,
      "step": 2641
    },
    {
      "epoch": 11.851111736560654,
      "grad_norm": 0.1810845583677292,
      "learning_rate": 0.0007058375030008161,
      "loss": 0.2568,
      "step": 2642
    },
    {
      "epoch": 11.855614973262032,
      "grad_norm": 0.11759927123785019,
      "learning_rate": 0.0007056112227035831,
      "loss": 0.2722,
      "step": 2643
    },
    {
      "epoch": 11.860118209963412,
      "grad_norm": 0.09010906517505646,
      "learning_rate": 0.000705384891713013,
      "loss": 0.2582,
      "step": 2644
    },
    {
      "epoch": 11.86462144666479,
      "grad_norm": 0.10223972797393799,
      "learning_rate": 0.0007051585100849073,
      "loss": 0.071,
      "step": 2645
    },
    {
      "epoch": 11.86912468336617,
      "grad_norm": 0.05971799045801163,
      "learning_rate": 0.0007049320778750803,
      "loss": 0.3123,
      "step": 2646
    },
    {
      "epoch": 11.873627920067548,
      "grad_norm": 0.054995760321617126,
      "learning_rate": 0.0007047055951393588,
      "loss": 0.0741,
      "step": 2647
    },
    {
      "epoch": 11.878131156768928,
      "grad_norm": 0.05485082417726517,
      "learning_rate": 0.000704479061933582,
      "loss": 0.1185,
      "step": 2648
    },
    {
      "epoch": 11.882634393470306,
      "grad_norm": 0.033901870250701904,
      "learning_rate": 0.0007042524783136016,
      "loss": 0.1513,
      "step": 2649
    },
    {
      "epoch": 11.887137630171686,
      "grad_norm": 0.07445435971021652,
      "learning_rate": 0.0007040258443352814,
      "loss": 0.2179,
      "step": 2650
    },
    {
      "epoch": 11.891640866873065,
      "grad_norm": 0.06460537761449814,
      "learning_rate": 0.0007037991600544982,
      "loss": 0.1026,
      "step": 2651
    },
    {
      "epoch": 11.896144103574445,
      "grad_norm": 0.030863840132951736,
      "learning_rate": 0.0007035724255271407,
      "loss": 0.2119,
      "step": 2652
    },
    {
      "epoch": 11.900647340275823,
      "grad_norm": 0.06641554087400436,
      "learning_rate": 0.0007033456408091103,
      "loss": 0.1682,
      "step": 2653
    },
    {
      "epoch": 11.905150576977203,
      "grad_norm": 0.07275281846523285,
      "learning_rate": 0.0007031188059563205,
      "loss": 0.2596,
      "step": 2654
    },
    {
      "epoch": 11.909653813678581,
      "grad_norm": 0.06456328183412552,
      "learning_rate": 0.0007028919210246975,
      "loss": 0.3647,
      "step": 2655
    },
    {
      "epoch": 11.914157050379961,
      "grad_norm": 0.09321627765893936,
      "learning_rate": 0.0007026649860701796,
      "loss": 0.2552,
      "step": 2656
    },
    {
      "epoch": 11.91866028708134,
      "grad_norm": 0.04582946375012398,
      "learning_rate": 0.0007024380011487173,
      "loss": 0.193,
      "step": 2657
    },
    {
      "epoch": 11.92316352378272,
      "grad_norm": 0.06090728938579559,
      "learning_rate": 0.0007022109663162738,
      "loss": 0.3498,
      "step": 2658
    },
    {
      "epoch": 11.927666760484097,
      "grad_norm": 0.07098215818405151,
      "learning_rate": 0.0007019838816288245,
      "loss": 0.1871,
      "step": 2659
    },
    {
      "epoch": 11.932169997185477,
      "grad_norm": 0.05266107618808746,
      "learning_rate": 0.0007017567471423569,
      "loss": 0.1743,
      "step": 2660
    },
    {
      "epoch": 11.936673233886856,
      "grad_norm": 0.0432446151971817,
      "learning_rate": 0.0007015295629128707,
      "loss": 0.2812,
      "step": 2661
    },
    {
      "epoch": 11.941176470588236,
      "grad_norm": 0.06888581067323685,
      "learning_rate": 0.0007013023289963783,
      "loss": 0.1336,
      "step": 2662
    },
    {
      "epoch": 11.945679707289614,
      "grad_norm": 0.0495595782995224,
      "learning_rate": 0.0007010750454489042,
      "loss": 0.1407,
      "step": 2663
    },
    {
      "epoch": 11.950182943990994,
      "grad_norm": 0.04253406450152397,
      "learning_rate": 0.0007008477123264848,
      "loss": 0.2602,
      "step": 2664
    },
    {
      "epoch": 11.954686180692372,
      "grad_norm": 0.07177455723285675,
      "learning_rate": 0.000700620329685169,
      "loss": 0.1105,
      "step": 2665
    },
    {
      "epoch": 11.959189417393752,
      "grad_norm": 0.0514201894402504,
      "learning_rate": 0.0007003928975810179,
      "loss": 0.1953,
      "step": 2666
    },
    {
      "epoch": 11.96369265409513,
      "grad_norm": 0.04864306002855301,
      "learning_rate": 0.0007001654160701047,
      "loss": 0.1572,
      "step": 2667
    },
    {
      "epoch": 11.96819589079651,
      "grad_norm": 0.06675352156162262,
      "learning_rate": 0.000699937885208515,
      "loss": 0.3263,
      "step": 2668
    },
    {
      "epoch": 11.97269912749789,
      "grad_norm": 0.07646876573562622,
      "learning_rate": 0.0006997103050523461,
      "loss": 0.1061,
      "step": 2669
    },
    {
      "epoch": 11.977202364199268,
      "grad_norm": 0.0649329274892807,
      "learning_rate": 0.0006994826756577081,
      "loss": 0.301,
      "step": 2670
    },
    {
      "epoch": 11.981705600900646,
      "grad_norm": 0.049600210040807724,
      "learning_rate": 0.0006992549970807231,
      "loss": 0.2301,
      "step": 2671
    },
    {
      "epoch": 11.986208837602026,
      "grad_norm": 0.07125610113143921,
      "learning_rate": 0.0006990272693775244,
      "loss": 0.1778,
      "step": 2672
    },
    {
      "epoch": 11.990712074303406,
      "grad_norm": 0.03615862503647804,
      "learning_rate": 0.0006987994926042588,
      "loss": 0.1168,
      "step": 2673
    },
    {
      "epoch": 11.995215311004785,
      "grad_norm": 0.08087661117315292,
      "learning_rate": 0.0006985716668170841,
      "loss": 0.3099,
      "step": 2674
    },
    {
      "epoch": 11.999718547706165,
      "grad_norm": 0.055212557315826416,
      "learning_rate": 0.000698343792072171,
      "loss": 0.2218,
      "step": 2675
    },
    {
      "epoch": 12.0,
      "grad_norm": 0.055212557315826416,
      "learning_rate": 0.0006981158684257017,
      "loss": 0.0005,
      "step": 2676
    },
    {
      "epoch": 12.0,
      "eval_f1": 0.9821857485988791,
      "eval_loss": 0.030538026243448257,
      "eval_runtime": 26.1866,
      "eval_samples_per_second": 190.861,
      "eval_steps_per_second": 5.995,
      "step": 2676
    },
    {
      "epoch": 12.00450323670138,
      "grad_norm": 0.1160721629858017,
      "learning_rate": 0.0006978878959338707,
      "loss": 0.0828,
      "step": 2677
    },
    {
      "epoch": 12.009006473402758,
      "grad_norm": 0.034506142139434814,
      "learning_rate": 0.0006976598746528845,
      "loss": 0.2173,
      "step": 2678
    },
    {
      "epoch": 12.013509710104138,
      "grad_norm": 0.14943662285804749,
      "learning_rate": 0.0006974318046389616,
      "loss": 0.1936,
      "step": 2679
    },
    {
      "epoch": 12.018012946805516,
      "grad_norm": 0.06472764164209366,
      "learning_rate": 0.0006972036859483325,
      "loss": 0.1248,
      "step": 2680
    },
    {
      "epoch": 12.022516183506896,
      "grad_norm": 0.037369899451732635,
      "learning_rate": 0.0006969755186372398,
      "loss": 0.2288,
      "step": 2681
    },
    {
      "epoch": 12.027019420208275,
      "grad_norm": 0.04824294149875641,
      "learning_rate": 0.0006967473027619381,
      "loss": 0.1878,
      "step": 2682
    },
    {
      "epoch": 12.031522656909655,
      "grad_norm": 0.09111695736646652,
      "learning_rate": 0.0006965190383786937,
      "loss": 0.0395,
      "step": 2683
    },
    {
      "epoch": 12.036025893611033,
      "grad_norm": 0.04457693547010422,
      "learning_rate": 0.0006962907255437852,
      "loss": 0.3533,
      "step": 2684
    },
    {
      "epoch": 12.040529130312413,
      "grad_norm": 0.08246110379695892,
      "learning_rate": 0.0006960623643135031,
      "loss": 0.0408,
      "step": 2685
    },
    {
      "epoch": 12.04503236701379,
      "grad_norm": 0.03680215775966644,
      "learning_rate": 0.0006958339547441496,
      "loss": 0.2756,
      "step": 2686
    },
    {
      "epoch": 12.04953560371517,
      "grad_norm": 0.042563579976558685,
      "learning_rate": 0.0006956054968920389,
      "loss": 0.1321,
      "step": 2687
    },
    {
      "epoch": 12.054038840416549,
      "grad_norm": 0.12738150358200073,
      "learning_rate": 0.0006953769908134973,
      "loss": 0.1956,
      "step": 2688
    },
    {
      "epoch": 12.058542077117929,
      "grad_norm": 0.05376189202070236,
      "learning_rate": 0.0006951484365648629,
      "loss": 0.0788,
      "step": 2689
    },
    {
      "epoch": 12.063045313819307,
      "grad_norm": 0.017291419208049774,
      "learning_rate": 0.0006949198342024853,
      "loss": 0.1374,
      "step": 2690
    },
    {
      "epoch": 12.067548550520687,
      "grad_norm": 0.035474326461553574,
      "learning_rate": 0.0006946911837827267,
      "loss": 0.251,
      "step": 2691
    },
    {
      "epoch": 12.072051787222065,
      "grad_norm": 0.18715070188045502,
      "learning_rate": 0.0006944624853619605,
      "loss": 0.2686,
      "step": 2692
    },
    {
      "epoch": 12.076555023923445,
      "grad_norm": 0.09961500018835068,
      "learning_rate": 0.0006942337389965723,
      "loss": 0.2708,
      "step": 2693
    },
    {
      "epoch": 12.081058260624824,
      "grad_norm": 0.05779016762971878,
      "learning_rate": 0.000694004944742959,
      "loss": 0.0929,
      "step": 2694
    },
    {
      "epoch": 12.085561497326204,
      "grad_norm": 0.011177901178598404,
      "learning_rate": 0.0006937761026575304,
      "loss": 0.0556,
      "step": 2695
    },
    {
      "epoch": 12.090064734027582,
      "grad_norm": 0.03366584703326225,
      "learning_rate": 0.0006935472127967069,
      "loss": 0.2902,
      "step": 2696
    },
    {
      "epoch": 12.094567970728962,
      "grad_norm": 0.034922245889902115,
      "learning_rate": 0.0006933182752169213,
      "loss": 0.0675,
      "step": 2697
    },
    {
      "epoch": 12.09907120743034,
      "grad_norm": 0.061307430267333984,
      "learning_rate": 0.000693089289974618,
      "loss": 0.2001,
      "step": 2698
    },
    {
      "epoch": 12.10357444413172,
      "grad_norm": 0.08849992603063583,
      "learning_rate": 0.0006928602571262532,
      "loss": 0.1603,
      "step": 2699
    },
    {
      "epoch": 12.108077680833098,
      "grad_norm": 0.1485794484615326,
      "learning_rate": 0.0006926311767282951,
      "loss": 0.0867,
      "step": 2700
    },
    {
      "epoch": 12.112580917534478,
      "grad_norm": 0.05517524853348732,
      "learning_rate": 0.000692402048837223,
      "loss": 0.1442,
      "step": 2701
    },
    {
      "epoch": 12.117084154235856,
      "grad_norm": 0.0560445636510849,
      "learning_rate": 0.0006921728735095281,
      "loss": 0.1895,
      "step": 2702
    },
    {
      "epoch": 12.121587390937236,
      "grad_norm": 0.04164089262485504,
      "learning_rate": 0.0006919436508017138,
      "loss": 0.1225,
      "step": 2703
    },
    {
      "epoch": 12.126090627638614,
      "grad_norm": 0.04162740334868431,
      "learning_rate": 0.0006917143807702948,
      "loss": 0.1477,
      "step": 2704
    },
    {
      "epoch": 12.130593864339994,
      "grad_norm": 0.06014981493353844,
      "learning_rate": 0.0006914850634717975,
      "loss": 0.1976,
      "step": 2705
    },
    {
      "epoch": 12.135097101041373,
      "grad_norm": 0.09645168483257294,
      "learning_rate": 0.0006912556989627598,
      "loss": 0.1616,
      "step": 2706
    },
    {
      "epoch": 12.139600337742753,
      "grad_norm": 0.09427725523710251,
      "learning_rate": 0.0006910262872997317,
      "loss": 0.1588,
      "step": 2707
    },
    {
      "epoch": 12.144103574444133,
      "grad_norm": 0.035465486347675323,
      "learning_rate": 0.0006907968285392743,
      "loss": 0.2295,
      "step": 2708
    },
    {
      "epoch": 12.14860681114551,
      "grad_norm": 0.048930488526821136,
      "learning_rate": 0.0006905673227379605,
      "loss": 0.227,
      "step": 2709
    },
    {
      "epoch": 12.15311004784689,
      "grad_norm": 0.13079793751239777,
      "learning_rate": 0.0006903377699523749,
      "loss": 0.3036,
      "step": 2710
    },
    {
      "epoch": 12.157613284548269,
      "grad_norm": 0.04252864420413971,
      "learning_rate": 0.0006901081702391136,
      "loss": 0.1982,
      "step": 2711
    },
    {
      "epoch": 12.162116521249649,
      "grad_norm": 0.05740823596715927,
      "learning_rate": 0.0006898785236547845,
      "loss": 0.135,
      "step": 2712
    },
    {
      "epoch": 12.166619757951027,
      "grad_norm": 0.029671823605895042,
      "learning_rate": 0.0006896488302560063,
      "loss": 0.1367,
      "step": 2713
    },
    {
      "epoch": 12.171122994652407,
      "grad_norm": 0.03830089792609215,
      "learning_rate": 0.0006894190900994102,
      "loss": 0.228,
      "step": 2714
    },
    {
      "epoch": 12.175626231353785,
      "grad_norm": 0.090180404484272,
      "learning_rate": 0.0006891893032416386,
      "loss": 0.0678,
      "step": 2715
    },
    {
      "epoch": 12.180129468055165,
      "grad_norm": 0.030616087839007378,
      "learning_rate": 0.0006889594697393451,
      "loss": 0.2523,
      "step": 2716
    },
    {
      "epoch": 12.184632704756543,
      "grad_norm": 0.11431264877319336,
      "learning_rate": 0.0006887295896491952,
      "loss": 0.1738,
      "step": 2717
    },
    {
      "epoch": 12.189135941457923,
      "grad_norm": 0.03519227355718613,
      "learning_rate": 0.0006884996630278653,
      "loss": 0.2306,
      "step": 2718
    },
    {
      "epoch": 12.193639178159302,
      "grad_norm": 0.1063745841383934,
      "learning_rate": 0.0006882696899320445,
      "loss": 0.2193,
      "step": 2719
    },
    {
      "epoch": 12.198142414860682,
      "grad_norm": 0.029915856197476387,
      "learning_rate": 0.0006880396704184315,
      "loss": 0.1579,
      "step": 2720
    },
    {
      "epoch": 12.20264565156206,
      "grad_norm": 0.03519245609641075,
      "learning_rate": 0.0006878096045437385,
      "loss": 0.1998,
      "step": 2721
    },
    {
      "epoch": 12.20714888826344,
      "grad_norm": 0.04828658699989319,
      "learning_rate": 0.0006875794923646874,
      "loss": 0.32,
      "step": 2722
    },
    {
      "epoch": 12.211652124964818,
      "grad_norm": 0.3321055471897125,
      "learning_rate": 0.0006873493339380125,
      "loss": 0.1518,
      "step": 2723
    },
    {
      "epoch": 12.216155361666198,
      "grad_norm": 0.07012763619422913,
      "learning_rate": 0.0006871191293204593,
      "loss": 0.1336,
      "step": 2724
    },
    {
      "epoch": 12.220658598367576,
      "grad_norm": 0.03182603046298027,
      "learning_rate": 0.0006868888785687844,
      "loss": 0.1129,
      "step": 2725
    },
    {
      "epoch": 12.225161835068956,
      "grad_norm": 0.054866258054971695,
      "learning_rate": 0.0006866585817397563,
      "loss": 0.2726,
      "step": 2726
    },
    {
      "epoch": 12.229665071770334,
      "grad_norm": 0.15581433475017548,
      "learning_rate": 0.0006864282388901544,
      "loss": 0.2266,
      "step": 2727
    },
    {
      "epoch": 12.234168308471714,
      "grad_norm": 0.05894773453474045,
      "learning_rate": 0.0006861978500767697,
      "loss": 0.2698,
      "step": 2728
    },
    {
      "epoch": 12.238671545173093,
      "grad_norm": 0.14941710233688354,
      "learning_rate": 0.0006859674153564042,
      "loss": 0.2414,
      "step": 2729
    },
    {
      "epoch": 12.243174781874473,
      "grad_norm": 0.06384898722171783,
      "learning_rate": 0.0006857369347858715,
      "loss": 0.1696,
      "step": 2730
    },
    {
      "epoch": 12.24767801857585,
      "grad_norm": 0.051244452595710754,
      "learning_rate": 0.0006855064084219966,
      "loss": 0.0744,
      "step": 2731
    },
    {
      "epoch": 12.25218125527723,
      "grad_norm": 0.03577340394258499,
      "learning_rate": 0.0006852758363216159,
      "loss": 0.2272,
      "step": 2732
    },
    {
      "epoch": 12.256684491978609,
      "grad_norm": 0.15450938045978546,
      "learning_rate": 0.0006850452185415763,
      "loss": 0.2145,
      "step": 2733
    },
    {
      "epoch": 12.261187728679989,
      "grad_norm": 0.03388301655650139,
      "learning_rate": 0.0006848145551387368,
      "loss": 0.2099,
      "step": 2734
    },
    {
      "epoch": 12.265690965381367,
      "grad_norm": 0.09704964607954025,
      "learning_rate": 0.0006845838461699674,
      "loss": 0.1711,
      "step": 2735
    },
    {
      "epoch": 12.270194202082747,
      "grad_norm": 0.07167618721723557,
      "learning_rate": 0.000684353091692149,
      "loss": 0.2055,
      "step": 2736
    },
    {
      "epoch": 12.274697438784127,
      "grad_norm": 0.11285874247550964,
      "learning_rate": 0.0006841222917621742,
      "loss": 0.3137,
      "step": 2737
    },
    {
      "epoch": 12.279200675485505,
      "grad_norm": 0.06934583932161331,
      "learning_rate": 0.0006838914464369467,
      "loss": 0.3792,
      "step": 2738
    },
    {
      "epoch": 12.283703912186885,
      "grad_norm": 0.0812898725271225,
      "learning_rate": 0.000683660555773381,
      "loss": 0.1618,
      "step": 2739
    },
    {
      "epoch": 12.288207148888263,
      "grad_norm": 0.17159263789653778,
      "learning_rate": 0.0006834296198284033,
      "loss": 0.1191,
      "step": 2740
    },
    {
      "epoch": 12.292710385589643,
      "grad_norm": 0.025197580456733704,
      "learning_rate": 0.0006831986386589504,
      "loss": 0.1032,
      "step": 2741
    },
    {
      "epoch": 12.297213622291022,
      "grad_norm": 0.04485688731074333,
      "learning_rate": 0.000682967612321971,
      "loss": 0.1575,
      "step": 2742
    },
    {
      "epoch": 12.301716858992402,
      "grad_norm": 0.05756993964314461,
      "learning_rate": 0.0006827365408744244,
      "loss": 0.2658,
      "step": 2743
    },
    {
      "epoch": 12.30622009569378,
      "grad_norm": 0.03890078887343407,
      "learning_rate": 0.0006825054243732811,
      "loss": 0.2984,
      "step": 2744
    },
    {
      "epoch": 12.31072333239516,
      "grad_norm": 0.08403876423835754,
      "learning_rate": 0.0006822742628755227,
      "loss": 0.1294,
      "step": 2745
    },
    {
      "epoch": 12.315226569096538,
      "grad_norm": 0.05694790557026863,
      "learning_rate": 0.0006820430564381419,
      "loss": 0.1055,
      "step": 2746
    },
    {
      "epoch": 12.319729805797918,
      "grad_norm": 0.06030408665537834,
      "learning_rate": 0.0006818118051181428,
      "loss": 0.1461,
      "step": 2747
    },
    {
      "epoch": 12.324233042499296,
      "grad_norm": 0.03041277825832367,
      "learning_rate": 0.0006815805089725399,
      "loss": 0.1357,
      "step": 2748
    },
    {
      "epoch": 12.328736279200676,
      "grad_norm": 0.03615989163517952,
      "learning_rate": 0.0006813491680583595,
      "loss": 0.1764,
      "step": 2749
    },
    {
      "epoch": 12.333239515902054,
      "grad_norm": 0.05158461257815361,
      "learning_rate": 0.0006811177824326382,
      "loss": 0.0727,
      "step": 2750
    },
    {
      "epoch": 12.337742752603434,
      "grad_norm": 0.05137423425912857,
      "learning_rate": 0.0006808863521524244,
      "loss": 0.2227,
      "step": 2751
    },
    {
      "epoch": 12.342245989304812,
      "grad_norm": 0.13916367292404175,
      "learning_rate": 0.000680654877274777,
      "loss": 0.1009,
      "step": 2752
    },
    {
      "epoch": 12.346749226006192,
      "grad_norm": 0.04156019538640976,
      "learning_rate": 0.0006804233578567658,
      "loss": 0.1086,
      "step": 2753
    },
    {
      "epoch": 12.35125246270757,
      "grad_norm": 0.03903062269091606,
      "learning_rate": 0.000680191793955472,
      "loss": 0.0952,
      "step": 2754
    },
    {
      "epoch": 12.35575569940895,
      "grad_norm": 0.15931347012519836,
      "learning_rate": 0.0006799601856279873,
      "loss": 0.3331,
      "step": 2755
    },
    {
      "epoch": 12.360258936110329,
      "grad_norm": 0.044026948511600494,
      "learning_rate": 0.0006797285329314151,
      "loss": 0.3013,
      "step": 2756
    },
    {
      "epoch": 12.364762172811709,
      "grad_norm": 0.15071862936019897,
      "learning_rate": 0.0006794968359228688,
      "loss": 0.0544,
      "step": 2757
    },
    {
      "epoch": 12.369265409513087,
      "grad_norm": 0.02968098409473896,
      "learning_rate": 0.0006792650946594734,
      "loss": 0.1461,
      "step": 2758
    },
    {
      "epoch": 12.373768646214467,
      "grad_norm": 0.03339355066418648,
      "learning_rate": 0.0006790333091983645,
      "loss": 0.2647,
      "step": 2759
    },
    {
      "epoch": 12.378271882915845,
      "grad_norm": 0.04996306821703911,
      "learning_rate": 0.0006788014795966886,
      "loss": 0.1778,
      "step": 2760
    },
    {
      "epoch": 12.382775119617225,
      "grad_norm": 0.06837017089128494,
      "learning_rate": 0.0006785696059116032,
      "loss": 0.243,
      "step": 2761
    },
    {
      "epoch": 12.387278356318603,
      "grad_norm": 0.13690286874771118,
      "learning_rate": 0.0006783376882002767,
      "loss": 0.2882,
      "step": 2762
    },
    {
      "epoch": 12.391781593019983,
      "grad_norm": 0.1367816925048828,
      "learning_rate": 0.0006781057265198884,
      "loss": 0.2457,
      "step": 2763
    },
    {
      "epoch": 12.396284829721361,
      "grad_norm": 0.08254799991846085,
      "learning_rate": 0.0006778737209276281,
      "loss": 0.1557,
      "step": 2764
    },
    {
      "epoch": 12.400788066422741,
      "grad_norm": 0.08223435282707214,
      "learning_rate": 0.0006776416714806969,
      "loss": 0.4786,
      "step": 2765
    },
    {
      "epoch": 12.40529130312412,
      "grad_norm": 0.19825764000415802,
      "learning_rate": 0.0006774095782363062,
      "loss": 0.1894,
      "step": 2766
    },
    {
      "epoch": 12.4097945398255,
      "grad_norm": 0.05691089853644371,
      "learning_rate": 0.0006771774412516786,
      "loss": 0.322,
      "step": 2767
    },
    {
      "epoch": 12.41429777652688,
      "grad_norm": 0.13702817261219025,
      "learning_rate": 0.0006769452605840474,
      "loss": 0.2216,
      "step": 2768
    },
    {
      "epoch": 12.418801013228258,
      "grad_norm": 0.05338159576058388,
      "learning_rate": 0.0006767130362906565,
      "loss": 0.1966,
      "step": 2769
    },
    {
      "epoch": 12.423304249929638,
      "grad_norm": 0.08155356347560883,
      "learning_rate": 0.0006764807684287606,
      "loss": 0.333,
      "step": 2770
    },
    {
      "epoch": 12.427807486631016,
      "grad_norm": 0.07857735455036163,
      "learning_rate": 0.0006762484570556255,
      "loss": 0.1422,
      "step": 2771
    },
    {
      "epoch": 12.432310723332396,
      "grad_norm": 0.028578050434589386,
      "learning_rate": 0.0006760161022285274,
      "loss": 0.2664,
      "step": 2772
    },
    {
      "epoch": 12.436813960033774,
      "grad_norm": 0.055593542754650116,
      "learning_rate": 0.0006757837040047529,
      "loss": 0.2322,
      "step": 2773
    },
    {
      "epoch": 12.441317196735154,
      "grad_norm": 0.0414942130446434,
      "learning_rate": 0.0006755512624416002,
      "loss": 0.299,
      "step": 2774
    },
    {
      "epoch": 12.445820433436532,
      "grad_norm": 0.08936680108308792,
      "learning_rate": 0.0006753187775963773,
      "loss": 0.1994,
      "step": 2775
    },
    {
      "epoch": 12.450323670137912,
      "grad_norm": 0.09086144715547562,
      "learning_rate": 0.0006750862495264031,
      "loss": 0.4035,
      "step": 2776
    },
    {
      "epoch": 12.45482690683929,
      "grad_norm": 0.06884465366601944,
      "learning_rate": 0.0006748536782890075,
      "loss": 0.2471,
      "step": 2777
    },
    {
      "epoch": 12.45933014354067,
      "grad_norm": 0.10936017334461212,
      "learning_rate": 0.0006746210639415309,
      "loss": 0.1579,
      "step": 2778
    },
    {
      "epoch": 12.463833380242049,
      "grad_norm": 0.035934288054704666,
      "learning_rate": 0.000674388406541324,
      "loss": 0.177,
      "step": 2779
    },
    {
      "epoch": 12.468336616943429,
      "grad_norm": 0.03402535617351532,
      "learning_rate": 0.0006741557061457484,
      "loss": 0.132,
      "step": 2780
    },
    {
      "epoch": 12.472839853644807,
      "grad_norm": 0.050419777631759644,
      "learning_rate": 0.0006739229628121764,
      "loss": 0.1998,
      "step": 2781
    },
    {
      "epoch": 12.477343090346187,
      "grad_norm": 0.07879895716905594,
      "learning_rate": 0.0006736901765979908,
      "loss": 0.2212,
      "step": 2782
    },
    {
      "epoch": 12.481846327047565,
      "grad_norm": 0.025309685617685318,
      "learning_rate": 0.0006734573475605845,
      "loss": 0.156,
      "step": 2783
    },
    {
      "epoch": 12.486349563748945,
      "grad_norm": 0.048496220260858536,
      "learning_rate": 0.0006732244757573619,
      "loss": 0.1448,
      "step": 2784
    },
    {
      "epoch": 12.490852800450323,
      "grad_norm": 0.06694594025611877,
      "learning_rate": 0.0006729915612457369,
      "loss": 0.2118,
      "step": 2785
    },
    {
      "epoch": 12.495356037151703,
      "grad_norm": 0.06567809730768204,
      "learning_rate": 0.000672758604083135,
      "loss": 0.1737,
      "step": 2786
    },
    {
      "epoch": 12.499859273853081,
      "grad_norm": 0.06829982250928879,
      "learning_rate": 0.0006725256043269912,
      "loss": 0.1603,
      "step": 2787
    },
    {
      "epoch": 12.504362510554461,
      "grad_norm": 0.05440826714038849,
      "learning_rate": 0.0006722925620347518,
      "loss": 0.0665,
      "step": 2788
    },
    {
      "epoch": 12.50886574725584,
      "grad_norm": 0.07590045779943466,
      "learning_rate": 0.000672059477263873,
      "loss": 0.1952,
      "step": 2789
    },
    {
      "epoch": 12.51336898395722,
      "grad_norm": 0.07486280053853989,
      "learning_rate": 0.0006718263500718218,
      "loss": 0.1744,
      "step": 2790
    },
    {
      "epoch": 12.517872220658598,
      "grad_norm": 0.048922497779130936,
      "learning_rate": 0.0006715931805160758,
      "loss": 0.2793,
      "step": 2791
    },
    {
      "epoch": 12.522375457359978,
      "grad_norm": 0.04991123452782631,
      "learning_rate": 0.0006713599686541224,
      "loss": 0.194,
      "step": 2792
    },
    {
      "epoch": 12.526878694061356,
      "grad_norm": 0.06919337064027786,
      "learning_rate": 0.0006711267145434603,
      "loss": 0.2323,
      "step": 2793
    },
    {
      "epoch": 12.531381930762736,
      "grad_norm": 0.05512368679046631,
      "learning_rate": 0.0006708934182415978,
      "loss": 0.3058,
      "step": 2794
    },
    {
      "epoch": 12.535885167464114,
      "grad_norm": 0.08358656615018845,
      "learning_rate": 0.0006706600798060543,
      "loss": 0.264,
      "step": 2795
    },
    {
      "epoch": 12.540388404165494,
      "grad_norm": 0.08202094584703445,
      "learning_rate": 0.0006704266992943592,
      "loss": 0.1283,
      "step": 2796
    },
    {
      "epoch": 12.544891640866872,
      "grad_norm": 0.0652238056063652,
      "learning_rate": 0.0006701932767640521,
      "loss": 0.5175,
      "step": 2797
    },
    {
      "epoch": 12.549394877568252,
      "grad_norm": 0.06020861491560936,
      "learning_rate": 0.0006699598122726835,
      "loss": 0.2297,
      "step": 2798
    },
    {
      "epoch": 12.553898114269632,
      "grad_norm": 0.05792557820677757,
      "learning_rate": 0.0006697263058778138,
      "loss": 0.1193,
      "step": 2799
    },
    {
      "epoch": 12.55840135097101,
      "grad_norm": 0.06989467889070511,
      "learning_rate": 0.0006694927576370138,
      "loss": 0.1917,
      "step": 2800
    },
    {
      "epoch": 12.562904587672389,
      "grad_norm": 0.04837257042527199,
      "learning_rate": 0.0006692591676078648,
      "loss": 0.3256,
      "step": 2801
    },
    {
      "epoch": 12.567407824373769,
      "grad_norm": 0.05438505485653877,
      "learning_rate": 0.0006690255358479584,
      "loss": 0.2227,
      "step": 2802
    },
    {
      "epoch": 12.571911061075149,
      "grad_norm": 0.08718244731426239,
      "learning_rate": 0.0006687918624148963,
      "loss": 0.283,
      "step": 2803
    },
    {
      "epoch": 12.576414297776527,
      "grad_norm": 0.07577139139175415,
      "learning_rate": 0.0006685581473662903,
      "loss": 0.2363,
      "step": 2804
    },
    {
      "epoch": 12.580917534477907,
      "grad_norm": 0.043931424617767334,
      "learning_rate": 0.0006683243907597631,
      "loss": 0.163,
      "step": 2805
    },
    {
      "epoch": 12.585420771179285,
      "grad_norm": 0.06573385000228882,
      "learning_rate": 0.0006680905926529471,
      "loss": 0.2494,
      "step": 2806
    },
    {
      "epoch": 12.589924007880665,
      "grad_norm": 0.09145340323448181,
      "learning_rate": 0.000667856753103485,
      "loss": 0.1431,
      "step": 2807
    },
    {
      "epoch": 12.594427244582043,
      "grad_norm": 0.04609263688325882,
      "learning_rate": 0.00066762287216903,
      "loss": 0.3155,
      "step": 2808
    },
    {
      "epoch": 12.598930481283423,
      "grad_norm": 0.07457572966814041,
      "learning_rate": 0.0006673889499072454,
      "loss": 0.3187,
      "step": 2809
    },
    {
      "epoch": 12.603433717984801,
      "grad_norm": 0.09039314091205597,
      "learning_rate": 0.0006671549863758043,
      "loss": 0.1265,
      "step": 2810
    },
    {
      "epoch": 12.607936954686181,
      "grad_norm": 0.05126781761646271,
      "learning_rate": 0.0006669209816323906,
      "loss": 0.1646,
      "step": 2811
    },
    {
      "epoch": 12.61244019138756,
      "grad_norm": 0.02987341210246086,
      "learning_rate": 0.0006666869357346978,
      "loss": 0.2497,
      "step": 2812
    },
    {
      "epoch": 12.61694342808894,
      "grad_norm": 0.05317787453532219,
      "learning_rate": 0.0006664528487404298,
      "loss": 0.1166,
      "step": 2813
    },
    {
      "epoch": 12.621446664790318,
      "grad_norm": 0.03776240348815918,
      "learning_rate": 0.0006662187207073008,
      "loss": 0.1247,
      "step": 2814
    },
    {
      "epoch": 12.625949901491698,
      "grad_norm": 0.07494951039552689,
      "learning_rate": 0.0006659845516930349,
      "loss": 0.2592,
      "step": 2815
    },
    {
      "epoch": 12.630453138193076,
      "grad_norm": 0.042386628687381744,
      "learning_rate": 0.0006657503417553662,
      "loss": 0.343,
      "step": 2816
    },
    {
      "epoch": 12.634956374894456,
      "grad_norm": 0.06226981803774834,
      "learning_rate": 0.000665516090952039,
      "loss": 0.243,
      "step": 2817
    },
    {
      "epoch": 12.639459611595834,
      "grad_norm": 0.05470411106944084,
      "learning_rate": 0.0006652817993408082,
      "loss": 0.1899,
      "step": 2818
    },
    {
      "epoch": 12.643962848297214,
      "grad_norm": 0.05686170607805252,
      "learning_rate": 0.0006650474669794376,
      "loss": 0.2428,
      "step": 2819
    },
    {
      "epoch": 12.648466084998592,
      "grad_norm": 0.04541293904185295,
      "learning_rate": 0.0006648130939257021,
      "loss": 0.11,
      "step": 2820
    },
    {
      "epoch": 12.652969321699972,
      "grad_norm": 0.023137852549552917,
      "learning_rate": 0.0006645786802373864,
      "loss": 0.1574,
      "step": 2821
    },
    {
      "epoch": 12.65747255840135,
      "grad_norm": 0.03760083392262459,
      "learning_rate": 0.0006643442259722845,
      "loss": 0.2597,
      "step": 2822
    },
    {
      "epoch": 12.66197579510273,
      "grad_norm": 0.10632547736167908,
      "learning_rate": 0.0006641097311882015,
      "loss": 0.174,
      "step": 2823
    },
    {
      "epoch": 12.666479031804109,
      "grad_norm": 0.052007418125867844,
      "learning_rate": 0.0006638751959429516,
      "loss": 0.165,
      "step": 2824
    },
    {
      "epoch": 12.670982268505488,
      "grad_norm": 0.047706909477710724,
      "learning_rate": 0.0006636406202943597,
      "loss": 0.2543,
      "step": 2825
    },
    {
      "epoch": 12.675485505206867,
      "grad_norm": 0.05083867534995079,
      "learning_rate": 0.0006634060043002602,
      "loss": 0.179,
      "step": 2826
    },
    {
      "epoch": 12.679988741908247,
      "grad_norm": 0.049450505524873734,
      "learning_rate": 0.0006631713480184973,
      "loss": 0.2727,
      "step": 2827
    },
    {
      "epoch": 12.684491978609625,
      "grad_norm": 0.11641262471675873,
      "learning_rate": 0.0006629366515069257,
      "loss": 0.1299,
      "step": 2828
    },
    {
      "epoch": 12.688995215311005,
      "grad_norm": 0.03801605477929115,
      "learning_rate": 0.0006627019148234094,
      "loss": 0.1885,
      "step": 2829
    },
    {
      "epoch": 12.693498452012385,
      "grad_norm": 0.05552912876009941,
      "learning_rate": 0.000662467138025823,
      "loss": 0.1607,
      "step": 2830
    },
    {
      "epoch": 12.698001688713763,
      "grad_norm": 0.03993683680891991,
      "learning_rate": 0.0006622323211720502,
      "loss": 0.1326,
      "step": 2831
    },
    {
      "epoch": 12.702504925415141,
      "grad_norm": 0.116236113011837,
      "learning_rate": 0.0006619974643199852,
      "loss": 0.2747,
      "step": 2832
    },
    {
      "epoch": 12.707008162116521,
      "grad_norm": 0.06985997408628464,
      "learning_rate": 0.0006617625675275317,
      "loss": 0.1846,
      "step": 2833
    },
    {
      "epoch": 12.711511398817901,
      "grad_norm": 0.04996473714709282,
      "learning_rate": 0.0006615276308526035,
      "loss": 0.2816,
      "step": 2834
    },
    {
      "epoch": 12.71601463551928,
      "grad_norm": 0.05350763350725174,
      "learning_rate": 0.000661292654353124,
      "loss": 0.1177,
      "step": 2835
    },
    {
      "epoch": 12.72051787222066,
      "grad_norm": 0.26276177167892456,
      "learning_rate": 0.0006610576380870265,
      "loss": 0.0865,
      "step": 2836
    },
    {
      "epoch": 12.725021108922038,
      "grad_norm": 0.05889512225985527,
      "learning_rate": 0.0006608225821122543,
      "loss": 0.1791,
      "step": 2837
    },
    {
      "epoch": 12.729524345623418,
      "grad_norm": 0.1166289821267128,
      "learning_rate": 0.0006605874864867603,
      "loss": 0.1497,
      "step": 2838
    },
    {
      "epoch": 12.734027582324796,
      "grad_norm": 0.12673574686050415,
      "learning_rate": 0.000660352351268507,
      "loss": 0.2582,
      "step": 2839
    },
    {
      "epoch": 12.738530819026176,
      "grad_norm": 0.04743766412138939,
      "learning_rate": 0.0006601171765154671,
      "loss": 0.2741,
      "step": 2840
    },
    {
      "epoch": 12.743034055727554,
      "grad_norm": 0.04903968796133995,
      "learning_rate": 0.0006598819622856227,
      "loss": 0.2491,
      "step": 2841
    },
    {
      "epoch": 12.747537292428934,
      "grad_norm": 0.13112019002437592,
      "learning_rate": 0.0006596467086369658,
      "loss": 0.1117,
      "step": 2842
    },
    {
      "epoch": 12.752040529130312,
      "grad_norm": 0.044803131371736526,
      "learning_rate": 0.000659411415627498,
      "loss": 0.2167,
      "step": 2843
    },
    {
      "epoch": 12.756543765831692,
      "grad_norm": 0.32292237877845764,
      "learning_rate": 0.0006591760833152305,
      "loss": 0.2768,
      "step": 2844
    },
    {
      "epoch": 12.76104700253307,
      "grad_norm": 0.0822305977344513,
      "learning_rate": 0.0006589407117581846,
      "loss": 0.352,
      "step": 2845
    },
    {
      "epoch": 12.76555023923445,
      "grad_norm": 0.12503494322299957,
      "learning_rate": 0.000658705301014391,
      "loss": 0.2496,
      "step": 2846
    },
    {
      "epoch": 12.770053475935828,
      "grad_norm": 0.06198209896683693,
      "learning_rate": 0.0006584698511418902,
      "loss": 0.1352,
      "step": 2847
    },
    {
      "epoch": 12.774556712637208,
      "grad_norm": 0.041932057589292526,
      "learning_rate": 0.0006582343621987321,
      "loss": 0.3215,
      "step": 2848
    },
    {
      "epoch": 12.779059949338587,
      "grad_norm": 0.10809409618377686,
      "learning_rate": 0.0006579988342429764,
      "loss": 0.3981,
      "step": 2849
    },
    {
      "epoch": 12.783563186039967,
      "grad_norm": 0.07973872125148773,
      "learning_rate": 0.0006577632673326921,
      "loss": 0.2075,
      "step": 2850
    },
    {
      "epoch": 12.788066422741345,
      "grad_norm": 0.036036256700754166,
      "learning_rate": 0.0006575276615259587,
      "loss": 0.3554,
      "step": 2851
    },
    {
      "epoch": 12.792569659442725,
      "grad_norm": 0.05074800178408623,
      "learning_rate": 0.0006572920168808641,
      "loss": 0.3574,
      "step": 2852
    },
    {
      "epoch": 12.797072896144103,
      "grad_norm": 0.37137070298194885,
      "learning_rate": 0.0006570563334555067,
      "loss": 0.2817,
      "step": 2853
    },
    {
      "epoch": 12.801576132845483,
      "grad_norm": 0.06346315890550613,
      "learning_rate": 0.0006568206113079939,
      "loss": 0.1089,
      "step": 2854
    },
    {
      "epoch": 12.806079369546861,
      "grad_norm": 0.04597628116607666,
      "learning_rate": 0.0006565848504964433,
      "loss": 0.1809,
      "step": 2855
    },
    {
      "epoch": 12.810582606248241,
      "grad_norm": 0.06116726994514465,
      "learning_rate": 0.0006563490510789812,
      "loss": 0.3218,
      "step": 2856
    },
    {
      "epoch": 12.81508584294962,
      "grad_norm": 0.10658491402864456,
      "learning_rate": 0.0006561132131137439,
      "loss": 0.204,
      "step": 2857
    },
    {
      "epoch": 12.819589079651,
      "grad_norm": 0.07809552550315857,
      "learning_rate": 0.0006558773366588771,
      "loss": 0.3027,
      "step": 2858
    },
    {
      "epoch": 12.824092316352377,
      "grad_norm": 0.07883250713348389,
      "learning_rate": 0.0006556414217725362,
      "loss": 0.2302,
      "step": 2859
    },
    {
      "epoch": 12.828595553053757,
      "grad_norm": 0.07252548635005951,
      "learning_rate": 0.0006554054685128857,
      "loss": 0.3277,
      "step": 2860
    },
    {
      "epoch": 12.833098789755137,
      "grad_norm": 0.06312020868062973,
      "learning_rate": 0.0006551694769380997,
      "loss": 0.1637,
      "step": 2861
    },
    {
      "epoch": 12.837602026456516,
      "grad_norm": 0.1265609860420227,
      "learning_rate": 0.0006549334471063619,
      "loss": 0.2332,
      "step": 2862
    },
    {
      "epoch": 12.842105263157894,
      "grad_norm": 0.05421249940991402,
      "learning_rate": 0.0006546973790758655,
      "loss": 0.1345,
      "step": 2863
    },
    {
      "epoch": 12.846608499859274,
      "grad_norm": 0.08190856873989105,
      "learning_rate": 0.0006544612729048127,
      "loss": 0.2336,
      "step": 2864
    },
    {
      "epoch": 12.851111736560654,
      "grad_norm": 0.05646175518631935,
      "learning_rate": 0.0006542251286514155,
      "loss": 0.2962,
      "step": 2865
    },
    {
      "epoch": 12.855614973262032,
      "grad_norm": 0.06721433252096176,
      "learning_rate": 0.0006539889463738949,
      "loss": 0.2863,
      "step": 2866
    },
    {
      "epoch": 12.860118209963412,
      "grad_norm": 0.06040644645690918,
      "learning_rate": 0.0006537527261304819,
      "loss": 0.1701,
      "step": 2867
    },
    {
      "epoch": 12.86462144666479,
      "grad_norm": 0.0514792874455452,
      "learning_rate": 0.0006535164679794161,
      "loss": 0.1351,
      "step": 2868
    },
    {
      "epoch": 12.86912468336617,
      "grad_norm": 0.0922858864068985,
      "learning_rate": 0.000653280171978947,
      "loss": 0.2691,
      "step": 2869
    },
    {
      "epoch": 12.873627920067548,
      "grad_norm": 0.0936373621225357,
      "learning_rate": 0.0006530438381873334,
      "loss": 0.2248,
      "step": 2870
    },
    {
      "epoch": 12.878131156768928,
      "grad_norm": 0.09712126851081848,
      "learning_rate": 0.000652807466662843,
      "loss": 0.2501,
      "step": 2871
    },
    {
      "epoch": 12.882634393470306,
      "grad_norm": 0.09079358726739883,
      "learning_rate": 0.0006525710574637532,
      "loss": 0.241,
      "step": 2872
    },
    {
      "epoch": 12.887137630171686,
      "grad_norm": 0.04774316027760506,
      "learning_rate": 0.0006523346106483503,
      "loss": 0.3285,
      "step": 2873
    },
    {
      "epoch": 12.891640866873065,
      "grad_norm": 0.07215865701436996,
      "learning_rate": 0.0006520981262749307,
      "loss": 0.2858,
      "step": 2874
    },
    {
      "epoch": 12.896144103574445,
      "grad_norm": 0.061458855867385864,
      "learning_rate": 0.000651861604401799,
      "loss": 0.182,
      "step": 2875
    },
    {
      "epoch": 12.900647340275823,
      "grad_norm": 0.04817074164748192,
      "learning_rate": 0.0006516250450872698,
      "loss": 0.0905,
      "step": 2876
    },
    {
      "epoch": 12.905150576977203,
      "grad_norm": 0.019179072231054306,
      "learning_rate": 0.0006513884483896666,
      "loss": 0.3143,
      "step": 2877
    },
    {
      "epoch": 12.909653813678581,
      "grad_norm": 0.05187394842505455,
      "learning_rate": 0.000651151814367322,
      "loss": 0.2372,
      "step": 2878
    },
    {
      "epoch": 12.914157050379961,
      "grad_norm": 0.06555548310279846,
      "learning_rate": 0.0006509151430785785,
      "loss": 0.1711,
      "step": 2879
    },
    {
      "epoch": 12.91866028708134,
      "grad_norm": 0.04685679078102112,
      "learning_rate": 0.0006506784345817867,
      "loss": 0.2785,
      "step": 2880
    },
    {
      "epoch": 12.92316352378272,
      "grad_norm": 0.052231207489967346,
      "learning_rate": 0.0006504416889353072,
      "loss": 0.1448,
      "step": 2881
    },
    {
      "epoch": 12.927666760484097,
      "grad_norm": 0.05218437686562538,
      "learning_rate": 0.0006502049061975095,
      "loss": 0.1892,
      "step": 2882
    },
    {
      "epoch": 12.932169997185477,
      "grad_norm": 0.11422783136367798,
      "learning_rate": 0.0006499680864267724,
      "loss": 0.2973,
      "step": 2883
    },
    {
      "epoch": 12.936673233886856,
      "grad_norm": 0.06759344041347504,
      "learning_rate": 0.0006497312296814834,
      "loss": 0.0829,
      "step": 2884
    },
    {
      "epoch": 12.941176470588236,
      "grad_norm": 0.04240155220031738,
      "learning_rate": 0.0006494943360200398,
      "loss": 0.1455,
      "step": 2885
    },
    {
      "epoch": 12.945679707289614,
      "grad_norm": 0.05515965819358826,
      "learning_rate": 0.0006492574055008473,
      "loss": 0.2088,
      "step": 2886
    },
    {
      "epoch": 12.950182943990994,
      "grad_norm": 0.047248661518096924,
      "learning_rate": 0.0006490204381823211,
      "loss": 0.2385,
      "step": 2887
    },
    {
      "epoch": 12.954686180692372,
      "grad_norm": 0.08876056224107742,
      "learning_rate": 0.0006487834341228852,
      "loss": 0.3195,
      "step": 2888
    },
    {
      "epoch": 12.959189417393752,
      "grad_norm": 0.0625181496143341,
      "learning_rate": 0.000648546393380973,
      "loss": 0.1235,
      "step": 2889
    },
    {
      "epoch": 12.96369265409513,
      "grad_norm": 0.0755404457449913,
      "learning_rate": 0.0006483093160150268,
      "loss": 0.1206,
      "step": 2890
    },
    {
      "epoch": 12.96819589079651,
      "grad_norm": 0.021813837811350822,
      "learning_rate": 0.0006480722020834977,
      "loss": 0.1365,
      "step": 2891
    },
    {
      "epoch": 12.97269912749789,
      "grad_norm": 0.040464721620082855,
      "learning_rate": 0.0006478350516448461,
      "loss": 0.1255,
      "step": 2892
    },
    {
      "epoch": 12.977202364199268,
      "grad_norm": 0.0507628507912159,
      "learning_rate": 0.0006475978647575416,
      "loss": 0.0974,
      "step": 2893
    },
    {
      "epoch": 12.981705600900646,
      "grad_norm": 0.038563910871744156,
      "learning_rate": 0.000647360641480062,
      "loss": 0.2188,
      "step": 2894
    },
    {
      "epoch": 12.986208837602026,
      "grad_norm": 0.09129004180431366,
      "learning_rate": 0.000647123381870895,
      "loss": 0.2221,
      "step": 2895
    },
    {
      "epoch": 12.990712074303406,
      "grad_norm": 0.04732911288738251,
      "learning_rate": 0.0006468860859885364,
      "loss": 0.1842,
      "step": 2896
    },
    {
      "epoch": 12.995215311004785,
      "grad_norm": 0.05899989977478981,
      "learning_rate": 0.000646648753891492,
      "loss": 0.3076,
      "step": 2897
    },
    {
      "epoch": 12.999718547706165,
      "grad_norm": 0.1029917374253273,
      "learning_rate": 0.0006464113856382752,
      "loss": 0.0989,
      "step": 2898
    },
    {
      "epoch": 13.0,
      "grad_norm": 0.1029917374253273,
      "learning_rate": 0.0006461739812874096,
      "loss": 0.0052,
      "step": 2899
    },
    {
      "epoch": 13.0,
      "eval_f1": 0.9852926463231616,
      "eval_loss": 0.02818584069609642,
      "eval_runtime": 26.213,
      "eval_samples_per_second": 190.669,
      "eval_steps_per_second": 5.989,
      "step": 2899
    },
    {
      "epoch": 13.00450323670138,
      "grad_norm": 0.04610779881477356,
      "learning_rate": 0.0006459365408974266,
      "loss": 0.0802,
      "step": 2900
    },
    {
      "epoch": 13.009006473402758,
      "grad_norm": 0.03021981567144394,
      "learning_rate": 0.0006456990645268675,
      "loss": 0.05,
      "step": 2901
    },
    {
      "epoch": 13.013509710104138,
      "grad_norm": 0.04415707290172577,
      "learning_rate": 0.0006454615522342816,
      "loss": 0.0932,
      "step": 2902
    },
    {
      "epoch": 13.018012946805516,
      "grad_norm": 0.016962584108114243,
      "learning_rate": 0.0006452240040782276,
      "loss": 0.27,
      "step": 2903
    },
    {
      "epoch": 13.022516183506896,
      "grad_norm": 0.0393330343067646,
      "learning_rate": 0.0006449864201172728,
      "loss": 0.038,
      "step": 2904
    },
    {
      "epoch": 13.027019420208275,
      "grad_norm": 0.0195082388818264,
      "learning_rate": 0.0006447488004099934,
      "loss": 0.0613,
      "step": 2905
    },
    {
      "epoch": 13.031522656909655,
      "grad_norm": 0.02648376114666462,
      "learning_rate": 0.0006445111450149746,
      "loss": 0.0333,
      "step": 2906
    },
    {
      "epoch": 13.036025893611033,
      "grad_norm": 0.03479243442416191,
      "learning_rate": 0.0006442734539908099,
      "loss": 0.104,
      "step": 2907
    },
    {
      "epoch": 13.040529130312413,
      "grad_norm": 0.026216519996523857,
      "learning_rate": 0.0006440357273961022,
      "loss": 0.1631,
      "step": 2908
    },
    {
      "epoch": 13.04503236701379,
      "grad_norm": 0.06948023289442062,
      "learning_rate": 0.0006437979652894626,
      "loss": 0.0863,
      "step": 2909
    },
    {
      "epoch": 13.04953560371517,
      "grad_norm": 0.02664114721119404,
      "learning_rate": 0.0006435601677295114,
      "loss": 0.0338,
      "step": 2910
    },
    {
      "epoch": 13.054038840416549,
      "grad_norm": 0.11038338392972946,
      "learning_rate": 0.0006433223347748774,
      "loss": 0.1819,
      "step": 2911
    },
    {
      "epoch": 13.058542077117929,
      "grad_norm": 0.13429035246372223,
      "learning_rate": 0.0006430844664841982,
      "loss": 0.1349,
      "step": 2912
    },
    {
      "epoch": 13.063045313819307,
      "grad_norm": 0.0494401715695858,
      "learning_rate": 0.0006428465629161199,
      "loss": 0.1585,
      "step": 2913
    },
    {
      "epoch": 13.067548550520687,
      "grad_norm": 0.06037447229027748,
      "learning_rate": 0.0006426086241292979,
      "loss": 0.18,
      "step": 2914
    },
    {
      "epoch": 13.072051787222065,
      "grad_norm": 0.043896324932575226,
      "learning_rate": 0.0006423706501823957,
      "loss": 0.2051,
      "step": 2915
    },
    {
      "epoch": 13.076555023923445,
      "grad_norm": 0.09856043756008148,
      "learning_rate": 0.0006421326411340855,
      "loss": 0.0626,
      "step": 2916
    },
    {
      "epoch": 13.081058260624824,
      "grad_norm": 0.04657391458749771,
      "learning_rate": 0.0006418945970430485,
      "loss": 0.1256,
      "step": 2917
    },
    {
      "epoch": 13.085561497326204,
      "grad_norm": 0.06087254732847214,
      "learning_rate": 0.0006416565179679741,
      "loss": 0.1961,
      "step": 2918
    },
    {
      "epoch": 13.090064734027582,
      "grad_norm": 0.0929073691368103,
      "learning_rate": 0.0006414184039675609,
      "loss": 0.1703,
      "step": 2919
    },
    {
      "epoch": 13.094567970728962,
      "grad_norm": 0.04320253059267998,
      "learning_rate": 0.0006411802551005156,
      "loss": 0.0521,
      "step": 2920
    },
    {
      "epoch": 13.09907120743034,
      "grad_norm": 0.09545774757862091,
      "learning_rate": 0.0006409420714255537,
      "loss": 0.2515,
      "step": 2921
    },
    {
      "epoch": 13.10357444413172,
      "grad_norm": 0.040644168853759766,
      "learning_rate": 0.0006407038530013991,
      "loss": 0.1658,
      "step": 2922
    },
    {
      "epoch": 13.108077680833098,
      "grad_norm": 0.06154140084981918,
      "learning_rate": 0.0006404655998867848,
      "loss": 0.1105,
      "step": 2923
    },
    {
      "epoch": 13.112580917534478,
      "grad_norm": 0.01894358918070793,
      "learning_rate": 0.0006402273121404514,
      "loss": 0.173,
      "step": 2924
    },
    {
      "epoch": 13.117084154235856,
      "grad_norm": 0.05960942804813385,
      "learning_rate": 0.0006399889898211494,
      "loss": 0.0768,
      "step": 2925
    },
    {
      "epoch": 13.121587390937236,
      "grad_norm": 0.04235440120100975,
      "learning_rate": 0.0006397506329876364,
      "loss": 0.0312,
      "step": 2926
    },
    {
      "epoch": 13.126090627638614,
      "grad_norm": 0.061434268951416016,
      "learning_rate": 0.0006395122416986794,
      "loss": 0.3177,
      "step": 2927
    },
    {
      "epoch": 13.130593864339994,
      "grad_norm": 0.07402875274419785,
      "learning_rate": 0.0006392738160130535,
      "loss": 0.0686,
      "step": 2928
    },
    {
      "epoch": 13.135097101041373,
      "grad_norm": 0.030927032232284546,
      "learning_rate": 0.0006390353559895426,
      "loss": 0.3043,
      "step": 2929
    },
    {
      "epoch": 13.139600337742753,
      "grad_norm": 0.1014266088604927,
      "learning_rate": 0.0006387968616869389,
      "loss": 0.1397,
      "step": 2930
    },
    {
      "epoch": 13.144103574444133,
      "grad_norm": 0.015348036773502827,
      "learning_rate": 0.0006385583331640428,
      "loss": 0.0998,
      "step": 2931
    },
    {
      "epoch": 13.14860681114551,
      "grad_norm": 0.05017716810107231,
      "learning_rate": 0.0006383197704796637,
      "loss": 0.0321,
      "step": 2932
    },
    {
      "epoch": 13.15311004784689,
      "grad_norm": 0.06095871329307556,
      "learning_rate": 0.0006380811736926188,
      "loss": 0.0796,
      "step": 2933
    },
    {
      "epoch": 13.157613284548269,
      "grad_norm": 0.045646291226148605,
      "learning_rate": 0.0006378425428617343,
      "loss": 0.2699,
      "step": 2934
    },
    {
      "epoch": 13.162116521249649,
      "grad_norm": 0.1082027480006218,
      "learning_rate": 0.0006376038780458442,
      "loss": 0.1446,
      "step": 2935
    },
    {
      "epoch": 13.166619757951027,
      "grad_norm": 0.071983702480793,
      "learning_rate": 0.0006373651793037915,
      "loss": 0.0786,
      "step": 2936
    },
    {
      "epoch": 13.171122994652407,
      "grad_norm": 0.03992272913455963,
      "learning_rate": 0.000637126446694427,
      "loss": 0.0833,
      "step": 2937
    },
    {
      "epoch": 13.175626231353785,
      "grad_norm": 0.03099147602915764,
      "learning_rate": 0.0006368876802766102,
      "loss": 0.1049,
      "step": 2938
    },
    {
      "epoch": 13.180129468055165,
      "grad_norm": 0.054288338869810104,
      "learning_rate": 0.0006366488801092089,
      "loss": 0.075,
      "step": 2939
    },
    {
      "epoch": 13.184632704756543,
      "grad_norm": 0.1494428813457489,
      "learning_rate": 0.000636410046251099,
      "loss": 0.0614,
      "step": 2940
    },
    {
      "epoch": 13.189135941457923,
      "grad_norm": 0.05704132840037346,
      "learning_rate": 0.000636171178761165,
      "loss": 0.3444,
      "step": 2941
    },
    {
      "epoch": 13.193639178159302,
      "grad_norm": 0.07637693732976913,
      "learning_rate": 0.0006359322776982994,
      "loss": 0.1412,
      "step": 2942
    },
    {
      "epoch": 13.198142414860682,
      "grad_norm": 0.059883564710617065,
      "learning_rate": 0.0006356933431214034,
      "loss": 0.2692,
      "step": 2943
    },
    {
      "epoch": 13.20264565156206,
      "grad_norm": 0.046461280435323715,
      "learning_rate": 0.0006354543750893859,
      "loss": 0.1675,
      "step": 2944
    },
    {
      "epoch": 13.20714888826344,
      "grad_norm": 0.04453817009925842,
      "learning_rate": 0.0006352153736611644,
      "loss": 0.1366,
      "step": 2945
    },
    {
      "epoch": 13.211652124964818,
      "grad_norm": 0.041308458894491196,
      "learning_rate": 0.0006349763388956647,
      "loss": 0.0897,
      "step": 2946
    },
    {
      "epoch": 13.216155361666198,
      "grad_norm": 0.06877763569355011,
      "learning_rate": 0.0006347372708518205,
      "loss": 0.1142,
      "step": 2947
    },
    {
      "epoch": 13.220658598367576,
      "grad_norm": 0.11351917684078217,
      "learning_rate": 0.0006344981695885742,
      "loss": 0.2098,
      "step": 2948
    },
    {
      "epoch": 13.225161835068956,
      "grad_norm": 0.0868217796087265,
      "learning_rate": 0.0006342590351648758,
      "loss": 0.1348,
      "step": 2949
    },
    {
      "epoch": 13.229665071770334,
      "grad_norm": 0.05507516488432884,
      "learning_rate": 0.0006340198676396839,
      "loss": 0.1863,
      "step": 2950
    },
    {
      "epoch": 13.234168308471714,
      "grad_norm": 0.07355079799890518,
      "learning_rate": 0.0006337806670719651,
      "loss": 0.1304,
      "step": 2951
    },
    {
      "epoch": 13.238671545173093,
      "grad_norm": 0.03664576634764671,
      "learning_rate": 0.0006335414335206941,
      "loss": 0.0518,
      "step": 2952
    },
    {
      "epoch": 13.243174781874473,
      "grad_norm": 0.03272118419408798,
      "learning_rate": 0.0006333021670448539,
      "loss": 0.1093,
      "step": 2953
    },
    {
      "epoch": 13.24767801857585,
      "grad_norm": 0.03156575560569763,
      "learning_rate": 0.0006330628677034357,
      "loss": 0.2018,
      "step": 2954
    },
    {
      "epoch": 13.25218125527723,
      "grad_norm": 0.0750497356057167,
      "learning_rate": 0.0006328235355554381,
      "loss": 0.0982,
      "step": 2955
    },
    {
      "epoch": 13.256684491978609,
      "grad_norm": 0.025002645328640938,
      "learning_rate": 0.000632584170659869,
      "loss": 0.2169,
      "step": 2956
    },
    {
      "epoch": 13.261187728679989,
      "grad_norm": 0.05834941565990448,
      "learning_rate": 0.000632344773075743,
      "loss": 0.1064,
      "step": 2957
    },
    {
      "epoch": 13.265690965381367,
      "grad_norm": 0.04669232666492462,
      "learning_rate": 0.0006321053428620839,
      "loss": 0.1037,
      "step": 2958
    },
    {
      "epoch": 13.270194202082747,
      "grad_norm": 0.046847566962242126,
      "learning_rate": 0.000631865880077923,
      "loss": 0.3173,
      "step": 2959
    },
    {
      "epoch": 13.274697438784127,
      "grad_norm": 0.082801952958107,
      "learning_rate": 0.0006316263847822996,
      "loss": 0.1451,
      "step": 2960
    },
    {
      "epoch": 13.279200675485505,
      "grad_norm": 0.0470450185239315,
      "learning_rate": 0.0006313868570342613,
      "loss": 0.0924,
      "step": 2961
    },
    {
      "epoch": 13.283703912186885,
      "grad_norm": 0.03706005960702896,
      "learning_rate": 0.0006311472968928636,
      "loss": 0.1461,
      "step": 2962
    },
    {
      "epoch": 13.288207148888263,
      "grad_norm": 0.06744973361492157,
      "learning_rate": 0.0006309077044171693,
      "loss": 0.1495,
      "step": 2963
    },
    {
      "epoch": 13.292710385589643,
      "grad_norm": 0.05838431790471077,
      "learning_rate": 0.0006306680796662508,
      "loss": 0.2067,
      "step": 2964
    },
    {
      "epoch": 13.297213622291022,
      "grad_norm": 0.06642171740531921,
      "learning_rate": 0.0006304284226991867,
      "loss": 0.1191,
      "step": 2965
    },
    {
      "epoch": 13.301716858992402,
      "grad_norm": 0.12235251069068909,
      "learning_rate": 0.0006301887335750647,
      "loss": 0.2729,
      "step": 2966
    },
    {
      "epoch": 13.30622009569378,
      "grad_norm": 0.039987750351428986,
      "learning_rate": 0.0006299490123529796,
      "loss": 0.0626,
      "step": 2967
    },
    {
      "epoch": 13.31072333239516,
      "grad_norm": 0.02636195905506611,
      "learning_rate": 0.000629709259092035,
      "loss": 0.1608,
      "step": 2968
    },
    {
      "epoch": 13.315226569096538,
      "grad_norm": 0.1969679445028305,
      "learning_rate": 0.0006294694738513416,
      "loss": 0.1781,
      "step": 2969
    },
    {
      "epoch": 13.319729805797918,
      "grad_norm": 0.0864669680595398,
      "learning_rate": 0.0006292296566900187,
      "loss": 0.1876,
      "step": 2970
    },
    {
      "epoch": 13.324233042499296,
      "grad_norm": 0.03489723056554794,
      "learning_rate": 0.0006289898076671926,
      "loss": 0.114,
      "step": 2971
    },
    {
      "epoch": 13.328736279200676,
      "grad_norm": 0.037005338817834854,
      "learning_rate": 0.0006287499268419983,
      "loss": 0.2426,
      "step": 2972
    },
    {
      "epoch": 13.333239515902054,
      "grad_norm": 0.09427455812692642,
      "learning_rate": 0.0006285100142735782,
      "loss": 0.1977,
      "step": 2973
    },
    {
      "epoch": 13.337742752603434,
      "grad_norm": 0.05561625584959984,
      "learning_rate": 0.0006282700700210826,
      "loss": 0.0914,
      "step": 2974
    },
    {
      "epoch": 13.342245989304812,
      "grad_norm": 0.06124430149793625,
      "learning_rate": 0.0006280300941436695,
      "loss": 0.1583,
      "step": 2975
    },
    {
      "epoch": 13.346749226006192,
      "grad_norm": 0.06380194425582886,
      "learning_rate": 0.0006277900867005052,
      "loss": 0.1655,
      "step": 2976
    },
    {
      "epoch": 13.35125246270757,
      "grad_norm": 0.13341568410396576,
      "learning_rate": 0.0006275500477507629,
      "loss": 0.1138,
      "step": 2977
    },
    {
      "epoch": 13.35575569940895,
      "grad_norm": 0.05330396443605423,
      "learning_rate": 0.0006273099773536246,
      "loss": 0.1299,
      "step": 2978
    },
    {
      "epoch": 13.360258936110329,
      "grad_norm": 0.05846846103668213,
      "learning_rate": 0.0006270698755682792,
      "loss": 0.2264,
      "step": 2979
    },
    {
      "epoch": 13.364762172811709,
      "grad_norm": 0.07129762321710587,
      "learning_rate": 0.0006268297424539237,
      "loss": 0.0554,
      "step": 2980
    },
    {
      "epoch": 13.369265409513087,
      "grad_norm": 0.026099827140569687,
      "learning_rate": 0.000626589578069763,
      "loss": 0.1611,
      "step": 2981
    },
    {
      "epoch": 13.373768646214467,
      "grad_norm": 0.0548829659819603,
      "learning_rate": 0.000626349382475009,
      "loss": 0.1242,
      "step": 2982
    },
    {
      "epoch": 13.378271882915845,
      "grad_norm": 0.05134743079543114,
      "learning_rate": 0.0006261091557288825,
      "loss": 0.1873,
      "step": 2983
    },
    {
      "epoch": 13.382775119617225,
      "grad_norm": 0.09038184583187103,
      "learning_rate": 0.0006258688978906106,
      "loss": 0.1272,
      "step": 2984
    },
    {
      "epoch": 13.387278356318603,
      "grad_norm": 0.03654215484857559,
      "learning_rate": 0.0006256286090194292,
      "loss": 0.0559,
      "step": 2985
    },
    {
      "epoch": 13.391781593019983,
      "grad_norm": 0.03469807654619217,
      "learning_rate": 0.0006253882891745812,
      "loss": 0.1052,
      "step": 2986
    },
    {
      "epoch": 13.396284829721361,
      "grad_norm": 0.04432922601699829,
      "learning_rate": 0.0006251479384153174,
      "loss": 0.153,
      "step": 2987
    },
    {
      "epoch": 13.400788066422741,
      "grad_norm": 0.03752459958195686,
      "learning_rate": 0.000624907556800896,
      "loss": 0.1728,
      "step": 2988
    },
    {
      "epoch": 13.40529130312412,
      "grad_norm": 0.07406939566135406,
      "learning_rate": 0.0006246671443905832,
      "loss": 0.1788,
      "step": 2989
    },
    {
      "epoch": 13.4097945398255,
      "grad_norm": 0.13985475897789001,
      "learning_rate": 0.0006244267012436524,
      "loss": 0.1836,
      "step": 2990
    },
    {
      "epoch": 13.41429777652688,
      "grad_norm": 0.12339270114898682,
      "learning_rate": 0.0006241862274193847,
      "loss": 0.1134,
      "step": 2991
    },
    {
      "epoch": 13.418801013228258,
      "grad_norm": 0.03351032733917236,
      "learning_rate": 0.0006239457229770688,
      "loss": 0.1725,
      "step": 2992
    },
    {
      "epoch": 13.423304249929638,
      "grad_norm": 0.06713814288377762,
      "learning_rate": 0.0006237051879760013,
      "loss": 0.1208,
      "step": 2993
    },
    {
      "epoch": 13.427807486631016,
      "grad_norm": 0.08324725180864334,
      "learning_rate": 0.0006234646224754854,
      "loss": 0.0733,
      "step": 2994
    },
    {
      "epoch": 13.432310723332396,
      "grad_norm": 0.029944375157356262,
      "learning_rate": 0.0006232240265348327,
      "loss": 0.2473,
      "step": 2995
    },
    {
      "epoch": 13.436813960033774,
      "grad_norm": 0.19715866446495056,
      "learning_rate": 0.0006229834002133619,
      "loss": 0.1165,
      "step": 2996
    },
    {
      "epoch": 13.441317196735154,
      "grad_norm": 0.060576338320970535,
      "learning_rate": 0.0006227427435703996,
      "loss": 0.1151,
      "step": 2997
    },
    {
      "epoch": 13.445820433436532,
      "grad_norm": 0.04125390201807022,
      "learning_rate": 0.0006225020566652792,
      "loss": 0.2853,
      "step": 2998
    },
    {
      "epoch": 13.450323670137912,
      "grad_norm": 0.1186898797750473,
      "learning_rate": 0.0006222613395573421,
      "loss": 0.1281,
      "step": 2999
    },
    {
      "epoch": 13.45482690683929,
      "grad_norm": 0.11957471072673798,
      "learning_rate": 0.0006220205923059368,
      "loss": 0.0428,
      "step": 3000
    },
    {
      "epoch": 13.45933014354067,
      "grad_norm": 0.03128419816493988,
      "learning_rate": 0.0006217798149704195,
      "loss": 0.0945,
      "step": 3001
    },
    {
      "epoch": 13.463833380242049,
      "grad_norm": 0.05210718885064125,
      "learning_rate": 0.0006215390076101539,
      "loss": 0.1167,
      "step": 3002
    },
    {
      "epoch": 13.468336616943429,
      "grad_norm": 0.0524539053440094,
      "learning_rate": 0.0006212981702845108,
      "loss": 0.0872,
      "step": 3003
    },
    {
      "epoch": 13.472839853644807,
      "grad_norm": 0.03302088379859924,
      "learning_rate": 0.0006210573030528686,
      "loss": 0.0491,
      "step": 3004
    },
    {
      "epoch": 13.477343090346187,
      "grad_norm": 0.01853497140109539,
      "learning_rate": 0.0006208164059746126,
      "loss": 0.0887,
      "step": 3005
    },
    {
      "epoch": 13.481846327047565,
      "grad_norm": 0.061871953308582306,
      "learning_rate": 0.0006205754791091363,
      "loss": 0.1148,
      "step": 3006
    },
    {
      "epoch": 13.486349563748945,
      "grad_norm": 0.03344712778925896,
      "learning_rate": 0.0006203345225158399,
      "loss": 0.037,
      "step": 3007
    },
    {
      "epoch": 13.490852800450323,
      "grad_norm": 0.007060611620545387,
      "learning_rate": 0.0006200935362541311,
      "loss": 0.0687,
      "step": 3008
    },
    {
      "epoch": 13.495356037151703,
      "grad_norm": 0.04412505403161049,
      "learning_rate": 0.000619852520383425,
      "loss": 0.0889,
      "step": 3009
    },
    {
      "epoch": 13.499859273853081,
      "grad_norm": 0.04644036665558815,
      "learning_rate": 0.000619611474963144,
      "loss": 0.289,
      "step": 3010
    },
    {
      "epoch": 13.504362510554461,
      "grad_norm": 0.06694981455802917,
      "learning_rate": 0.0006193704000527175,
      "loss": 0.2339,
      "step": 3011
    },
    {
      "epoch": 13.50886574725584,
      "grad_norm": 0.053298864513635635,
      "learning_rate": 0.0006191292957115824,
      "loss": 0.0608,
      "step": 3012
    },
    {
      "epoch": 13.51336898395722,
      "grad_norm": 0.058377303183078766,
      "learning_rate": 0.0006188881619991833,
      "loss": 0.1242,
      "step": 3013
    },
    {
      "epoch": 13.517872220658598,
      "grad_norm": 0.06096461042761803,
      "learning_rate": 0.000618646998974971,
      "loss": 0.3765,
      "step": 3014
    },
    {
      "epoch": 13.522375457359978,
      "grad_norm": 0.06482529640197754,
      "learning_rate": 0.0006184058066984045,
      "loss": 0.149,
      "step": 3015
    },
    {
      "epoch": 13.526878694061356,
      "grad_norm": 0.04381159693002701,
      "learning_rate": 0.0006181645852289494,
      "loss": 0.0753,
      "step": 3016
    },
    {
      "epoch": 13.531381930762736,
      "grad_norm": 0.03163567930459976,
      "learning_rate": 0.000617923334626079,
      "loss": 0.1955,
      "step": 3017
    },
    {
      "epoch": 13.535885167464114,
      "grad_norm": 0.06294821947813034,
      "learning_rate": 0.0006176820549492733,
      "loss": 0.1894,
      "step": 3018
    },
    {
      "epoch": 13.540388404165494,
      "grad_norm": 0.052817799150943756,
      "learning_rate": 0.0006174407462580196,
      "loss": 0.3094,
      "step": 3019
    },
    {
      "epoch": 13.544891640866872,
      "grad_norm": 0.06315650790929794,
      "learning_rate": 0.0006171994086118126,
      "loss": 0.19,
      "step": 3020
    },
    {
      "epoch": 13.549394877568252,
      "grad_norm": 0.09137029945850372,
      "learning_rate": 0.0006169580420701537,
      "loss": 0.0677,
      "step": 3021
    },
    {
      "epoch": 13.553898114269632,
      "grad_norm": 0.06659237295389175,
      "learning_rate": 0.0006167166466925523,
      "loss": 0.0729,
      "step": 3022
    },
    {
      "epoch": 13.55840135097101,
      "grad_norm": 0.02881230041384697,
      "learning_rate": 0.0006164752225385235,
      "loss": 0.1623,
      "step": 3023
    },
    {
      "epoch": 13.562904587672389,
      "grad_norm": 0.04296974837779999,
      "learning_rate": 0.0006162337696675909,
      "loss": 0.2451,
      "step": 3024
    },
    {
      "epoch": 13.567407824373769,
      "grad_norm": 0.055118314921855927,
      "learning_rate": 0.0006159922881392843,
      "loss": 0.3674,
      "step": 3025
    },
    {
      "epoch": 13.571911061075149,
      "grad_norm": 0.06447935104370117,
      "learning_rate": 0.000615750778013141,
      "loss": 0.2271,
      "step": 3026
    },
    {
      "epoch": 13.576414297776527,
      "grad_norm": 0.12510693073272705,
      "learning_rate": 0.0006155092393487051,
      "loss": 0.1207,
      "step": 3027
    },
    {
      "epoch": 13.580917534477907,
      "grad_norm": 0.07514980435371399,
      "learning_rate": 0.0006152676722055277,
      "loss": 0.1505,
      "step": 3028
    },
    {
      "epoch": 13.585420771179285,
      "grad_norm": 0.04754463955760002,
      "learning_rate": 0.0006150260766431673,
      "loss": 0.1787,
      "step": 3029
    },
    {
      "epoch": 13.589924007880665,
      "grad_norm": 0.04528830945491791,
      "learning_rate": 0.000614784452721189,
      "loss": 0.1712,
      "step": 3030
    },
    {
      "epoch": 13.594427244582043,
      "grad_norm": 0.037984978407621384,
      "learning_rate": 0.000614542800499165,
      "loss": 0.2342,
      "step": 3031
    },
    {
      "epoch": 13.598930481283423,
      "grad_norm": 0.12059560418128967,
      "learning_rate": 0.0006143011200366747,
      "loss": 0.2012,
      "step": 3032
    },
    {
      "epoch": 13.603433717984801,
      "grad_norm": 0.0689743310213089,
      "learning_rate": 0.0006140594113933042,
      "loss": 0.1093,
      "step": 3033
    },
    {
      "epoch": 13.607936954686181,
      "grad_norm": 0.0300720427185297,
      "learning_rate": 0.0006138176746286468,
      "loss": 0.117,
      "step": 3034
    },
    {
      "epoch": 13.61244019138756,
      "grad_norm": 0.05021831393241882,
      "learning_rate": 0.0006135759098023022,
      "loss": 0.134,
      "step": 3035
    },
    {
      "epoch": 13.61694342808894,
      "grad_norm": 0.07119151949882507,
      "learning_rate": 0.0006133341169738777,
      "loss": 0.2015,
      "step": 3036
    },
    {
      "epoch": 13.621446664790318,
      "grad_norm": 0.04939647018909454,
      "learning_rate": 0.000613092296202987,
      "loss": 0.322,
      "step": 3037
    },
    {
      "epoch": 13.625949901491698,
      "grad_norm": 0.06726676225662231,
      "learning_rate": 0.0006128504475492511,
      "loss": 0.0571,
      "step": 3038
    },
    {
      "epoch": 13.630453138193076,
      "grad_norm": 0.02427121065557003,
      "learning_rate": 0.0006126085710722975,
      "loss": 0.1337,
      "step": 3039
    },
    {
      "epoch": 13.634956374894456,
      "grad_norm": 0.18009376525878906,
      "learning_rate": 0.0006123666668317607,
      "loss": 0.0902,
      "step": 3040
    },
    {
      "epoch": 13.639459611595834,
      "grad_norm": 0.05053403601050377,
      "learning_rate": 0.0006121247348872822,
      "loss": 0.4062,
      "step": 3041
    },
    {
      "epoch": 13.643962848297214,
      "grad_norm": 0.12372379750013351,
      "learning_rate": 0.0006118827752985101,
      "loss": 0.1887,
      "step": 3042
    },
    {
      "epoch": 13.648466084998592,
      "grad_norm": 0.059437114745378494,
      "learning_rate": 0.0006116407881250994,
      "loss": 0.2982,
      "step": 3043
    },
    {
      "epoch": 13.652969321699972,
      "grad_norm": 0.05060126259922981,
      "learning_rate": 0.0006113987734267118,
      "loss": 0.0888,
      "step": 3044
    },
    {
      "epoch": 13.65747255840135,
      "grad_norm": 0.07856517285108566,
      "learning_rate": 0.0006111567312630161,
      "loss": 0.1712,
      "step": 3045
    },
    {
      "epoch": 13.66197579510273,
      "grad_norm": 0.03238476812839508,
      "learning_rate": 0.0006109146616936876,
      "loss": 0.1289,
      "step": 3046
    },
    {
      "epoch": 13.666479031804109,
      "grad_norm": 0.0744742825627327,
      "learning_rate": 0.0006106725647784085,
      "loss": 0.1672,
      "step": 3047
    },
    {
      "epoch": 13.670982268505488,
      "grad_norm": 0.07807902991771698,
      "learning_rate": 0.0006104304405768673,
      "loss": 0.0869,
      "step": 3048
    },
    {
      "epoch": 13.675485505206867,
      "grad_norm": 0.02575293555855751,
      "learning_rate": 0.0006101882891487601,
      "loss": 0.1287,
      "step": 3049
    },
    {
      "epoch": 13.679988741908247,
      "grad_norm": 0.030651606619358063,
      "learning_rate": 0.0006099461105537889,
      "loss": 0.2401,
      "step": 3050
    },
    {
      "epoch": 13.684491978609625,
      "grad_norm": 0.08655958622694016,
      "learning_rate": 0.0006097039048516627,
      "loss": 0.1735,
      "step": 3051
    },
    {
      "epoch": 13.688995215311005,
      "grad_norm": 0.057283103466033936,
      "learning_rate": 0.0006094616721020973,
      "loss": 0.0544,
      "step": 3052
    },
    {
      "epoch": 13.693498452012385,
      "grad_norm": 0.0226789191365242,
      "learning_rate": 0.0006092194123648151,
      "loss": 0.2051,
      "step": 3053
    },
    {
      "epoch": 13.698001688713763,
      "grad_norm": 0.05856655165553093,
      "learning_rate": 0.000608977125699545,
      "loss": 0.2069,
      "step": 3054
    },
    {
      "epoch": 13.702504925415141,
      "grad_norm": 0.06419410556554794,
      "learning_rate": 0.0006087348121660226,
      "loss": 0.286,
      "step": 3055
    },
    {
      "epoch": 13.707008162116521,
      "grad_norm": 0.10772427916526794,
      "learning_rate": 0.0006084924718239902,
      "loss": 0.2064,
      "step": 3056
    },
    {
      "epoch": 13.711511398817901,
      "grad_norm": 0.045367028564214706,
      "learning_rate": 0.000608250104733197,
      "loss": 0.0875,
      "step": 3057
    },
    {
      "epoch": 13.71601463551928,
      "grad_norm": 0.029788566753268242,
      "learning_rate": 0.0006080077109533979,
      "loss": 0.1,
      "step": 3058
    },
    {
      "epoch": 13.72051787222066,
      "grad_norm": 0.02702035941183567,
      "learning_rate": 0.0006077652905443554,
      "loss": 0.3368,
      "step": 3059
    },
    {
      "epoch": 13.725021108922038,
      "grad_norm": 0.049742985516786575,
      "learning_rate": 0.0006075228435658378,
      "loss": 0.2582,
      "step": 3060
    },
    {
      "epoch": 13.729524345623418,
      "grad_norm": 0.0762852281332016,
      "learning_rate": 0.0006072803700776208,
      "loss": 0.1131,
      "step": 3061
    },
    {
      "epoch": 13.734027582324796,
      "grad_norm": 0.02268853969871998,
      "learning_rate": 0.0006070378701394854,
      "loss": 0.2143,
      "step": 3062
    },
    {
      "epoch": 13.738530819026176,
      "grad_norm": 0.06730886548757553,
      "learning_rate": 0.0006067953438112205,
      "loss": 0.1476,
      "step": 3063
    },
    {
      "epoch": 13.743034055727554,
      "grad_norm": 0.03635469824075699,
      "learning_rate": 0.0006065527911526204,
      "loss": 0.1679,
      "step": 3064
    },
    {
      "epoch": 13.747537292428934,
      "grad_norm": 0.05349560081958771,
      "learning_rate": 0.0006063102122234865,
      "loss": 0.1667,
      "step": 3065
    },
    {
      "epoch": 13.752040529130312,
      "grad_norm": 0.04000623896718025,
      "learning_rate": 0.0006060676070836264,
      "loss": 0.1354,
      "step": 3066
    },
    {
      "epoch": 13.756543765831692,
      "grad_norm": 0.06428910046815872,
      "learning_rate": 0.0006058249757928543,
      "loss": 0.0618,
      "step": 3067
    },
    {
      "epoch": 13.76104700253307,
      "grad_norm": 0.021269885823130608,
      "learning_rate": 0.0006055823184109908,
      "loss": 0.2224,
      "step": 3068
    },
    {
      "epoch": 13.76555023923445,
      "grad_norm": 0.052830446511507034,
      "learning_rate": 0.0006053396349978632,
      "loss": 0.1443,
      "step": 3069
    },
    {
      "epoch": 13.770053475935828,
      "grad_norm": 0.062338683754205704,
      "learning_rate": 0.0006050969256133046,
      "loss": 0.0614,
      "step": 3070
    },
    {
      "epoch": 13.774556712637208,
      "grad_norm": 0.02655407227575779,
      "learning_rate": 0.0006048541903171552,
      "loss": 0.0767,
      "step": 3071
    },
    {
      "epoch": 13.779059949338587,
      "grad_norm": 0.03858039155602455,
      "learning_rate": 0.0006046114291692609,
      "loss": 0.207,
      "step": 3072
    },
    {
      "epoch": 13.783563186039967,
      "grad_norm": 0.056241393089294434,
      "learning_rate": 0.0006043686422294748,
      "loss": 0.2422,
      "step": 3073
    },
    {
      "epoch": 13.788066422741345,
      "grad_norm": 0.05867847427725792,
      "learning_rate": 0.0006041258295576553,
      "loss": 0.2523,
      "step": 3074
    },
    {
      "epoch": 13.792569659442725,
      "grad_norm": 0.09503743052482605,
      "learning_rate": 0.0006038829912136681,
      "loss": 0.1741,
      "step": 3075
    },
    {
      "epoch": 13.797072896144103,
      "grad_norm": 0.052199169993400574,
      "learning_rate": 0.000603640127257385,
      "loss": 0.0864,
      "step": 3076
    },
    {
      "epoch": 13.801576132845483,
      "grad_norm": 0.03046482242643833,
      "learning_rate": 0.0006033972377486837,
      "loss": 0.1611,
      "step": 3077
    },
    {
      "epoch": 13.806079369546861,
      "grad_norm": 0.10191105306148529,
      "learning_rate": 0.0006031543227474485,
      "loss": 0.1022,
      "step": 3078
    },
    {
      "epoch": 13.810582606248241,
      "grad_norm": 0.023807767778635025,
      "learning_rate": 0.0006029113823135702,
      "loss": 0.1032,
      "step": 3079
    },
    {
      "epoch": 13.81508584294962,
      "grad_norm": 0.05487103387713432,
      "learning_rate": 0.0006026684165069454,
      "loss": 0.1807,
      "step": 3080
    },
    {
      "epoch": 13.819589079651,
      "grad_norm": 0.0705714225769043,
      "learning_rate": 0.000602425425387477,
      "loss": 0.1845,
      "step": 3081
    },
    {
      "epoch": 13.824092316352377,
      "grad_norm": 0.035775668919086456,
      "learning_rate": 0.0006021824090150749,
      "loss": 0.141,
      "step": 3082
    },
    {
      "epoch": 13.828595553053757,
      "grad_norm": 0.0572810173034668,
      "learning_rate": 0.0006019393674496543,
      "loss": 0.262,
      "step": 3083
    },
    {
      "epoch": 13.833098789755137,
      "grad_norm": 0.08879367262125015,
      "learning_rate": 0.0006016963007511369,
      "loss": 0.1522,
      "step": 3084
    },
    {
      "epoch": 13.837602026456516,
      "grad_norm": 0.037429314106702805,
      "learning_rate": 0.0006014532089794509,
      "loss": 0.1541,
      "step": 3085
    },
    {
      "epoch": 13.842105263157894,
      "grad_norm": 0.05224449560046196,
      "learning_rate": 0.0006012100921945302,
      "loss": 0.1674,
      "step": 3086
    },
    {
      "epoch": 13.846608499859274,
      "grad_norm": 0.0365387499332428,
      "learning_rate": 0.0006009669504563153,
      "loss": 0.2542,
      "step": 3087
    },
    {
      "epoch": 13.851111736560654,
      "grad_norm": 0.10147617012262344,
      "learning_rate": 0.0006007237838247526,
      "loss": 0.1146,
      "step": 3088
    },
    {
      "epoch": 13.855614973262032,
      "grad_norm": 0.017635712400078773,
      "learning_rate": 0.0006004805923597948,
      "loss": 0.0649,
      "step": 3089
    },
    {
      "epoch": 13.860118209963412,
      "grad_norm": 0.054502084851264954,
      "learning_rate": 0.0006002373761214004,
      "loss": 0.2161,
      "step": 3090
    },
    {
      "epoch": 13.86462144666479,
      "grad_norm": 0.05708301439881325,
      "learning_rate": 0.0005999941351695345,
      "loss": 0.1353,
      "step": 3091
    },
    {
      "epoch": 13.86912468336617,
      "grad_norm": 0.040888894349336624,
      "learning_rate": 0.0005997508695641677,
      "loss": 0.0582,
      "step": 3092
    },
    {
      "epoch": 13.873627920067548,
      "grad_norm": 0.026887478306889534,
      "learning_rate": 0.0005995075793652774,
      "loss": 0.1361,
      "step": 3093
    },
    {
      "epoch": 13.878131156768928,
      "grad_norm": 0.038966692984104156,
      "learning_rate": 0.0005992642646328464,
      "loss": 0.0659,
      "step": 3094
    },
    {
      "epoch": 13.882634393470306,
      "grad_norm": 0.02346670627593994,
      "learning_rate": 0.000599020925426864,
      "loss": 0.3227,
      "step": 3095
    },
    {
      "epoch": 13.887137630171686,
      "grad_norm": 0.08691056817770004,
      "learning_rate": 0.000598777561807325,
      "loss": 0.1049,
      "step": 3096
    },
    {
      "epoch": 13.891640866873065,
      "grad_norm": 0.06748022884130478,
      "learning_rate": 0.0005985341738342309,
      "loss": 0.2172,
      "step": 3097
    },
    {
      "epoch": 13.896144103574445,
      "grad_norm": 0.02565031684935093,
      "learning_rate": 0.0005982907615675889,
      "loss": 0.1342,
      "step": 3098
    },
    {
      "epoch": 13.900647340275823,
      "grad_norm": 0.12712007761001587,
      "learning_rate": 0.0005980473250674119,
      "loss": 0.0761,
      "step": 3099
    },
    {
      "epoch": 13.905150576977203,
      "grad_norm": 0.025103982537984848,
      "learning_rate": 0.0005978038643937194,
      "loss": 0.0853,
      "step": 3100
    },
    {
      "epoch": 13.909653813678581,
      "grad_norm": 0.05328371003270149,
      "learning_rate": 0.0005975603796065361,
      "loss": 0.1054,
      "step": 3101
    },
    {
      "epoch": 13.914157050379961,
      "grad_norm": 0.06497067958116531,
      "learning_rate": 0.0005973168707658933,
      "loss": 0.2734,
      "step": 3102
    },
    {
      "epoch": 13.91866028708134,
      "grad_norm": 0.06936638802289963,
      "learning_rate": 0.000597073337931828,
      "loss": 0.1156,
      "step": 3103
    },
    {
      "epoch": 13.92316352378272,
      "grad_norm": 0.04242495819926262,
      "learning_rate": 0.0005968297811643826,
      "loss": 0.0864,
      "step": 3104
    },
    {
      "epoch": 13.927666760484097,
      "grad_norm": 0.03525557368993759,
      "learning_rate": 0.0005965862005236067,
      "loss": 0.0898,
      "step": 3105
    },
    {
      "epoch": 13.932169997185477,
      "grad_norm": 0.026065930724143982,
      "learning_rate": 0.0005963425960695544,
      "loss": 0.1075,
      "step": 3106
    },
    {
      "epoch": 13.936673233886856,
      "grad_norm": 0.07177867740392685,
      "learning_rate": 0.0005960989678622865,
      "loss": 0.0831,
      "step": 3107
    },
    {
      "epoch": 13.941176470588236,
      "grad_norm": 0.05592472478747368,
      "learning_rate": 0.0005958553159618693,
      "loss": 0.2104,
      "step": 3108
    },
    {
      "epoch": 13.945679707289614,
      "grad_norm": 0.027754852548241615,
      "learning_rate": 0.000595611640428375,
      "loss": 0.0453,
      "step": 3109
    },
    {
      "epoch": 13.950182943990994,
      "grad_norm": 0.02828444354236126,
      "learning_rate": 0.0005953679413218817,
      "loss": 0.1651,
      "step": 3110
    },
    {
      "epoch": 13.954686180692372,
      "grad_norm": 0.05178460851311684,
      "learning_rate": 0.0005951242187024735,
      "loss": 0.2094,
      "step": 3111
    },
    {
      "epoch": 13.959189417393752,
      "grad_norm": 0.06355557590723038,
      "learning_rate": 0.0005948804726302398,
      "loss": 0.2134,
      "step": 3112
    },
    {
      "epoch": 13.96369265409513,
      "grad_norm": 0.0923381894826889,
      "learning_rate": 0.0005946367031652761,
      "loss": 0.2149,
      "step": 3113
    },
    {
      "epoch": 13.96819589079651,
      "grad_norm": 0.03429468721151352,
      "learning_rate": 0.0005943929103676838,
      "loss": 0.1172,
      "step": 3114
    },
    {
      "epoch": 13.97269912749789,
      "grad_norm": 0.06552489846944809,
      "learning_rate": 0.0005941490942975698,
      "loss": 0.2704,
      "step": 3115
    },
    {
      "epoch": 13.977202364199268,
      "grad_norm": 0.08517806231975555,
      "learning_rate": 0.0005939052550150467,
      "loss": 0.1572,
      "step": 3116
    },
    {
      "epoch": 13.981705600900646,
      "grad_norm": 0.05466795340180397,
      "learning_rate": 0.0005936613925802332,
      "loss": 0.0817,
      "step": 3117
    },
    {
      "epoch": 13.986208837602026,
      "grad_norm": 0.11711890995502472,
      "learning_rate": 0.0005934175070532532,
      "loss": 0.0822,
      "step": 3118
    },
    {
      "epoch": 13.990712074303406,
      "grad_norm": 0.039171185344457626,
      "learning_rate": 0.0005931735984942367,
      "loss": 0.0804,
      "step": 3119
    },
    {
      "epoch": 13.995215311004785,
      "grad_norm": 0.05960598215460777,
      "learning_rate": 0.0005929296669633191,
      "loss": 0.1563,
      "step": 3120
    },
    {
      "epoch": 13.999718547706165,
      "grad_norm": 0.06798375397920609,
      "learning_rate": 0.0005926857125206418,
      "loss": 0.0517,
      "step": 3121
    },
    {
      "epoch": 14.0,
      "grad_norm": 0.06798375397920609,
      "learning_rate": 0.0005924417352263512,
      "loss": 0.0012,
      "step": 3122
    },
    {
      "epoch": 14.0,
      "eval_f1": 0.9836951085325598,
      "eval_loss": 0.031742163002491,
      "eval_runtime": 26.2316,
      "eval_samples_per_second": 190.533,
      "eval_steps_per_second": 5.985,
      "step": 3122
    },
    {
      "epoch": 14.00450323670138,
      "grad_norm": 0.0335739329457283,
      "learning_rate": 0.0005921977351406003,
      "loss": 0.1473,
      "step": 3123
    },
    {
      "epoch": 14.009006473402758,
      "grad_norm": 0.07527639716863632,
      "learning_rate": 0.000591953712323547,
      "loss": 0.0907,
      "step": 3124
    },
    {
      "epoch": 14.013509710104138,
      "grad_norm": 0.03707509860396385,
      "learning_rate": 0.0005917096668353549,
      "loss": 0.0667,
      "step": 3125
    },
    {
      "epoch": 14.018012946805516,
      "grad_norm": 0.070654958486557,
      "learning_rate": 0.0005914655987361933,
      "loss": 0.1147,
      "step": 3126
    },
    {
      "epoch": 14.022516183506896,
      "grad_norm": 0.05335545167326927,
      "learning_rate": 0.0005912215080862372,
      "loss": 0.0343,
      "step": 3127
    },
    {
      "epoch": 14.027019420208275,
      "grad_norm": 0.013985071331262589,
      "learning_rate": 0.0005909773949456669,
      "loss": 0.0883,
      "step": 3128
    },
    {
      "epoch": 14.031522656909655,
      "grad_norm": 0.042327988892793655,
      "learning_rate": 0.0005907332593746684,
      "loss": 0.0457,
      "step": 3129
    },
    {
      "epoch": 14.036025893611033,
      "grad_norm": 0.025813594460487366,
      "learning_rate": 0.0005904891014334332,
      "loss": 0.1702,
      "step": 3130
    },
    {
      "epoch": 14.040529130312413,
      "grad_norm": 0.051046695560216904,
      "learning_rate": 0.0005902449211821583,
      "loss": 0.1158,
      "step": 3131
    },
    {
      "epoch": 14.04503236701379,
      "grad_norm": 0.03899882733821869,
      "learning_rate": 0.0005900007186810461,
      "loss": 0.0301,
      "step": 3132
    },
    {
      "epoch": 14.04953560371517,
      "grad_norm": 0.014418200589716434,
      "learning_rate": 0.0005897564939903048,
      "loss": 0.0331,
      "step": 3133
    },
    {
      "epoch": 14.054038840416549,
      "grad_norm": 0.03703209385275841,
      "learning_rate": 0.0005895122471701478,
      "loss": 0.0671,
      "step": 3134
    },
    {
      "epoch": 14.058542077117929,
      "grad_norm": 0.011304839514195919,
      "learning_rate": 0.0005892679782807939,
      "loss": 0.0246,
      "step": 3135
    },
    {
      "epoch": 14.063045313819307,
      "grad_norm": 0.0174784567207098,
      "learning_rate": 0.0005890236873824675,
      "loss": 0.1409,
      "step": 3136
    },
    {
      "epoch": 14.067548550520687,
      "grad_norm": 0.04682125896215439,
      "learning_rate": 0.0005887793745353987,
      "loss": 0.1254,
      "step": 3137
    },
    {
      "epoch": 14.072051787222065,
      "grad_norm": 0.06260564178228378,
      "learning_rate": 0.0005885350397998222,
      "loss": 0.2312,
      "step": 3138
    },
    {
      "epoch": 14.076555023923445,
      "grad_norm": 0.09205098450183868,
      "learning_rate": 0.0005882906832359789,
      "loss": 0.0602,
      "step": 3139
    },
    {
      "epoch": 14.081058260624824,
      "grad_norm": 0.045372381806373596,
      "learning_rate": 0.0005880463049041148,
      "loss": 0.0337,
      "step": 3140
    },
    {
      "epoch": 14.085561497326204,
      "grad_norm": 0.04131726920604706,
      "learning_rate": 0.0005878019048644812,
      "loss": 0.1267,
      "step": 3141
    },
    {
      "epoch": 14.090064734027582,
      "grad_norm": 0.041187651455402374,
      "learning_rate": 0.0005875574831773346,
      "loss": 0.0481,
      "step": 3142
    },
    {
      "epoch": 14.094567970728962,
      "grad_norm": 0.02769765630364418,
      "learning_rate": 0.0005873130399029374,
      "loss": 0.0435,
      "step": 3143
    },
    {
      "epoch": 14.09907120743034,
      "grad_norm": 0.020135827362537384,
      "learning_rate": 0.0005870685751015566,
      "loss": 0.0673,
      "step": 3144
    },
    {
      "epoch": 14.10357444413172,
      "grad_norm": 0.02936127595603466,
      "learning_rate": 0.0005868240888334653,
      "loss": 0.1428,
      "step": 3145
    },
    {
      "epoch": 14.108077680833098,
      "grad_norm": 0.05291278660297394,
      "learning_rate": 0.0005865795811589409,
      "loss": 0.0945,
      "step": 3146
    },
    {
      "epoch": 14.112580917534478,
      "grad_norm": 0.042218632996082306,
      "learning_rate": 0.0005863350521382671,
      "loss": 0.1549,
      "step": 3147
    },
    {
      "epoch": 14.117084154235856,
      "grad_norm": 0.024755580350756645,
      "learning_rate": 0.0005860905018317321,
      "loss": 0.0447,
      "step": 3148
    },
    {
      "epoch": 14.121587390937236,
      "grad_norm": 0.05123532563447952,
      "learning_rate": 0.0005858459302996301,
      "loss": 0.1273,
      "step": 3149
    },
    {
      "epoch": 14.126090627638614,
      "grad_norm": 0.07820352166891098,
      "learning_rate": 0.0005856013376022595,
      "loss": 0.1204,
      "step": 3150
    },
    {
      "epoch": 14.130593864339994,
      "grad_norm": 0.14619848132133484,
      "learning_rate": 0.0005853567237999248,
      "loss": 0.152,
      "step": 3151
    },
    {
      "epoch": 14.135097101041373,
      "grad_norm": 0.03924774006009102,
      "learning_rate": 0.0005851120889529354,
      "loss": 0.0526,
      "step": 3152
    },
    {
      "epoch": 14.139600337742753,
      "grad_norm": 0.044150348752737045,
      "learning_rate": 0.0005848674331216058,
      "loss": 0.26,
      "step": 3153
    },
    {
      "epoch": 14.144103574444133,
      "grad_norm": 0.1154569536447525,
      "learning_rate": 0.0005846227563662559,
      "loss": 0.0384,
      "step": 3154
    },
    {
      "epoch": 14.14860681114551,
      "grad_norm": 0.014505117200314999,
      "learning_rate": 0.0005843780587472105,
      "loss": 0.2096,
      "step": 3155
    },
    {
      "epoch": 14.15311004784689,
      "grad_norm": 0.11922349780797958,
      "learning_rate": 0.0005841333403247997,
      "loss": 0.2308,
      "step": 3156
    },
    {
      "epoch": 14.157613284548269,
      "grad_norm": 0.06760717183351517,
      "learning_rate": 0.0005838886011593587,
      "loss": 0.1181,
      "step": 3157
    },
    {
      "epoch": 14.162116521249649,
      "grad_norm": 0.041262321174144745,
      "learning_rate": 0.0005836438413112278,
      "loss": 0.052,
      "step": 3158
    },
    {
      "epoch": 14.166619757951027,
      "grad_norm": 0.04677848890423775,
      "learning_rate": 0.0005833990608407524,
      "loss": 0.0333,
      "step": 3159
    },
    {
      "epoch": 14.171122994652407,
      "grad_norm": 0.02010148949921131,
      "learning_rate": 0.0005831542598082832,
      "loss": 0.1157,
      "step": 3160
    },
    {
      "epoch": 14.175626231353785,
      "grad_norm": 0.10488461703062057,
      "learning_rate": 0.0005829094382741755,
      "loss": 0.154,
      "step": 3161
    },
    {
      "epoch": 14.180129468055165,
      "grad_norm": 0.031683240085840225,
      "learning_rate": 0.0005826645962987897,
      "loss": 0.0614,
      "step": 3162
    },
    {
      "epoch": 14.184632704756543,
      "grad_norm": 0.06631379574537277,
      "learning_rate": 0.0005824197339424922,
      "loss": 0.2617,
      "step": 3163
    },
    {
      "epoch": 14.189135941457923,
      "grad_norm": 0.03787747025489807,
      "learning_rate": 0.0005821748512656531,
      "loss": 0.0466,
      "step": 3164
    },
    {
      "epoch": 14.193639178159302,
      "grad_norm": 0.05022209882736206,
      "learning_rate": 0.0005819299483286482,
      "loss": 0.0574,
      "step": 3165
    },
    {
      "epoch": 14.198142414860682,
      "grad_norm": 0.02777029201388359,
      "learning_rate": 0.0005816850251918582,
      "loss": 0.0324,
      "step": 3166
    },
    {
      "epoch": 14.20264565156206,
      "grad_norm": 0.02102355845272541,
      "learning_rate": 0.0005814400819156689,
      "loss": 0.2087,
      "step": 3167
    },
    {
      "epoch": 14.20714888826344,
      "grad_norm": 0.08304065465927124,
      "learning_rate": 0.000581195118560471,
      "loss": 0.069,
      "step": 3168
    },
    {
      "epoch": 14.211652124964818,
      "grad_norm": 0.0353042297065258,
      "learning_rate": 0.0005809501351866595,
      "loss": 0.1457,
      "step": 3169
    },
    {
      "epoch": 14.216155361666198,
      "grad_norm": 0.035000406205654144,
      "learning_rate": 0.0005807051318546355,
      "loss": 0.052,
      "step": 3170
    },
    {
      "epoch": 14.220658598367576,
      "grad_norm": 0.022763526067137718,
      "learning_rate": 0.0005804601086248043,
      "loss": 0.1149,
      "step": 3171
    },
    {
      "epoch": 14.225161835068956,
      "grad_norm": 0.10121778398752213,
      "learning_rate": 0.0005802150655575763,
      "loss": 0.1907,
      "step": 3172
    },
    {
      "epoch": 14.229665071770334,
      "grad_norm": 0.08960756659507751,
      "learning_rate": 0.0005799700027133665,
      "loss": 0.0401,
      "step": 3173
    },
    {
      "epoch": 14.234168308471714,
      "grad_norm": 0.014286346733570099,
      "learning_rate": 0.0005797249201525954,
      "loss": 0.0317,
      "step": 3174
    },
    {
      "epoch": 14.238671545173093,
      "grad_norm": 0.00970945879817009,
      "learning_rate": 0.0005794798179356878,
      "loss": 0.0829,
      "step": 3175
    },
    {
      "epoch": 14.243174781874473,
      "grad_norm": 0.027089770883321762,
      "learning_rate": 0.0005792346961230731,
      "loss": 0.0659,
      "step": 3176
    },
    {
      "epoch": 14.24767801857585,
      "grad_norm": 0.026572028174996376,
      "learning_rate": 0.0005789895547751866,
      "loss": 0.1754,
      "step": 3177
    },
    {
      "epoch": 14.25218125527723,
      "grad_norm": 0.031425826251506805,
      "learning_rate": 0.0005787443939524674,
      "loss": 0.0696,
      "step": 3178
    },
    {
      "epoch": 14.256684491978609,
      "grad_norm": 0.027427179738879204,
      "learning_rate": 0.0005784992137153598,
      "loss": 0.1144,
      "step": 3179
    },
    {
      "epoch": 14.261187728679989,
      "grad_norm": 0.03249607980251312,
      "learning_rate": 0.000578254014124313,
      "loss": 0.0852,
      "step": 3180
    },
    {
      "epoch": 14.265690965381367,
      "grad_norm": 0.07520127296447754,
      "learning_rate": 0.0005780087952397807,
      "loss": 0.106,
      "step": 3181
    },
    {
      "epoch": 14.270194202082747,
      "grad_norm": 0.02188810706138611,
      "learning_rate": 0.0005777635571222216,
      "loss": 0.2492,
      "step": 3182
    },
    {
      "epoch": 14.274697438784127,
      "grad_norm": 0.0290311761200428,
      "learning_rate": 0.0005775182998320989,
      "loss": 0.0276,
      "step": 3183
    },
    {
      "epoch": 14.279200675485505,
      "grad_norm": 0.02313210256397724,
      "learning_rate": 0.0005772730234298809,
      "loss": 0.2214,
      "step": 3184
    },
    {
      "epoch": 14.283703912186885,
      "grad_norm": 0.05145929381251335,
      "learning_rate": 0.0005770277279760398,
      "loss": 0.1222,
      "step": 3185
    },
    {
      "epoch": 14.288207148888263,
      "grad_norm": 0.03208804875612259,
      "learning_rate": 0.0005767824135310538,
      "loss": 0.1498,
      "step": 3186
    },
    {
      "epoch": 14.292710385589643,
      "grad_norm": 0.044446107000112534,
      "learning_rate": 0.0005765370801554045,
      "loss": 0.1353,
      "step": 3187
    },
    {
      "epoch": 14.297213622291022,
      "grad_norm": 0.058536432683467865,
      "learning_rate": 0.000576291727909579,
      "loss": 0.0951,
      "step": 3188
    },
    {
      "epoch": 14.301716858992402,
      "grad_norm": 0.040744420140981674,
      "learning_rate": 0.0005760463568540687,
      "loss": 0.0459,
      "step": 3189
    },
    {
      "epoch": 14.30622009569378,
      "grad_norm": 0.02626674249768257,
      "learning_rate": 0.0005758009670493695,
      "loss": 0.0653,
      "step": 3190
    },
    {
      "epoch": 14.31072333239516,
      "grad_norm": 0.02315380983054638,
      "learning_rate": 0.0005755555585559824,
      "loss": 0.0664,
      "step": 3191
    },
    {
      "epoch": 14.315226569096538,
      "grad_norm": 0.029679570347070694,
      "learning_rate": 0.0005753101314344126,
      "loss": 0.1455,
      "step": 3192
    },
    {
      "epoch": 14.319729805797918,
      "grad_norm": 0.06267718970775604,
      "learning_rate": 0.0005750646857451701,
      "loss": 0.1006,
      "step": 3193
    },
    {
      "epoch": 14.324233042499296,
      "grad_norm": 0.0574786551296711,
      "learning_rate": 0.0005748192215487693,
      "loss": 0.1409,
      "step": 3194
    },
    {
      "epoch": 14.328736279200676,
      "grad_norm": 0.04678478091955185,
      "learning_rate": 0.0005745737389057293,
      "loss": 0.0844,
      "step": 3195
    },
    {
      "epoch": 14.333239515902054,
      "grad_norm": 0.03238517418503761,
      "learning_rate": 0.0005743282378765738,
      "loss": 0.1229,
      "step": 3196
    },
    {
      "epoch": 14.337742752603434,
      "grad_norm": 0.054462458938360214,
      "learning_rate": 0.0005740827185218311,
      "loss": 0.2038,
      "step": 3197
    },
    {
      "epoch": 14.342245989304812,
      "grad_norm": 0.024359652772545815,
      "learning_rate": 0.0005738371809020333,
      "loss": 0.1196,
      "step": 3198
    },
    {
      "epoch": 14.346749226006192,
      "grad_norm": 0.0605655200779438,
      "learning_rate": 0.000573591625077718,
      "loss": 0.049,
      "step": 3199
    },
    {
      "epoch": 14.35125246270757,
      "grad_norm": 0.03483952581882477,
      "learning_rate": 0.0005733460511094269,
      "loss": 0.0924,
      "step": 3200
    },
    {
      "epoch": 14.35575569940895,
      "grad_norm": 0.04225706681609154,
      "learning_rate": 0.0005731004590577058,
      "loss": 0.0366,
      "step": 3201
    },
    {
      "epoch": 14.360258936110329,
      "grad_norm": 0.08195008337497711,
      "learning_rate": 0.0005728548489831057,
      "loss": 0.1816,
      "step": 3202
    },
    {
      "epoch": 14.364762172811709,
      "grad_norm": 0.039877999573946,
      "learning_rate": 0.0005726092209461813,
      "loss": 0.1834,
      "step": 3203
    },
    {
      "epoch": 14.369265409513087,
      "grad_norm": 0.044324979186058044,
      "learning_rate": 0.0005723635750074924,
      "loss": 0.0749,
      "step": 3204
    },
    {
      "epoch": 14.373768646214467,
      "grad_norm": 0.028333567082881927,
      "learning_rate": 0.0005721179112276026,
      "loss": 0.0535,
      "step": 3205
    },
    {
      "epoch": 14.378271882915845,
      "grad_norm": 0.024304520338773727,
      "learning_rate": 0.0005718722296670801,
      "loss": 0.1943,
      "step": 3206
    },
    {
      "epoch": 14.382775119617225,
      "grad_norm": 0.03586750477552414,
      "learning_rate": 0.0005716265303864978,
      "loss": 0.1454,
      "step": 3207
    },
    {
      "epoch": 14.387278356318603,
      "grad_norm": 0.04654594138264656,
      "learning_rate": 0.0005713808134464326,
      "loss": 0.0366,
      "step": 3208
    },
    {
      "epoch": 14.391781593019983,
      "grad_norm": 0.02260066382586956,
      "learning_rate": 0.0005711350789074659,
      "loss": 0.082,
      "step": 3209
    },
    {
      "epoch": 14.396284829721361,
      "grad_norm": 0.022098196670413017,
      "learning_rate": 0.0005708893268301835,
      "loss": 0.1321,
      "step": 3210
    },
    {
      "epoch": 14.400788066422741,
      "grad_norm": 0.028081750497221947,
      "learning_rate": 0.0005706435572751754,
      "loss": 0.049,
      "step": 3211
    },
    {
      "epoch": 14.40529130312412,
      "grad_norm": 0.022571435198187828,
      "learning_rate": 0.0005703977703030358,
      "loss": 0.1001,
      "step": 3212
    },
    {
      "epoch": 14.4097945398255,
      "grad_norm": 0.07630468159914017,
      "learning_rate": 0.0005701519659743636,
      "loss": 0.0871,
      "step": 3213
    },
    {
      "epoch": 14.41429777652688,
      "grad_norm": 0.029592974111437798,
      "learning_rate": 0.0005699061443497615,
      "loss": 0.127,
      "step": 3214
    },
    {
      "epoch": 14.418801013228258,
      "grad_norm": 0.0392211452126503,
      "learning_rate": 0.0005696603054898368,
      "loss": 0.0364,
      "step": 3215
    },
    {
      "epoch": 14.423304249929638,
      "grad_norm": 0.03874964267015457,
      "learning_rate": 0.0005694144494552009,
      "loss": 0.1247,
      "step": 3216
    },
    {
      "epoch": 14.427807486631016,
      "grad_norm": 0.022869780659675598,
      "learning_rate": 0.0005691685763064696,
      "loss": 0.1464,
      "step": 3217
    },
    {
      "epoch": 14.432310723332396,
      "grad_norm": 0.027021851390600204,
      "learning_rate": 0.0005689226861042625,
      "loss": 0.0578,
      "step": 3218
    },
    {
      "epoch": 14.436813960033774,
      "grad_norm": 0.026810090988874435,
      "learning_rate": 0.0005686767789092041,
      "loss": 0.0463,
      "step": 3219
    },
    {
      "epoch": 14.441317196735154,
      "grad_norm": 0.029723184183239937,
      "learning_rate": 0.0005684308547819223,
      "loss": 0.1506,
      "step": 3220
    },
    {
      "epoch": 14.445820433436532,
      "grad_norm": 0.03559255972504616,
      "learning_rate": 0.00056818491378305,
      "loss": 0.1264,
      "step": 3221
    },
    {
      "epoch": 14.450323670137912,
      "grad_norm": 0.06467859447002411,
      "learning_rate": 0.0005679389559732234,
      "loss": 0.0731,
      "step": 3222
    },
    {
      "epoch": 14.45482690683929,
      "grad_norm": 0.03033548593521118,
      "learning_rate": 0.0005676929814130835,
      "loss": 0.0509,
      "step": 3223
    },
    {
      "epoch": 14.45933014354067,
      "grad_norm": 0.023776136338710785,
      "learning_rate": 0.000567446990163275,
      "loss": 0.0933,
      "step": 3224
    },
    {
      "epoch": 14.463833380242049,
      "grad_norm": 0.036196496337652206,
      "learning_rate": 0.0005672009822844472,
      "loss": 0.071,
      "step": 3225
    },
    {
      "epoch": 14.468336616943429,
      "grad_norm": 0.0377512201666832,
      "learning_rate": 0.000566954957837253,
      "loss": 0.0079,
      "step": 3226
    },
    {
      "epoch": 14.472839853644807,
      "grad_norm": 0.017455846071243286,
      "learning_rate": 0.0005667089168823496,
      "loss": 0.0894,
      "step": 3227
    },
    {
      "epoch": 14.477343090346187,
      "grad_norm": 0.025365551933646202,
      "learning_rate": 0.0005664628594803984,
      "loss": 0.0785,
      "step": 3228
    },
    {
      "epoch": 14.481846327047565,
      "grad_norm": 0.08520437031984329,
      "learning_rate": 0.0005662167856920646,
      "loss": 0.0469,
      "step": 3229
    },
    {
      "epoch": 14.486349563748945,
      "grad_norm": 0.010330775752663612,
      "learning_rate": 0.0005659706955780177,
      "loss": 0.1243,
      "step": 3230
    },
    {
      "epoch": 14.490852800450323,
      "grad_norm": 0.036973122507333755,
      "learning_rate": 0.0005657245891989306,
      "loss": 0.0571,
      "step": 3231
    },
    {
      "epoch": 14.495356037151703,
      "grad_norm": 0.02241957187652588,
      "learning_rate": 0.0005654784666154815,
      "loss": 0.1076,
      "step": 3232
    },
    {
      "epoch": 14.499859273853081,
      "grad_norm": 0.03456290811300278,
      "learning_rate": 0.0005652323278883511,
      "loss": 0.0187,
      "step": 3233
    },
    {
      "epoch": 14.504362510554461,
      "grad_norm": 0.008549749851226807,
      "learning_rate": 0.0005649861730782253,
      "loss": 0.0792,
      "step": 3234
    },
    {
      "epoch": 14.50886574725584,
      "grad_norm": 0.04000459983944893,
      "learning_rate": 0.000564740002245793,
      "loss": 0.0745,
      "step": 3235
    },
    {
      "epoch": 14.51336898395722,
      "grad_norm": 0.049683328717947006,
      "learning_rate": 0.0005644938154517476,
      "loss": 0.1574,
      "step": 3236
    },
    {
      "epoch": 14.517872220658598,
      "grad_norm": 0.0234978087246418,
      "learning_rate": 0.0005642476127567866,
      "loss": 0.0996,
      "step": 3237
    },
    {
      "epoch": 14.522375457359978,
      "grad_norm": 0.08607180416584015,
      "learning_rate": 0.0005640013942216108,
      "loss": 0.092,
      "step": 3238
    },
    {
      "epoch": 14.526878694061356,
      "grad_norm": 0.02402772568166256,
      "learning_rate": 0.0005637551599069255,
      "loss": 0.0805,
      "step": 3239
    },
    {
      "epoch": 14.531381930762736,
      "grad_norm": 0.05012121424078941,
      "learning_rate": 0.0005635089098734394,
      "loss": 0.1418,
      "step": 3240
    },
    {
      "epoch": 14.535885167464114,
      "grad_norm": 0.027947990223765373,
      "learning_rate": 0.0005632626441818654,
      "loss": 0.1159,
      "step": 3241
    },
    {
      "epoch": 14.540388404165494,
      "grad_norm": 0.03729674220085144,
      "learning_rate": 0.0005630163628929204,
      "loss": 0.1229,
      "step": 3242
    },
    {
      "epoch": 14.544891640866872,
      "grad_norm": 0.053056396543979645,
      "learning_rate": 0.0005627700660673247,
      "loss": 0.0832,
      "step": 3243
    },
    {
      "epoch": 14.549394877568252,
      "grad_norm": 0.05437816306948662,
      "learning_rate": 0.0005625237537658026,
      "loss": 0.1474,
      "step": 3244
    },
    {
      "epoch": 14.553898114269632,
      "grad_norm": 0.02969694882631302,
      "learning_rate": 0.0005622774260490823,
      "loss": 0.0858,
      "step": 3245
    },
    {
      "epoch": 14.55840135097101,
      "grad_norm": 0.05503515526652336,
      "learning_rate": 0.000562031082977896,
      "loss": 0.1876,
      "step": 3246
    },
    {
      "epoch": 14.562904587672389,
      "grad_norm": 0.043462809175252914,
      "learning_rate": 0.0005617847246129791,
      "loss": 0.3611,
      "step": 3247
    },
    {
      "epoch": 14.567407824373769,
      "grad_norm": 0.10903222113847733,
      "learning_rate": 0.0005615383510150714,
      "loss": 0.1124,
      "step": 3248
    },
    {
      "epoch": 14.571911061075149,
      "grad_norm": 0.042567554861307144,
      "learning_rate": 0.0005612919622449159,
      "loss": 0.0862,
      "step": 3249
    },
    {
      "epoch": 14.576414297776527,
      "grad_norm": 0.0772198960185051,
      "learning_rate": 0.0005610455583632598,
      "loss": 0.1042,
      "step": 3250
    },
    {
      "epoch": 14.580917534477907,
      "grad_norm": 0.012484773062169552,
      "learning_rate": 0.0005607991394308542,
      "loss": 0.0912,
      "step": 3251
    },
    {
      "epoch": 14.585420771179285,
      "grad_norm": 0.03179193288087845,
      "learning_rate": 0.0005605527055084528,
      "loss": 0.1034,
      "step": 3252
    },
    {
      "epoch": 14.589924007880665,
      "grad_norm": 0.04844895377755165,
      "learning_rate": 0.0005603062566568143,
      "loss": 0.0675,
      "step": 3253
    },
    {
      "epoch": 14.594427244582043,
      "grad_norm": 0.027024606242775917,
      "learning_rate": 0.0005600597929367004,
      "loss": 0.1886,
      "step": 3254
    },
    {
      "epoch": 14.598930481283423,
      "grad_norm": 0.02978326939046383,
      "learning_rate": 0.0005598133144088765,
      "loss": 0.1147,
      "step": 3255
    },
    {
      "epoch": 14.603433717984801,
      "grad_norm": 0.10110558569431305,
      "learning_rate": 0.0005595668211341118,
      "loss": 0.1352,
      "step": 3256
    },
    {
      "epoch": 14.607936954686181,
      "grad_norm": 0.0616871640086174,
      "learning_rate": 0.0005593203131731792,
      "loss": 0.1658,
      "step": 3257
    },
    {
      "epoch": 14.61244019138756,
      "grad_norm": 0.09247204661369324,
      "learning_rate": 0.0005590737905868551,
      "loss": 0.0464,
      "step": 3258
    },
    {
      "epoch": 14.61694342808894,
      "grad_norm": 0.021532323211431503,
      "learning_rate": 0.0005588272534359192,
      "loss": 0.0643,
      "step": 3259
    },
    {
      "epoch": 14.621446664790318,
      "grad_norm": 0.01578730344772339,
      "learning_rate": 0.0005585807017811556,
      "loss": 0.0798,
      "step": 3260
    },
    {
      "epoch": 14.625949901491698,
      "grad_norm": 0.019098641350865364,
      "learning_rate": 0.000558334135683351,
      "loss": 0.0273,
      "step": 3261
    },
    {
      "epoch": 14.630453138193076,
      "grad_norm": 0.01368758175522089,
      "learning_rate": 0.0005580875552032966,
      "loss": 0.0498,
      "step": 3262
    },
    {
      "epoch": 14.634956374894456,
      "grad_norm": 0.043505966663360596,
      "learning_rate": 0.0005578409604017862,
      "loss": 0.1744,
      "step": 3263
    },
    {
      "epoch": 14.639459611595834,
      "grad_norm": 0.022486303001642227,
      "learning_rate": 0.000557594351339618,
      "loss": 0.3059,
      "step": 3264
    },
    {
      "epoch": 14.643962848297214,
      "grad_norm": 0.07030883431434631,
      "learning_rate": 0.0005573477280775931,
      "loss": 0.0924,
      "step": 3265
    },
    {
      "epoch": 14.648466084998592,
      "grad_norm": 0.025379491969943047,
      "learning_rate": 0.0005571010906765165,
      "loss": 0.2986,
      "step": 3266
    },
    {
      "epoch": 14.652969321699972,
      "grad_norm": 0.0533280149102211,
      "learning_rate": 0.0005568544391971964,
      "loss": 0.0375,
      "step": 3267
    },
    {
      "epoch": 14.65747255840135,
      "grad_norm": 0.014063007198274136,
      "learning_rate": 0.0005566077737004446,
      "loss": 0.2106,
      "step": 3268
    },
    {
      "epoch": 14.66197579510273,
      "grad_norm": 0.08023080974817276,
      "learning_rate": 0.0005563610942470765,
      "loss": 0.0384,
      "step": 3269
    },
    {
      "epoch": 14.666479031804109,
      "grad_norm": 0.038819070905447006,
      "learning_rate": 0.0005561144008979105,
      "loss": 0.1421,
      "step": 3270
    },
    {
      "epoch": 14.670982268505488,
      "grad_norm": 0.023876555263996124,
      "learning_rate": 0.000555867693713769,
      "loss": 0.0891,
      "step": 3271
    },
    {
      "epoch": 14.675485505206867,
      "grad_norm": 0.032527536153793335,
      "learning_rate": 0.0005556209727554773,
      "loss": 0.0517,
      "step": 3272
    },
    {
      "epoch": 14.679988741908247,
      "grad_norm": 0.023125438019633293,
      "learning_rate": 0.0005553742380838646,
      "loss": 0.1346,
      "step": 3273
    },
    {
      "epoch": 14.684491978609625,
      "grad_norm": 0.05483090132474899,
      "learning_rate": 0.0005551274897597628,
      "loss": 0.0455,
      "step": 3274
    },
    {
      "epoch": 14.688995215311005,
      "grad_norm": 0.017582478001713753,
      "learning_rate": 0.0005548807278440079,
      "loss": 0.055,
      "step": 3275
    },
    {
      "epoch": 14.693498452012385,
      "grad_norm": 0.027473535388708115,
      "learning_rate": 0.0005546339523974388,
      "loss": 0.0829,
      "step": 3276
    },
    {
      "epoch": 14.698001688713763,
      "grad_norm": 0.0361831858754158,
      "learning_rate": 0.0005543871634808979,
      "loss": 0.2423,
      "step": 3277
    },
    {
      "epoch": 14.702504925415141,
      "grad_norm": 0.03331882506608963,
      "learning_rate": 0.0005541403611552309,
      "loss": 0.0766,
      "step": 3278
    },
    {
      "epoch": 14.707008162116521,
      "grad_norm": 0.022663425654172897,
      "learning_rate": 0.0005538935454812868,
      "loss": 0.0135,
      "step": 3279
    },
    {
      "epoch": 14.711511398817901,
      "grad_norm": 0.00946931354701519,
      "learning_rate": 0.0005536467165199176,
      "loss": 0.0484,
      "step": 3280
    },
    {
      "epoch": 14.71601463551928,
      "grad_norm": 0.03092668391764164,
      "learning_rate": 0.0005533998743319791,
      "loss": 0.0694,
      "step": 3281
    },
    {
      "epoch": 14.72051787222066,
      "grad_norm": 0.019833264872431755,
      "learning_rate": 0.0005531530189783301,
      "loss": 0.0304,
      "step": 3282
    },
    {
      "epoch": 14.725021108922038,
      "grad_norm": 0.04681599512696266,
      "learning_rate": 0.0005529061505198327,
      "loss": 0.067,
      "step": 3283
    },
    {
      "epoch": 14.729524345623418,
      "grad_norm": 0.032614175230264664,
      "learning_rate": 0.000552659269017352,
      "loss": 0.0824,
      "step": 3284
    },
    {
      "epoch": 14.734027582324796,
      "grad_norm": 0.03446579352021217,
      "learning_rate": 0.0005524123745317566,
      "loss": 0.089,
      "step": 3285
    },
    {
      "epoch": 14.738530819026176,
      "grad_norm": 0.01759103126823902,
      "learning_rate": 0.0005521654671239183,
      "loss": 0.0562,
      "step": 3286
    },
    {
      "epoch": 14.743034055727554,
      "grad_norm": 0.037541963160037994,
      "learning_rate": 0.0005519185468547118,
      "loss": 0.1069,
      "step": 3287
    },
    {
      "epoch": 14.747537292428934,
      "grad_norm": 0.026627466082572937,
      "learning_rate": 0.0005516716137850153,
      "loss": 0.1689,
      "step": 3288
    },
    {
      "epoch": 14.752040529130312,
      "grad_norm": 0.03913792595267296,
      "learning_rate": 0.0005514246679757099,
      "loss": 0.0249,
      "step": 3289
    },
    {
      "epoch": 14.756543765831692,
      "grad_norm": 0.005211127921938896,
      "learning_rate": 0.0005511777094876801,
      "loss": 0.155,
      "step": 3290
    },
    {
      "epoch": 14.76104700253307,
      "grad_norm": 0.034093502908945084,
      "learning_rate": 0.0005509307383818132,
      "loss": 0.1786,
      "step": 3291
    },
    {
      "epoch": 14.76555023923445,
      "grad_norm": 0.07673511654138565,
      "learning_rate": 0.000550683754719,
      "loss": 0.0364,
      "step": 3292
    },
    {
      "epoch": 14.770053475935828,
      "grad_norm": 0.023520328104496002,
      "learning_rate": 0.0005504367585601342,
      "loss": 0.0298,
      "step": 3293
    },
    {
      "epoch": 14.774556712637208,
      "grad_norm": 0.0327802412211895,
      "learning_rate": 0.0005501897499661123,
      "loss": 0.1339,
      "step": 3294
    },
    {
      "epoch": 14.779059949338587,
      "grad_norm": 0.06303765624761581,
      "learning_rate": 0.0005499427289978345,
      "loss": 0.0616,
      "step": 3295
    },
    {
      "epoch": 14.783563186039967,
      "grad_norm": 0.042484384030103683,
      "learning_rate": 0.0005496956957162033,
      "loss": 0.0558,
      "step": 3296
    },
    {
      "epoch": 14.788066422741345,
      "grad_norm": 0.02599828690290451,
      "learning_rate": 0.000549448650182125,
      "loss": 0.2116,
      "step": 3297
    },
    {
      "epoch": 14.792569659442725,
      "grad_norm": 0.03476862609386444,
      "learning_rate": 0.0005492015924565081,
      "loss": 0.0925,
      "step": 3298
    },
    {
      "epoch": 14.797072896144103,
      "grad_norm": 0.035418134182691574,
      "learning_rate": 0.0005489545226002651,
      "loss": 0.1091,
      "step": 3299
    },
    {
      "epoch": 14.801576132845483,
      "grad_norm": 0.05992306023836136,
      "learning_rate": 0.0005487074406743107,
      "loss": 0.1517,
      "step": 3300
    },
    {
      "epoch": 14.806079369546861,
      "grad_norm": 0.04111295938491821,
      "learning_rate": 0.0005484603467395625,
      "loss": 0.024,
      "step": 3301
    },
    {
      "epoch": 14.810582606248241,
      "grad_norm": 0.02541418932378292,
      "learning_rate": 0.0005482132408569418,
      "loss": 0.0421,
      "step": 3302
    },
    {
      "epoch": 14.81508584294962,
      "grad_norm": 0.02382374182343483,
      "learning_rate": 0.0005479661230873722,
      "loss": 0.0358,
      "step": 3303
    },
    {
      "epoch": 14.819589079651,
      "grad_norm": 0.032220251858234406,
      "learning_rate": 0.0005477189934917807,
      "loss": 0.0477,
      "step": 3304
    },
    {
      "epoch": 14.824092316352377,
      "grad_norm": 0.033266596496105194,
      "learning_rate": 0.0005474718521310966,
      "loss": 0.0368,
      "step": 3305
    },
    {
      "epoch": 14.828595553053757,
      "grad_norm": 0.06212972104549408,
      "learning_rate": 0.0005472246990662528,
      "loss": 0.1192,
      "step": 3306
    },
    {
      "epoch": 14.833098789755137,
      "grad_norm": 0.05375730246305466,
      "learning_rate": 0.0005469775343581846,
      "loss": 0.0965,
      "step": 3307
    },
    {
      "epoch": 14.837602026456516,
      "grad_norm": 0.04819626733660698,
      "learning_rate": 0.0005467303580678303,
      "loss": 0.0561,
      "step": 3308
    },
    {
      "epoch": 14.842105263157894,
      "grad_norm": 0.02715335786342621,
      "learning_rate": 0.0005464831702561313,
      "loss": 0.0509,
      "step": 3309
    },
    {
      "epoch": 14.846608499859274,
      "grad_norm": 0.049711134284734726,
      "learning_rate": 0.0005462359709840313,
      "loss": 0.0759,
      "step": 3310
    },
    {
      "epoch": 14.851111736560654,
      "grad_norm": 0.02854112535715103,
      "learning_rate": 0.0005459887603124773,
      "loss": 0.0575,
      "step": 3311
    },
    {
      "epoch": 14.855614973262032,
      "grad_norm": 0.02557002753019333,
      "learning_rate": 0.000545741538302419,
      "loss": 0.0942,
      "step": 3312
    },
    {
      "epoch": 14.860118209963412,
      "grad_norm": 0.06586535274982452,
      "learning_rate": 0.0005454943050148089,
      "loss": 0.0778,
      "step": 3313
    },
    {
      "epoch": 14.86462144666479,
      "grad_norm": 0.03463086113333702,
      "learning_rate": 0.0005452470605106021,
      "loss": 0.0351,
      "step": 3314
    },
    {
      "epoch": 14.86912468336617,
      "grad_norm": 0.019593073055148125,
      "learning_rate": 0.0005449998048507566,
      "loss": 0.0319,
      "step": 3315
    },
    {
      "epoch": 14.873627920067548,
      "grad_norm": 0.03137572482228279,
      "learning_rate": 0.0005447525380962334,
      "loss": 0.115,
      "step": 3316
    },
    {
      "epoch": 14.878131156768928,
      "grad_norm": 0.03895492106676102,
      "learning_rate": 0.0005445052603079957,
      "loss": 0.128,
      "step": 3317
    },
    {
      "epoch": 14.882634393470306,
      "grad_norm": 0.05708570033311844,
      "learning_rate": 0.0005442579715470098,
      "loss": 0.1576,
      "step": 3318
    },
    {
      "epoch": 14.887137630171686,
      "grad_norm": 0.02720807120203972,
      "learning_rate": 0.0005440106718742444,
      "loss": 0.0911,
      "step": 3319
    },
    {
      "epoch": 14.891640866873065,
      "grad_norm": 0.032537516206502914,
      "learning_rate": 0.0005437633613506717,
      "loss": 0.0152,
      "step": 3320
    },
    {
      "epoch": 14.896144103574445,
      "grad_norm": 0.007554288022220135,
      "learning_rate": 0.0005435160400372652,
      "loss": 0.0104,
      "step": 3321
    },
    {
      "epoch": 14.900647340275823,
      "grad_norm": 0.003982404246926308,
      "learning_rate": 0.0005432687079950026,
      "loss": 0.0614,
      "step": 3322
    },
    {
      "epoch": 14.905150576977203,
      "grad_norm": 0.029106082394719124,
      "learning_rate": 0.000543021365284863,
      "loss": 0.0148,
      "step": 3323
    },
    {
      "epoch": 14.909653813678581,
      "grad_norm": 0.021258236840367317,
      "learning_rate": 0.0005427740119678286,
      "loss": 0.1843,
      "step": 3324
    },
    {
      "epoch": 14.914157050379961,
      "grad_norm": 0.052968427538871765,
      "learning_rate": 0.0005425266481048845,
      "loss": 0.0312,
      "step": 3325
    },
    {
      "epoch": 14.91866028708134,
      "grad_norm": 0.014886682853102684,
      "learning_rate": 0.0005422792737570179,
      "loss": 0.0321,
      "step": 3326
    },
    {
      "epoch": 14.92316352378272,
      "grad_norm": 0.021306347101926804,
      "learning_rate": 0.0005420318889852189,
      "loss": 0.043,
      "step": 3327
    },
    {
      "epoch": 14.927666760484097,
      "grad_norm": 0.022609174251556396,
      "learning_rate": 0.0005417844938504802,
      "loss": 0.1015,
      "step": 3328
    },
    {
      "epoch": 14.932169997185477,
      "grad_norm": 0.05946451053023338,
      "learning_rate": 0.0005415370884137966,
      "loss": 0.0736,
      "step": 3329
    },
    {
      "epoch": 14.936673233886856,
      "grad_norm": 0.023380644619464874,
      "learning_rate": 0.0005412896727361663,
      "loss": 0.0174,
      "step": 3330
    },
    {
      "epoch": 14.941176470588236,
      "grad_norm": 0.020865371450781822,
      "learning_rate": 0.0005410422468785889,
      "loss": 0.0806,
      "step": 3331
    },
    {
      "epoch": 14.945679707289614,
      "grad_norm": 0.26330050826072693,
      "learning_rate": 0.0005407948109020676,
      "loss": 0.0967,
      "step": 3332
    },
    {
      "epoch": 14.950182943990994,
      "grad_norm": 0.04466637223958969,
      "learning_rate": 0.0005405473648676073,
      "loss": 0.0436,
      "step": 3333
    },
    {
      "epoch": 14.954686180692372,
      "grad_norm": 0.010802382603287697,
      "learning_rate": 0.0005402999088362161,
      "loss": 0.0278,
      "step": 3334
    },
    {
      "epoch": 14.959189417393752,
      "grad_norm": 0.042547013610601425,
      "learning_rate": 0.0005400524428689035,
      "loss": 0.0665,
      "step": 3335
    },
    {
      "epoch": 14.96369265409513,
      "grad_norm": 0.024435637518763542,
      "learning_rate": 0.0005398049670266826,
      "loss": 0.053,
      "step": 3336
    },
    {
      "epoch": 14.96819589079651,
      "grad_norm": 0.04070325195789337,
      "learning_rate": 0.0005395574813705684,
      "loss": 0.1089,
      "step": 3337
    },
    {
      "epoch": 14.97269912749789,
      "grad_norm": 0.0693119466304779,
      "learning_rate": 0.0005393099859615783,
      "loss": 0.0903,
      "step": 3338
    },
    {
      "epoch": 14.977202364199268,
      "grad_norm": 0.04817301034927368,
      "learning_rate": 0.0005390624808607321,
      "loss": 0.1403,
      "step": 3339
    },
    {
      "epoch": 14.981705600900646,
      "grad_norm": 0.05939234420657158,
      "learning_rate": 0.0005388149661290519,
      "loss": 0.1197,
      "step": 3340
    },
    {
      "epoch": 14.986208837602026,
      "grad_norm": 0.04076424241065979,
      "learning_rate": 0.0005385674418275627,
      "loss": 0.2811,
      "step": 3341
    },
    {
      "epoch": 14.990712074303406,
      "grad_norm": 0.18786968290805817,
      "learning_rate": 0.0005383199080172911,
      "loss": 0.1028,
      "step": 3342
    },
    {
      "epoch": 14.995215311004785,
      "grad_norm": 0.030886029824614525,
      "learning_rate": 0.0005380723647592667,
      "loss": 0.1398,
      "step": 3343
    },
    {
      "epoch": 14.999718547706165,
      "grad_norm": 0.02813536860048771,
      "learning_rate": 0.000537824812114521,
      "loss": 0.216,
      "step": 3344
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.02813536860048771,
      "learning_rate": 0.0005375772501440882,
      "loss": 0.0095,
      "step": 3345
    },
    {
      "epoch": 15.0,
      "eval_f1": 0.9858901230861603,
      "eval_loss": 0.03378983587026596,
      "eval_runtime": 26.294,
      "eval_samples_per_second": 190.081,
      "eval_steps_per_second": 5.971,
      "step": 3345
    },
    {
      "epoch": 15.00450323670138,
      "grad_norm": 0.03924960270524025,
      "learning_rate": 0.0005373296789090043,
      "loss": 0.0291,
      "step": 3346
    },
    {
      "epoch": 15.009006473402758,
      "grad_norm": 0.011759072542190552,
      "learning_rate": 0.0005370820984703081,
      "loss": 0.1393,
      "step": 3347
    },
    {
      "epoch": 15.013509710104138,
      "grad_norm": 0.08359786123037338,
      "learning_rate": 0.0005368345088890401,
      "loss": 0.0367,
      "step": 3348
    },
    {
      "epoch": 15.018012946805516,
      "grad_norm": 0.016187943518161774,
      "learning_rate": 0.0005365869102262436,
      "loss": 0.2503,
      "step": 3349
    },
    {
      "epoch": 15.022516183506896,
      "grad_norm": 0.05065550655126572,
      "learning_rate": 0.000536339302542964,
      "loss": 0.0527,
      "step": 3350
    },
    {
      "epoch": 15.027019420208275,
      "grad_norm": 0.05796090140938759,
      "learning_rate": 0.0005360916859002487,
      "loss": 0.0182,
      "step": 3351
    },
    {
      "epoch": 15.031522656909655,
      "grad_norm": 0.006711658556014299,
      "learning_rate": 0.0005358440603591475,
      "loss": 0.0482,
      "step": 3352
    },
    {
      "epoch": 15.036025893611033,
      "grad_norm": 0.03042813576757908,
      "learning_rate": 0.0005355964259807125,
      "loss": 0.0844,
      "step": 3353
    },
    {
      "epoch": 15.040529130312413,
      "grad_norm": 0.04104435443878174,
      "learning_rate": 0.0005353487828259973,
      "loss": 0.2545,
      "step": 3354
    },
    {
      "epoch": 15.04503236701379,
      "grad_norm": 0.13023385405540466,
      "learning_rate": 0.0005351011309560589,
      "loss": 0.0845,
      "step": 3355
    },
    {
      "epoch": 15.04953560371517,
      "grad_norm": 0.034844476729631424,
      "learning_rate": 0.0005348534704319551,
      "loss": 0.1357,
      "step": 3356
    },
    {
      "epoch": 15.054038840416549,
      "grad_norm": 0.032860904932022095,
      "learning_rate": 0.0005346058013147469,
      "loss": 0.106,
      "step": 3357
    },
    {
      "epoch": 15.058542077117929,
      "grad_norm": 0.04758576303720474,
      "learning_rate": 0.0005343581236654968,
      "loss": 0.0538,
      "step": 3358
    },
    {
      "epoch": 15.063045313819307,
      "grad_norm": 0.10813075304031372,
      "learning_rate": 0.0005341104375452695,
      "loss": 0.028,
      "step": 3359
    },
    {
      "epoch": 15.067548550520687,
      "grad_norm": 0.18894116580486298,
      "learning_rate": 0.0005338627430151322,
      "loss": 0.191,
      "step": 3360
    },
    {
      "epoch": 15.072051787222065,
      "grad_norm": 0.12215472012758255,
      "learning_rate": 0.0005336150401361537,
      "loss": 0.0739,
      "step": 3361
    },
    {
      "epoch": 15.076555023923445,
      "grad_norm": 0.0812329426407814,
      "learning_rate": 0.0005333673289694049,
      "loss": 0.1026,
      "step": 3362
    },
    {
      "epoch": 15.081058260624824,
      "grad_norm": 0.03790288046002388,
      "learning_rate": 0.0005331196095759588,
      "loss": 0.0835,
      "step": 3363
    },
    {
      "epoch": 15.085561497326204,
      "grad_norm": 0.04284069314599037,
      "learning_rate": 0.0005328718820168908,
      "loss": 0.0524,
      "step": 3364
    },
    {
      "epoch": 15.090064734027582,
      "grad_norm": 0.04072107374668121,
      "learning_rate": 0.0005326241463532777,
      "loss": 0.1612,
      "step": 3365
    },
    {
      "epoch": 15.094567970728962,
      "grad_norm": 0.12562181055545807,
      "learning_rate": 0.0005323764026461988,
      "loss": 0.0779,
      "step": 3366
    },
    {
      "epoch": 15.09907120743034,
      "grad_norm": 0.05795259773731232,
      "learning_rate": 0.0005321286509567351,
      "loss": 0.0255,
      "step": 3367
    },
    {
      "epoch": 15.10357444413172,
      "grad_norm": 0.008743589743971825,
      "learning_rate": 0.0005318808913459695,
      "loss": 0.1424,
      "step": 3368
    },
    {
      "epoch": 15.108077680833098,
      "grad_norm": 0.025605089962482452,
      "learning_rate": 0.0005316331238749873,
      "loss": 0.0821,
      "step": 3369
    },
    {
      "epoch": 15.112580917534478,
      "grad_norm": 0.022352073341608047,
      "learning_rate": 0.0005313853486048752,
      "loss": 0.1333,
      "step": 3370
    },
    {
      "epoch": 15.117084154235856,
      "grad_norm": 0.044712234288454056,
      "learning_rate": 0.0005311375655967222,
      "loss": 0.0891,
      "step": 3371
    },
    {
      "epoch": 15.121587390937236,
      "grad_norm": 0.04944702982902527,
      "learning_rate": 0.0005308897749116189,
      "loss": 0.1407,
      "step": 3372
    },
    {
      "epoch": 15.126090627638614,
      "grad_norm": 0.050531674176454544,
      "learning_rate": 0.0005306419766106581,
      "loss": 0.0428,
      "step": 3373
    },
    {
      "epoch": 15.130593864339994,
      "grad_norm": 0.01850544847548008,
      "learning_rate": 0.0005303941707549344,
      "loss": 0.0488,
      "step": 3374
    },
    {
      "epoch": 15.135097101041373,
      "grad_norm": 0.03420932963490486,
      "learning_rate": 0.0005301463574055441,
      "loss": 0.0554,
      "step": 3375
    },
    {
      "epoch": 15.139600337742753,
      "grad_norm": 0.027255311608314514,
      "learning_rate": 0.0005298985366235854,
      "loss": 0.0663,
      "step": 3376
    },
    {
      "epoch": 15.144103574444133,
      "grad_norm": 0.03613768890500069,
      "learning_rate": 0.0005296507084701584,
      "loss": 0.0589,
      "step": 3377
    },
    {
      "epoch": 15.14860681114551,
      "grad_norm": 0.017153896391391754,
      "learning_rate": 0.0005294028730063651,
      "loss": 0.0472,
      "step": 3378
    },
    {
      "epoch": 15.15311004784689,
      "grad_norm": 0.04972102493047714,
      "learning_rate": 0.0005291550302933091,
      "loss": 0.1474,
      "step": 3379
    },
    {
      "epoch": 15.157613284548269,
      "grad_norm": 0.02669951133430004,
      "learning_rate": 0.000528907180392096,
      "loss": 0.0592,
      "step": 3380
    },
    {
      "epoch": 15.162116521249649,
      "grad_norm": 0.037302613258361816,
      "learning_rate": 0.0005286593233638329,
      "loss": 0.0416,
      "step": 3381
    },
    {
      "epoch": 15.166619757951027,
      "grad_norm": 0.03280603513121605,
      "learning_rate": 0.000528411459269629,
      "loss": 0.0887,
      "step": 3382
    },
    {
      "epoch": 15.171122994652407,
      "grad_norm": 0.028173871338367462,
      "learning_rate": 0.0005281635881705948,
      "loss": 0.0581,
      "step": 3383
    },
    {
      "epoch": 15.175626231353785,
      "grad_norm": 0.02737029828131199,
      "learning_rate": 0.0005279157101278433,
      "loss": 0.0153,
      "step": 3384
    },
    {
      "epoch": 15.180129468055165,
      "grad_norm": 0.0073950886726379395,
      "learning_rate": 0.000527667825202488,
      "loss": 0.0386,
      "step": 3385
    },
    {
      "epoch": 15.184632704756543,
      "grad_norm": 0.03296070918440819,
      "learning_rate": 0.0005274199334556452,
      "loss": 0.0871,
      "step": 3386
    },
    {
      "epoch": 15.189135941457923,
      "grad_norm": 0.07312353700399399,
      "learning_rate": 0.0005271720349484326,
      "loss": 0.1075,
      "step": 3387
    },
    {
      "epoch": 15.193639178159302,
      "grad_norm": 0.056901704519987106,
      "learning_rate": 0.000526924129741969,
      "loss": 0.034,
      "step": 3388
    },
    {
      "epoch": 15.198142414860682,
      "grad_norm": 0.01564193330705166,
      "learning_rate": 0.0005266762178973758,
      "loss": 0.0935,
      "step": 3389
    },
    {
      "epoch": 15.20264565156206,
      "grad_norm": 0.06954275816679001,
      "learning_rate": 0.0005264282994757754,
      "loss": 0.0381,
      "step": 3390
    },
    {
      "epoch": 15.20714888826344,
      "grad_norm": 0.0166204534471035,
      "learning_rate": 0.0005261803745382916,
      "loss": 0.0438,
      "step": 3391
    },
    {
      "epoch": 15.211652124964818,
      "grad_norm": 0.025094443932175636,
      "learning_rate": 0.0005259324431460506,
      "loss": 0.1246,
      "step": 3392
    },
    {
      "epoch": 15.216155361666198,
      "grad_norm": 0.05443761497735977,
      "learning_rate": 0.0005256845053601794,
      "loss": 0.0349,
      "step": 3393
    },
    {
      "epoch": 15.220658598367576,
      "grad_norm": 0.03196176141500473,
      "learning_rate": 0.0005254365612418073,
      "loss": 0.0435,
      "step": 3394
    },
    {
      "epoch": 15.225161835068956,
      "grad_norm": 0.019128834828734398,
      "learning_rate": 0.0005251886108520644,
      "loss": 0.0157,
      "step": 3395
    },
    {
      "epoch": 15.229665071770334,
      "grad_norm": 0.015431992709636688,
      "learning_rate": 0.0005249406542520831,
      "loss": 0.0907,
      "step": 3396
    },
    {
      "epoch": 15.234168308471714,
      "grad_norm": 0.04364805668592453,
      "learning_rate": 0.0005246926915029967,
      "loss": 0.1355,
      "step": 3397
    },
    {
      "epoch": 15.238671545173093,
      "grad_norm": 0.039343833923339844,
      "learning_rate": 0.0005244447226659403,
      "loss": 0.0821,
      "step": 3398
    },
    {
      "epoch": 15.243174781874473,
      "grad_norm": 0.02276446670293808,
      "learning_rate": 0.0005241967478020507,
      "loss": 0.0285,
      "step": 3399
    },
    {
      "epoch": 15.24767801857585,
      "grad_norm": 0.021984824910759926,
      "learning_rate": 0.0005239487669724658,
      "loss": 0.0645,
      "step": 3400
    },
    {
      "epoch": 15.25218125527723,
      "grad_norm": 0.04743869602680206,
      "learning_rate": 0.0005237007802383251,
      "loss": 0.0639,
      "step": 3401
    },
    {
      "epoch": 15.256684491978609,
      "grad_norm": 0.04493063688278198,
      "learning_rate": 0.0005234527876607697,
      "loss": 0.2131,
      "step": 3402
    },
    {
      "epoch": 15.261187728679989,
      "grad_norm": 0.05513293668627739,
      "learning_rate": 0.000523204789300942,
      "loss": 0.0285,
      "step": 3403
    },
    {
      "epoch": 15.265690965381367,
      "grad_norm": 0.02983727864921093,
      "learning_rate": 0.0005229567852199859,
      "loss": 0.0143,
      "step": 3404
    },
    {
      "epoch": 15.270194202082747,
      "grad_norm": 0.009392623789608479,
      "learning_rate": 0.0005227087754790466,
      "loss": 0.0561,
      "step": 3405
    },
    {
      "epoch": 15.274697438784127,
      "grad_norm": 0.03533993288874626,
      "learning_rate": 0.000522460760139271,
      "loss": 0.2672,
      "step": 3406
    },
    {
      "epoch": 15.279200675485505,
      "grad_norm": 0.06139151379466057,
      "learning_rate": 0.0005222127392618067,
      "loss": 0.0572,
      "step": 3407
    },
    {
      "epoch": 15.283703912186885,
      "grad_norm": 0.045864880084991455,
      "learning_rate": 0.0005219647129078035,
      "loss": 0.0319,
      "step": 3408
    },
    {
      "epoch": 15.288207148888263,
      "grad_norm": 0.019009660929441452,
      "learning_rate": 0.000521716681138412,
      "loss": 0.108,
      "step": 3409
    },
    {
      "epoch": 15.292710385589643,
      "grad_norm": 0.06704216450452805,
      "learning_rate": 0.0005214686440147845,
      "loss": 0.0186,
      "step": 3410
    },
    {
      "epoch": 15.297213622291022,
      "grad_norm": 0.007190175354480743,
      "learning_rate": 0.0005212206015980742,
      "loss": 0.0668,
      "step": 3411
    },
    {
      "epoch": 15.301716858992402,
      "grad_norm": 0.019944418221712112,
      "learning_rate": 0.0005209725539494359,
      "loss": 0.0651,
      "step": 3412
    },
    {
      "epoch": 15.30622009569378,
      "grad_norm": 0.01704486459493637,
      "learning_rate": 0.0005207245011300256,
      "loss": 0.0119,
      "step": 3413
    },
    {
      "epoch": 15.31072333239516,
      "grad_norm": 0.015006959438323975,
      "learning_rate": 0.0005204764432010005,
      "loss": 0.0631,
      "step": 3414
    },
    {
      "epoch": 15.315226569096538,
      "grad_norm": 0.037023015320301056,
      "learning_rate": 0.0005202283802235194,
      "loss": 0.0886,
      "step": 3415
    },
    {
      "epoch": 15.319729805797918,
      "grad_norm": 0.0484200045466423,
      "learning_rate": 0.0005199803122587417,
      "loss": 0.0731,
      "step": 3416
    },
    {
      "epoch": 15.324233042499296,
      "grad_norm": 0.016975512728095055,
      "learning_rate": 0.0005197322393678289,
      "loss": 0.0261,
      "step": 3417
    },
    {
      "epoch": 15.328736279200676,
      "grad_norm": 0.016166701912879944,
      "learning_rate": 0.0005194841616119429,
      "loss": 0.1076,
      "step": 3418
    },
    {
      "epoch": 15.333239515902054,
      "grad_norm": 0.07094494998455048,
      "learning_rate": 0.0005192360790522472,
      "loss": 0.0285,
      "step": 3419
    },
    {
      "epoch": 15.337742752603434,
      "grad_norm": 0.013435037806630135,
      "learning_rate": 0.0005189879917499066,
      "loss": 0.0191,
      "step": 3420
    },
    {
      "epoch": 15.342245989304812,
      "grad_norm": 0.008915270678699017,
      "learning_rate": 0.0005187398997660867,
      "loss": 0.0509,
      "step": 3421
    },
    {
      "epoch": 15.346749226006192,
      "grad_norm": 0.037272777408361435,
      "learning_rate": 0.0005184918031619544,
      "loss": 0.015,
      "step": 3422
    },
    {
      "epoch": 15.35125246270757,
      "grad_norm": 0.008693392388522625,
      "learning_rate": 0.0005182437019986781,
      "loss": 0.0165,
      "step": 3423
    },
    {
      "epoch": 15.35575569940895,
      "grad_norm": 0.017587775364518166,
      "learning_rate": 0.0005179955963374266,
      "loss": 0.0062,
      "step": 3424
    },
    {
      "epoch": 15.360258936110329,
      "grad_norm": 0.0020503331907093525,
      "learning_rate": 0.0005177474862393705,
      "loss": 0.0553,
      "step": 3425
    },
    {
      "epoch": 15.364762172811709,
      "grad_norm": 0.07247433811426163,
      "learning_rate": 0.0005174993717656812,
      "loss": 0.0964,
      "step": 3426
    },
    {
      "epoch": 15.369265409513087,
      "grad_norm": 0.03273872286081314,
      "learning_rate": 0.0005172512529775312,
      "loss": 0.0632,
      "step": 3427
    },
    {
      "epoch": 15.373768646214467,
      "grad_norm": 0.02318047173321247,
      "learning_rate": 0.0005170031299360937,
      "loss": 0.2829,
      "step": 3428
    },
    {
      "epoch": 15.378271882915845,
      "grad_norm": 0.08108314871788025,
      "learning_rate": 0.0005167550027025438,
      "loss": 0.1704,
      "step": 3429
    },
    {
      "epoch": 15.382775119617225,
      "grad_norm": 0.031294286251068115,
      "learning_rate": 0.0005165068713380567,
      "loss": 0.1164,
      "step": 3430
    },
    {
      "epoch": 15.387278356318603,
      "grad_norm": 0.036263007670640945,
      "learning_rate": 0.0005162587359038096,
      "loss": 0.046,
      "step": 3431
    },
    {
      "epoch": 15.391781593019983,
      "grad_norm": 0.01896071247756481,
      "learning_rate": 0.0005160105964609796,
      "loss": 0.0798,
      "step": 3432
    },
    {
      "epoch": 15.396284829721361,
      "grad_norm": 0.02963138557970524,
      "learning_rate": 0.0005157624530707456,
      "loss": 0.0333,
      "step": 3433
    },
    {
      "epoch": 15.400788066422741,
      "grad_norm": 0.016059644520282745,
      "learning_rate": 0.0005155143057942873,
      "loss": 0.2721,
      "step": 3434
    },
    {
      "epoch": 15.40529130312412,
      "grad_norm": 0.07732976227998734,
      "learning_rate": 0.0005152661546927851,
      "loss": 0.0425,
      "step": 3435
    },
    {
      "epoch": 15.4097945398255,
      "grad_norm": 0.023248890414834023,
      "learning_rate": 0.0005150179998274206,
      "loss": 0.0179,
      "step": 3436
    },
    {
      "epoch": 15.41429777652688,
      "grad_norm": 0.07813894003629684,
      "learning_rate": 0.0005147698412593762,
      "loss": 0.0427,
      "step": 3437
    },
    {
      "epoch": 15.418801013228258,
      "grad_norm": 0.01336901169270277,
      "learning_rate": 0.0005145216790498354,
      "loss": 0.0625,
      "step": 3438
    },
    {
      "epoch": 15.423304249929638,
      "grad_norm": 0.029790716245770454,
      "learning_rate": 0.0005142735132599824,
      "loss": 0.0206,
      "step": 3439
    },
    {
      "epoch": 15.427807486631016,
      "grad_norm": 0.04423574358224869,
      "learning_rate": 0.0005140253439510023,
      "loss": 0.0189,
      "step": 3440
    },
    {
      "epoch": 15.432310723332396,
      "grad_norm": 0.014076048508286476,
      "learning_rate": 0.0005137771711840811,
      "loss": 0.0675,
      "step": 3441
    },
    {
      "epoch": 15.436813960033774,
      "grad_norm": 0.1393364667892456,
      "learning_rate": 0.0005135289950204057,
      "loss": 0.0887,
      "step": 3442
    },
    {
      "epoch": 15.441317196735154,
      "grad_norm": 0.03472672402858734,
      "learning_rate": 0.0005132808155211637,
      "loss": 0.1404,
      "step": 3443
    },
    {
      "epoch": 15.445820433436532,
      "grad_norm": 0.03592372685670853,
      "learning_rate": 0.0005130326327475438,
      "loss": 0.0334,
      "step": 3444
    },
    {
      "epoch": 15.450323670137912,
      "grad_norm": 0.026524249464273453,
      "learning_rate": 0.0005127844467607352,
      "loss": 0.0855,
      "step": 3445
    },
    {
      "epoch": 15.45482690683929,
      "grad_norm": 0.02340511791408062,
      "learning_rate": 0.0005125362576219281,
      "loss": 0.0817,
      "step": 3446
    },
    {
      "epoch": 15.45933014354067,
      "grad_norm": 0.07990705966949463,
      "learning_rate": 0.0005122880653923134,
      "loss": 0.0575,
      "step": 3447
    },
    {
      "epoch": 15.463833380242049,
      "grad_norm": 0.05801231414079666,
      "learning_rate": 0.0005120398701330827,
      "loss": 0.0201,
      "step": 3448
    },
    {
      "epoch": 15.468336616943429,
      "grad_norm": 0.00873052142560482,
      "learning_rate": 0.0005117916719054285,
      "loss": 0.1437,
      "step": 3449
    },
    {
      "epoch": 15.472839853644807,
      "grad_norm": 0.03540991619229317,
      "learning_rate": 0.0005115434707705439,
      "loss": 0.0107,
      "step": 3450
    },
    {
      "epoch": 15.477343090346187,
      "grad_norm": 0.00788688100874424,
      "learning_rate": 0.0005112952667896226,
      "loss": 0.0761,
      "step": 3451
    },
    {
      "epoch": 15.481846327047565,
      "grad_norm": 0.0720379650592804,
      "learning_rate": 0.0005110470600238594,
      "loss": 0.08,
      "step": 3452
    },
    {
      "epoch": 15.486349563748945,
      "grad_norm": 0.03967355936765671,
      "learning_rate": 0.0005107988505344493,
      "loss": 0.0817,
      "step": 3453
    },
    {
      "epoch": 15.490852800450323,
      "grad_norm": 0.05905478075146675,
      "learning_rate": 0.0005105506383825886,
      "loss": 0.0628,
      "step": 3454
    },
    {
      "epoch": 15.495356037151703,
      "grad_norm": 0.029953671619296074,
      "learning_rate": 0.0005103024236294734,
      "loss": 0.134,
      "step": 3455
    },
    {
      "epoch": 15.499859273853081,
      "grad_norm": 0.10648280382156372,
      "learning_rate": 0.0005100542063363013,
      "loss": 0.1677,
      "step": 3456
    },
    {
      "epoch": 15.504362510554461,
      "grad_norm": 0.09775175154209137,
      "learning_rate": 0.0005098059865642701,
      "loss": 0.1345,
      "step": 3457
    },
    {
      "epoch": 15.50886574725584,
      "grad_norm": 0.07332871109247208,
      "learning_rate": 0.0005095577643745777,
      "loss": 0.1328,
      "step": 3458
    },
    {
      "epoch": 15.51336898395722,
      "grad_norm": 0.021363195031881332,
      "learning_rate": 0.0005093095398284238,
      "loss": 0.1836,
      "step": 3459
    },
    {
      "epoch": 15.517872220658598,
      "grad_norm": 0.04840467497706413,
      "learning_rate": 0.000509061312987008,
      "loss": 0.0506,
      "step": 3460
    },
    {
      "epoch": 15.522375457359978,
      "grad_norm": 0.008000454865396023,
      "learning_rate": 0.0005088130839115302,
      "loss": 0.0991,
      "step": 3461
    },
    {
      "epoch": 15.526878694061356,
      "grad_norm": 0.052301473915576935,
      "learning_rate": 0.0005085648526631912,
      "loss": 0.0465,
      "step": 3462
    },
    {
      "epoch": 15.531381930762736,
      "grad_norm": 0.039681144058704376,
      "learning_rate": 0.0005083166193031924,
      "loss": 0.0717,
      "step": 3463
    },
    {
      "epoch": 15.535885167464114,
      "grad_norm": 0.054359693080186844,
      "learning_rate": 0.0005080683838927357,
      "loss": 0.1217,
      "step": 3464
    },
    {
      "epoch": 15.540388404165494,
      "grad_norm": 0.030314451083540916,
      "learning_rate": 0.000507820146493023,
      "loss": 0.0393,
      "step": 3465
    },
    {
      "epoch": 15.544891640866872,
      "grad_norm": 0.022447053343057632,
      "learning_rate": 0.0005075719071652575,
      "loss": 0.0455,
      "step": 3466
    },
    {
      "epoch": 15.549394877568252,
      "grad_norm": 0.02078397385776043,
      "learning_rate": 0.0005073236659706422,
      "loss": 0.1001,
      "step": 3467
    },
    {
      "epoch": 15.553898114269632,
      "grad_norm": 0.031733687967061996,
      "learning_rate": 0.0005070754229703811,
      "loss": 0.0537,
      "step": 3468
    },
    {
      "epoch": 15.55840135097101,
      "grad_norm": 0.015038782730698586,
      "learning_rate": 0.0005068271782256781,
      "loss": 0.1214,
      "step": 3469
    },
    {
      "epoch": 15.562904587672389,
      "grad_norm": 0.035791825503110886,
      "learning_rate": 0.0005065789317977381,
      "loss": 0.0408,
      "step": 3470
    },
    {
      "epoch": 15.567407824373769,
      "grad_norm": 0.024394044652581215,
      "learning_rate": 0.0005063306837477659,
      "loss": 0.1361,
      "step": 3471
    },
    {
      "epoch": 15.571911061075149,
      "grad_norm": 0.03502463176846504,
      "learning_rate": 0.000506082434136967,
      "loss": 0.0681,
      "step": 3472
    },
    {
      "epoch": 15.576414297776527,
      "grad_norm": 0.02939651533961296,
      "learning_rate": 0.0005058341830265473,
      "loss": 0.0137,
      "step": 3473
    },
    {
      "epoch": 15.580917534477907,
      "grad_norm": 0.0061377668753266335,
      "learning_rate": 0.0005055859304777127,
      "loss": 0.1025,
      "step": 3474
    },
    {
      "epoch": 15.585420771179285,
      "grad_norm": 0.05005253478884697,
      "learning_rate": 0.0005053376765516701,
      "loss": 0.1039,
      "step": 3475
    },
    {
      "epoch": 15.589924007880665,
      "grad_norm": 0.037038713693618774,
      "learning_rate": 0.000505089421309626,
      "loss": 0.0589,
      "step": 3476
    },
    {
      "epoch": 15.594427244582043,
      "grad_norm": 0.02538110502064228,
      "learning_rate": 0.000504841164812788,
      "loss": 0.0205,
      "step": 3477
    },
    {
      "epoch": 15.598930481283423,
      "grad_norm": 0.022319650277495384,
      "learning_rate": 0.0005045929071223632,
      "loss": 0.1432,
      "step": 3478
    },
    {
      "epoch": 15.603433717984801,
      "grad_norm": 0.0568353645503521,
      "learning_rate": 0.0005043446482995596,
      "loss": 0.036,
      "step": 3479
    },
    {
      "epoch": 15.607936954686181,
      "grad_norm": 0.015000816434621811,
      "learning_rate": 0.0005040963884055855,
      "loss": 0.0369,
      "step": 3480
    },
    {
      "epoch": 15.61244019138756,
      "grad_norm": 0.04534263163805008,
      "learning_rate": 0.0005038481275016488,
      "loss": 0.0119,
      "step": 3481
    },
    {
      "epoch": 15.61694342808894,
      "grad_norm": 0.00866373348981142,
      "learning_rate": 0.0005035998656489584,
      "loss": 0.05,
      "step": 3482
    },
    {
      "epoch": 15.621446664790318,
      "grad_norm": 0.022655852138996124,
      "learning_rate": 0.000503351602908723,
      "loss": 0.1359,
      "step": 3483
    },
    {
      "epoch": 15.625949901491698,
      "grad_norm": 0.093333400785923,
      "learning_rate": 0.0005031033393421519,
      "loss": 0.0231,
      "step": 3484
    },
    {
      "epoch": 15.630453138193076,
      "grad_norm": 0.011926446110010147,
      "learning_rate": 0.0005028550750104539,
      "loss": 0.114,
      "step": 3485
    },
    {
      "epoch": 15.634956374894456,
      "grad_norm": 0.0647527277469635,
      "learning_rate": 0.0005026068099748388,
      "loss": 0.1502,
      "step": 3486
    },
    {
      "epoch": 15.639459611595834,
      "grad_norm": 0.08650191873311996,
      "learning_rate": 0.0005023585442965161,
      "loss": 0.0591,
      "step": 3487
    },
    {
      "epoch": 15.643962848297214,
      "grad_norm": 0.04018043354153633,
      "learning_rate": 0.0005021102780366955,
      "loss": 0.0326,
      "step": 3488
    },
    {
      "epoch": 15.648466084998592,
      "grad_norm": 0.037093132734298706,
      "learning_rate": 0.0005018620112565871,
      "loss": 0.1596,
      "step": 3489
    },
    {
      "epoch": 15.652969321699972,
      "grad_norm": 0.020844701677560806,
      "learning_rate": 0.0005016137440174006,
      "loss": 0.0712,
      "step": 3490
    },
    {
      "epoch": 15.65747255840135,
      "grad_norm": 0.04353315755724907,
      "learning_rate": 0.0005013654763803464,
      "loss": 0.0635,
      "step": 3491
    },
    {
      "epoch": 15.66197579510273,
      "grad_norm": 0.030390936881303787,
      "learning_rate": 0.0005011172084066349,
      "loss": 0.0865,
      "step": 3492
    },
    {
      "epoch": 15.666479031804109,
      "grad_norm": 0.042348574846982956,
      "learning_rate": 0.0005008689401574762,
      "loss": 0.0748,
      "step": 3493
    },
    {
      "epoch": 15.670982268505488,
      "grad_norm": 0.07293377816677094,
      "learning_rate": 0.0005006206716940808,
      "loss": 0.0524,
      "step": 3494
    },
    {
      "epoch": 15.675485505206867,
      "grad_norm": 0.037760015577077866,
      "learning_rate": 0.0005003724030776589,
      "loss": 0.0134,
      "step": 3495
    },
    {
      "epoch": 15.679988741908247,
      "grad_norm": 0.021191902458667755,
      "learning_rate": 0.0005001241343694214,
      "loss": 0.0601,
      "step": 3496
    },
    {
      "epoch": 15.684491978609625,
      "grad_norm": 0.025470998138189316,
      "learning_rate": 0.0004998758656305787,
      "loss": 0.0627,
      "step": 3497
    },
    {
      "epoch": 15.688995215311005,
      "grad_norm": 0.08700523525476456,
      "learning_rate": 0.0004996275969223411,
      "loss": 0.0618,
      "step": 3498
    },
    {
      "epoch": 15.693498452012385,
      "grad_norm": 0.03377100080251694,
      "learning_rate": 0.0004993793283059193,
      "loss": 0.1073,
      "step": 3499
    },
    {
      "epoch": 15.698001688713763,
      "grad_norm": 0.049533262848854065,
      "learning_rate": 0.0004991310598425238,
      "loss": 0.2558,
      "step": 3500
    },
    {
      "epoch": 15.702504925415141,
      "grad_norm": 0.07146524637937546,
      "learning_rate": 0.0004988827915933653,
      "loss": 0.0517,
      "step": 3501
    },
    {
      "epoch": 15.707008162116521,
      "grad_norm": 0.06079190969467163,
      "learning_rate": 0.0004986345236196536,
      "loss": 0.0098,
      "step": 3502
    },
    {
      "epoch": 15.711511398817901,
      "grad_norm": 0.00407029502093792,
      "learning_rate": 0.0004983862559825995,
      "loss": 0.0452,
      "step": 3503
    },
    {
      "epoch": 15.71601463551928,
      "grad_norm": 0.026524335145950317,
      "learning_rate": 0.0004981379887434132,
      "loss": 0.0169,
      "step": 3504
    },
    {
      "epoch": 15.72051787222066,
      "grad_norm": 0.01486790832132101,
      "learning_rate": 0.0004978897219633046,
      "loss": 0.1006,
      "step": 3505
    },
    {
      "epoch": 15.725021108922038,
      "grad_norm": 0.07698965817689896,
      "learning_rate": 0.000497641455703484,
      "loss": 0.1414,
      "step": 3506
    },
    {
      "epoch": 15.729524345623418,
      "grad_norm": 0.055610936135053635,
      "learning_rate": 0.0004973931900251611,
      "loss": 0.2038,
      "step": 3507
    },
    {
      "epoch": 15.734027582324796,
      "grad_norm": 0.06151682510972023,
      "learning_rate": 0.0004971449249895461,
      "loss": 0.1216,
      "step": 3508
    },
    {
      "epoch": 15.738530819026176,
      "grad_norm": 0.19482743740081787,
      "learning_rate": 0.0004968966606578482,
      "loss": 0.0491,
      "step": 3509
    },
    {
      "epoch": 15.743034055727554,
      "grad_norm": 0.05229047313332558,
      "learning_rate": 0.0004966483970912769,
      "loss": 0.1134,
      "step": 3510
    },
    {
      "epoch": 15.747537292428934,
      "grad_norm": 0.04526854306459427,
      "learning_rate": 0.0004964001343510417,
      "loss": 0.0123,
      "step": 3511
    },
    {
      "epoch": 15.752040529130312,
      "grad_norm": 0.006816786713898182,
      "learning_rate": 0.0004961518724983513,
      "loss": 0.071,
      "step": 3512
    },
    {
      "epoch": 15.756543765831692,
      "grad_norm": 0.042331237345933914,
      "learning_rate": 0.0004959036115944146,
      "loss": 0.0585,
      "step": 3513
    },
    {
      "epoch": 15.76104700253307,
      "grad_norm": 0.03414302319288254,
      "learning_rate": 0.0004956553517004403,
      "loss": 0.0242,
      "step": 3514
    },
    {
      "epoch": 15.76555023923445,
      "grad_norm": 0.01477143820375204,
      "learning_rate": 0.0004954070928776369,
      "loss": 0.1049,
      "step": 3515
    },
    {
      "epoch": 15.770053475935828,
      "grad_norm": 0.0606856532394886,
      "learning_rate": 0.0004951588351872121,
      "loss": 0.0702,
      "step": 3516
    },
    {
      "epoch": 15.774556712637208,
      "grad_norm": 0.02962748147547245,
      "learning_rate": 0.000494910578690374,
      "loss": 0.0463,
      "step": 3517
    },
    {
      "epoch": 15.779059949338587,
      "grad_norm": 0.01762964576482773,
      "learning_rate": 0.0004946623234483302,
      "loss": 0.112,
      "step": 3518
    },
    {
      "epoch": 15.783563186039967,
      "grad_norm": 0.0407269224524498,
      "learning_rate": 0.0004944140695222873,
      "loss": 0.0149,
      "step": 3519
    },
    {
      "epoch": 15.788066422741345,
      "grad_norm": 0.013403010554611683,
      "learning_rate": 0.0004941658169734528,
      "loss": 0.0364,
      "step": 3520
    },
    {
      "epoch": 15.792569659442725,
      "grad_norm": 0.06322737038135529,
      "learning_rate": 0.0004939175658630329,
      "loss": 0.2666,
      "step": 3521
    },
    {
      "epoch": 15.797072896144103,
      "grad_norm": 0.04423995688557625,
      "learning_rate": 0.0004936693162522342,
      "loss": 0.1711,
      "step": 3522
    },
    {
      "epoch": 15.801576132845483,
      "grad_norm": 0.06209629401564598,
      "learning_rate": 0.0004934210682022619,
      "loss": 0.0319,
      "step": 3523
    },
    {
      "epoch": 15.806079369546861,
      "grad_norm": 0.05215400829911232,
      "learning_rate": 0.0004931728217743218,
      "loss": 0.1777,
      "step": 3524
    },
    {
      "epoch": 15.810582606248241,
      "grad_norm": 0.038685865700244904,
      "learning_rate": 0.000492924577029619,
      "loss": 0.0351,
      "step": 3525
    },
    {
      "epoch": 15.81508584294962,
      "grad_norm": 0.02230813354253769,
      "learning_rate": 0.0004926763340293578,
      "loss": 0.0363,
      "step": 3526
    },
    {
      "epoch": 15.819589079651,
      "grad_norm": 0.028251126408576965,
      "learning_rate": 0.0004924280928347427,
      "loss": 0.1931,
      "step": 3527
    },
    {
      "epoch": 15.824092316352377,
      "grad_norm": 0.050113748759031296,
      "learning_rate": 0.0004921798535069769,
      "loss": 0.105,
      "step": 3528
    },
    {
      "epoch": 15.828595553053757,
      "grad_norm": 0.042238086462020874,
      "learning_rate": 0.0004919316161072645,
      "loss": 0.0705,
      "step": 3529
    },
    {
      "epoch": 15.833098789755137,
      "grad_norm": 0.045890092849731445,
      "learning_rate": 0.0004916833806968077,
      "loss": 0.0305,
      "step": 3530
    },
    {
      "epoch": 15.837602026456516,
      "grad_norm": 0.02730167657136917,
      "learning_rate": 0.0004914351473368088,
      "loss": 0.1121,
      "step": 3531
    },
    {
      "epoch": 15.842105263157894,
      "grad_norm": 0.026737473905086517,
      "learning_rate": 0.0004911869160884698,
      "loss": 0.0391,
      "step": 3532
    },
    {
      "epoch": 15.846608499859274,
      "grad_norm": 0.042217470705509186,
      "learning_rate": 0.0004909386870129921,
      "loss": 0.1485,
      "step": 3533
    },
    {
      "epoch": 15.851111736560654,
      "grad_norm": 0.04294326528906822,
      "learning_rate": 0.0004906904601715762,
      "loss": 0.0515,
      "step": 3534
    },
    {
      "epoch": 15.855614973262032,
      "grad_norm": 0.01756206713616848,
      "learning_rate": 0.0004904422356254223,
      "loss": 0.058,
      "step": 3535
    },
    {
      "epoch": 15.860118209963412,
      "grad_norm": 0.04942413046956062,
      "learning_rate": 0.0004901940134357302,
      "loss": 0.0277,
      "step": 3536
    },
    {
      "epoch": 15.86462144666479,
      "grad_norm": 0.024313393980264664,
      "learning_rate": 0.0004899457936636988,
      "loss": 0.0225,
      "step": 3537
    },
    {
      "epoch": 15.86912468336617,
      "grad_norm": 0.0157913975417614,
      "learning_rate": 0.0004896975763705266,
      "loss": 0.0553,
      "step": 3538
    },
    {
      "epoch": 15.873627920067548,
      "grad_norm": 0.024197164922952652,
      "learning_rate": 0.0004894493616174117,
      "loss": 0.0517,
      "step": 3539
    },
    {
      "epoch": 15.878131156768928,
      "grad_norm": 0.026799000799655914,
      "learning_rate": 0.0004892011494655508,
      "loss": 0.0804,
      "step": 3540
    },
    {
      "epoch": 15.882634393470306,
      "grad_norm": 0.025342432782053947,
      "learning_rate": 0.0004889529399761407,
      "loss": 0.0516,
      "step": 3541
    },
    {
      "epoch": 15.887137630171686,
      "grad_norm": 0.052847281098365784,
      "learning_rate": 0.0004887047332103774,
      "loss": 0.0654,
      "step": 3542
    },
    {
      "epoch": 15.891640866873065,
      "grad_norm": 0.07837188988924026,
      "learning_rate": 0.0004884565292294563,
      "loss": 0.0334,
      "step": 3543
    },
    {
      "epoch": 15.896144103574445,
      "grad_norm": 0.022486193105578423,
      "learning_rate": 0.0004882083280945716,
      "loss": 0.0743,
      "step": 3544
    },
    {
      "epoch": 15.900647340275823,
      "grad_norm": 0.0226072296500206,
      "learning_rate": 0.0004879601298669173,
      "loss": 0.1296,
      "step": 3545
    },
    {
      "epoch": 15.905150576977203,
      "grad_norm": 0.035026147961616516,
      "learning_rate": 0.00048771193460768675,
      "loss": 0.137,
      "step": 3546
    },
    {
      "epoch": 15.909653813678581,
      "grad_norm": 0.01884731650352478,
      "learning_rate": 0.000487463742378072,
      "loss": 0.0125,
      "step": 3547
    },
    {
      "epoch": 15.914157050379961,
      "grad_norm": 0.03222450986504555,
      "learning_rate": 0.0004872155532392649,
      "loss": 0.0907,
      "step": 3548
    },
    {
      "epoch": 15.91866028708134,
      "grad_norm": 0.019174668937921524,
      "learning_rate": 0.0004869673672524562,
      "loss": 0.0699,
      "step": 3549
    },
    {
      "epoch": 15.92316352378272,
      "grad_norm": 0.03498249500989914,
      "learning_rate": 0.0004867191844788364,
      "loss": 0.033,
      "step": 3550
    },
    {
      "epoch": 15.927666760484097,
      "grad_norm": 0.01688939705491066,
      "learning_rate": 0.0004864710049795945,
      "loss": 0.0527,
      "step": 3551
    },
    {
      "epoch": 15.932169997185477,
      "grad_norm": 0.03278404101729393,
      "learning_rate": 0.0004862228288159191,
      "loss": 0.0072,
      "step": 3552
    },
    {
      "epoch": 15.936673233886856,
      "grad_norm": 0.0030906975734978914,
      "learning_rate": 0.00048597465604899786,
      "loss": 0.0488,
      "step": 3553
    },
    {
      "epoch": 15.941176470588236,
      "grad_norm": 0.025150910019874573,
      "learning_rate": 0.00048572648674001767,
      "loss": 0.0931,
      "step": 3554
    },
    {
      "epoch": 15.945679707289614,
      "grad_norm": 0.07292211800813675,
      "learning_rate": 0.0004854783209501646,
      "loss": 0.0144,
      "step": 3555
    },
    {
      "epoch": 15.950182943990994,
      "grad_norm": 0.01150097418576479,
      "learning_rate": 0.0004852301587406237,
      "loss": 0.2015,
      "step": 3556
    },
    {
      "epoch": 15.954686180692372,
      "grad_norm": 0.09899715334177017,
      "learning_rate": 0.0004849820001725795,
      "loss": 0.0807,
      "step": 3557
    },
    {
      "epoch": 15.959189417393752,
      "grad_norm": 0.02945525012910366,
      "learning_rate": 0.000484733845307215,
      "loss": 0.0867,
      "step": 3558
    },
    {
      "epoch": 15.96369265409513,
      "grad_norm": 0.03335639834403992,
      "learning_rate": 0.00048448569420571277,
      "loss": 0.2304,
      "step": 3559
    },
    {
      "epoch": 15.96819589079651,
      "grad_norm": 0.032997000962495804,
      "learning_rate": 0.00048423754692925454,
      "loss": 0.0647,
      "step": 3560
    },
    {
      "epoch": 15.97269912749789,
      "grad_norm": 0.03305183723568916,
      "learning_rate": 0.00048398940353902055,
      "loss": 0.0404,
      "step": 3561
    },
    {
      "epoch": 15.977202364199268,
      "grad_norm": 0.016316071152687073,
      "learning_rate": 0.0004837412640961905,
      "loss": 0.0494,
      "step": 3562
    },
    {
      "epoch": 15.981705600900646,
      "grad_norm": 0.022892115637660027,
      "learning_rate": 0.0004834931286619432,
      "loss": 0.0278,
      "step": 3563
    },
    {
      "epoch": 15.986208837602026,
      "grad_norm": 0.011639704927802086,
      "learning_rate": 0.0004832449972974564,
      "loss": 0.0281,
      "step": 3564
    },
    {
      "epoch": 15.990712074303406,
      "grad_norm": 0.010471350513398647,
      "learning_rate": 0.00048299687006390636,
      "loss": 0.1348,
      "step": 3565
    },
    {
      "epoch": 15.995215311004785,
      "grad_norm": 0.06160083785653114,
      "learning_rate": 0.00048274874702246897,
      "loss": 0.0435,
      "step": 3566
    },
    {
      "epoch": 15.999718547706165,
      "grad_norm": 0.019245831295847893,
      "learning_rate": 0.000482500628234319,
      "loss": 0.0852,
      "step": 3567
    },
    {
      "epoch": 16.0,
      "grad_norm": 0.02951899543404579,
      "learning_rate": 0.00048225251376062954,
      "loss": 0.0004,
      "step": 3568
    },
    {
      "epoch": 16.0,
      "eval_f1": 0.9864932466233116,
      "eval_loss": 0.03074515238404274,
      "eval_runtime": 26.3058,
      "eval_samples_per_second": 189.996,
      "eval_steps_per_second": 5.968,
      "step": 3568
    },
    {
      "epoch": 16.004503236701378,
      "grad_norm": 0.030001739040017128,
      "learning_rate": 0.00048200440366257343,
      "loss": 0.0505,
      "step": 3569
    },
    {
      "epoch": 16.00900647340276,
      "grad_norm": 0.02106691710650921,
      "learning_rate": 0.000481756298001322,
      "loss": 0.0294,
      "step": 3570
    },
    {
      "epoch": 16.013509710104138,
      "grad_norm": 0.04088004305958748,
      "learning_rate": 0.00048150819683804566,
      "loss": 0.134,
      "step": 3571
    },
    {
      "epoch": 16.018012946805516,
      "grad_norm": 0.03321141377091408,
      "learning_rate": 0.00048126010023391336,
      "loss": 0.0487,
      "step": 3572
    },
    {
      "epoch": 16.022516183506895,
      "grad_norm": 0.0529913567006588,
      "learning_rate": 0.0004810120082500934,
      "loss": 0.0928,
      "step": 3573
    },
    {
      "epoch": 16.027019420208276,
      "grad_norm": 0.01447242684662342,
      "learning_rate": 0.0004807639209477528,
      "loss": 0.0174,
      "step": 3574
    },
    {
      "epoch": 16.031522656909655,
      "grad_norm": 0.02449391968548298,
      "learning_rate": 0.0004805158383880572,
      "loss": 0.0508,
      "step": 3575
    },
    {
      "epoch": 16.036025893611033,
      "grad_norm": 0.009340011514723301,
      "learning_rate": 0.0004802677606321712,
      "loss": 0.0157,
      "step": 3576
    },
    {
      "epoch": 16.04052913031241,
      "grad_norm": 0.12878237664699554,
      "learning_rate": 0.00048001968774125824,
      "loss": 0.1197,
      "step": 3577
    },
    {
      "epoch": 16.045032367013793,
      "grad_norm": 0.007538186851888895,
      "learning_rate": 0.0004797716197764809,
      "loss": 0.0143,
      "step": 3578
    },
    {
      "epoch": 16.04953560371517,
      "grad_norm": 0.00823670532554388,
      "learning_rate": 0.00047952355679899963,
      "loss": 0.0234,
      "step": 3579
    },
    {
      "epoch": 16.05403884041655,
      "grad_norm": 0.014717059209942818,
      "learning_rate": 0.0004792754988699745,
      "loss": 0.0483,
      "step": 3580
    },
    {
      "epoch": 16.058542077117927,
      "grad_norm": 0.0033951487857848406,
      "learning_rate": 0.00047902744605056414,
      "loss": 0.0095,
      "step": 3581
    },
    {
      "epoch": 16.06304531381931,
      "grad_norm": 0.02365097589790821,
      "learning_rate": 0.00047877939840192596,
      "loss": 0.0304,
      "step": 3582
    },
    {
      "epoch": 16.067548550520687,
      "grad_norm": 0.06161263957619667,
      "learning_rate": 0.00047853135598521557,
      "loss": 0.1696,
      "step": 3583
    },
    {
      "epoch": 16.072051787222065,
      "grad_norm": 0.03203272446990013,
      "learning_rate": 0.0004782833188615879,
      "loss": 0.1587,
      "step": 3584
    },
    {
      "epoch": 16.076555023923444,
      "grad_norm": 0.012296109460294247,
      "learning_rate": 0.0004780352870921966,
      "loss": 0.0229,
      "step": 3585
    },
    {
      "epoch": 16.081058260624825,
      "grad_norm": 0.028977245092391968,
      "learning_rate": 0.0004777872607381933,
      "loss": 0.0869,
      "step": 3586
    },
    {
      "epoch": 16.085561497326204,
      "grad_norm": 0.006628062576055527,
      "learning_rate": 0.0004775392398607291,
      "loss": 0.0148,
      "step": 3587
    },
    {
      "epoch": 16.09006473402758,
      "grad_norm": 0.007155658211559057,
      "learning_rate": 0.00047729122452095334,
      "loss": 0.0137,
      "step": 3588
    },
    {
      "epoch": 16.09456797072896,
      "grad_norm": 0.01794794201850891,
      "learning_rate": 0.0004770432147800141,
      "loss": 0.0205,
      "step": 3589
    },
    {
      "epoch": 16.09907120743034,
      "grad_norm": 0.024891890585422516,
      "learning_rate": 0.00047679521069905805,
      "loss": 0.1031,
      "step": 3590
    },
    {
      "epoch": 16.10357444413172,
      "grad_norm": 0.028260983526706696,
      "learning_rate": 0.00047654721233923036,
      "loss": 0.0641,
      "step": 3591
    },
    {
      "epoch": 16.108077680833098,
      "grad_norm": 0.03794082626700401,
      "learning_rate": 0.00047629921976167507,
      "loss": 0.0394,
      "step": 3592
    },
    {
      "epoch": 16.112580917534476,
      "grad_norm": 0.01615474373102188,
      "learning_rate": 0.00047605123302753435,
      "loss": 0.0401,
      "step": 3593
    },
    {
      "epoch": 16.117084154235858,
      "grad_norm": 0.00822591781616211,
      "learning_rate": 0.00047580325219794933,
      "loss": 0.0231,
      "step": 3594
    },
    {
      "epoch": 16.121587390937236,
      "grad_norm": 0.05400621518492699,
      "learning_rate": 0.00047555527733405964,
      "loss": 0.0404,
      "step": 3595
    },
    {
      "epoch": 16.126090627638614,
      "grad_norm": 0.05538340285420418,
      "learning_rate": 0.0004753073084970035,
      "loss": 0.0834,
      "step": 3596
    },
    {
      "epoch": 16.130593864339993,
      "grad_norm": 0.03804723173379898,
      "learning_rate": 0.000475059345747917,
      "loss": 0.0832,
      "step": 3597
    },
    {
      "epoch": 16.135097101041374,
      "grad_norm": 0.019982146099209785,
      "learning_rate": 0.0004748113891479356,
      "loss": 0.0157,
      "step": 3598
    },
    {
      "epoch": 16.139600337742753,
      "grad_norm": 0.021878700703382492,
      "learning_rate": 0.0004745634387581929,
      "loss": 0.0421,
      "step": 3599
    },
    {
      "epoch": 16.14410357444413,
      "grad_norm": 0.02876310609281063,
      "learning_rate": 0.00047431549463982064,
      "loss": 0.0849,
      "step": 3600
    },
    {
      "epoch": 16.148606811145513,
      "grad_norm": 0.043249133974313736,
      "learning_rate": 0.00047406755685394945,
      "loss": 0.1059,
      "step": 3601
    },
    {
      "epoch": 16.15311004784689,
      "grad_norm": 0.038944635540246964,
      "learning_rate": 0.00047381962546170836,
      "loss": 0.0885,
      "step": 3602
    },
    {
      "epoch": 16.15761328454827,
      "grad_norm": 0.009083855897188187,
      "learning_rate": 0.00047357170052422483,
      "loss": 0.0117,
      "step": 3603
    },
    {
      "epoch": 16.162116521249647,
      "grad_norm": 0.028541939333081245,
      "learning_rate": 0.00047332378210262425,
      "loss": 0.0527,
      "step": 3604
    },
    {
      "epoch": 16.16661975795103,
      "grad_norm": 0.024679681286215782,
      "learning_rate": 0.0004730758702580309,
      "loss": 0.0626,
      "step": 3605
    },
    {
      "epoch": 16.171122994652407,
      "grad_norm": 0.01414983905851841,
      "learning_rate": 0.00047282796505156757,
      "loss": 0.0281,
      "step": 3606
    },
    {
      "epoch": 16.175626231353785,
      "grad_norm": 0.04993775859475136,
      "learning_rate": 0.00047258006654435494,
      "loss": 0.0453,
      "step": 3607
    },
    {
      "epoch": 16.180129468055163,
      "grad_norm": 0.026782263070344925,
      "learning_rate": 0.00047233217479751213,
      "loss": 0.0693,
      "step": 3608
    },
    {
      "epoch": 16.184632704756545,
      "grad_norm": 0.0372958742082119,
      "learning_rate": 0.0004720842898721569,
      "loss": 0.0601,
      "step": 3609
    },
    {
      "epoch": 16.189135941457923,
      "grad_norm": 0.014471366070210934,
      "learning_rate": 0.00047183641182940516,
      "loss": 0.0553,
      "step": 3610
    },
    {
      "epoch": 16.1936391781593,
      "grad_norm": 0.012690196745097637,
      "learning_rate": 0.00047158854073037107,
      "loss": 0.0267,
      "step": 3611
    },
    {
      "epoch": 16.19814241486068,
      "grad_norm": 0.009808416478335857,
      "learning_rate": 0.000471340676636167,
      "loss": 0.0205,
      "step": 3612
    },
    {
      "epoch": 16.20264565156206,
      "grad_norm": 0.04446953162550926,
      "learning_rate": 0.00047109281960790416,
      "loss": 0.2007,
      "step": 3613
    },
    {
      "epoch": 16.20714888826344,
      "grad_norm": 0.018716134130954742,
      "learning_rate": 0.0004708449697066909,
      "loss": 0.0428,
      "step": 3614
    },
    {
      "epoch": 16.211652124964818,
      "grad_norm": 0.036528196185827255,
      "learning_rate": 0.00047059712699363496,
      "loss": 0.0916,
      "step": 3615
    },
    {
      "epoch": 16.216155361666196,
      "grad_norm": 0.012753448449075222,
      "learning_rate": 0.0004703492915298415,
      "loss": 0.0165,
      "step": 3616
    },
    {
      "epoch": 16.220658598367578,
      "grad_norm": 0.015203257091343403,
      "learning_rate": 0.0004701014633764147,
      "loss": 0.0232,
      "step": 3617
    },
    {
      "epoch": 16.225161835068956,
      "grad_norm": 0.004170212894678116,
      "learning_rate": 0.000469853642594456,
      "loss": 0.0103,
      "step": 3618
    },
    {
      "epoch": 16.229665071770334,
      "grad_norm": 0.015762245282530785,
      "learning_rate": 0.0004696058292450656,
      "loss": 0.0651,
      "step": 3619
    },
    {
      "epoch": 16.234168308471713,
      "grad_norm": 0.04263937473297119,
      "learning_rate": 0.00046935802338934196,
      "loss": 0.1685,
      "step": 3620
    },
    {
      "epoch": 16.238671545173094,
      "grad_norm": 0.038921698927879333,
      "learning_rate": 0.0004691102250883812,
      "loss": 0.0476,
      "step": 3621
    },
    {
      "epoch": 16.243174781874473,
      "grad_norm": 0.01126585341989994,
      "learning_rate": 0.00046886243440327785,
      "loss": 0.0178,
      "step": 3622
    },
    {
      "epoch": 16.24767801857585,
      "grad_norm": 0.06712890416383743,
      "learning_rate": 0.00046861465139512475,
      "loss": 0.1217,
      "step": 3623
    },
    {
      "epoch": 16.25218125527723,
      "grad_norm": 0.002330196090042591,
      "learning_rate": 0.0004683668761250129,
      "loss": 0.0077,
      "step": 3624
    },
    {
      "epoch": 16.25668449197861,
      "grad_norm": 0.023683439940214157,
      "learning_rate": 0.00046811910865403056,
      "loss": 0.0615,
      "step": 3625
    },
    {
      "epoch": 16.26118772867999,
      "grad_norm": 0.015180757269263268,
      "learning_rate": 0.000467871349043265,
      "loss": 0.0446,
      "step": 3626
    },
    {
      "epoch": 16.265690965381367,
      "grad_norm": 0.018332548439502716,
      "learning_rate": 0.0004676235973538013,
      "loss": 0.03,
      "step": 3627
    },
    {
      "epoch": 16.270194202082745,
      "grad_norm": 0.003221596358343959,
      "learning_rate": 0.00046737585364672234,
      "loss": 0.009,
      "step": 3628
    },
    {
      "epoch": 16.274697438784127,
      "grad_norm": 0.01346572581678629,
      "learning_rate": 0.0004671281179831092,
      "loss": 0.0298,
      "step": 3629
    },
    {
      "epoch": 16.279200675485505,
      "grad_norm": 0.047496307641267776,
      "learning_rate": 0.0004668803904240412,
      "loss": 0.1093,
      "step": 3630
    },
    {
      "epoch": 16.283703912186883,
      "grad_norm": 0.013020146638154984,
      "learning_rate": 0.0004666326710305953,
      "loss": 0.015,
      "step": 3631
    },
    {
      "epoch": 16.288207148888265,
      "grad_norm": 0.006145964842289686,
      "learning_rate": 0.0004663849598638464,
      "loss": 0.0117,
      "step": 3632
    },
    {
      "epoch": 16.292710385589643,
      "grad_norm": 0.0073874942027032375,
      "learning_rate": 0.00046613725698486783,
      "loss": 0.0145,
      "step": 3633
    },
    {
      "epoch": 16.29721362229102,
      "grad_norm": 0.018542757257819176,
      "learning_rate": 0.00046588956245473056,
      "loss": 0.0384,
      "step": 3634
    },
    {
      "epoch": 16.3017168589924,
      "grad_norm": 0.035898592323064804,
      "learning_rate": 0.00046564187633450337,
      "loss": 0.1661,
      "step": 3635
    },
    {
      "epoch": 16.30622009569378,
      "grad_norm": 0.02112766169011593,
      "learning_rate": 0.00046539419868525325,
      "loss": 0.0213,
      "step": 3636
    },
    {
      "epoch": 16.31072333239516,
      "grad_norm": 0.03353790566325188,
      "learning_rate": 0.00046514652956804496,
      "loss": 0.0681,
      "step": 3637
    },
    {
      "epoch": 16.315226569096538,
      "grad_norm": 0.02319331094622612,
      "learning_rate": 0.00046489886904394135,
      "loss": 0.0192,
      "step": 3638
    },
    {
      "epoch": 16.319729805797916,
      "grad_norm": 0.07307547330856323,
      "learning_rate": 0.0004646512171740027,
      "loss": 0.2216,
      "step": 3639
    },
    {
      "epoch": 16.324233042499298,
      "grad_norm": 0.020411819219589233,
      "learning_rate": 0.0004644035740192877,
      "loss": 0.0339,
      "step": 3640
    },
    {
      "epoch": 16.328736279200676,
      "grad_norm": 0.009732634760439396,
      "learning_rate": 0.00046415593964085243,
      "loss": 0.0168,
      "step": 3641
    },
    {
      "epoch": 16.333239515902054,
      "grad_norm": 0.024326609447598457,
      "learning_rate": 0.0004639083140997514,
      "loss": 0.0374,
      "step": 3642
    },
    {
      "epoch": 16.337742752603432,
      "grad_norm": 0.03137144818902016,
      "learning_rate": 0.00046366069745703604,
      "loss": 0.0285,
      "step": 3643
    },
    {
      "epoch": 16.342245989304814,
      "grad_norm": 0.0266974326223135,
      "learning_rate": 0.00046341308977375633,
      "loss": 0.0626,
      "step": 3644
    },
    {
      "epoch": 16.346749226006192,
      "grad_norm": 0.016629649326205254,
      "learning_rate": 0.00046316549111096,
      "loss": 0.0359,
      "step": 3645
    },
    {
      "epoch": 16.35125246270757,
      "grad_norm": 0.03419043868780136,
      "learning_rate": 0.000462917901529692,
      "loss": 0.0458,
      "step": 3646
    },
    {
      "epoch": 16.35575569940895,
      "grad_norm": 0.023894688114523888,
      "learning_rate": 0.0004626703210909958,
      "loss": 0.0452,
      "step": 3647
    },
    {
      "epoch": 16.36025893611033,
      "grad_norm": 0.01082613691687584,
      "learning_rate": 0.00046242274985591183,
      "loss": 0.0213,
      "step": 3648
    },
    {
      "epoch": 16.36476217281171,
      "grad_norm": 0.04772520437836647,
      "learning_rate": 0.00046217518788547904,
      "loss": 0.0223,
      "step": 3649
    },
    {
      "epoch": 16.369265409513087,
      "grad_norm": 0.009536831639707088,
      "learning_rate": 0.00046192763524073333,
      "loss": 0.0109,
      "step": 3650
    },
    {
      "epoch": 16.373768646214465,
      "grad_norm": 0.06030325964093208,
      "learning_rate": 0.0004616800919827089,
      "loss": 0.1478,
      "step": 3651
    },
    {
      "epoch": 16.378271882915847,
      "grad_norm": 0.0057113985531032085,
      "learning_rate": 0.00046143255817243753,
      "loss": 0.0111,
      "step": 3652
    },
    {
      "epoch": 16.382775119617225,
      "grad_norm": 0.026684487238526344,
      "learning_rate": 0.00046118503387094817,
      "loss": 0.0891,
      "step": 3653
    },
    {
      "epoch": 16.387278356318603,
      "grad_norm": 0.007851924747228622,
      "learning_rate": 0.000460937519139268,
      "loss": 0.0099,
      "step": 3654
    },
    {
      "epoch": 16.39178159301998,
      "grad_norm": 0.03157235309481621,
      "learning_rate": 0.0004606900140384217,
      "loss": 0.0731,
      "step": 3655
    },
    {
      "epoch": 16.396284829721363,
      "grad_norm": 0.04274829104542732,
      "learning_rate": 0.00046044251862943164,
      "loss": 0.0404,
      "step": 3656
    },
    {
      "epoch": 16.40078806642274,
      "grad_norm": 0.014687628485262394,
      "learning_rate": 0.0004601950329733173,
      "loss": 0.0329,
      "step": 3657
    },
    {
      "epoch": 16.40529130312412,
      "grad_norm": 0.007310775108635426,
      "learning_rate": 0.0004599475571310964,
      "loss": 0.0099,
      "step": 3658
    },
    {
      "epoch": 16.409794539825498,
      "grad_norm": 0.027290016412734985,
      "learning_rate": 0.0004597000911637842,
      "loss": 0.0437,
      "step": 3659
    },
    {
      "epoch": 16.41429777652688,
      "grad_norm": 0.039432723075151443,
      "learning_rate": 0.0004594526351323927,
      "loss": 0.0728,
      "step": 3660
    },
    {
      "epoch": 16.418801013228258,
      "grad_norm": 0.0019358070567250252,
      "learning_rate": 0.0004592051890979325,
      "loss": 0.0058,
      "step": 3661
    },
    {
      "epoch": 16.423304249929636,
      "grad_norm": 0.012118441052734852,
      "learning_rate": 0.00045895775312141106,
      "loss": 0.0245,
      "step": 3662
    },
    {
      "epoch": 16.427807486631018,
      "grad_norm": 0.03763644024729729,
      "learning_rate": 0.0004587103272638339,
      "loss": 0.0645,
      "step": 3663
    },
    {
      "epoch": 16.432310723332396,
      "grad_norm": 0.02174178697168827,
      "learning_rate": 0.00045846291158620347,
      "loss": 0.0338,
      "step": 3664
    },
    {
      "epoch": 16.436813960033774,
      "grad_norm": 0.04401760175824165,
      "learning_rate": 0.00045821550614951996,
      "loss": 0.1259,
      "step": 3665
    },
    {
      "epoch": 16.441317196735152,
      "grad_norm": 0.025410445407032967,
      "learning_rate": 0.0004579681110147812,
      "loss": 0.0546,
      "step": 3666
    },
    {
      "epoch": 16.445820433436534,
      "grad_norm": 0.007269646041095257,
      "learning_rate": 0.0004577207262429822,
      "loss": 0.0113,
      "step": 3667
    },
    {
      "epoch": 16.450323670137912,
      "grad_norm": 0.009289374575018883,
      "learning_rate": 0.0004574733518951156,
      "loss": 0.0265,
      "step": 3668
    },
    {
      "epoch": 16.45482690683929,
      "grad_norm": 0.01069835014641285,
      "learning_rate": 0.00045722598803217134,
      "loss": 0.0096,
      "step": 3669
    },
    {
      "epoch": 16.45933014354067,
      "grad_norm": 0.011103611439466476,
      "learning_rate": 0.00045697863471513725,
      "loss": 0.0147,
      "step": 3670
    },
    {
      "epoch": 16.46383338024205,
      "grad_norm": 0.046977151185274124,
      "learning_rate": 0.00045673129200499754,
      "loss": 0.126,
      "step": 3671
    },
    {
      "epoch": 16.46833661694343,
      "grad_norm": 0.009299307130277157,
      "learning_rate": 0.0004564839599627347,
      "loss": 0.0156,
      "step": 3672
    },
    {
      "epoch": 16.472839853644807,
      "grad_norm": 0.05819180980324745,
      "learning_rate": 0.00045623663864932857,
      "loss": 0.0194,
      "step": 3673
    },
    {
      "epoch": 16.477343090346185,
      "grad_norm": 0.015403815545141697,
      "learning_rate": 0.0004559893281257556,
      "loss": 0.0214,
      "step": 3674
    },
    {
      "epoch": 16.481846327047567,
      "grad_norm": 0.006507298443466425,
      "learning_rate": 0.0004557420284529903,
      "loss": 0.0112,
      "step": 3675
    },
    {
      "epoch": 16.486349563748945,
      "grad_norm": 0.022403843700885773,
      "learning_rate": 0.0004554947396920044,
      "loss": 0.0456,
      "step": 3676
    },
    {
      "epoch": 16.490852800450323,
      "grad_norm": 0.021544532850384712,
      "learning_rate": 0.0004552474619037668,
      "loss": 0.1518,
      "step": 3677
    },
    {
      "epoch": 16.4953560371517,
      "grad_norm": 0.012119080871343613,
      "learning_rate": 0.00045500019514924345,
      "loss": 0.0139,
      "step": 3678
    },
    {
      "epoch": 16.499859273853083,
      "grad_norm": 0.03625120222568512,
      "learning_rate": 0.00045475293948939795,
      "loss": 0.0728,
      "step": 3679
    },
    {
      "epoch": 16.50436251055446,
      "grad_norm": 0.006140838377177715,
      "learning_rate": 0.0004545056949851912,
      "loss": 0.0092,
      "step": 3680
    },
    {
      "epoch": 16.50886574725584,
      "grad_norm": 0.04501889646053314,
      "learning_rate": 0.0004542584616975811,
      "loss": 0.0962,
      "step": 3681
    },
    {
      "epoch": 16.513368983957218,
      "grad_norm": 0.012111041694879532,
      "learning_rate": 0.0004540112396875228,
      "loss": 0.0173,
      "step": 3682
    },
    {
      "epoch": 16.5178722206586,
      "grad_norm": 0.02094113826751709,
      "learning_rate": 0.0004537640290159688,
      "loss": 0.0227,
      "step": 3683
    },
    {
      "epoch": 16.522375457359978,
      "grad_norm": 0.043557628989219666,
      "learning_rate": 0.0004535168297438689,
      "loss": 0.1667,
      "step": 3684
    },
    {
      "epoch": 16.526878694061356,
      "grad_norm": 0.02022930234670639,
      "learning_rate": 0.0004532696419321697,
      "loss": 0.0197,
      "step": 3685
    },
    {
      "epoch": 16.531381930762734,
      "grad_norm": 0.023439668118953705,
      "learning_rate": 0.0004530224656418154,
      "loss": 0.0389,
      "step": 3686
    },
    {
      "epoch": 16.535885167464116,
      "grad_norm": 0.009998761117458344,
      "learning_rate": 0.00045277530093374736,
      "loss": 0.0194,
      "step": 3687
    },
    {
      "epoch": 16.540388404165494,
      "grad_norm": 0.005799063015729189,
      "learning_rate": 0.00045252814786890343,
      "loss": 0.0121,
      "step": 3688
    },
    {
      "epoch": 16.544891640866872,
      "grad_norm": 0.022252146154642105,
      "learning_rate": 0.0004522810065082194,
      "loss": 0.1378,
      "step": 3689
    },
    {
      "epoch": 16.549394877568254,
      "grad_norm": 0.013477593660354614,
      "learning_rate": 0.0004520338769126277,
      "loss": 0.0248,
      "step": 3690
    },
    {
      "epoch": 16.553898114269632,
      "grad_norm": 0.07180005311965942,
      "learning_rate": 0.00045178675914305834,
      "loss": 0.1124,
      "step": 3691
    },
    {
      "epoch": 16.55840135097101,
      "grad_norm": 0.07127667963504791,
      "learning_rate": 0.00045153965326043754,
      "loss": 0.1018,
      "step": 3692
    },
    {
      "epoch": 16.56290458767239,
      "grad_norm": 0.007181136403232813,
      "learning_rate": 0.00045129255932568944,
      "loss": 0.016,
      "step": 3693
    },
    {
      "epoch": 16.56740782437377,
      "grad_norm": 0.06643601506948471,
      "learning_rate": 0.00045104547739973505,
      "loss": 0.118,
      "step": 3694
    },
    {
      "epoch": 16.57191106107515,
      "grad_norm": 0.014295999892055988,
      "learning_rate": 0.00045079840754349193,
      "loss": 0.0225,
      "step": 3695
    },
    {
      "epoch": 16.576414297776527,
      "grad_norm": 0.021087154746055603,
      "learning_rate": 0.0004505513498178752,
      "loss": 0.0101,
      "step": 3696
    },
    {
      "epoch": 16.580917534477905,
      "grad_norm": 0.03661109507083893,
      "learning_rate": 0.00045030430428379673,
      "loss": 0.0631,
      "step": 3697
    },
    {
      "epoch": 16.585420771179287,
      "grad_norm": 0.032734546810388565,
      "learning_rate": 0.00045005727100216577,
      "loss": 0.0539,
      "step": 3698
    },
    {
      "epoch": 16.589924007880665,
      "grad_norm": 0.009596576914191246,
      "learning_rate": 0.00044981025003388783,
      "loss": 0.0225,
      "step": 3699
    },
    {
      "epoch": 16.594427244582043,
      "grad_norm": 0.029547719284892082,
      "learning_rate": 0.0004495632414398659,
      "loss": 0.0386,
      "step": 3700
    },
    {
      "epoch": 16.59893048128342,
      "grad_norm": 0.042857684195041656,
      "learning_rate": 0.0004493162452810001,
      "loss": 0.0583,
      "step": 3701
    },
    {
      "epoch": 16.603433717984803,
      "grad_norm": 0.08986987173557281,
      "learning_rate": 0.0004490692616181868,
      "loss": 0.146,
      "step": 3702
    },
    {
      "epoch": 16.60793695468618,
      "grad_norm": 0.03505716100335121,
      "learning_rate": 0.00044882229051231996,
      "loss": 0.0788,
      "step": 3703
    },
    {
      "epoch": 16.61244019138756,
      "grad_norm": 0.007619420997798443,
      "learning_rate": 0.0004485753320242902,
      "loss": 0.0117,
      "step": 3704
    },
    {
      "epoch": 16.616943428088938,
      "grad_norm": 0.013299898244440556,
      "learning_rate": 0.00044832838621498497,
      "loss": 0.0359,
      "step": 3705
    },
    {
      "epoch": 16.62144666479032,
      "grad_norm": 0.011597398668527603,
      "learning_rate": 0.00044808145314528835,
      "loss": 0.012,
      "step": 3706
    },
    {
      "epoch": 16.625949901491698,
      "grad_norm": 0.11276213079690933,
      "learning_rate": 0.00044783453287608184,
      "loss": 0.123,
      "step": 3707
    },
    {
      "epoch": 16.630453138193076,
      "grad_norm": 0.01829245686531067,
      "learning_rate": 0.0004475876254682436,
      "loss": 0.0489,
      "step": 3708
    },
    {
      "epoch": 16.634956374894454,
      "grad_norm": 0.020978597924113274,
      "learning_rate": 0.0004473407309826482,
      "loss": 0.046,
      "step": 3709
    },
    {
      "epoch": 16.639459611595836,
      "grad_norm": 0.007125811651349068,
      "learning_rate": 0.0004470938494801674,
      "loss": 0.0126,
      "step": 3710
    },
    {
      "epoch": 16.643962848297214,
      "grad_norm": 0.025215866044163704,
      "learning_rate": 0.00044684698102166986,
      "loss": 0.042,
      "step": 3711
    },
    {
      "epoch": 16.648466084998592,
      "grad_norm": 0.021976174786686897,
      "learning_rate": 0.000446600125668021,
      "loss": 0.0719,
      "step": 3712
    },
    {
      "epoch": 16.65296932169997,
      "grad_norm": 0.017155179753899574,
      "learning_rate": 0.0004463532834800825,
      "loss": 0.0325,
      "step": 3713
    },
    {
      "epoch": 16.657472558401352,
      "grad_norm": 0.037308625876903534,
      "learning_rate": 0.00044610645451871334,
      "loss": 0.1005,
      "step": 3714
    },
    {
      "epoch": 16.66197579510273,
      "grad_norm": 0.0234800074249506,
      "learning_rate": 0.000445859638844769,
      "loss": 0.1369,
      "step": 3715
    },
    {
      "epoch": 16.66647903180411,
      "grad_norm": 0.0854015126824379,
      "learning_rate": 0.00044561283651910216,
      "loss": 0.3262,
      "step": 3716
    },
    {
      "epoch": 16.670982268505487,
      "grad_norm": 0.08275987207889557,
      "learning_rate": 0.0004453660476025612,
      "loss": 0.1551,
      "step": 3717
    },
    {
      "epoch": 16.67548550520687,
      "grad_norm": 0.028752600774168968,
      "learning_rate": 0.0004451192721559921,
      "loss": 0.0819,
      "step": 3718
    },
    {
      "epoch": 16.679988741908247,
      "grad_norm": 0.022491103038191795,
      "learning_rate": 0.0004448725102402373,
      "loss": 0.0947,
      "step": 3719
    },
    {
      "epoch": 16.684491978609625,
      "grad_norm": 0.01865920051932335,
      "learning_rate": 0.0004446257619161355,
      "loss": 0.0333,
      "step": 3720
    },
    {
      "epoch": 16.688995215311003,
      "grad_norm": 0.006821577437222004,
      "learning_rate": 0.0004443790272445228,
      "loss": 0.0157,
      "step": 3721
    },
    {
      "epoch": 16.693498452012385,
      "grad_norm": 0.029299402609467506,
      "learning_rate": 0.0004441323062862311,
      "loss": 0.1378,
      "step": 3722
    },
    {
      "epoch": 16.698001688713763,
      "grad_norm": 0.021833691745996475,
      "learning_rate": 0.0004438855991020896,
      "loss": 0.0578,
      "step": 3723
    },
    {
      "epoch": 16.70250492541514,
      "grad_norm": 0.017375651746988297,
      "learning_rate": 0.00044363890575292367,
      "loss": 0.0248,
      "step": 3724
    },
    {
      "epoch": 16.707008162116523,
      "grad_norm": 0.021408677101135254,
      "learning_rate": 0.0004433922262995554,
      "loss": 0.027,
      "step": 3725
    },
    {
      "epoch": 16.7115113988179,
      "grad_norm": 0.028670765459537506,
      "learning_rate": 0.00044314556080280376,
      "loss": 0.0426,
      "step": 3726
    },
    {
      "epoch": 16.71601463551928,
      "grad_norm": 0.016918031498789787,
      "learning_rate": 0.00044289890932348364,
      "loss": 0.0427,
      "step": 3727
    },
    {
      "epoch": 16.720517872220658,
      "grad_norm": 0.02283920720219612,
      "learning_rate": 0.00044265227192240693,
      "loss": 0.1106,
      "step": 3728
    },
    {
      "epoch": 16.72502110892204,
      "grad_norm": 0.017130747437477112,
      "learning_rate": 0.000442405648660382,
      "loss": 0.0378,
      "step": 3729
    },
    {
      "epoch": 16.729524345623418,
      "grad_norm": 0.022029006853699684,
      "learning_rate": 0.0004421590395982139,
      "loss": 0.015,
      "step": 3730
    },
    {
      "epoch": 16.734027582324796,
      "grad_norm": 0.034429192543029785,
      "learning_rate": 0.00044191244479670357,
      "loss": 0.0195,
      "step": 3731
    },
    {
      "epoch": 16.738530819026174,
      "grad_norm": 0.012002241797745228,
      "learning_rate": 0.0004416658643166489,
      "loss": 0.0296,
      "step": 3732
    },
    {
      "epoch": 16.743034055727556,
      "grad_norm": 0.05310608074069023,
      "learning_rate": 0.00044141929821884455,
      "loss": 0.0454,
      "step": 3733
    },
    {
      "epoch": 16.747537292428934,
      "grad_norm": 0.007624621503055096,
      "learning_rate": 0.0004411727465640808,
      "loss": 0.0138,
      "step": 3734
    },
    {
      "epoch": 16.752040529130312,
      "grad_norm": 0.018043454736471176,
      "learning_rate": 0.000440926209413145,
      "loss": 0.0456,
      "step": 3735
    },
    {
      "epoch": 16.75654376583169,
      "grad_norm": 0.021165860816836357,
      "learning_rate": 0.00044067968682682076,
      "loss": 0.0499,
      "step": 3736
    },
    {
      "epoch": 16.761047002533072,
      "grad_norm": 0.021797018125653267,
      "learning_rate": 0.0004404331788658882,
      "loss": 0.0386,
      "step": 3737
    },
    {
      "epoch": 16.76555023923445,
      "grad_norm": 0.06666535139083862,
      "learning_rate": 0.0004401866855911236,
      "loss": 0.0918,
      "step": 3738
    },
    {
      "epoch": 16.77005347593583,
      "grad_norm": 0.033071160316467285,
      "learning_rate": 0.0004399402070632997,
      "loss": 0.0189,
      "step": 3739
    },
    {
      "epoch": 16.774556712637207,
      "grad_norm": 0.032334428280591965,
      "learning_rate": 0.00043969374334318584,
      "loss": 0.0787,
      "step": 3740
    },
    {
      "epoch": 16.77905994933859,
      "grad_norm": 0.0307600274682045,
      "learning_rate": 0.00043944729449154723,
      "loss": 0.0681,
      "step": 3741
    },
    {
      "epoch": 16.783563186039967,
      "grad_norm": 0.02597692422568798,
      "learning_rate": 0.00043920086056914594,
      "loss": 0.0335,
      "step": 3742
    },
    {
      "epoch": 16.788066422741345,
      "grad_norm": 0.0053637344390153885,
      "learning_rate": 0.00043895444163674,
      "loss": 0.0114,
      "step": 3743
    },
    {
      "epoch": 16.792569659442723,
      "grad_norm": 0.018370673060417175,
      "learning_rate": 0.0004387080377550842,
      "loss": 0.0209,
      "step": 3744
    },
    {
      "epoch": 16.797072896144105,
      "grad_norm": 0.045138418674468994,
      "learning_rate": 0.0004384616489849288,
      "loss": 0.1828,
      "step": 3745
    },
    {
      "epoch": 16.801576132845483,
      "grad_norm": 0.00348075688816607,
      "learning_rate": 0.000438215275387021,
      "loss": 0.0098,
      "step": 3746
    },
    {
      "epoch": 16.80607936954686,
      "grad_norm": 0.011617042124271393,
      "learning_rate": 0.0004379689170221043,
      "loss": 0.0217,
      "step": 3747
    },
    {
      "epoch": 16.81058260624824,
      "grad_norm": 0.05114477500319481,
      "learning_rate": 0.0004377225739509178,
      "loss": 0.0945,
      "step": 3748
    },
    {
      "epoch": 16.81508584294962,
      "grad_norm": 0.013658823445439339,
      "learning_rate": 0.00043747624623419754,
      "loss": 0.0348,
      "step": 3749
    },
    {
      "epoch": 16.819589079651,
      "grad_norm": 0.03268352895975113,
      "learning_rate": 0.0004372299339326754,
      "loss": 0.1708,
      "step": 3750
    },
    {
      "epoch": 16.824092316352377,
      "grad_norm": 0.0340958908200264,
      "learning_rate": 0.00043698363710707977,
      "loss": 0.1786,
      "step": 3751
    },
    {
      "epoch": 16.82859555305376,
      "grad_norm": 0.027074966579675674,
      "learning_rate": 0.00043673735581813464,
      "loss": 0.077,
      "step": 3752
    },
    {
      "epoch": 16.833098789755137,
      "grad_norm": 0.012316910549998283,
      "learning_rate": 0.0004364910901265606,
      "loss": 0.0206,
      "step": 3753
    },
    {
      "epoch": 16.837602026456516,
      "grad_norm": 0.007969864644110203,
      "learning_rate": 0.00043624484009307477,
      "loss": 0.0195,
      "step": 3754
    },
    {
      "epoch": 16.842105263157894,
      "grad_norm": 0.02721271850168705,
      "learning_rate": 0.00043599860577838936,
      "loss": 0.0369,
      "step": 3755
    },
    {
      "epoch": 16.846608499859276,
      "grad_norm": 0.007313825655728579,
      "learning_rate": 0.00043575238724321354,
      "loss": 0.0098,
      "step": 3756
    },
    {
      "epoch": 16.851111736560654,
      "grad_norm": 0.0009392957435920835,
      "learning_rate": 0.0004355061845482524,
      "loss": 0.0037,
      "step": 3757
    },
    {
      "epoch": 16.855614973262032,
      "grad_norm": 0.09277412295341492,
      "learning_rate": 0.0004352599977542071,
      "loss": 0.0571,
      "step": 3758
    },
    {
      "epoch": 16.86011820996341,
      "grad_norm": 0.02631976827979088,
      "learning_rate": 0.0004350138269217748,
      "loss": 0.1245,
      "step": 3759
    },
    {
      "epoch": 16.864621446664792,
      "grad_norm": 0.06837662309408188,
      "learning_rate": 0.0004347676721116488,
      "loss": 0.1045,
      "step": 3760
    },
    {
      "epoch": 16.86912468336617,
      "grad_norm": 0.03085329569876194,
      "learning_rate": 0.00043452153338451873,
      "loss": 0.0712,
      "step": 3761
    },
    {
      "epoch": 16.87362792006755,
      "grad_norm": 0.01973818428814411,
      "learning_rate": 0.0004342754108010694,
      "loss": 0.0186,
      "step": 3762
    },
    {
      "epoch": 16.878131156768927,
      "grad_norm": 0.03765822947025299,
      "learning_rate": 0.0004340293044219825,
      "loss": 0.0806,
      "step": 3763
    },
    {
      "epoch": 16.88263439347031,
      "grad_norm": 0.01018914021551609,
      "learning_rate": 0.0004337832143079354,
      "loss": 0.016,
      "step": 3764
    },
    {
      "epoch": 16.887137630171686,
      "grad_norm": 0.038089364767074585,
      "learning_rate": 0.0004335371405196018,
      "loss": 0.0335,
      "step": 3765
    },
    {
      "epoch": 16.891640866873065,
      "grad_norm": 0.016318675130605698,
      "learning_rate": 0.0004332910831176505,
      "loss": 0.0227,
      "step": 3766
    },
    {
      "epoch": 16.896144103574443,
      "grad_norm": 0.028820473700761795,
      "learning_rate": 0.00043304504216274705,
      "loss": 0.0392,
      "step": 3767
    },
    {
      "epoch": 16.900647340275825,
      "grad_norm": 0.015963133424520493,
      "learning_rate": 0.00043279901771555297,
      "loss": 0.0426,
      "step": 3768
    },
    {
      "epoch": 16.905150576977203,
      "grad_norm": 0.014553253538906574,
      "learning_rate": 0.0004325530098367251,
      "loss": 0.0197,
      "step": 3769
    },
    {
      "epoch": 16.90965381367858,
      "grad_norm": 0.07418900728225708,
      "learning_rate": 0.00043230701858691656,
      "loss": 0.0464,
      "step": 3770
    },
    {
      "epoch": 16.91415705037996,
      "grad_norm": 0.008150364272296429,
      "learning_rate": 0.0004320610440267766,
      "loss": 0.0255,
      "step": 3771
    },
    {
      "epoch": 16.91866028708134,
      "grad_norm": 0.011862539686262608,
      "learning_rate": 0.0004318150862169502,
      "loss": 0.0231,
      "step": 3772
    },
    {
      "epoch": 16.92316352378272,
      "grad_norm": 0.017372174188494682,
      "learning_rate": 0.00043156914521807766,
      "loss": 0.0253,
      "step": 3773
    },
    {
      "epoch": 16.927666760484097,
      "grad_norm": 0.010609442368149757,
      "learning_rate": 0.0004313232210907959,
      "loss": 0.0198,
      "step": 3774
    },
    {
      "epoch": 16.932169997185476,
      "grad_norm": 0.04552299901843071,
      "learning_rate": 0.0004310773138957375,
      "loss": 0.1261,
      "step": 3775
    },
    {
      "epoch": 16.936673233886857,
      "grad_norm": 0.06507353484630585,
      "learning_rate": 0.0004308314236935305,
      "loss": 0.0658,
      "step": 3776
    },
    {
      "epoch": 16.941176470588236,
      "grad_norm": 0.02397030219435692,
      "learning_rate": 0.0004305855505447992,
      "loss": 0.0464,
      "step": 3777
    },
    {
      "epoch": 16.945679707289614,
      "grad_norm": 0.0032978886738419533,
      "learning_rate": 0.0004303396945101633,
      "loss": 0.0081,
      "step": 3778
    },
    {
      "epoch": 16.950182943990992,
      "grad_norm": 0.011940579861402512,
      "learning_rate": 0.00043009385565023864,
      "loss": 0.0205,
      "step": 3779
    },
    {
      "epoch": 16.954686180692374,
      "grad_norm": 0.006874364800751209,
      "learning_rate": 0.00042984803402563656,
      "loss": 0.0122,
      "step": 3780
    },
    {
      "epoch": 16.959189417393752,
      "grad_norm": 0.014401720836758614,
      "learning_rate": 0.00042960222969696415,
      "loss": 0.0163,
      "step": 3781
    },
    {
      "epoch": 16.96369265409513,
      "grad_norm": 0.02309790439903736,
      "learning_rate": 0.0004293564427248246,
      "loss": 0.0766,
      "step": 3782
    },
    {
      "epoch": 16.96819589079651,
      "grad_norm": 0.01792621985077858,
      "learning_rate": 0.00042911067316981656,
      "loss": 0.0229,
      "step": 3783
    },
    {
      "epoch": 16.97269912749789,
      "grad_norm": 0.01949024572968483,
      "learning_rate": 0.00042886492109253405,
      "loss": 0.0273,
      "step": 3784
    },
    {
      "epoch": 16.977202364199268,
      "grad_norm": 0.03132001683115959,
      "learning_rate": 0.00042861918655356734,
      "loss": 0.0199,
      "step": 3785
    },
    {
      "epoch": 16.981705600900646,
      "grad_norm": 0.1269318163394928,
      "learning_rate": 0.00042837346961350234,
      "loss": 0.0985,
      "step": 3786
    },
    {
      "epoch": 16.986208837602028,
      "grad_norm": 0.006857631728053093,
      "learning_rate": 0.00042812777033291995,
      "loss": 0.0125,
      "step": 3787
    },
    {
      "epoch": 16.990712074303406,
      "grad_norm": 0.01324109360575676,
      "learning_rate": 0.0004278820887723975,
      "loss": 0.0186,
      "step": 3788
    },
    {
      "epoch": 16.995215311004785,
      "grad_norm": 0.005505912937223911,
      "learning_rate": 0.0004276364249925076,
      "loss": 0.0207,
      "step": 3789
    },
    {
      "epoch": 16.999718547706163,
      "grad_norm": 0.011641900055110455,
      "learning_rate": 0.00042739077905381873,
      "loss": 0.0326,
      "step": 3790
    },
    {
      "epoch": 17.0,
      "grad_norm": 0.011641900055110455,
      "learning_rate": 0.00042714515101689433,
      "loss": 0.0003,
      "step": 3791
    },
    {
      "epoch": 17.0,
      "eval_f1": 0.985594237695078,
      "eval_loss": 0.03358308598399162,
      "eval_runtime": 26.1663,
      "eval_samples_per_second": 191.009,
      "eval_steps_per_second": 6.0,
      "step": 3791
    },
    {
      "epoch": 17.004503236701378,
      "grad_norm": 0.016182323917746544,
      "learning_rate": 0.0004268995409422941,
      "loss": 0.024,
      "step": 3792
    },
    {
      "epoch": 17.00900647340276,
      "grad_norm": 0.002107298467308283,
      "learning_rate": 0.00042665394889057325,
      "loss": 0.0052,
      "step": 3793
    },
    {
      "epoch": 17.013509710104138,
      "grad_norm": 0.002119224052876234,
      "learning_rate": 0.0004264083749222821,
      "loss": 0.0071,
      "step": 3794
    },
    {
      "epoch": 17.018012946805516,
      "grad_norm": 0.004771003965288401,
      "learning_rate": 0.0004261628190979668,
      "loss": 0.0096,
      "step": 3795
    },
    {
      "epoch": 17.022516183506895,
      "grad_norm": 0.00901438295841217,
      "learning_rate": 0.0004259172814781691,
      "loss": 0.0148,
      "step": 3796
    },
    {
      "epoch": 17.027019420208276,
      "grad_norm": 0.024527834728360176,
      "learning_rate": 0.00042567176212342624,
      "loss": 0.042,
      "step": 3797
    },
    {
      "epoch": 17.031522656909655,
      "grad_norm": 0.031385909765958786,
      "learning_rate": 0.0004254262610942707,
      "loss": 0.0207,
      "step": 3798
    },
    {
      "epoch": 17.036025893611033,
      "grad_norm": 0.016915712505578995,
      "learning_rate": 0.00042518077845123066,
      "loss": 0.0359,
      "step": 3799
    },
    {
      "epoch": 17.04052913031241,
      "grad_norm": 0.020029019564390182,
      "learning_rate": 0.00042493531425483004,
      "loss": 0.0559,
      "step": 3800
    },
    {
      "epoch": 17.045032367013793,
      "grad_norm": 0.022624103352427483,
      "learning_rate": 0.00042468986856558747,
      "loss": 0.0281,
      "step": 3801
    },
    {
      "epoch": 17.04953560371517,
      "grad_norm": 0.016609588637948036,
      "learning_rate": 0.00042444444144401763,
      "loss": 0.0162,
      "step": 3802
    },
    {
      "epoch": 17.05403884041655,
      "grad_norm": 0.0075697870925068855,
      "learning_rate": 0.00042419903295063045,
      "loss": 0.0101,
      "step": 3803
    },
    {
      "epoch": 17.058542077117927,
      "grad_norm": 0.0030036314856261015,
      "learning_rate": 0.00042395364314593156,
      "loss": 0.0055,
      "step": 3804
    },
    {
      "epoch": 17.06304531381931,
      "grad_norm": 0.0019430245738476515,
      "learning_rate": 0.00042370827209042107,
      "loss": 0.0056,
      "step": 3805
    },
    {
      "epoch": 17.067548550520687,
      "grad_norm": 0.007895857095718384,
      "learning_rate": 0.0004234629198445955,
      "loss": 0.0082,
      "step": 3806
    },
    {
      "epoch": 17.072051787222065,
      "grad_norm": 0.0029454631730914116,
      "learning_rate": 0.00042321758646894636,
      "loss": 0.0072,
      "step": 3807
    },
    {
      "epoch": 17.076555023923444,
      "grad_norm": 0.011559675447642803,
      "learning_rate": 0.0004229722720239602,
      "loss": 0.0081,
      "step": 3808
    },
    {
      "epoch": 17.081058260624825,
      "grad_norm": 0.03224644809961319,
      "learning_rate": 0.00042272697657011926,
      "loss": 0.1379,
      "step": 3809
    },
    {
      "epoch": 17.085561497326204,
      "grad_norm": 0.02208651974797249,
      "learning_rate": 0.00042248170016790103,
      "loss": 0.0241,
      "step": 3810
    },
    {
      "epoch": 17.09006473402758,
      "grad_norm": 0.019580159336328506,
      "learning_rate": 0.00042223644287777855,
      "loss": 0.0995,
      "step": 3811
    },
    {
      "epoch": 17.09456797072896,
      "grad_norm": 0.00468519888818264,
      "learning_rate": 0.00042199120476021934,
      "loss": 0.009,
      "step": 3812
    },
    {
      "epoch": 17.09907120743034,
      "grad_norm": 0.003785626729950309,
      "learning_rate": 0.00042174598587568703,
      "loss": 0.007,
      "step": 3813
    },
    {
      "epoch": 17.10357444413172,
      "grad_norm": 0.005007652100175619,
      "learning_rate": 0.00042150078628464026,
      "loss": 0.0071,
      "step": 3814
    },
    {
      "epoch": 17.108077680833098,
      "grad_norm": 0.019112907350063324,
      "learning_rate": 0.00042125560604753273,
      "loss": 0.0921,
      "step": 3815
    },
    {
      "epoch": 17.112580917534476,
      "grad_norm": 0.020390868186950684,
      "learning_rate": 0.0004210104452248135,
      "loss": 0.0178,
      "step": 3816
    },
    {
      "epoch": 17.117084154235858,
      "grad_norm": 0.01598423346877098,
      "learning_rate": 0.0004207653038769269,
      "loss": 0.012,
      "step": 3817
    },
    {
      "epoch": 17.121587390937236,
      "grad_norm": 0.0032084202393889427,
      "learning_rate": 0.0004205201820643125,
      "loss": 0.0075,
      "step": 3818
    },
    {
      "epoch": 17.126090627638614,
      "grad_norm": 0.03286445140838623,
      "learning_rate": 0.00042027507984740463,
      "loss": 0.0392,
      "step": 3819
    },
    {
      "epoch": 17.130593864339993,
      "grad_norm": 0.009949547238647938,
      "learning_rate": 0.00042002999728663336,
      "loss": 0.0055,
      "step": 3820
    },
    {
      "epoch": 17.135097101041374,
      "grad_norm": 0.0019482612842693925,
      "learning_rate": 0.0004197849344424238,
      "loss": 0.0058,
      "step": 3821
    },
    {
      "epoch": 17.139600337742753,
      "grad_norm": 0.010490364395081997,
      "learning_rate": 0.00041953989137519574,
      "loss": 0.0143,
      "step": 3822
    },
    {
      "epoch": 17.14410357444413,
      "grad_norm": 0.06416691094636917,
      "learning_rate": 0.0004192948681453645,
      "loss": 0.1341,
      "step": 3823
    },
    {
      "epoch": 17.148606811145513,
      "grad_norm": 0.019798077642917633,
      "learning_rate": 0.00041904986481334047,
      "loss": 0.0594,
      "step": 3824
    },
    {
      "epoch": 17.15311004784689,
      "grad_norm": 0.04225806146860123,
      "learning_rate": 0.0004188048814395293,
      "loss": 0.0441,
      "step": 3825
    },
    {
      "epoch": 17.15761328454827,
      "grad_norm": 0.056015223264694214,
      "learning_rate": 0.00041855991808433115,
      "loss": 0.0353,
      "step": 3826
    },
    {
      "epoch": 17.162116521249647,
      "grad_norm": 0.0020914836786687374,
      "learning_rate": 0.00041831497480814174,
      "loss": 0.0046,
      "step": 3827
    },
    {
      "epoch": 17.16661975795103,
      "grad_norm": 0.0015524219488725066,
      "learning_rate": 0.00041807005167135197,
      "loss": 0.0038,
      "step": 3828
    },
    {
      "epoch": 17.171122994652407,
      "grad_norm": 0.005757900886237621,
      "learning_rate": 0.0004178251487343471,
      "loss": 0.0071,
      "step": 3829
    },
    {
      "epoch": 17.175626231353785,
      "grad_norm": 0.0012654043966904283,
      "learning_rate": 0.00041758026605750786,
      "loss": 0.0703,
      "step": 3830
    },
    {
      "epoch": 17.180129468055163,
      "grad_norm": 0.028435666114091873,
      "learning_rate": 0.00041733540370121017,
      "loss": 0.01,
      "step": 3831
    },
    {
      "epoch": 17.184632704756545,
      "grad_norm": 0.025473760440945625,
      "learning_rate": 0.0004170905617258247,
      "loss": 0.0169,
      "step": 3832
    },
    {
      "epoch": 17.189135941457923,
      "grad_norm": 0.03459925949573517,
      "learning_rate": 0.0004168457401917169,
      "loss": 0.1151,
      "step": 3833
    },
    {
      "epoch": 17.1936391781593,
      "grad_norm": 0.0018328201258555055,
      "learning_rate": 0.00041660093915924765,
      "loss": 0.0042,
      "step": 3834
    },
    {
      "epoch": 17.19814241486068,
      "grad_norm": 0.05265199765563011,
      "learning_rate": 0.00041635615868877235,
      "loss": 0.1461,
      "step": 3835
    },
    {
      "epoch": 17.20264565156206,
      "grad_norm": 0.00665842741727829,
      "learning_rate": 0.00041611139884064144,
      "loss": 0.0095,
      "step": 3836
    },
    {
      "epoch": 17.20714888826344,
      "grad_norm": 0.00344153493642807,
      "learning_rate": 0.0004158666596752004,
      "loss": 0.0088,
      "step": 3837
    },
    {
      "epoch": 17.211652124964818,
      "grad_norm": 0.043346866965293884,
      "learning_rate": 0.0004156219412527895,
      "loss": 0.0303,
      "step": 3838
    },
    {
      "epoch": 17.216155361666196,
      "grad_norm": 0.01814238540828228,
      "learning_rate": 0.0004153772436337443,
      "loss": 0.0635,
      "step": 3839
    },
    {
      "epoch": 17.220658598367578,
      "grad_norm": 0.0028353214729577303,
      "learning_rate": 0.0004151325668783943,
      "loss": 0.0078,
      "step": 3840
    },
    {
      "epoch": 17.225161835068956,
      "grad_norm": 0.012977899052202702,
      "learning_rate": 0.0004148879110470646,
      "loss": 0.0073,
      "step": 3841
    },
    {
      "epoch": 17.229665071770334,
      "grad_norm": 0.018778685480356216,
      "learning_rate": 0.0004146432762000754,
      "loss": 0.0338,
      "step": 3842
    },
    {
      "epoch": 17.234168308471713,
      "grad_norm": 0.032518912106752396,
      "learning_rate": 0.0004143986623977407,
      "loss": 0.0803,
      "step": 3843
    },
    {
      "epoch": 17.238671545173094,
      "grad_norm": 0.0021819768007844687,
      "learning_rate": 0.00041415406970037006,
      "loss": 0.0063,
      "step": 3844
    },
    {
      "epoch": 17.243174781874473,
      "grad_norm": 0.05260040611028671,
      "learning_rate": 0.00041390949816826777,
      "loss": 0.051,
      "step": 3845
    },
    {
      "epoch": 17.24767801857585,
      "grad_norm": 0.0011931095505133271,
      "learning_rate": 0.000413664947861733,
      "loss": 0.0409,
      "step": 3846
    },
    {
      "epoch": 17.25218125527723,
      "grad_norm": 0.05386052653193474,
      "learning_rate": 0.0004134204188410592,
      "loss": 0.0247,
      "step": 3847
    },
    {
      "epoch": 17.25668449197861,
      "grad_norm": 0.039997398853302,
      "learning_rate": 0.00041317591116653486,
      "loss": 0.0314,
      "step": 3848
    },
    {
      "epoch": 17.26118772867999,
      "grad_norm": 0.06632319837808609,
      "learning_rate": 0.0004129314248984435,
      "loss": 0.0426,
      "step": 3849
    },
    {
      "epoch": 17.265690965381367,
      "grad_norm": 0.008353565819561481,
      "learning_rate": 0.00041268696009706267,
      "loss": 0.0146,
      "step": 3850
    },
    {
      "epoch": 17.270194202082745,
      "grad_norm": 0.0021659627091139555,
      "learning_rate": 0.0004124425168226655,
      "loss": 0.0056,
      "step": 3851
    },
    {
      "epoch": 17.274697438784127,
      "grad_norm": 0.00885989423841238,
      "learning_rate": 0.000412198095135519,
      "loss": 0.0207,
      "step": 3852
    },
    {
      "epoch": 17.279200675485505,
      "grad_norm": 0.0033325059339404106,
      "learning_rate": 0.0004119536950958853,
      "loss": 0.0071,
      "step": 3853
    },
    {
      "epoch": 17.283703912186883,
      "grad_norm": 0.0033525926992297173,
      "learning_rate": 0.0004117093167640211,
      "loss": 0.0083,
      "step": 3854
    },
    {
      "epoch": 17.288207148888265,
      "grad_norm": 0.0239016842097044,
      "learning_rate": 0.00041146496020017784,
      "loss": 0.0318,
      "step": 3855
    },
    {
      "epoch": 17.292710385589643,
      "grad_norm": 0.0012807288439944386,
      "learning_rate": 0.00041122062546460135,
      "loss": 0.0046,
      "step": 3856
    },
    {
      "epoch": 17.29721362229102,
      "grad_norm": 0.029527049511671066,
      "learning_rate": 0.0004109763126175325,
      "loss": 0.0578,
      "step": 3857
    },
    {
      "epoch": 17.3017168589924,
      "grad_norm": 0.02214960753917694,
      "learning_rate": 0.0004107320217192062,
      "loss": 0.0223,
      "step": 3858
    },
    {
      "epoch": 17.30622009569378,
      "grad_norm": 0.0483713373541832,
      "learning_rate": 0.0004104877528298523,
      "loss": 0.093,
      "step": 3859
    },
    {
      "epoch": 17.31072333239516,
      "grad_norm": 0.0015987936640158296,
      "learning_rate": 0.0004102435060096954,
      "loss": 0.005,
      "step": 3860
    },
    {
      "epoch": 17.315226569096538,
      "grad_norm": 0.02079983614385128,
      "learning_rate": 0.000409999281318954,
      "loss": 0.0127,
      "step": 3861
    },
    {
      "epoch": 17.319729805797916,
      "grad_norm": 0.023181170225143433,
      "learning_rate": 0.0004097550788178418,
      "loss": 0.0475,
      "step": 3862
    },
    {
      "epoch": 17.324233042499298,
      "grad_norm": 0.019838964566588402,
      "learning_rate": 0.00040951089856656683,
      "loss": 0.0575,
      "step": 3863
    },
    {
      "epoch": 17.328736279200676,
      "grad_norm": 0.0010201467666774988,
      "learning_rate": 0.00040926674062533177,
      "loss": 0.0044,
      "step": 3864
    },
    {
      "epoch": 17.333239515902054,
      "grad_norm": 0.0028119180351495743,
      "learning_rate": 0.0004090226050543332,
      "loss": 0.0073,
      "step": 3865
    },
    {
      "epoch": 17.337742752603432,
      "grad_norm": 0.005819130223244429,
      "learning_rate": 0.0004087784919137628,
      "loss": 0.0093,
      "step": 3866
    },
    {
      "epoch": 17.342245989304814,
      "grad_norm": 0.01300211250782013,
      "learning_rate": 0.0004085344012638067,
      "loss": 0.0147,
      "step": 3867
    },
    {
      "epoch": 17.346749226006192,
      "grad_norm": 0.010996623896062374,
      "learning_rate": 0.00040829033316464524,
      "loss": 0.0432,
      "step": 3868
    },
    {
      "epoch": 17.35125246270757,
      "grad_norm": 0.002513253828510642,
      "learning_rate": 0.0004080462876764531,
      "loss": 0.0234,
      "step": 3869
    },
    {
      "epoch": 17.35575569940895,
      "grad_norm": 0.020249612629413605,
      "learning_rate": 0.0004078022648593997,
      "loss": 0.0196,
      "step": 3870
    },
    {
      "epoch": 17.36025893611033,
      "grad_norm": 0.014490127563476562,
      "learning_rate": 0.00040755826477364884,
      "loss": 0.0408,
      "step": 3871
    },
    {
      "epoch": 17.36476217281171,
      "grad_norm": 0.056643009185791016,
      "learning_rate": 0.0004073142874793584,
      "loss": 0.0314,
      "step": 3872
    },
    {
      "epoch": 17.369265409513087,
      "grad_norm": 0.017726831138134003,
      "learning_rate": 0.00040707033303668096,
      "loss": 0.0313,
      "step": 3873
    },
    {
      "epoch": 17.373768646214465,
      "grad_norm": 0.003347113262861967,
      "learning_rate": 0.00040682640150576353,
      "loss": 0.0076,
      "step": 3874
    },
    {
      "epoch": 17.378271882915847,
      "grad_norm": 0.01504806149750948,
      "learning_rate": 0.0004065824929467469,
      "loss": 0.033,
      "step": 3875
    },
    {
      "epoch": 17.382775119617225,
      "grad_norm": 0.024971310049295425,
      "learning_rate": 0.0004063386074197669,
      "loss": 0.0964,
      "step": 3876
    },
    {
      "epoch": 17.387278356318603,
      "grad_norm": 0.01914958469569683,
      "learning_rate": 0.00040609474498495325,
      "loss": 0.0389,
      "step": 3877
    },
    {
      "epoch": 17.39178159301998,
      "grad_norm": 0.012319943867623806,
      "learning_rate": 0.0004058509057024304,
      "loss": 0.0188,
      "step": 3878
    },
    {
      "epoch": 17.396284829721363,
      "grad_norm": 0.0065547870472073555,
      "learning_rate": 0.0004056070896323163,
      "loss": 0.0098,
      "step": 3879
    },
    {
      "epoch": 17.40078806642274,
      "grad_norm": 0.005872626788914204,
      "learning_rate": 0.0004053632968347239,
      "loss": 0.0068,
      "step": 3880
    },
    {
      "epoch": 17.40529130312412,
      "grad_norm": 0.01419045403599739,
      "learning_rate": 0.00040511952736976045,
      "loss": 0.0167,
      "step": 3881
    },
    {
      "epoch": 17.409794539825498,
      "grad_norm": 0.0022255973890423775,
      "learning_rate": 0.0004048757812975267,
      "loss": 0.0043,
      "step": 3882
    },
    {
      "epoch": 17.41429777652688,
      "grad_norm": 0.008009705692529678,
      "learning_rate": 0.0004046320586781183,
      "loss": 0.0104,
      "step": 3883
    },
    {
      "epoch": 17.418801013228258,
      "grad_norm": 0.00855958741158247,
      "learning_rate": 0.000404388359571625,
      "loss": 0.0112,
      "step": 3884
    },
    {
      "epoch": 17.423304249929636,
      "grad_norm": 0.03379494696855545,
      "learning_rate": 0.00040414468403813093,
      "loss": 0.0603,
      "step": 3885
    },
    {
      "epoch": 17.427807486631018,
      "grad_norm": 0.01397570502012968,
      "learning_rate": 0.0004039010321377137,
      "loss": 0.0153,
      "step": 3886
    },
    {
      "epoch": 17.432310723332396,
      "grad_norm": 0.010344852693378925,
      "learning_rate": 0.00040365740393044565,
      "loss": 0.0186,
      "step": 3887
    },
    {
      "epoch": 17.436813960033774,
      "grad_norm": 0.0009655602043494582,
      "learning_rate": 0.00040341379947639343,
      "loss": 0.0051,
      "step": 3888
    },
    {
      "epoch": 17.441317196735152,
      "grad_norm": 0.030426394194364548,
      "learning_rate": 0.00040317021883561733,
      "loss": 0.0454,
      "step": 3889
    },
    {
      "epoch": 17.445820433436534,
      "grad_norm": 0.0718669518828392,
      "learning_rate": 0.0004029266620681722,
      "loss": 0.0916,
      "step": 3890
    },
    {
      "epoch": 17.450323670137912,
      "grad_norm": 0.03473645821213722,
      "learning_rate": 0.00040268312923410685,
      "loss": 0.0986,
      "step": 3891
    },
    {
      "epoch": 17.45482690683929,
      "grad_norm": 0.024031417444348335,
      "learning_rate": 0.000402439620393464,
      "loss": 0.0964,
      "step": 3892
    },
    {
      "epoch": 17.45933014354067,
      "grad_norm": 0.006062593776732683,
      "learning_rate": 0.00040219613560628077,
      "loss": 0.0116,
      "step": 3893
    },
    {
      "epoch": 17.46383338024205,
      "grad_norm": 0.012464838102459908,
      "learning_rate": 0.000401952674932588,
      "loss": 0.0187,
      "step": 3894
    },
    {
      "epoch": 17.46833661694343,
      "grad_norm": 0.002960466081276536,
      "learning_rate": 0.0004017092384324112,
      "loss": 0.0071,
      "step": 3895
    },
    {
      "epoch": 17.472839853644807,
      "grad_norm": 0.003423378337174654,
      "learning_rate": 0.00040146582616576914,
      "loss": 0.007,
      "step": 3896
    },
    {
      "epoch": 17.477343090346185,
      "grad_norm": 0.012645903043448925,
      "learning_rate": 0.00040122243819267503,
      "loss": 0.0231,
      "step": 3897
    },
    {
      "epoch": 17.481846327047567,
      "grad_norm": 0.00553308567032218,
      "learning_rate": 0.0004009790745731361,
      "loss": 0.0118,
      "step": 3898
    },
    {
      "epoch": 17.486349563748945,
      "grad_norm": 0.10587018728256226,
      "learning_rate": 0.0004007357353671537,
      "loss": 0.0331,
      "step": 3899
    },
    {
      "epoch": 17.490852800450323,
      "grad_norm": 0.01052231527864933,
      "learning_rate": 0.0004004924206347227,
      "loss": 0.0088,
      "step": 3900
    },
    {
      "epoch": 17.4953560371517,
      "grad_norm": 0.03127846494317055,
      "learning_rate": 0.0004002491304358322,
      "loss": 0.016,
      "step": 3901
    },
    {
      "epoch": 17.499859273853083,
      "grad_norm": 0.0031487583182752132,
      "learning_rate": 0.00040000586483046575,
      "loss": 0.0078,
      "step": 3902
    },
    {
      "epoch": 17.50436251055446,
      "grad_norm": 0.015596172772347927,
      "learning_rate": 0.0003997626238785997,
      "loss": 0.0429,
      "step": 3903
    },
    {
      "epoch": 17.50886574725584,
      "grad_norm": 0.06123962625861168,
      "learning_rate": 0.0003995194076402053,
      "loss": 0.1952,
      "step": 3904
    },
    {
      "epoch": 17.513368983957218,
      "grad_norm": 0.02015090174973011,
      "learning_rate": 0.0003992762161752474,
      "loss": 0.0638,
      "step": 3905
    },
    {
      "epoch": 17.5178722206586,
      "grad_norm": 0.03328569233417511,
      "learning_rate": 0.0003990330495436847,
      "loss": 0.0944,
      "step": 3906
    },
    {
      "epoch": 17.522375457359978,
      "grad_norm": 0.0178008284419775,
      "learning_rate": 0.00039878990780546983,
      "loss": 0.0379,
      "step": 3907
    },
    {
      "epoch": 17.526878694061356,
      "grad_norm": 0.014152932912111282,
      "learning_rate": 0.00039854679102054925,
      "loss": 0.0262,
      "step": 3908
    },
    {
      "epoch": 17.531381930762734,
      "grad_norm": 0.00569502729922533,
      "learning_rate": 0.0003983036992488632,
      "loss": 0.0101,
      "step": 3909
    },
    {
      "epoch": 17.535885167464116,
      "grad_norm": 0.024899577721953392,
      "learning_rate": 0.00039806063255034586,
      "loss": 0.0245,
      "step": 3910
    },
    {
      "epoch": 17.540388404165494,
      "grad_norm": 0.017195360735058784,
      "learning_rate": 0.00039781759098492513,
      "loss": 0.0175,
      "step": 3911
    },
    {
      "epoch": 17.544891640866872,
      "grad_norm": 0.013331780210137367,
      "learning_rate": 0.0003975745746125229,
      "loss": 0.024,
      "step": 3912
    },
    {
      "epoch": 17.549394877568254,
      "grad_norm": 0.041169941425323486,
      "learning_rate": 0.0003973315834930549,
      "loss": 0.0626,
      "step": 3913
    },
    {
      "epoch": 17.553898114269632,
      "grad_norm": 0.007626029197126627,
      "learning_rate": 0.00039708861768643,
      "loss": 0.013,
      "step": 3914
    },
    {
      "epoch": 17.55840135097101,
      "grad_norm": 0.009126720018684864,
      "learning_rate": 0.0003968456772525515,
      "loss": 0.0063,
      "step": 3915
    },
    {
      "epoch": 17.56290458767239,
      "grad_norm": 0.0039597926661372185,
      "learning_rate": 0.0003966027622513165,
      "loss": 0.007,
      "step": 3916
    },
    {
      "epoch": 17.56740782437377,
      "grad_norm": 0.05193842947483063,
      "learning_rate": 0.00039635987274261515,
      "loss": 0.0698,
      "step": 3917
    },
    {
      "epoch": 17.57191106107515,
      "grad_norm": 0.018362022936344147,
      "learning_rate": 0.0003961170087863319,
      "loss": 0.0429,
      "step": 3918
    },
    {
      "epoch": 17.576414297776527,
      "grad_norm": 0.016924813389778137,
      "learning_rate": 0.0003958741704423447,
      "loss": 0.0235,
      "step": 3919
    },
    {
      "epoch": 17.580917534477905,
      "grad_norm": 0.006452380679547787,
      "learning_rate": 0.0003956313577705255,
      "loss": 0.0083,
      "step": 3920
    },
    {
      "epoch": 17.585420771179287,
      "grad_norm": 0.0890258178114891,
      "learning_rate": 0.00039538857083073917,
      "loss": 0.0805,
      "step": 3921
    },
    {
      "epoch": 17.589924007880665,
      "grad_norm": 0.004924689419567585,
      "learning_rate": 0.00039514580968284487,
      "loss": 0.0134,
      "step": 3922
    },
    {
      "epoch": 17.594427244582043,
      "grad_norm": 0.0008540138369426131,
      "learning_rate": 0.0003949030743866955,
      "loss": 0.0034,
      "step": 3923
    },
    {
      "epoch": 17.59893048128342,
      "grad_norm": 0.0778537318110466,
      "learning_rate": 0.000394660365002137,
      "loss": 0.0875,
      "step": 3924
    },
    {
      "epoch": 17.603433717984803,
      "grad_norm": 0.005787473171949387,
      "learning_rate": 0.00039441768158900923,
      "loss": 0.0127,
      "step": 3925
    },
    {
      "epoch": 17.60793695468618,
      "grad_norm": 0.016004463657736778,
      "learning_rate": 0.0003941750242071458,
      "loss": 0.0307,
      "step": 3926
    },
    {
      "epoch": 17.61244019138756,
      "grad_norm": 0.01617322862148285,
      "learning_rate": 0.0003939323929163738,
      "loss": 0.0357,
      "step": 3927
    },
    {
      "epoch": 17.616943428088938,
      "grad_norm": 0.011392781510949135,
      "learning_rate": 0.00039368978777651364,
      "loss": 0.0217,
      "step": 3928
    },
    {
      "epoch": 17.62144666479032,
      "grad_norm": 0.003808279987424612,
      "learning_rate": 0.00039344720884737966,
      "loss": 0.0075,
      "step": 3929
    },
    {
      "epoch": 17.625949901491698,
      "grad_norm": 0.02660226635634899,
      "learning_rate": 0.0003932046561887795,
      "loss": 0.1077,
      "step": 3930
    },
    {
      "epoch": 17.630453138193076,
      "grad_norm": 0.033495258539915085,
      "learning_rate": 0.0003929621298605146,
      "loss": 0.1222,
      "step": 3931
    },
    {
      "epoch": 17.634956374894454,
      "grad_norm": 0.04893140122294426,
      "learning_rate": 0.0003927196299223793,
      "loss": 0.0071,
      "step": 3932
    },
    {
      "epoch": 17.639459611595836,
      "grad_norm": 0.03250008076429367,
      "learning_rate": 0.0003924771564341621,
      "loss": 0.0675,
      "step": 3933
    },
    {
      "epoch": 17.643962848297214,
      "grad_norm": 0.01231254730373621,
      "learning_rate": 0.00039223470945564477,
      "loss": 0.0246,
      "step": 3934
    },
    {
      "epoch": 17.648466084998592,
      "grad_norm": 0.012603637762367725,
      "learning_rate": 0.0003919922890466022,
      "loss": 0.0142,
      "step": 3935
    },
    {
      "epoch": 17.65296932169997,
      "grad_norm": 0.03831125423312187,
      "learning_rate": 0.0003917498952668032,
      "loss": 0.0466,
      "step": 3936
    },
    {
      "epoch": 17.657472558401352,
      "grad_norm": 0.0033027827739715576,
      "learning_rate": 0.0003915075281760097,
      "loss": 0.0048,
      "step": 3937
    },
    {
      "epoch": 17.66197579510273,
      "grad_norm": 0.025821050629019737,
      "learning_rate": 0.00039126518783397755,
      "loss": 0.0594,
      "step": 3938
    },
    {
      "epoch": 17.66647903180411,
      "grad_norm": 0.06711746752262115,
      "learning_rate": 0.00039102287430045515,
      "loss": 0.0161,
      "step": 3939
    },
    {
      "epoch": 17.670982268505487,
      "grad_norm": 0.03262726962566376,
      "learning_rate": 0.00039078058763518495,
      "loss": 0.1356,
      "step": 3940
    },
    {
      "epoch": 17.67548550520687,
      "grad_norm": 0.04055137559771538,
      "learning_rate": 0.00039053832789790285,
      "loss": 0.0731,
      "step": 3941
    },
    {
      "epoch": 17.679988741908247,
      "grad_norm": 0.02677709236741066,
      "learning_rate": 0.00039029609514833744,
      "loss": 0.0363,
      "step": 3942
    },
    {
      "epoch": 17.684491978609625,
      "grad_norm": 0.048963312059640884,
      "learning_rate": 0.00039005388944621125,
      "loss": 0.032,
      "step": 3943
    },
    {
      "epoch": 17.688995215311003,
      "grad_norm": 0.002451819134876132,
      "learning_rate": 0.00038981171085123996,
      "loss": 0.0073,
      "step": 3944
    },
    {
      "epoch": 17.693498452012385,
      "grad_norm": 0.024691717699170113,
      "learning_rate": 0.0003895695594231327,
      "loss": 0.0359,
      "step": 3945
    },
    {
      "epoch": 17.698001688713763,
      "grad_norm": 0.023349016904830933,
      "learning_rate": 0.00038932743522159164,
      "loss": 0.0139,
      "step": 3946
    },
    {
      "epoch": 17.70250492541514,
      "grad_norm": 0.011373189277946949,
      "learning_rate": 0.0003890853383063124,
      "loss": 0.0385,
      "step": 3947
    },
    {
      "epoch": 17.707008162116523,
      "grad_norm": 0.03533438220620155,
      "learning_rate": 0.000388843268736984,
      "loss": 0.014,
      "step": 3948
    },
    {
      "epoch": 17.7115113988179,
      "grad_norm": 0.013949827291071415,
      "learning_rate": 0.00038860122657328826,
      "loss": 0.0193,
      "step": 3949
    },
    {
      "epoch": 17.71601463551928,
      "grad_norm": 0.004219201393425465,
      "learning_rate": 0.0003883592118749007,
      "loss": 0.008,
      "step": 3950
    },
    {
      "epoch": 17.720517872220658,
      "grad_norm": 0.029253242537379265,
      "learning_rate": 0.0003881172247014899,
      "loss": 0.0512,
      "step": 3951
    },
    {
      "epoch": 17.72502110892204,
      "grad_norm": 0.048620957881212234,
      "learning_rate": 0.00038787526511271795,
      "loss": 0.0563,
      "step": 3952
    },
    {
      "epoch": 17.729524345623418,
      "grad_norm": 0.032847922295331955,
      "learning_rate": 0.00038763333316823933,
      "loss": 0.0886,
      "step": 3953
    },
    {
      "epoch": 17.734027582324796,
      "grad_norm": 0.029011454433202744,
      "learning_rate": 0.0003873914289277025,
      "loss": 0.0137,
      "step": 3954
    },
    {
      "epoch": 17.738530819026174,
      "grad_norm": 0.021144457161426544,
      "learning_rate": 0.0003871495524507491,
      "loss": 0.1138,
      "step": 3955
    },
    {
      "epoch": 17.743034055727556,
      "grad_norm": 0.018890192732214928,
      "learning_rate": 0.00038690770379701305,
      "loss": 0.0238,
      "step": 3956
    },
    {
      "epoch": 17.747537292428934,
      "grad_norm": 0.019977230578660965,
      "learning_rate": 0.0003866658830261224,
      "loss": 0.08,
      "step": 3957
    },
    {
      "epoch": 17.752040529130312,
      "grad_norm": 0.012947947718203068,
      "learning_rate": 0.0003864240901976978,
      "loss": 0.0141,
      "step": 3958
    },
    {
      "epoch": 17.75654376583169,
      "grad_norm": 0.029089774936437607,
      "learning_rate": 0.00038618232537135345,
      "loss": 0.0663,
      "step": 3959
    },
    {
      "epoch": 17.761047002533072,
      "grad_norm": 0.01385807991027832,
      "learning_rate": 0.00038594058860669586,
      "loss": 0.016,
      "step": 3960
    },
    {
      "epoch": 17.76555023923445,
      "grad_norm": 0.011118471622467041,
      "learning_rate": 0.0003856988799633253,
      "loss": 0.013,
      "step": 3961
    },
    {
      "epoch": 17.77005347593583,
      "grad_norm": 0.024371465668082237,
      "learning_rate": 0.0003854571995008351,
      "loss": 0.0231,
      "step": 3962
    },
    {
      "epoch": 17.774556712637207,
      "grad_norm": 0.0058473036624491215,
      "learning_rate": 0.00038521554727881114,
      "loss": 0.0115,
      "step": 3963
    },
    {
      "epoch": 17.77905994933859,
      "grad_norm": 0.030774211511015892,
      "learning_rate": 0.0003849739233568329,
      "loss": 0.0775,
      "step": 3964
    },
    {
      "epoch": 17.783563186039967,
      "grad_norm": 0.009016119875013828,
      "learning_rate": 0.00038473232779447244,
      "loss": 0.0134,
      "step": 3965
    },
    {
      "epoch": 17.788066422741345,
      "grad_norm": 0.010471678338944912,
      "learning_rate": 0.0003844907606512951,
      "loss": 0.0142,
      "step": 3966
    },
    {
      "epoch": 17.792569659442723,
      "grad_norm": 0.02918008156120777,
      "learning_rate": 0.00038424922198685915,
      "loss": 0.0289,
      "step": 3967
    },
    {
      "epoch": 17.797072896144105,
      "grad_norm": 0.014499794691801071,
      "learning_rate": 0.0003840077118607157,
      "loss": 0.0282,
      "step": 3968
    },
    {
      "epoch": 17.801576132845483,
      "grad_norm": 0.01500887144356966,
      "learning_rate": 0.0003837662303324093,
      "loss": 0.047,
      "step": 3969
    },
    {
      "epoch": 17.80607936954686,
      "grad_norm": 0.024854212999343872,
      "learning_rate": 0.0003835247774614766,
      "loss": 0.1571,
      "step": 3970
    },
    {
      "epoch": 17.81058260624824,
      "grad_norm": 0.028374115005135536,
      "learning_rate": 0.0003832833533074479,
      "loss": 0.0863,
      "step": 3971
    },
    {
      "epoch": 17.81508584294962,
      "grad_norm": 0.07739992439746857,
      "learning_rate": 0.0003830419579298462,
      "loss": 0.1442,
      "step": 3972
    },
    {
      "epoch": 17.819589079651,
      "grad_norm": 0.03013775125145912,
      "learning_rate": 0.00038280059138818764,
      "loss": 0.1474,
      "step": 3973
    },
    {
      "epoch": 17.824092316352377,
      "grad_norm": 0.0474051758646965,
      "learning_rate": 0.00038255925374198053,
      "loss": 0.0474,
      "step": 3974
    },
    {
      "epoch": 17.82859555305376,
      "grad_norm": 0.03557385876774788,
      "learning_rate": 0.0003823179450507268,
      "loss": 0.01,
      "step": 3975
    },
    {
      "epoch": 17.833098789755137,
      "grad_norm": 0.02082049660384655,
      "learning_rate": 0.0003820766653739212,
      "loss": 0.0344,
      "step": 3976
    },
    {
      "epoch": 17.837602026456516,
      "grad_norm": 0.008197457529604435,
      "learning_rate": 0.00038183541477105064,
      "loss": 0.0124,
      "step": 3977
    },
    {
      "epoch": 17.842105263157894,
      "grad_norm": 0.005887053906917572,
      "learning_rate": 0.00038159419330159556,
      "loss": 0.0146,
      "step": 3978
    },
    {
      "epoch": 17.846608499859276,
      "grad_norm": 0.003348429687321186,
      "learning_rate": 0.00038135300102502893,
      "loss": 0.0081,
      "step": 3979
    },
    {
      "epoch": 17.851111736560654,
      "grad_norm": 0.03313184902071953,
      "learning_rate": 0.00038111183800081685,
      "loss": 0.0446,
      "step": 3980
    },
    {
      "epoch": 17.855614973262032,
      "grad_norm": 0.043331194669008255,
      "learning_rate": 0.0003808707042884176,
      "loss": 0.0426,
      "step": 3981
    },
    {
      "epoch": 17.86011820996341,
      "grad_norm": 0.02799089252948761,
      "learning_rate": 0.0003806295999472826,
      "loss": 0.1492,
      "step": 3982
    },
    {
      "epoch": 17.864621446664792,
      "grad_norm": 0.0033216909505426884,
      "learning_rate": 0.0003803885250368562,
      "loss": 0.0095,
      "step": 3983
    },
    {
      "epoch": 17.86912468336617,
      "grad_norm": 0.010649905540049076,
      "learning_rate": 0.0003801474796165751,
      "loss": 0.0178,
      "step": 3984
    },
    {
      "epoch": 17.87362792006755,
      "grad_norm": 0.023445745930075645,
      "learning_rate": 0.0003799064637458689,
      "loss": 0.081,
      "step": 3985
    },
    {
      "epoch": 17.878131156768927,
      "grad_norm": 0.02690877579152584,
      "learning_rate": 0.0003796654774841601,
      "loss": 0.0695,
      "step": 3986
    },
    {
      "epoch": 17.88263439347031,
      "grad_norm": 0.043312374502420425,
      "learning_rate": 0.00037942452089086387,
      "loss": 0.0242,
      "step": 3987
    },
    {
      "epoch": 17.887137630171686,
      "grad_norm": 0.07706359773874283,
      "learning_rate": 0.0003791835940253875,
      "loss": 0.0833,
      "step": 3988
    },
    {
      "epoch": 17.891640866873065,
      "grad_norm": 0.013459654524922371,
      "learning_rate": 0.0003789426969471316,
      "loss": 0.0275,
      "step": 3989
    },
    {
      "epoch": 17.896144103574443,
      "grad_norm": 0.03452455997467041,
      "learning_rate": 0.0003787018297154894,
      "loss": 0.0668,
      "step": 3990
    },
    {
      "epoch": 17.900647340275825,
      "grad_norm": 0.023229628801345825,
      "learning_rate": 0.00037846099238984614,
      "loss": 0.1864,
      "step": 3991
    },
    {
      "epoch": 17.905150576977203,
      "grad_norm": 0.012837622314691544,
      "learning_rate": 0.00037822018502958044,
      "loss": 0.0176,
      "step": 3992
    },
    {
      "epoch": 17.90965381367858,
      "grad_norm": 0.013797806575894356,
      "learning_rate": 0.0003779794076940632,
      "loss": 0.0193,
      "step": 3993
    },
    {
      "epoch": 17.91415705037996,
      "grad_norm": 0.00690740579739213,
      "learning_rate": 0.00037773866044265816,
      "loss": 0.014,
      "step": 3994
    },
    {
      "epoch": 17.91866028708134,
      "grad_norm": 0.00831991620361805,
      "learning_rate": 0.0003774979433347209,
      "loss": 0.0202,
      "step": 3995
    },
    {
      "epoch": 17.92316352378272,
      "grad_norm": 0.03002750314772129,
      "learning_rate": 0.00037725725642960046,
      "loss": 0.0475,
      "step": 3996
    },
    {
      "epoch": 17.927666760484097,
      "grad_norm": 0.024600619450211525,
      "learning_rate": 0.00037701659978663793,
      "loss": 0.0276,
      "step": 3997
    },
    {
      "epoch": 17.932169997185476,
      "grad_norm": 0.03368303179740906,
      "learning_rate": 0.0003767759734651674,
      "loss": 0.0873,
      "step": 3998
    },
    {
      "epoch": 17.936673233886857,
      "grad_norm": 0.007812830619513988,
      "learning_rate": 0.00037653537752451474,
      "loss": 0.0121,
      "step": 3999
    },
    {
      "epoch": 17.941176470588236,
      "grad_norm": 0.029629388824105263,
      "learning_rate": 0.0003762948120239988,
      "loss": 0.0544,
      "step": 4000
    },
    {
      "epoch": 17.945679707289614,
      "grad_norm": 0.03585543856024742,
      "learning_rate": 0.00037605427702293114,
      "loss": 0.0707,
      "step": 4001
    },
    {
      "epoch": 17.950182943990992,
      "grad_norm": 0.022681863978505135,
      "learning_rate": 0.00037581377258061533,
      "loss": 0.0896,
      "step": 4002
    },
    {
      "epoch": 17.954686180692374,
      "grad_norm": 0.04876472055912018,
      "learning_rate": 0.0003755732987563476,
      "loss": 0.031,
      "step": 4003
    },
    {
      "epoch": 17.959189417393752,
      "grad_norm": 0.006305796094238758,
      "learning_rate": 0.0003753328556094169,
      "loss": 0.0104,
      "step": 4004
    },
    {
      "epoch": 17.96369265409513,
      "grad_norm": 0.02173559181392193,
      "learning_rate": 0.0003750924431991041,
      "loss": 0.027,
      "step": 4005
    },
    {
      "epoch": 17.96819589079651,
      "grad_norm": 0.025182154029607773,
      "learning_rate": 0.0003748520615846827,
      "loss": 0.0534,
      "step": 4006
    },
    {
      "epoch": 17.97269912749789,
      "grad_norm": 0.01769743114709854,
      "learning_rate": 0.00037461171082541877,
      "loss": 0.0263,
      "step": 4007
    },
    {
      "epoch": 17.977202364199268,
      "grad_norm": 0.017420867457985878,
      "learning_rate": 0.0003743713909805709,
      "loss": 0.0271,
      "step": 4008
    },
    {
      "epoch": 17.981705600900646,
      "grad_norm": 0.015476925298571587,
      "learning_rate": 0.0003741311021093895,
      "loss": 0.0369,
      "step": 4009
    },
    {
      "epoch": 17.986208837602028,
      "grad_norm": 0.013980106450617313,
      "learning_rate": 0.00037389084427111763,
      "loss": 0.0154,
      "step": 4010
    },
    {
      "epoch": 17.990712074303406,
      "grad_norm": 0.010182665660977364,
      "learning_rate": 0.00037365061752499083,
      "loss": 0.0161,
      "step": 4011
    },
    {
      "epoch": 17.995215311004785,
      "grad_norm": 0.0026511133182793856,
      "learning_rate": 0.00037341042193023724,
      "loss": 0.0058,
      "step": 4012
    },
    {
      "epoch": 17.999718547706163,
      "grad_norm": 0.003896438516676426,
      "learning_rate": 0.0003731702575460763,
      "loss": 0.0075,
      "step": 4013
    },
    {
      "epoch": 18.0,
      "grad_norm": 0.003896438516676426,
      "learning_rate": 0.0003729301244317208,
      "loss": 0.0074,
      "step": 4014
    },
    {
      "epoch": 18.0,
      "eval_f1": 0.9854956486946084,
      "eval_loss": 0.03383225202560425,
      "eval_runtime": 26.2988,
      "eval_samples_per_second": 190.047,
      "eval_steps_per_second": 5.97,
      "step": 4014
    },
    {
      "epoch": 18.004503236701378,
      "grad_norm": 0.01083593163639307,
      "learning_rate": 0.0003726900226463755,
      "loss": 0.0044,
      "step": 4015
    },
    {
      "epoch": 18.00900647340276,
      "grad_norm": 0.02111847698688507,
      "learning_rate": 0.00037244995224923705,
      "loss": 0.0513,
      "step": 4016
    },
    {
      "epoch": 18.013509710104138,
      "grad_norm": 0.00433825608342886,
      "learning_rate": 0.00037220991329949487,
      "loss": 0.0072,
      "step": 4017
    },
    {
      "epoch": 18.018012946805516,
      "grad_norm": 0.02601742558181286,
      "learning_rate": 0.0003719699058563304,
      "loss": 0.025,
      "step": 4018
    },
    {
      "epoch": 18.022516183506895,
      "grad_norm": 0.0016926523530855775,
      "learning_rate": 0.0003717299299789175,
      "loss": 0.0068,
      "step": 4019
    },
    {
      "epoch": 18.027019420208276,
      "grad_norm": 0.00794163066893816,
      "learning_rate": 0.0003714899857264219,
      "loss": 0.0073,
      "step": 4020
    },
    {
      "epoch": 18.031522656909655,
      "grad_norm": 0.0025212334003299475,
      "learning_rate": 0.0003712500731580018,
      "loss": 0.0052,
      "step": 4021
    },
    {
      "epoch": 18.036025893611033,
      "grad_norm": 0.042955704033374786,
      "learning_rate": 0.0003710101923328075,
      "loss": 0.0337,
      "step": 4022
    },
    {
      "epoch": 18.04052913031241,
      "grad_norm": 0.008549136109650135,
      "learning_rate": 0.0003707703433099815,
      "loss": 0.0078,
      "step": 4023
    },
    {
      "epoch": 18.045032367013793,
      "grad_norm": 0.010007872246205807,
      "learning_rate": 0.0003705305261486583,
      "loss": 0.0132,
      "step": 4024
    },
    {
      "epoch": 18.04953560371517,
      "grad_norm": 0.02214951254427433,
      "learning_rate": 0.000370290740907965,
      "loss": 0.0431,
      "step": 4025
    },
    {
      "epoch": 18.05403884041655,
      "grad_norm": 0.017900625243782997,
      "learning_rate": 0.0003700509876470205,
      "loss": 0.0253,
      "step": 4026
    },
    {
      "epoch": 18.058542077117927,
      "grad_norm": 0.039630793035030365,
      "learning_rate": 0.00036981126642493544,
      "loss": 0.073,
      "step": 4027
    },
    {
      "epoch": 18.06304531381931,
      "grad_norm": 0.010241231881082058,
      "learning_rate": 0.00036957157730081324,
      "loss": 0.0242,
      "step": 4028
    },
    {
      "epoch": 18.067548550520687,
      "grad_norm": 0.05252991244196892,
      "learning_rate": 0.0003693319203337494,
      "loss": 0.0573,
      "step": 4029
    },
    {
      "epoch": 18.072051787222065,
      "grad_norm": 0.003939907532185316,
      "learning_rate": 0.00036909229558283063,
      "loss": 0.0071,
      "step": 4030
    },
    {
      "epoch": 18.076555023923444,
      "grad_norm": 0.0009958228329196572,
      "learning_rate": 0.0003688527031071366,
      "loss": 0.0052,
      "step": 4031
    },
    {
      "epoch": 18.081058260624825,
      "grad_norm": 0.0018978127045556903,
      "learning_rate": 0.00036861314296573864,
      "loss": 0.0155,
      "step": 4032
    },
    {
      "epoch": 18.085561497326204,
      "grad_norm": 0.015761230140924454,
      "learning_rate": 0.00036837361521770053,
      "loss": 0.011,
      "step": 4033
    },
    {
      "epoch": 18.09006473402758,
      "grad_norm": 0.0032744118943810463,
      "learning_rate": 0.00036813411992207715,
      "loss": 0.0054,
      "step": 4034
    },
    {
      "epoch": 18.09456797072896,
      "grad_norm": 0.011549055576324463,
      "learning_rate": 0.00036789465713791614,
      "loss": 0.0157,
      "step": 4035
    },
    {
      "epoch": 18.09907120743034,
      "grad_norm": 0.00390865933150053,
      "learning_rate": 0.00036765522692425704,
      "loss": 0.0058,
      "step": 4036
    },
    {
      "epoch": 18.10357444413172,
      "grad_norm": 0.03736898675560951,
      "learning_rate": 0.0003674158293401312,
      "loss": 0.023,
      "step": 4037
    },
    {
      "epoch": 18.108077680833098,
      "grad_norm": 0.0012962684268131852,
      "learning_rate": 0.00036717646444456195,
      "loss": 0.005,
      "step": 4038
    },
    {
      "epoch": 18.112580917534476,
      "grad_norm": 0.04172825068235397,
      "learning_rate": 0.00036693713229656445,
      "loss": 0.0573,
      "step": 4039
    },
    {
      "epoch": 18.117084154235858,
      "grad_norm": 0.05246540531516075,
      "learning_rate": 0.00036669783295514613,
      "loss": 0.1127,
      "step": 4040
    },
    {
      "epoch": 18.121587390937236,
      "grad_norm": 0.003059627255424857,
      "learning_rate": 0.0003664585664793059,
      "loss": 0.0065,
      "step": 4041
    },
    {
      "epoch": 18.126090627638614,
      "grad_norm": 0.002494183834642172,
      "learning_rate": 0.00036621933292803495,
      "loss": 0.0046,
      "step": 4042
    },
    {
      "epoch": 18.130593864339993,
      "grad_norm": 0.0032788675744086504,
      "learning_rate": 0.0003659801323603163,
      "loss": 0.0085,
      "step": 4043
    },
    {
      "epoch": 18.135097101041374,
      "grad_norm": 0.002635584445670247,
      "learning_rate": 0.0003657409648351243,
      "loss": 0.0046,
      "step": 4044
    },
    {
      "epoch": 18.139600337742753,
      "grad_norm": 0.10067924112081528,
      "learning_rate": 0.00036550183041142594,
      "loss": 0.0146,
      "step": 4045
    },
    {
      "epoch": 18.14410357444413,
      "grad_norm": 0.028991324827075005,
      "learning_rate": 0.0003652627291481795,
      "loss": 0.0284,
      "step": 4046
    },
    {
      "epoch": 18.148606811145513,
      "grad_norm": 0.020938796922564507,
      "learning_rate": 0.00036502366110433546,
      "loss": 0.0709,
      "step": 4047
    },
    {
      "epoch": 18.15311004784689,
      "grad_norm": 0.010899199172854424,
      "learning_rate": 0.00036478462633883577,
      "loss": 0.0125,
      "step": 4048
    },
    {
      "epoch": 18.15761328454827,
      "grad_norm": 0.05723314732313156,
      "learning_rate": 0.0003645456249106142,
      "loss": 0.1397,
      "step": 4049
    },
    {
      "epoch": 18.162116521249647,
      "grad_norm": 0.023101406171917915,
      "learning_rate": 0.0003643066568785969,
      "loss": 0.024,
      "step": 4050
    },
    {
      "epoch": 18.16661975795103,
      "grad_norm": 0.001912678242661059,
      "learning_rate": 0.0003640677223017007,
      "loss": 0.0069,
      "step": 4051
    },
    {
      "epoch": 18.171122994652407,
      "grad_norm": 0.00570405088365078,
      "learning_rate": 0.0003638288212388351,
      "loss": 0.0049,
      "step": 4052
    },
    {
      "epoch": 18.175626231353785,
      "grad_norm": 0.007133966311812401,
      "learning_rate": 0.00036358995374890103,
      "loss": 0.0087,
      "step": 4053
    },
    {
      "epoch": 18.180129468055163,
      "grad_norm": 0.016114376485347748,
      "learning_rate": 0.0003633511198907912,
      "loss": 0.0167,
      "step": 4054
    },
    {
      "epoch": 18.184632704756545,
      "grad_norm": 0.02117145247757435,
      "learning_rate": 0.00036311231972338987,
      "loss": 0.0666,
      "step": 4055
    },
    {
      "epoch": 18.189135941457923,
      "grad_norm": 0.0016625351272523403,
      "learning_rate": 0.000362873553305573,
      "loss": 0.0074,
      "step": 4056
    },
    {
      "epoch": 18.1936391781593,
      "grad_norm": 0.016625529155135155,
      "learning_rate": 0.00036263482069620866,
      "loss": 0.0235,
      "step": 4057
    },
    {
      "epoch": 18.19814241486068,
      "grad_norm": 0.00916975736618042,
      "learning_rate": 0.00036239612195415583,
      "loss": 0.0048,
      "step": 4058
    },
    {
      "epoch": 18.20264565156206,
      "grad_norm": 0.029126502573490143,
      "learning_rate": 0.0003621574571382658,
      "loss": 0.0964,
      "step": 4059
    },
    {
      "epoch": 18.20714888826344,
      "grad_norm": 0.04161893576383591,
      "learning_rate": 0.00036191882630738116,
      "loss": 0.0658,
      "step": 4060
    },
    {
      "epoch": 18.211652124964818,
      "grad_norm": 0.04034408554434776,
      "learning_rate": 0.0003616802295203365,
      "loss": 0.0075,
      "step": 4061
    },
    {
      "epoch": 18.216155361666196,
      "grad_norm": 0.02969498746097088,
      "learning_rate": 0.0003614416668359573,
      "loss": 0.0274,
      "step": 4062
    },
    {
      "epoch": 18.220658598367578,
      "grad_norm": 0.01956763118505478,
      "learning_rate": 0.00036120313831306124,
      "loss": 0.0189,
      "step": 4063
    },
    {
      "epoch": 18.225161835068956,
      "grad_norm": 0.07984849065542221,
      "learning_rate": 0.0003609646440104576,
      "loss": 0.0757,
      "step": 4064
    },
    {
      "epoch": 18.229665071770334,
      "grad_norm": 0.048764925450086594,
      "learning_rate": 0.0003607261839869467,
      "loss": 0.0299,
      "step": 4065
    },
    {
      "epoch": 18.234168308471713,
      "grad_norm": 0.0017121038399636745,
      "learning_rate": 0.00036048775830132076,
      "loss": 0.0051,
      "step": 4066
    },
    {
      "epoch": 18.238671545173094,
      "grad_norm": 0.05739480257034302,
      "learning_rate": 0.0003602493670123637,
      "loss": 0.0486,
      "step": 4067
    },
    {
      "epoch": 18.243174781874473,
      "grad_norm": 0.005531974136829376,
      "learning_rate": 0.00036001101017885085,
      "loss": 0.0075,
      "step": 4068
    },
    {
      "epoch": 18.24767801857585,
      "grad_norm": 0.014791051857173443,
      "learning_rate": 0.0003597726878595486,
      "loss": 0.0118,
      "step": 4069
    },
    {
      "epoch": 18.25218125527723,
      "grad_norm": 0.00788253452628851,
      "learning_rate": 0.00035953440011321535,
      "loss": 0.0149,
      "step": 4070
    },
    {
      "epoch": 18.25668449197861,
      "grad_norm": 0.017798906192183495,
      "learning_rate": 0.00035929614699860084,
      "loss": 0.0238,
      "step": 4071
    },
    {
      "epoch": 18.26118772867999,
      "grad_norm": 0.004015110433101654,
      "learning_rate": 0.00035905792857444653,
      "loss": 0.0056,
      "step": 4072
    },
    {
      "epoch": 18.265690965381367,
      "grad_norm": 0.015988003462553024,
      "learning_rate": 0.00035881974489948456,
      "loss": 0.0104,
      "step": 4073
    },
    {
      "epoch": 18.270194202082745,
      "grad_norm": 0.02708444371819496,
      "learning_rate": 0.00035858159603243913,
      "loss": 0.0892,
      "step": 4074
    },
    {
      "epoch": 18.274697438784127,
      "grad_norm": 0.023526830598711967,
      "learning_rate": 0.00035834348203202596,
      "loss": 0.09,
      "step": 4075
    },
    {
      "epoch": 18.279200675485505,
      "grad_norm": 0.003842892125248909,
      "learning_rate": 0.0003581054029569516,
      "loss": 0.0085,
      "step": 4076
    },
    {
      "epoch": 18.283703912186883,
      "grad_norm": 0.0029494049958884716,
      "learning_rate": 0.00035786735886591446,
      "loss": 0.0071,
      "step": 4077
    },
    {
      "epoch": 18.288207148888265,
      "grad_norm": 0.0067724850960075855,
      "learning_rate": 0.00035762934981760434,
      "loss": 0.0083,
      "step": 4078
    },
    {
      "epoch": 18.292710385589643,
      "grad_norm": 0.004455015528947115,
      "learning_rate": 0.00035739137587070216,
      "loss": 0.0081,
      "step": 4079
    },
    {
      "epoch": 18.29721362229102,
      "grad_norm": 0.005174230318516493,
      "learning_rate": 0.00035715343708388,
      "loss": 0.0103,
      "step": 4080
    },
    {
      "epoch": 18.3017168589924,
      "grad_norm": 0.0040680221281945705,
      "learning_rate": 0.00035691553351580187,
      "loss": 0.0231,
      "step": 4081
    },
    {
      "epoch": 18.30622009569378,
      "grad_norm": 0.044842544943094254,
      "learning_rate": 0.0003566776652251228,
      "loss": 0.0169,
      "step": 4082
    },
    {
      "epoch": 18.31072333239516,
      "grad_norm": 0.018711313605308533,
      "learning_rate": 0.0003564398322704887,
      "loss": 0.0559,
      "step": 4083
    },
    {
      "epoch": 18.315226569096538,
      "grad_norm": 0.026760023087263107,
      "learning_rate": 0.0003562020347105374,
      "loss": 0.0161,
      "step": 4084
    },
    {
      "epoch": 18.319729805797916,
      "grad_norm": 0.008853447623550892,
      "learning_rate": 0.0003559642726038978,
      "loss": 0.007,
      "step": 4085
    },
    {
      "epoch": 18.324233042499298,
      "grad_norm": 0.023508548736572266,
      "learning_rate": 0.0003557265460091902,
      "loss": 0.0494,
      "step": 4086
    },
    {
      "epoch": 18.328736279200676,
      "grad_norm": 0.0005514610675163567,
      "learning_rate": 0.0003554888549850255,
      "loss": 0.0033,
      "step": 4087
    },
    {
      "epoch": 18.333239515902054,
      "grad_norm": 0.012260306626558304,
      "learning_rate": 0.0003552511995900066,
      "loss": 0.0242,
      "step": 4088
    },
    {
      "epoch": 18.337742752603432,
      "grad_norm": 0.01743992418050766,
      "learning_rate": 0.00035501357988272745,
      "loss": 0.0103,
      "step": 4089
    },
    {
      "epoch": 18.342245989304814,
      "grad_norm": 0.01067055482417345,
      "learning_rate": 0.00035477599592177256,
      "loss": 0.0095,
      "step": 4090
    },
    {
      "epoch": 18.346749226006192,
      "grad_norm": 0.03259357437491417,
      "learning_rate": 0.00035453844776571855,
      "loss": 0.032,
      "step": 4091
    },
    {
      "epoch": 18.35125246270757,
      "grad_norm": 0.03214079141616821,
      "learning_rate": 0.0003543009354731326,
      "loss": 0.0709,
      "step": 4092
    },
    {
      "epoch": 18.35575569940895,
      "grad_norm": 0.003491936717182398,
      "learning_rate": 0.00035406345910257345,
      "loss": 0.006,
      "step": 4093
    },
    {
      "epoch": 18.36025893611033,
      "grad_norm": 0.011680865660309792,
      "learning_rate": 0.0003538260187125905,
      "loss": 0.0117,
      "step": 4094
    },
    {
      "epoch": 18.36476217281171,
      "grad_norm": 0.002167103113606572,
      "learning_rate": 0.00035358861436172485,
      "loss": 0.0056,
      "step": 4095
    },
    {
      "epoch": 18.369265409513087,
      "grad_norm": 0.0028592662420123816,
      "learning_rate": 0.0003533512461085082,
      "loss": 0.0058,
      "step": 4096
    },
    {
      "epoch": 18.373768646214465,
      "grad_norm": 0.0025229763705283403,
      "learning_rate": 0.0003531139140114635,
      "loss": 0.005,
      "step": 4097
    },
    {
      "epoch": 18.378271882915847,
      "grad_norm": 0.001105446252040565,
      "learning_rate": 0.0003528766181291051,
      "loss": 0.0035,
      "step": 4098
    },
    {
      "epoch": 18.382775119617225,
      "grad_norm": 0.0014038082445040345,
      "learning_rate": 0.00035263935851993794,
      "loss": 0.004,
      "step": 4099
    },
    {
      "epoch": 18.387278356318603,
      "grad_norm": 0.02694230154156685,
      "learning_rate": 0.00035240213524245854,
      "loss": 0.0265,
      "step": 4100
    },
    {
      "epoch": 18.39178159301998,
      "grad_norm": 0.0015782505506649613,
      "learning_rate": 0.00035216494835515387,
      "loss": 0.0039,
      "step": 4101
    },
    {
      "epoch": 18.396284829721363,
      "grad_norm": 0.0009787415619939566,
      "learning_rate": 0.00035192779791650233,
      "loss": 0.0034,
      "step": 4102
    },
    {
      "epoch": 18.40078806642274,
      "grad_norm": 0.0009371211053803563,
      "learning_rate": 0.00035169068398497347,
      "loss": 0.0887,
      "step": 4103
    },
    {
      "epoch": 18.40529130312412,
      "grad_norm": 0.034035563468933105,
      "learning_rate": 0.00035145360661902714,
      "loss": 0.0051,
      "step": 4104
    },
    {
      "epoch": 18.409794539825498,
      "grad_norm": 0.008023553527891636,
      "learning_rate": 0.00035121656587711487,
      "loss": 0.0058,
      "step": 4105
    },
    {
      "epoch": 18.41429777652688,
      "grad_norm": 0.00371351046487689,
      "learning_rate": 0.000350979561817679,
      "loss": 0.004,
      "step": 4106
    },
    {
      "epoch": 18.418801013228258,
      "grad_norm": 0.03473827242851257,
      "learning_rate": 0.00035074259449915284,
      "loss": 0.1929,
      "step": 4107
    },
    {
      "epoch": 18.423304249929636,
      "grad_norm": 0.0011451715836301446,
      "learning_rate": 0.00035050566397996024,
      "loss": 0.0035,
      "step": 4108
    },
    {
      "epoch": 18.427807486631018,
      "grad_norm": 0.017937270924448967,
      "learning_rate": 0.00035026877031851643,
      "loss": 0.0418,
      "step": 4109
    },
    {
      "epoch": 18.432310723332396,
      "grad_norm": 0.019703907892107964,
      "learning_rate": 0.0003500319135732276,
      "loss": 0.0296,
      "step": 4110
    },
    {
      "epoch": 18.436813960033774,
      "grad_norm": 0.0023753424175083637,
      "learning_rate": 0.00034979509380249054,
      "loss": 0.0056,
      "step": 4111
    },
    {
      "epoch": 18.441317196735152,
      "grad_norm": 0.0009130230755545199,
      "learning_rate": 0.00034955831106469286,
      "loss": 0.0034,
      "step": 4112
    },
    {
      "epoch": 18.445820433436534,
      "grad_norm": 0.0027374729979783297,
      "learning_rate": 0.0003493215654182134,
      "loss": 0.0051,
      "step": 4113
    },
    {
      "epoch": 18.450323670137912,
      "grad_norm": 0.015926897525787354,
      "learning_rate": 0.0003490848569214217,
      "loss": 0.0111,
      "step": 4114
    },
    {
      "epoch": 18.45482690683929,
      "grad_norm": 0.10481046885251999,
      "learning_rate": 0.000348848185632678,
      "loss": 0.1619,
      "step": 4115
    },
    {
      "epoch": 18.45933014354067,
      "grad_norm": 0.018273817375302315,
      "learning_rate": 0.00034861155161033345,
      "loss": 0.0288,
      "step": 4116
    },
    {
      "epoch": 18.46383338024205,
      "grad_norm": 0.012489087879657745,
      "learning_rate": 0.00034837495491273036,
      "loss": 0.0122,
      "step": 4117
    },
    {
      "epoch": 18.46833661694343,
      "grad_norm": 0.05624154955148697,
      "learning_rate": 0.00034813839559820107,
      "loss": 0.0845,
      "step": 4118
    },
    {
      "epoch": 18.472839853644807,
      "grad_norm": 0.010083412751555443,
      "learning_rate": 0.00034790187372506936,
      "loss": 0.0061,
      "step": 4119
    },
    {
      "epoch": 18.477343090346185,
      "grad_norm": 0.02159814164042473,
      "learning_rate": 0.0003476653893516496,
      "loss": 0.0115,
      "step": 4120
    },
    {
      "epoch": 18.481846327047567,
      "grad_norm": 0.012415249831974506,
      "learning_rate": 0.000347428942536247,
      "loss": 0.0081,
      "step": 4121
    },
    {
      "epoch": 18.486349563748945,
      "grad_norm": 0.00297216116450727,
      "learning_rate": 0.00034719253333715717,
      "loss": 0.007,
      "step": 4122
    },
    {
      "epoch": 18.490852800450323,
      "grad_norm": 0.07445495575666428,
      "learning_rate": 0.0003469561618126667,
      "loss": 0.0699,
      "step": 4123
    },
    {
      "epoch": 18.4953560371517,
      "grad_norm": 0.020949039608240128,
      "learning_rate": 0.00034671982802105314,
      "loss": 0.0245,
      "step": 4124
    },
    {
      "epoch": 18.499859273853083,
      "grad_norm": 0.010425558313727379,
      "learning_rate": 0.000346483532020584,
      "loss": 0.0241,
      "step": 4125
    },
    {
      "epoch": 18.50436251055446,
      "grad_norm": 0.005350799765437841,
      "learning_rate": 0.0003462472738695182,
      "loss": 0.0186,
      "step": 4126
    },
    {
      "epoch": 18.50886574725584,
      "grad_norm": 0.010448403656482697,
      "learning_rate": 0.0003460110536261051,
      "loss": 0.0592,
      "step": 4127
    },
    {
      "epoch": 18.513368983957218,
      "grad_norm": 0.02919217385351658,
      "learning_rate": 0.0003457748713485848,
      "loss": 0.0122,
      "step": 4128
    },
    {
      "epoch": 18.5178722206586,
      "grad_norm": 0.007050317712128162,
      "learning_rate": 0.0003455387270951874,
      "loss": 0.0087,
      "step": 4129
    },
    {
      "epoch": 18.522375457359978,
      "grad_norm": 0.013742053881287575,
      "learning_rate": 0.00034530262092413456,
      "loss": 0.0538,
      "step": 4130
    },
    {
      "epoch": 18.526878694061356,
      "grad_norm": 0.028487225994467735,
      "learning_rate": 0.00034506655289363815,
      "loss": 0.0236,
      "step": 4131
    },
    {
      "epoch": 18.531381930762734,
      "grad_norm": 0.049721118062734604,
      "learning_rate": 0.0003448305230619004,
      "loss": 0.0655,
      "step": 4132
    },
    {
      "epoch": 18.535885167464116,
      "grad_norm": 0.026316024363040924,
      "learning_rate": 0.0003445945314871144,
      "loss": 0.0213,
      "step": 4133
    },
    {
      "epoch": 18.540388404165494,
      "grad_norm": 0.0013397319708019495,
      "learning_rate": 0.00034435857822746386,
      "loss": 0.0048,
      "step": 4134
    },
    {
      "epoch": 18.544891640866872,
      "grad_norm": 0.003286203136667609,
      "learning_rate": 0.00034412266334112295,
      "loss": 0.0393,
      "step": 4135
    },
    {
      "epoch": 18.549394877568254,
      "grad_norm": 0.01976924017071724,
      "learning_rate": 0.0003438867868862562,
      "loss": 0.0119,
      "step": 4136
    },
    {
      "epoch": 18.553898114269632,
      "grad_norm": 0.08315335214138031,
      "learning_rate": 0.00034365094892101883,
      "loss": 0.043,
      "step": 4137
    },
    {
      "epoch": 18.55840135097101,
      "grad_norm": 0.04271277040243149,
      "learning_rate": 0.0003434151495035567,
      "loss": 0.0918,
      "step": 4138
    },
    {
      "epoch": 18.56290458767239,
      "grad_norm": 0.07610220462083817,
      "learning_rate": 0.00034317938869200603,
      "loss": 0.1846,
      "step": 4139
    },
    {
      "epoch": 18.56740782437377,
      "grad_norm": 0.020152883604168892,
      "learning_rate": 0.0003429436665444934,
      "loss": 0.0638,
      "step": 4140
    },
    {
      "epoch": 18.57191106107515,
      "grad_norm": 0.06876789033412933,
      "learning_rate": 0.0003427079831191359,
      "loss": 0.0756,
      "step": 4141
    },
    {
      "epoch": 18.576414297776527,
      "grad_norm": 0.0090473098680377,
      "learning_rate": 0.00034247233847404157,
      "loss": 0.0088,
      "step": 4142
    },
    {
      "epoch": 18.580917534477905,
      "grad_norm": 0.0022896411828696728,
      "learning_rate": 0.00034223673266730795,
      "loss": 0.0065,
      "step": 4143
    },
    {
      "epoch": 18.585420771179287,
      "grad_norm": 0.009662429802119732,
      "learning_rate": 0.00034200116575702376,
      "loss": 0.0151,
      "step": 4144
    },
    {
      "epoch": 18.589924007880665,
      "grad_norm": 0.051893819123506546,
      "learning_rate": 0.0003417656378012679,
      "loss": 0.0721,
      "step": 4145
    },
    {
      "epoch": 18.594427244582043,
      "grad_norm": 0.010795868001878262,
      "learning_rate": 0.0003415301488581099,
      "loss": 0.0083,
      "step": 4146
    },
    {
      "epoch": 18.59893048128342,
      "grad_norm": 0.030376892536878586,
      "learning_rate": 0.00034129469898560894,
      "loss": 0.0453,
      "step": 4147
    },
    {
      "epoch": 18.603433717984803,
      "grad_norm": 0.0033237698953598738,
      "learning_rate": 0.0003410592882418153,
      "loss": 0.0046,
      "step": 4148
    },
    {
      "epoch": 18.60793695468618,
      "grad_norm": 0.020437462255358696,
      "learning_rate": 0.00034082391668476957,
      "loss": 0.0521,
      "step": 4149
    },
    {
      "epoch": 18.61244019138756,
      "grad_norm": 0.12124977260828018,
      "learning_rate": 0.00034058858437250217,
      "loss": 0.0766,
      "step": 4150
    },
    {
      "epoch": 18.616943428088938,
      "grad_norm": 0.03547997400164604,
      "learning_rate": 0.0003403532913630344,
      "loss": 0.1071,
      "step": 4151
    },
    {
      "epoch": 18.62144666479032,
      "grad_norm": 0.008698233403265476,
      "learning_rate": 0.0003401180377143774,
      "loss": 0.0103,
      "step": 4152
    },
    {
      "epoch": 18.625949901491698,
      "grad_norm": 0.00992515217512846,
      "learning_rate": 0.000339882823484533,
      "loss": 0.0108,
      "step": 4153
    },
    {
      "epoch": 18.630453138193076,
      "grad_norm": 0.0017428694991394877,
      "learning_rate": 0.000339647648731493,
      "loss": 0.0058,
      "step": 4154
    },
    {
      "epoch": 18.634956374894454,
      "grad_norm": 0.04211243987083435,
      "learning_rate": 0.0003394125135132398,
      "loss": 0.059,
      "step": 4155
    },
    {
      "epoch": 18.639459611595836,
      "grad_norm": 0.07246515154838562,
      "learning_rate": 0.0003391774178877458,
      "loss": 0.0123,
      "step": 4156
    },
    {
      "epoch": 18.643962848297214,
      "grad_norm": 0.017929332330822945,
      "learning_rate": 0.00033894236191297356,
      "loss": 0.0169,
      "step": 4157
    },
    {
      "epoch": 18.648466084998592,
      "grad_norm": 0.007450006436556578,
      "learning_rate": 0.00033870734564687613,
      "loss": 0.0124,
      "step": 4158
    },
    {
      "epoch": 18.65296932169997,
      "grad_norm": 0.0021399646066129208,
      "learning_rate": 0.00033847236914739655,
      "loss": 0.0052,
      "step": 4159
    },
    {
      "epoch": 18.657472558401352,
      "grad_norm": 0.038728490471839905,
      "learning_rate": 0.0003382374324724684,
      "loss": 0.0256,
      "step": 4160
    },
    {
      "epoch": 18.66197579510273,
      "grad_norm": 0.00944533757865429,
      "learning_rate": 0.0003380025356800149,
      "loss": 0.0138,
      "step": 4161
    },
    {
      "epoch": 18.66647903180411,
      "grad_norm": 0.02905375324189663,
      "learning_rate": 0.0003377676788279498,
      "loss": 0.0364,
      "step": 4162
    },
    {
      "epoch": 18.670982268505487,
      "grad_norm": 0.04019620269536972,
      "learning_rate": 0.00033753286197417713,
      "loss": 0.0206,
      "step": 4163
    },
    {
      "epoch": 18.67548550520687,
      "grad_norm": 0.024907074868679047,
      "learning_rate": 0.00033729808517659053,
      "loss": 0.1701,
      "step": 4164
    },
    {
      "epoch": 18.679988741908247,
      "grad_norm": 0.056910134851932526,
      "learning_rate": 0.0003370633484930743,
      "loss": 0.0911,
      "step": 4165
    },
    {
      "epoch": 18.684491978609625,
      "grad_norm": 0.039113715291023254,
      "learning_rate": 0.0003368286519815026,
      "loss": 0.0969,
      "step": 4166
    },
    {
      "epoch": 18.688995215311003,
      "grad_norm": 0.04342961311340332,
      "learning_rate": 0.0003365939956997399,
      "loss": 0.059,
      "step": 4167
    },
    {
      "epoch": 18.693498452012385,
      "grad_norm": 0.06318944692611694,
      "learning_rate": 0.00033635937970564035,
      "loss": 0.1326,
      "step": 4168
    },
    {
      "epoch": 18.698001688713763,
      "grad_norm": 0.04742675647139549,
      "learning_rate": 0.00033612480405704836,
      "loss": 0.0708,
      "step": 4169
    },
    {
      "epoch": 18.70250492541514,
      "grad_norm": 0.08646809309720993,
      "learning_rate": 0.0003358902688117987,
      "loss": 0.1884,
      "step": 4170
    },
    {
      "epoch": 18.707008162116523,
      "grad_norm": 0.07055898010730743,
      "learning_rate": 0.00033565577402771564,
      "loss": 0.0302,
      "step": 4171
    },
    {
      "epoch": 18.7115113988179,
      "grad_norm": 0.08033212274312973,
      "learning_rate": 0.0003354213197626138,
      "loss": 0.0259,
      "step": 4172
    },
    {
      "epoch": 18.71601463551928,
      "grad_norm": 0.010862313210964203,
      "learning_rate": 0.00033518690607429785,
      "loss": 0.0122,
      "step": 4173
    },
    {
      "epoch": 18.720517872220658,
      "grad_norm": 0.04936179891228676,
      "learning_rate": 0.0003349525330205625,
      "loss": 0.0703,
      "step": 4174
    },
    {
      "epoch": 18.72502110892204,
      "grad_norm": 0.08146104216575623,
      "learning_rate": 0.00033471820065919197,
      "loss": 0.0133,
      "step": 4175
    },
    {
      "epoch": 18.729524345623418,
      "grad_norm": 0.027452904731035233,
      "learning_rate": 0.0003344839090479609,
      "loss": 0.1352,
      "step": 4176
    },
    {
      "epoch": 18.734027582324796,
      "grad_norm": 0.0054998500272631645,
      "learning_rate": 0.000334249658244634,
      "loss": 0.0083,
      "step": 4177
    },
    {
      "epoch": 18.738530819026174,
      "grad_norm": 0.09784536808729172,
      "learning_rate": 0.0003340154483069653,
      "loss": 0.0963,
      "step": 4178
    },
    {
      "epoch": 18.743034055727556,
      "grad_norm": 0.039087582379579544,
      "learning_rate": 0.00033378127929269916,
      "loss": 0.0963,
      "step": 4179
    },
    {
      "epoch": 18.747537292428934,
      "grad_norm": 0.0036455276422202587,
      "learning_rate": 0.00033354715125957015,
      "loss": 0.0106,
      "step": 4180
    },
    {
      "epoch": 18.752040529130312,
      "grad_norm": 0.02312052808701992,
      "learning_rate": 0.0003333130642653024,
      "loss": 0.0254,
      "step": 4181
    },
    {
      "epoch": 18.75654376583169,
      "grad_norm": 0.010194425471127033,
      "learning_rate": 0.00033307901836760953,
      "loss": 0.0141,
      "step": 4182
    },
    {
      "epoch": 18.761047002533072,
      "grad_norm": 0.006584333721548319,
      "learning_rate": 0.00033284501362419565,
      "loss": 0.0103,
      "step": 4183
    },
    {
      "epoch": 18.76555023923445,
      "grad_norm": 0.024786729365587234,
      "learning_rate": 0.00033261105009275467,
      "loss": 0.0257,
      "step": 4184
    },
    {
      "epoch": 18.77005347593583,
      "grad_norm": 0.03451091796159744,
      "learning_rate": 0.00033237712783097,
      "loss": 0.082,
      "step": 4185
    },
    {
      "epoch": 18.774556712637207,
      "grad_norm": 0.013141794130206108,
      "learning_rate": 0.000332143246896515,
      "loss": 0.0253,
      "step": 4186
    },
    {
      "epoch": 18.77905994933859,
      "grad_norm": 0.004181346390396357,
      "learning_rate": 0.000331909407347053,
      "loss": 0.0092,
      "step": 4187
    },
    {
      "epoch": 18.783563186039967,
      "grad_norm": 0.05370168760418892,
      "learning_rate": 0.000331675609240237,
      "loss": 0.1115,
      "step": 4188
    },
    {
      "epoch": 18.788066422741345,
      "grad_norm": 0.018788591027259827,
      "learning_rate": 0.00033144185263370976,
      "loss": 0.0379,
      "step": 4189
    },
    {
      "epoch": 18.792569659442723,
      "grad_norm": 0.018166419118642807,
      "learning_rate": 0.00033120813758510384,
      "loss": 0.0181,
      "step": 4190
    },
    {
      "epoch": 18.797072896144105,
      "grad_norm": 0.0864005908370018,
      "learning_rate": 0.00033097446415204177,
      "loss": 0.0828,
      "step": 4191
    },
    {
      "epoch": 18.801576132845483,
      "grad_norm": 0.03393755108118057,
      "learning_rate": 0.00033074083239213525,
      "loss": 0.0472,
      "step": 4192
    },
    {
      "epoch": 18.80607936954686,
      "grad_norm": 0.009530248120427132,
      "learning_rate": 0.00033050724236298625,
      "loss": 0.0254,
      "step": 4193
    },
    {
      "epoch": 18.81058260624824,
      "grad_norm": 0.042370375245809555,
      "learning_rate": 0.00033027369412218623,
      "loss": 0.0309,
      "step": 4194
    },
    {
      "epoch": 18.81508584294962,
      "grad_norm": 0.022495530545711517,
      "learning_rate": 0.00033004018772731663,
      "loss": 0.0582,
      "step": 4195
    },
    {
      "epoch": 18.819589079651,
      "grad_norm": 0.006669951602816582,
      "learning_rate": 0.00032980672323594794,
      "loss": 0.0172,
      "step": 4196
    },
    {
      "epoch": 18.824092316352377,
      "grad_norm": 0.00872721616178751,
      "learning_rate": 0.00032957330070564083,
      "loss": 0.0117,
      "step": 4197
    },
    {
      "epoch": 18.82859555305376,
      "grad_norm": 0.02078971266746521,
      "learning_rate": 0.00032933992019394583,
      "loss": 0.0906,
      "step": 4198
    },
    {
      "epoch": 18.833098789755137,
      "grad_norm": 0.004221067763864994,
      "learning_rate": 0.00032910658175840226,
      "loss": 0.0326,
      "step": 4199
    },
    {
      "epoch": 18.837602026456516,
      "grad_norm": 0.019806260243058205,
      "learning_rate": 0.00032887328545653984,
      "loss": 0.0223,
      "step": 4200
    },
    {
      "epoch": 18.842105263157894,
      "grad_norm": 0.019059017300605774,
      "learning_rate": 0.0003286400313458776,
      "loss": 0.0451,
      "step": 4201
    },
    {
      "epoch": 18.846608499859276,
      "grad_norm": 0.007086046971380711,
      "learning_rate": 0.00032840681948392446,
      "loss": 0.0113,
      "step": 4202
    },
    {
      "epoch": 18.851111736560654,
      "grad_norm": 0.0034660520032048225,
      "learning_rate": 0.00032817364992817835,
      "loss": 0.0109,
      "step": 4203
    },
    {
      "epoch": 18.855614973262032,
      "grad_norm": 0.002701855031773448,
      "learning_rate": 0.00032794052273612704,
      "loss": 0.0064,
      "step": 4204
    },
    {
      "epoch": 18.86011820996341,
      "grad_norm": 0.0018224123632535338,
      "learning_rate": 0.0003277074379652484,
      "loss": 0.0057,
      "step": 4205
    },
    {
      "epoch": 18.864621446664792,
      "grad_norm": 0.08499374985694885,
      "learning_rate": 0.00032747439567300886,
      "loss": 0.0933,
      "step": 4206
    },
    {
      "epoch": 18.86912468336617,
      "grad_norm": 0.0012499986914917827,
      "learning_rate": 0.0003272413959168651,
      "loss": 0.0044,
      "step": 4207
    },
    {
      "epoch": 18.87362792006755,
      "grad_norm": 0.005987911485135555,
      "learning_rate": 0.0003270084387542631,
      "loss": 0.0168,
      "step": 4208
    },
    {
      "epoch": 18.878131156768927,
      "grad_norm": 0.005769848357886076,
      "learning_rate": 0.00032677552424263836,
      "loss": 0.0067,
      "step": 4209
    },
    {
      "epoch": 18.88263439347031,
      "grad_norm": 0.005285465624183416,
      "learning_rate": 0.00032654265243941557,
      "loss": 0.0116,
      "step": 4210
    },
    {
      "epoch": 18.887137630171686,
      "grad_norm": 0.0127352150157094,
      "learning_rate": 0.00032630982340200933,
      "loss": 0.0148,
      "step": 4211
    },
    {
      "epoch": 18.891640866873065,
      "grad_norm": 0.02003910019993782,
      "learning_rate": 0.00032607703718782354,
      "loss": 0.0417,
      "step": 4212
    },
    {
      "epoch": 18.896144103574443,
      "grad_norm": 0.02155900001525879,
      "learning_rate": 0.00032584429385425163,
      "loss": 0.0114,
      "step": 4213
    },
    {
      "epoch": 18.900647340275825,
      "grad_norm": 0.11080579459667206,
      "learning_rate": 0.0003256115934586761,
      "loss": 0.0306,
      "step": 4214
    },
    {
      "epoch": 18.905150576977203,
      "grad_norm": 0.0877583920955658,
      "learning_rate": 0.00032537893605846915,
      "loss": 0.0926,
      "step": 4215
    },
    {
      "epoch": 18.90965381367858,
      "grad_norm": 0.009042646735906601,
      "learning_rate": 0.00032514632171099254,
      "loss": 0.0103,
      "step": 4216
    },
    {
      "epoch": 18.91415705037996,
      "grad_norm": 0.029272066429257393,
      "learning_rate": 0.000324913750473597,
      "loss": 0.0254,
      "step": 4217
    },
    {
      "epoch": 18.91866028708134,
      "grad_norm": 0.0026202017907053232,
      "learning_rate": 0.00032468122240362287,
      "loss": 0.0057,
      "step": 4218
    },
    {
      "epoch": 18.92316352378272,
      "grad_norm": 0.021977856755256653,
      "learning_rate": 0.00032444873755839974,
      "loss": 0.0542,
      "step": 4219
    },
    {
      "epoch": 18.927666760484097,
      "grad_norm": 0.03514197841286659,
      "learning_rate": 0.00032421629599524714,
      "loss": 0.0212,
      "step": 4220
    },
    {
      "epoch": 18.932169997185476,
      "grad_norm": 0.07404223829507828,
      "learning_rate": 0.00032398389777147274,
      "loss": 0.0846,
      "step": 4221
    },
    {
      "epoch": 18.936673233886857,
      "grad_norm": 0.0260600782930851,
      "learning_rate": 0.00032375154294437446,
      "loss": 0.0281,
      "step": 4222
    },
    {
      "epoch": 18.941176470588236,
      "grad_norm": 0.022998595610260963,
      "learning_rate": 0.00032351923157123943,
      "loss": 0.0086,
      "step": 4223
    },
    {
      "epoch": 18.945679707289614,
      "grad_norm": 0.030943255871534348,
      "learning_rate": 0.0003232869637093436,
      "loss": 0.0303,
      "step": 4224
    },
    {
      "epoch": 18.950182943990992,
      "grad_norm": 0.015557621605694294,
      "learning_rate": 0.00032305473941595276,
      "loss": 0.0785,
      "step": 4225
    },
    {
      "epoch": 18.954686180692374,
      "grad_norm": 0.1042674332857132,
      "learning_rate": 0.00032282255874832144,
      "loss": 0.007,
      "step": 4226
    },
    {
      "epoch": 18.959189417393752,
      "grad_norm": 0.07021307945251465,
      "learning_rate": 0.0003225904217636939,
      "loss": 0.1064,
      "step": 4227
    },
    {
      "epoch": 18.96369265409513,
      "grad_norm": 0.13802620768547058,
      "learning_rate": 0.0003223583285193032,
      "loss": 0.0382,
      "step": 4228
    },
    {
      "epoch": 18.96819589079651,
      "grad_norm": 0.05683114379644394,
      "learning_rate": 0.00032212627907237187,
      "loss": 0.0969,
      "step": 4229
    },
    {
      "epoch": 18.97269912749789,
      "grad_norm": 0.006416686344891787,
      "learning_rate": 0.00032189427348011174,
      "loss": 0.0131,
      "step": 4230
    },
    {
      "epoch": 18.977202364199268,
      "grad_norm": 0.037051279097795486,
      "learning_rate": 0.0003216623117997233,
      "loss": 0.0532,
      "step": 4231
    },
    {
      "epoch": 18.981705600900646,
      "grad_norm": 0.001688433694653213,
      "learning_rate": 0.0003214303940883968,
      "loss": 0.0052,
      "step": 4232
    },
    {
      "epoch": 18.986208837602028,
      "grad_norm": 0.01648274064064026,
      "learning_rate": 0.00032119852040331145,
      "loss": 0.0675,
      "step": 4233
    },
    {
      "epoch": 18.990712074303406,
      "grad_norm": 0.007912452332675457,
      "learning_rate": 0.0003209666908016358,
      "loss": 0.0174,
      "step": 4234
    },
    {
      "epoch": 18.995215311004785,
      "grad_norm": 0.018631424754858017,
      "learning_rate": 0.00032073490534052676,
      "loss": 0.0079,
      "step": 4235
    },
    {
      "epoch": 18.999718547706163,
      "grad_norm": 0.011570864357054234,
      "learning_rate": 0.0003205031640771312,
      "loss": 0.0116,
      "step": 4236
    },
    {
      "epoch": 19.0,
      "grad_norm": 0.011570864357054234,
      "learning_rate": 0.00032027146706858504,
      "loss": 0.0003,
      "step": 4237
    },
    {
      "epoch": 19.0,
      "eval_f1": 0.9863918351010607,
      "eval_loss": 0.032731395214796066,
      "eval_runtime": 26.3371,
      "eval_samples_per_second": 189.77,
      "eval_steps_per_second": 5.961,
      "step": 4237
    },
    {
      "epoch": 19.004503236701378,
      "grad_norm": 0.0026438075583428144,
      "learning_rate": 0.0003200398143720127,
      "loss": 0.006,
      "step": 4238
    },
    {
      "epoch": 19.00900647340276,
      "grad_norm": 0.020111562684178352,
      "learning_rate": 0.0003198082060445281,
      "loss": 0.0134,
      "step": 4239
    },
    {
      "epoch": 19.013509710104138,
      "grad_norm": 0.0022603385150432587,
      "learning_rate": 0.0003195766421432342,
      "loss": 0.006,
      "step": 4240
    },
    {
      "epoch": 19.018012946805516,
      "grad_norm": 0.004384710919111967,
      "learning_rate": 0.0003193451227252231,
      "loss": 0.0079,
      "step": 4241
    },
    {
      "epoch": 19.022516183506895,
      "grad_norm": 0.0018495855620130897,
      "learning_rate": 0.0003191136478475757,
      "loss": 0.0051,
      "step": 4242
    },
    {
      "epoch": 19.027019420208276,
      "grad_norm": 0.00293071405030787,
      "learning_rate": 0.0003188822175673618,
      "loss": 0.006,
      "step": 4243
    },
    {
      "epoch": 19.031522656909655,
      "grad_norm": 0.010773427784442902,
      "learning_rate": 0.0003186508319416407,
      "loss": 0.0102,
      "step": 4244
    },
    {
      "epoch": 19.036025893611033,
      "grad_norm": 0.004544160794466734,
      "learning_rate": 0.00031841949102746014,
      "loss": 0.007,
      "step": 4245
    },
    {
      "epoch": 19.04052913031241,
      "grad_norm": 0.032278671860694885,
      "learning_rate": 0.0003181881948818573,
      "loss": 0.0417,
      "step": 4246
    },
    {
      "epoch": 19.045032367013793,
      "grad_norm": 0.00922161340713501,
      "learning_rate": 0.000317956943561858,
      "loss": 0.123,
      "step": 4247
    },
    {
      "epoch": 19.04953560371517,
      "grad_norm": 0.07191740721464157,
      "learning_rate": 0.0003177257371244775,
      "loss": 0.1254,
      "step": 4248
    },
    {
      "epoch": 19.05403884041655,
      "grad_norm": 0.0027748129796236753,
      "learning_rate": 0.000317494575626719,
      "loss": 0.0073,
      "step": 4249
    },
    {
      "epoch": 19.058542077117927,
      "grad_norm": 0.05487815663218498,
      "learning_rate": 0.0003172634591255756,
      "loss": 0.0447,
      "step": 4250
    },
    {
      "epoch": 19.06304531381931,
      "grad_norm": 0.009501940570771694,
      "learning_rate": 0.00031703238767802913,
      "loss": 0.0097,
      "step": 4251
    },
    {
      "epoch": 19.067548550520687,
      "grad_norm": 0.004174886271357536,
      "learning_rate": 0.00031680136134104966,
      "loss": 0.0085,
      "step": 4252
    },
    {
      "epoch": 19.072051787222065,
      "grad_norm": 0.009799054823815823,
      "learning_rate": 0.0003165703801715969,
      "loss": 0.0116,
      "step": 4253
    },
    {
      "epoch": 19.076555023923444,
      "grad_norm": 0.04210931807756424,
      "learning_rate": 0.0003163394442266191,
      "loss": 0.131,
      "step": 4254
    },
    {
      "epoch": 19.081058260624825,
      "grad_norm": 0.06035008653998375,
      "learning_rate": 0.0003161085535630535,
      "loss": 0.0228,
      "step": 4255
    },
    {
      "epoch": 19.085561497326204,
      "grad_norm": 0.049420204013586044,
      "learning_rate": 0.0003158777082378258,
      "loss": 0.0758,
      "step": 4256
    },
    {
      "epoch": 19.09006473402758,
      "grad_norm": 0.0030050938948988914,
      "learning_rate": 0.000315646908307851,
      "loss": 0.0302,
      "step": 4257
    },
    {
      "epoch": 19.09456797072896,
      "grad_norm": 0.04489206150174141,
      "learning_rate": 0.00031541615383003286,
      "loss": 0.009,
      "step": 4258
    },
    {
      "epoch": 19.09907120743034,
      "grad_norm": 0.002039009938016534,
      "learning_rate": 0.00031518544486126333,
      "loss": 0.1375,
      "step": 4259
    },
    {
      "epoch": 19.10357444413172,
      "grad_norm": 0.05928343906998634,
      "learning_rate": 0.00031495478145842384,
      "loss": 0.1374,
      "step": 4260
    },
    {
      "epoch": 19.108077680833098,
      "grad_norm": 0.0026400103233754635,
      "learning_rate": 0.00031472416367838416,
      "loss": 0.0087,
      "step": 4261
    },
    {
      "epoch": 19.112580917534476,
      "grad_norm": 0.005805415101349354,
      "learning_rate": 0.0003144935915780034,
      "loss": 0.0104,
      "step": 4262
    },
    {
      "epoch": 19.117084154235858,
      "grad_norm": 0.014456341974437237,
      "learning_rate": 0.00031426306521412854,
      "loss": 0.012,
      "step": 4263
    },
    {
      "epoch": 19.121587390937236,
      "grad_norm": 0.0708993449807167,
      "learning_rate": 0.00031403258464359596,
      "loss": 0.0864,
      "step": 4264
    },
    {
      "epoch": 19.126090627638614,
      "grad_norm": 0.0022242856211960316,
      "learning_rate": 0.00031380214992323064,
      "loss": 0.0073,
      "step": 4265
    },
    {
      "epoch": 19.130593864339993,
      "grad_norm": 0.0011842314852401614,
      "learning_rate": 0.00031357176110984573,
      "loss": 0.0057,
      "step": 4266
    },
    {
      "epoch": 19.135097101041374,
      "grad_norm": 0.016932811588048935,
      "learning_rate": 0.00031334141826024374,
      "loss": 0.0142,
      "step": 4267
    },
    {
      "epoch": 19.139600337742753,
      "grad_norm": 0.01957050710916519,
      "learning_rate": 0.00031311112143121554,
      "loss": 0.0481,
      "step": 4268
    },
    {
      "epoch": 19.14410357444413,
      "grad_norm": 0.0045335260219872,
      "learning_rate": 0.0003128808706795409,
      "loss": 0.0078,
      "step": 4269
    },
    {
      "epoch": 19.148606811145513,
      "grad_norm": 0.0022936875466257334,
      "learning_rate": 0.00031265066606198756,
      "loss": 0.0081,
      "step": 4270
    },
    {
      "epoch": 19.15311004784689,
      "grad_norm": 0.05966178700327873,
      "learning_rate": 0.0003124205076353127,
      "loss": 0.0858,
      "step": 4271
    },
    {
      "epoch": 19.15761328454827,
      "grad_norm": 0.0155337518081069,
      "learning_rate": 0.00031219039545626176,
      "loss": 0.0109,
      "step": 4272
    },
    {
      "epoch": 19.162116521249647,
      "grad_norm": 0.002199268201366067,
      "learning_rate": 0.0003119603295815685,
      "loss": 0.0078,
      "step": 4273
    },
    {
      "epoch": 19.16661975795103,
      "grad_norm": 0.033356547355651855,
      "learning_rate": 0.0003117303100679557,
      "loss": 0.1235,
      "step": 4274
    },
    {
      "epoch": 19.171122994652407,
      "grad_norm": 0.005673912353813648,
      "learning_rate": 0.0003115003369721346,
      "loss": 0.0094,
      "step": 4275
    },
    {
      "epoch": 19.175626231353785,
      "grad_norm": 0.007736782543361187,
      "learning_rate": 0.00031127041035080503,
      "loss": 0.0124,
      "step": 4276
    },
    {
      "epoch": 19.180129468055163,
      "grad_norm": 0.015457467176020145,
      "learning_rate": 0.00031104053026065505,
      "loss": 0.0283,
      "step": 4277
    },
    {
      "epoch": 19.184632704756545,
      "grad_norm": 0.005088888108730316,
      "learning_rate": 0.00031081069675836147,
      "loss": 0.0139,
      "step": 4278
    },
    {
      "epoch": 19.189135941457923,
      "grad_norm": 0.006936151999980211,
      "learning_rate": 0.00031058090990058974,
      "loss": 0.0097,
      "step": 4279
    },
    {
      "epoch": 19.1936391781593,
      "grad_norm": 0.002519268775358796,
      "learning_rate": 0.0003103511697439938,
      "loss": 0.0145,
      "step": 4280
    },
    {
      "epoch": 19.19814241486068,
      "grad_norm": 0.009609553962945938,
      "learning_rate": 0.0003101214763452157,
      "loss": 0.0075,
      "step": 4281
    },
    {
      "epoch": 19.20264565156206,
      "grad_norm": 0.003111298428848386,
      "learning_rate": 0.0003098918297608865,
      "loss": 0.0074,
      "step": 4282
    },
    {
      "epoch": 19.20714888826344,
      "grad_norm": 0.010385713540017605,
      "learning_rate": 0.0003096622300476253,
      "loss": 0.0454,
      "step": 4283
    },
    {
      "epoch": 19.211652124964818,
      "grad_norm": 0.05544732138514519,
      "learning_rate": 0.0003094326772620396,
      "loss": 0.0151,
      "step": 4284
    },
    {
      "epoch": 19.216155361666196,
      "grad_norm": 0.0017153701046481729,
      "learning_rate": 0.00030920317146072575,
      "loss": 0.0058,
      "step": 4285
    },
    {
      "epoch": 19.220658598367578,
      "grad_norm": 0.0161344725638628,
      "learning_rate": 0.0003089737127002682,
      "loss": 0.0615,
      "step": 4286
    },
    {
      "epoch": 19.225161835068956,
      "grad_norm": 0.018297135829925537,
      "learning_rate": 0.0003087443010372402,
      "loss": 0.0284,
      "step": 4287
    },
    {
      "epoch": 19.229665071770334,
      "grad_norm": 0.005871771834790707,
      "learning_rate": 0.0003085149365282025,
      "loss": 0.0097,
      "step": 4288
    },
    {
      "epoch": 19.234168308471713,
      "grad_norm": 0.031103702262043953,
      "learning_rate": 0.0003082856192297051,
      "loss": 0.0253,
      "step": 4289
    },
    {
      "epoch": 19.238671545173094,
      "grad_norm": 0.004540948197245598,
      "learning_rate": 0.0003080563491982863,
      "loss": 0.0102,
      "step": 4290
    },
    {
      "epoch": 19.243174781874473,
      "grad_norm": 0.0036902506835758686,
      "learning_rate": 0.000307827126490472,
      "loss": 0.006,
      "step": 4291
    },
    {
      "epoch": 19.24767801857585,
      "grad_norm": 0.003560757962986827,
      "learning_rate": 0.00030759795116277723,
      "loss": 0.0104,
      "step": 4292
    },
    {
      "epoch": 19.25218125527723,
      "grad_norm": 0.004387376364320517,
      "learning_rate": 0.000307368823271705,
      "loss": 0.0096,
      "step": 4293
    },
    {
      "epoch": 19.25668449197861,
      "grad_norm": 0.0008258595480583608,
      "learning_rate": 0.0003071397428737468,
      "loss": 0.0051,
      "step": 4294
    },
    {
      "epoch": 19.26118772867999,
      "grad_norm": 0.005855961237102747,
      "learning_rate": 0.00030691071002538205,
      "loss": 0.0085,
      "step": 4295
    },
    {
      "epoch": 19.265690965381367,
      "grad_norm": 0.006734139751642942,
      "learning_rate": 0.0003066817247830787,
      "loss": 0.0141,
      "step": 4296
    },
    {
      "epoch": 19.270194202082745,
      "grad_norm": 0.0030456276144832373,
      "learning_rate": 0.0003064527872032932,
      "loss": 0.0163,
      "step": 4297
    },
    {
      "epoch": 19.274697438784127,
      "grad_norm": 0.026068925857543945,
      "learning_rate": 0.0003062238973424697,
      "loss": 0.0736,
      "step": 4298
    },
    {
      "epoch": 19.279200675485505,
      "grad_norm": 0.003614583518356085,
      "learning_rate": 0.00030599505525704095,
      "loss": 0.0074,
      "step": 4299
    },
    {
      "epoch": 19.283703912186883,
      "grad_norm": 0.005083445459604263,
      "learning_rate": 0.00030576626100342787,
      "loss": 0.0201,
      "step": 4300
    },
    {
      "epoch": 19.288207148888265,
      "grad_norm": 0.08087162673473358,
      "learning_rate": 0.00030553751463803963,
      "loss": 0.0649,
      "step": 4301
    },
    {
      "epoch": 19.292710385589643,
      "grad_norm": 0.0021384914871305227,
      "learning_rate": 0.00030530881621727336,
      "loss": 0.0064,
      "step": 4302
    },
    {
      "epoch": 19.29721362229102,
      "grad_norm": 0.021562406793236732,
      "learning_rate": 0.00030508016579751466,
      "loss": 0.0263,
      "step": 4303
    },
    {
      "epoch": 19.3017168589924,
      "grad_norm": 0.012645040638744831,
      "learning_rate": 0.00030485156343513733,
      "loss": 0.0118,
      "step": 4304
    },
    {
      "epoch": 19.30622009569378,
      "grad_norm": 0.002183357020840049,
      "learning_rate": 0.00030462300918650276,
      "loss": 0.0088,
      "step": 4305
    },
    {
      "epoch": 19.31072333239516,
      "grad_norm": 0.02452591247856617,
      "learning_rate": 0.00030439450310796115,
      "loss": 0.0403,
      "step": 4306
    },
    {
      "epoch": 19.315226569096538,
      "grad_norm": 0.023701025173068047,
      "learning_rate": 0.0003041660452558505,
      "loss": 0.0173,
      "step": 4307
    },
    {
      "epoch": 19.319729805797916,
      "grad_norm": 0.0033529773354530334,
      "learning_rate": 0.00030393763568649704,
      "loss": 0.0188,
      "step": 4308
    },
    {
      "epoch": 19.324233042499298,
      "grad_norm": 0.01279857475310564,
      "learning_rate": 0.00030370927445621474,
      "loss": 0.0116,
      "step": 4309
    },
    {
      "epoch": 19.328736279200676,
      "grad_norm": 0.01888609118759632,
      "learning_rate": 0.0003034809616213063,
      "loss": 0.0102,
      "step": 4310
    },
    {
      "epoch": 19.333239515902054,
      "grad_norm": 0.0015833633951842785,
      "learning_rate": 0.0003032526972380621,
      "loss": 0.0059,
      "step": 4311
    },
    {
      "epoch": 19.337742752603432,
      "grad_norm": 0.0033211722038686275,
      "learning_rate": 0.0003030244813627603,
      "loss": 0.0088,
      "step": 4312
    },
    {
      "epoch": 19.342245989304814,
      "grad_norm": 0.01567775011062622,
      "learning_rate": 0.0003027963140516675,
      "loss": 0.0596,
      "step": 4313
    },
    {
      "epoch": 19.346749226006192,
      "grad_norm": 0.03374854847788811,
      "learning_rate": 0.0003025681953610384,
      "loss": 0.0076,
      "step": 4314
    },
    {
      "epoch": 19.35125246270757,
      "grad_norm": 0.03611122816801071,
      "learning_rate": 0.0003023401253471156,
      "loss": 0.0974,
      "step": 4315
    },
    {
      "epoch": 19.35575569940895,
      "grad_norm": 0.004035058431327343,
      "learning_rate": 0.00030211210406612935,
      "loss": 0.0059,
      "step": 4316
    },
    {
      "epoch": 19.36025893611033,
      "grad_norm": 0.019606830552220345,
      "learning_rate": 0.00030188413157429826,
      "loss": 0.0172,
      "step": 4317
    },
    {
      "epoch": 19.36476217281171,
      "grad_norm": 0.012184586375951767,
      "learning_rate": 0.0003016562079278291,
      "loss": 0.0145,
      "step": 4318
    },
    {
      "epoch": 19.369265409513087,
      "grad_norm": 0.006014104001224041,
      "learning_rate": 0.0003014283331829159,
      "loss": 0.0083,
      "step": 4319
    },
    {
      "epoch": 19.373768646214465,
      "grad_norm": 0.001655043102800846,
      "learning_rate": 0.0003012005073957413,
      "loss": 0.0835,
      "step": 4320
    },
    {
      "epoch": 19.378271882915847,
      "grad_norm": 0.03051801770925522,
      "learning_rate": 0.00030097273062247565,
      "loss": 0.0164,
      "step": 4321
    },
    {
      "epoch": 19.382775119617225,
      "grad_norm": 0.017256470397114754,
      "learning_rate": 0.0003007450029192772,
      "loss": 0.0089,
      "step": 4322
    },
    {
      "epoch": 19.387278356318603,
      "grad_norm": 0.002187188947573304,
      "learning_rate": 0.00030051732434229183,
      "loss": 0.0064,
      "step": 4323
    },
    {
      "epoch": 19.39178159301998,
      "grad_norm": 0.006274085491895676,
      "learning_rate": 0.00030028969494765386,
      "loss": 0.008,
      "step": 4324
    },
    {
      "epoch": 19.396284829721363,
      "grad_norm": 0.0007122005335986614,
      "learning_rate": 0.00030006211479148526,
      "loss": 0.0042,
      "step": 4325
    },
    {
      "epoch": 19.40078806642274,
      "grad_norm": 0.003912931773811579,
      "learning_rate": 0.0002998345839298955,
      "loss": 0.0057,
      "step": 4326
    },
    {
      "epoch": 19.40529130312412,
      "grad_norm": 0.010127474553883076,
      "learning_rate": 0.0002996071024189823,
      "loss": 0.012,
      "step": 4327
    },
    {
      "epoch": 19.409794539825498,
      "grad_norm": 0.007782991509884596,
      "learning_rate": 0.00029937967031483105,
      "loss": 0.0103,
      "step": 4328
    },
    {
      "epoch": 19.41429777652688,
      "grad_norm": 0.001257284195162356,
      "learning_rate": 0.0002991522876735154,
      "loss": 0.0043,
      "step": 4329
    },
    {
      "epoch": 19.418801013228258,
      "grad_norm": 0.0023012219462543726,
      "learning_rate": 0.00029892495455109594,
      "loss": 0.006,
      "step": 4330
    },
    {
      "epoch": 19.423304249929636,
      "grad_norm": 0.004709136206656694,
      "learning_rate": 0.0002986976710036216,
      "loss": 0.0088,
      "step": 4331
    },
    {
      "epoch": 19.427807486631018,
      "grad_norm": 0.004710003267973661,
      "learning_rate": 0.0002984704370871294,
      "loss": 0.0075,
      "step": 4332
    },
    {
      "epoch": 19.432310723332396,
      "grad_norm": 0.003077866742387414,
      "learning_rate": 0.0002982432528576433,
      "loss": 0.0106,
      "step": 4333
    },
    {
      "epoch": 19.436813960033774,
      "grad_norm": 0.005855311173945665,
      "learning_rate": 0.0002980161183711756,
      "loss": 0.0051,
      "step": 4334
    },
    {
      "epoch": 19.441317196735152,
      "grad_norm": 0.0022315767128020525,
      "learning_rate": 0.00029778903368372613,
      "loss": 0.0107,
      "step": 4335
    },
    {
      "epoch": 19.445820433436534,
      "grad_norm": 0.027692407369613647,
      "learning_rate": 0.0002975619988512828,
      "loss": 0.0377,
      "step": 4336
    },
    {
      "epoch": 19.450323670137912,
      "grad_norm": 0.01188607793301344,
      "learning_rate": 0.00029733501392982054,
      "loss": 0.0081,
      "step": 4337
    },
    {
      "epoch": 19.45482690683929,
      "grad_norm": 0.0015762376133352518,
      "learning_rate": 0.00029710807897530256,
      "loss": 0.0201,
      "step": 4338
    },
    {
      "epoch": 19.45933014354067,
      "grad_norm": 0.048288218677043915,
      "learning_rate": 0.00029688119404367965,
      "loss": 0.1568,
      "step": 4339
    },
    {
      "epoch": 19.46383338024205,
      "grad_norm": 0.0015593073330819607,
      "learning_rate": 0.0002966543591908898,
      "loss": 0.0111,
      "step": 4340
    },
    {
      "epoch": 19.46833661694343,
      "grad_norm": 0.017592445015907288,
      "learning_rate": 0.00029642757447285935,
      "loss": 0.0078,
      "step": 4341
    },
    {
      "epoch": 19.472839853644807,
      "grad_norm": 0.004665380343794823,
      "learning_rate": 0.00029620083994550187,
      "loss": 0.0112,
      "step": 4342
    },
    {
      "epoch": 19.477343090346185,
      "grad_norm": 0.0061897472478449345,
      "learning_rate": 0.00029597415566471875,
      "loss": 0.0057,
      "step": 4343
    },
    {
      "epoch": 19.481846327047567,
      "grad_norm": 0.07508751004934311,
      "learning_rate": 0.00029574752168639863,
      "loss": 0.0802,
      "step": 4344
    },
    {
      "epoch": 19.486349563748945,
      "grad_norm": 0.007854585535824299,
      "learning_rate": 0.000295520938066418,
      "loss": 0.0097,
      "step": 4345
    },
    {
      "epoch": 19.490852800450323,
      "grad_norm": 0.013451001606881618,
      "learning_rate": 0.0002952944048606414,
      "loss": 0.0038,
      "step": 4346
    },
    {
      "epoch": 19.4953560371517,
      "grad_norm": 0.004914989694952965,
      "learning_rate": 0.00029506792212491986,
      "loss": 0.0059,
      "step": 4347
    },
    {
      "epoch": 19.499859273853083,
      "grad_norm": 0.07448099553585052,
      "learning_rate": 0.0002948414899150928,
      "loss": 0.1475,
      "step": 4348
    },
    {
      "epoch": 19.50436251055446,
      "grad_norm": 0.044895969331264496,
      "learning_rate": 0.000294615108286987,
      "loss": 0.0173,
      "step": 4349
    },
    {
      "epoch": 19.50886574725584,
      "grad_norm": 0.002592648845165968,
      "learning_rate": 0.000294388777296417,
      "loss": 0.0043,
      "step": 4350
    },
    {
      "epoch": 19.513368983957218,
      "grad_norm": 0.000556322920601815,
      "learning_rate": 0.0002941624969991841,
      "loss": 0.0059,
      "step": 4351
    },
    {
      "epoch": 19.5178722206586,
      "grad_norm": 0.0034085421357303858,
      "learning_rate": 0.00029393626745107774,
      "loss": 0.0036,
      "step": 4352
    },
    {
      "epoch": 19.522375457359978,
      "grad_norm": 0.0044519673101603985,
      "learning_rate": 0.00029371008870787474,
      "loss": 0.0103,
      "step": 4353
    },
    {
      "epoch": 19.526878694061356,
      "grad_norm": 0.03181508556008339,
      "learning_rate": 0.0002934839608253396,
      "loss": 0.0141,
      "step": 4354
    },
    {
      "epoch": 19.531381930762734,
      "grad_norm": 0.03421374037861824,
      "learning_rate": 0.0002932578838592237,
      "loss": 0.0295,
      "step": 4355
    },
    {
      "epoch": 19.535885167464116,
      "grad_norm": 0.007232453674077988,
      "learning_rate": 0.00029303185786526615,
      "loss": 0.01,
      "step": 4356
    },
    {
      "epoch": 19.540388404165494,
      "grad_norm": 0.0016571668675169349,
      "learning_rate": 0.00029280588289919384,
      "loss": 0.0048,
      "step": 4357
    },
    {
      "epoch": 19.544891640866872,
      "grad_norm": 0.042876292020082474,
      "learning_rate": 0.00029257995901672053,
      "loss": 0.0144,
      "step": 4358
    },
    {
      "epoch": 19.549394877568254,
      "grad_norm": 0.0009298547520302236,
      "learning_rate": 0.00029235408627354765,
      "loss": 0.0237,
      "step": 4359
    },
    {
      "epoch": 19.553898114269632,
      "grad_norm": 0.03126157075166702,
      "learning_rate": 0.00029212826472536414,
      "loss": 0.0094,
      "step": 4360
    },
    {
      "epoch": 19.55840135097101,
      "grad_norm": 0.001066898345015943,
      "learning_rate": 0.00029190249442784624,
      "loss": 0.0044,
      "step": 4361
    },
    {
      "epoch": 19.56290458767239,
      "grad_norm": 0.011814278550446033,
      "learning_rate": 0.00029167677543665726,
      "loss": 0.0163,
      "step": 4362
    },
    {
      "epoch": 19.56740782437377,
      "grad_norm": 0.0035982849076390266,
      "learning_rate": 0.0002914511078074481,
      "loss": 0.0057,
      "step": 4363
    },
    {
      "epoch": 19.57191106107515,
      "grad_norm": 0.003635235596448183,
      "learning_rate": 0.0002912254915958573,
      "loss": 0.0081,
      "step": 4364
    },
    {
      "epoch": 19.576414297776527,
      "grad_norm": 0.004158063791692257,
      "learning_rate": 0.00029099992685751013,
      "loss": 0.0054,
      "step": 4365
    },
    {
      "epoch": 19.580917534477905,
      "grad_norm": 0.011413603089749813,
      "learning_rate": 0.00029077441364801937,
      "loss": 0.009,
      "step": 4366
    },
    {
      "epoch": 19.585420771179287,
      "grad_norm": 0.0005022200639359653,
      "learning_rate": 0.0002905489520229856,
      "loss": 0.0038,
      "step": 4367
    },
    {
      "epoch": 19.589924007880665,
      "grad_norm": 0.0016070391284301877,
      "learning_rate": 0.00029032354203799597,
      "loss": 0.0041,
      "step": 4368
    },
    {
      "epoch": 19.594427244582043,
      "grad_norm": 0.005537376273423433,
      "learning_rate": 0.0002900981837486253,
      "loss": 0.0069,
      "step": 4369
    },
    {
      "epoch": 19.59893048128342,
      "grad_norm": 0.004602257162332535,
      "learning_rate": 0.0002898728772104352,
      "loss": 0.0076,
      "step": 4370
    },
    {
      "epoch": 19.603433717984803,
      "grad_norm": 0.010521838441491127,
      "learning_rate": 0.0002896476224789757,
      "loss": 0.0118,
      "step": 4371
    },
    {
      "epoch": 19.60793695468618,
      "grad_norm": 0.003125063143670559,
      "learning_rate": 0.0002894224196097822,
      "loss": 0.0071,
      "step": 4372
    },
    {
      "epoch": 19.61244019138756,
      "grad_norm": 0.0006468024221248925,
      "learning_rate": 0.00028919726865837906,
      "loss": 0.0045,
      "step": 4373
    },
    {
      "epoch": 19.616943428088938,
      "grad_norm": 0.006620585452765226,
      "learning_rate": 0.0002889721696802768,
      "loss": 0.0102,
      "step": 4374
    },
    {
      "epoch": 19.62144666479032,
      "grad_norm": 0.00411862600594759,
      "learning_rate": 0.00028874712273097394,
      "loss": 0.0065,
      "step": 4375
    },
    {
      "epoch": 19.625949901491698,
      "grad_norm": 0.0023969588801264763,
      "learning_rate": 0.0002885221278659549,
      "loss": 0.0056,
      "step": 4376
    },
    {
      "epoch": 19.630453138193076,
      "grad_norm": 0.008772443979978561,
      "learning_rate": 0.0002882971851406926,
      "loss": 0.0122,
      "step": 4377
    },
    {
      "epoch": 19.634956374894454,
      "grad_norm": 0.0406779870390892,
      "learning_rate": 0.00028807229461064654,
      "loss": 0.0313,
      "step": 4378
    },
    {
      "epoch": 19.639459611595836,
      "grad_norm": 0.012288163416087627,
      "learning_rate": 0.0002878474563312632,
      "loss": 0.0192,
      "step": 4379
    },
    {
      "epoch": 19.643962848297214,
      "grad_norm": 0.0036132915411144495,
      "learning_rate": 0.00028762267035797607,
      "loss": 0.0032,
      "step": 4380
    },
    {
      "epoch": 19.648466084998592,
      "grad_norm": 0.0008931790944188833,
      "learning_rate": 0.00028739793674620664,
      "loss": 0.0031,
      "step": 4381
    },
    {
      "epoch": 19.65296932169997,
      "grad_norm": 0.042570505291223526,
      "learning_rate": 0.0002871732555513624,
      "loss": 0.0556,
      "step": 4382
    },
    {
      "epoch": 19.657472558401352,
      "grad_norm": 0.005852218717336655,
      "learning_rate": 0.00028694862682883865,
      "loss": 0.0099,
      "step": 4383
    },
    {
      "epoch": 19.66197579510273,
      "grad_norm": 0.007001615595072508,
      "learning_rate": 0.0002867240506340171,
      "loss": 0.0086,
      "step": 4384
    },
    {
      "epoch": 19.66647903180411,
      "grad_norm": 0.003340860828757286,
      "learning_rate": 0.00028649952702226736,
      "loss": 0.0101,
      "step": 4385
    },
    {
      "epoch": 19.670982268505487,
      "grad_norm": 0.013599179685115814,
      "learning_rate": 0.00028627505604894533,
      "loss": 0.0136,
      "step": 4386
    },
    {
      "epoch": 19.67548550520687,
      "grad_norm": 0.008723518811166286,
      "learning_rate": 0.00028605063776939403,
      "loss": 0.0091,
      "step": 4387
    },
    {
      "epoch": 19.679988741908247,
      "grad_norm": 0.0005778896738775074,
      "learning_rate": 0.00028582627223894415,
      "loss": 0.0036,
      "step": 4388
    },
    {
      "epoch": 19.684491978609625,
      "grad_norm": 0.0012382220011204481,
      "learning_rate": 0.00028560195951291266,
      "loss": 0.0038,
      "step": 4389
    },
    {
      "epoch": 19.688995215311003,
      "grad_norm": 0.0009064829209819436,
      "learning_rate": 0.00028537769964660363,
      "loss": 0.0036,
      "step": 4390
    },
    {
      "epoch": 19.693498452012385,
      "grad_norm": 0.014287021942436695,
      "learning_rate": 0.00028515349269530823,
      "loss": 0.0125,
      "step": 4391
    },
    {
      "epoch": 19.698001688713763,
      "grad_norm": 0.0016382932662963867,
      "learning_rate": 0.000284929338714305,
      "loss": 0.0035,
      "step": 4392
    },
    {
      "epoch": 19.70250492541514,
      "grad_norm": 0.005347901023924351,
      "learning_rate": 0.0002847052377588581,
      "loss": 0.0197,
      "step": 4393
    },
    {
      "epoch": 19.707008162116523,
      "grad_norm": 0.042952049523591995,
      "learning_rate": 0.00028448118988422044,
      "loss": 0.0143,
      "step": 4394
    },
    {
      "epoch": 19.7115113988179,
      "grad_norm": 0.0015006487956270576,
      "learning_rate": 0.0002842571951456301,
      "loss": 0.0036,
      "step": 4395
    },
    {
      "epoch": 19.71601463551928,
      "grad_norm": 0.007301297504454851,
      "learning_rate": 0.0002840332535983138,
      "loss": 0.0055,
      "step": 4396
    },
    {
      "epoch": 19.720517872220658,
      "grad_norm": 0.0033306158147752285,
      "learning_rate": 0.0002838093652974831,
      "loss": 0.0228,
      "step": 4397
    },
    {
      "epoch": 19.72502110892204,
      "grad_norm": 0.008760162629187107,
      "learning_rate": 0.00028358553029833843,
      "loss": 0.0204,
      "step": 4398
    },
    {
      "epoch": 19.729524345623418,
      "grad_norm": 0.04091484099626541,
      "learning_rate": 0.00028336174865606584,
      "loss": 0.0044,
      "step": 4399
    },
    {
      "epoch": 19.734027582324796,
      "grad_norm": 0.018426574766635895,
      "learning_rate": 0.0002831380204258386,
      "loss": 0.1538,
      "step": 4400
    },
    {
      "epoch": 19.738530819026174,
      "grad_norm": 0.019967971369624138,
      "learning_rate": 0.00028291434566281656,
      "loss": 0.0379,
      "step": 4401
    },
    {
      "epoch": 19.743034055727556,
      "grad_norm": 0.0061542438343167305,
      "learning_rate": 0.00028269072442214704,
      "loss": 0.0124,
      "step": 4402
    },
    {
      "epoch": 19.747537292428934,
      "grad_norm": 0.0056516267359256744,
      "learning_rate": 0.0002824671567589635,
      "loss": 0.0039,
      "step": 4403
    },
    {
      "epoch": 19.752040529130312,
      "grad_norm": 0.003649316029623151,
      "learning_rate": 0.0002822436427283863,
      "loss": 0.0049,
      "step": 4404
    },
    {
      "epoch": 19.75654376583169,
      "grad_norm": 0.0031761848367750645,
      "learning_rate": 0.0002820201823855231,
      "loss": 0.0127,
      "step": 4405
    },
    {
      "epoch": 19.761047002533072,
      "grad_norm": 0.00823217537254095,
      "learning_rate": 0.00028179677578546756,
      "loss": 0.0046,
      "step": 4406
    },
    {
      "epoch": 19.76555023923445,
      "grad_norm": 0.004879845771938562,
      "learning_rate": 0.0002815734229833007,
      "loss": 0.0063,
      "step": 4407
    },
    {
      "epoch": 19.77005347593583,
      "grad_norm": 0.0030228274408727884,
      "learning_rate": 0.00028135012403408973,
      "loss": 0.0044,
      "step": 4408
    },
    {
      "epoch": 19.774556712637207,
      "grad_norm": 0.053216878324747086,
      "learning_rate": 0.00028112687899288925,
      "loss": 0.0887,
      "step": 4409
    },
    {
      "epoch": 19.77905994933859,
      "grad_norm": 0.0031995377503335476,
      "learning_rate": 0.0002809036879147401,
      "loss": 0.0043,
      "step": 4410
    },
    {
      "epoch": 19.783563186039967,
      "grad_norm": 0.0027701498474925756,
      "learning_rate": 0.00028068055085466977,
      "loss": 0.0048,
      "step": 4411
    },
    {
      "epoch": 19.788066422741345,
      "grad_norm": 0.0014094487996771932,
      "learning_rate": 0.0002804574678676925,
      "loss": 0.0044,
      "step": 4412
    },
    {
      "epoch": 19.792569659442723,
      "grad_norm": 0.002244494389742613,
      "learning_rate": 0.00028023443900880986,
      "loss": 0.0061,
      "step": 4413
    },
    {
      "epoch": 19.797072896144105,
      "grad_norm": 0.008913329802453518,
      "learning_rate": 0.0002800114643330087,
      "loss": 0.0091,
      "step": 4414
    },
    {
      "epoch": 19.801576132845483,
      "grad_norm": 0.0027632052078843117,
      "learning_rate": 0.00027978854389526395,
      "loss": 0.0046,
      "step": 4415
    },
    {
      "epoch": 19.80607936954686,
      "grad_norm": 0.003608756698668003,
      "learning_rate": 0.000279565677750536,
      "loss": 0.0072,
      "step": 4416
    },
    {
      "epoch": 19.81058260624824,
      "grad_norm": 0.01198498997837305,
      "learning_rate": 0.00027934286595377307,
      "loss": 0.0142,
      "step": 4417
    },
    {
      "epoch": 19.81508584294962,
      "grad_norm": 0.0108814537525177,
      "learning_rate": 0.00027912010855990846,
      "loss": 0.0104,
      "step": 4418
    },
    {
      "epoch": 19.819589079651,
      "grad_norm": 0.010244237259030342,
      "learning_rate": 0.00027889740562386355,
      "loss": 0.0057,
      "step": 4419
    },
    {
      "epoch": 19.824092316352377,
      "grad_norm": 0.0020555593073368073,
      "learning_rate": 0.00027867475720054534,
      "loss": 0.0044,
      "step": 4420
    },
    {
      "epoch": 19.82859555305376,
      "grad_norm": 0.0014286692021414638,
      "learning_rate": 0.0002784521633448475,
      "loss": 0.0062,
      "step": 4421
    },
    {
      "epoch": 19.833098789755137,
      "grad_norm": 0.005904564633965492,
      "learning_rate": 0.0002782296241116509,
      "loss": 0.0087,
      "step": 4422
    },
    {
      "epoch": 19.837602026456516,
      "grad_norm": 0.007596855517476797,
      "learning_rate": 0.0002780071395558222,
      "loss": 0.0075,
      "step": 4423
    },
    {
      "epoch": 19.842105263157894,
      "grad_norm": 0.047757040709257126,
      "learning_rate": 0.00027778470973221483,
      "loss": 0.1475,
      "step": 4424
    },
    {
      "epoch": 19.846608499859276,
      "grad_norm": 0.0013395050773397088,
      "learning_rate": 0.0002775623346956686,
      "loss": 0.0048,
      "step": 4425
    },
    {
      "epoch": 19.851111736560654,
      "grad_norm": 0.001478308462537825,
      "learning_rate": 0.0002773400145010103,
      "loss": 0.0042,
      "step": 4426
    },
    {
      "epoch": 19.855614973262032,
      "grad_norm": 0.00592843210324645,
      "learning_rate": 0.0002771177492030525,
      "loss": 0.1024,
      "step": 4427
    },
    {
      "epoch": 19.86011820996341,
      "grad_norm": 0.03186112269759178,
      "learning_rate": 0.0002768955388565953,
      "loss": 0.0038,
      "step": 4428
    },
    {
      "epoch": 19.864621446664792,
      "grad_norm": 0.00035736977588385344,
      "learning_rate": 0.00027667338351642355,
      "loss": 0.0038,
      "step": 4429
    },
    {
      "epoch": 19.86912468336617,
      "grad_norm": 0.019122455269098282,
      "learning_rate": 0.00027645128323731017,
      "loss": 0.0143,
      "step": 4430
    },
    {
      "epoch": 19.87362792006755,
      "grad_norm": 0.008829730562865734,
      "learning_rate": 0.0002762292380740137,
      "loss": 0.0109,
      "step": 4431
    },
    {
      "epoch": 19.878131156768927,
      "grad_norm": 0.01915590837597847,
      "learning_rate": 0.0002760072480812793,
      "loss": 0.0177,
      "step": 4432
    },
    {
      "epoch": 19.88263439347031,
      "grad_norm": 0.0027307504788041115,
      "learning_rate": 0.0002757853133138382,
      "loss": 0.005,
      "step": 4433
    },
    {
      "epoch": 19.887137630171686,
      "grad_norm": 0.0009455258259549737,
      "learning_rate": 0.00027556343382640876,
      "loss": 0.0225,
      "step": 4434
    },
    {
      "epoch": 19.891640866873065,
      "grad_norm": 0.011408522725105286,
      "learning_rate": 0.000275341609673695,
      "loss": 0.0159,
      "step": 4435
    },
    {
      "epoch": 19.896144103574443,
      "grad_norm": 0.002352952491492033,
      "learning_rate": 0.0002751198409103876,
      "loss": 0.0054,
      "step": 4436
    },
    {
      "epoch": 19.900647340275825,
      "grad_norm": 0.015941189602017403,
      "learning_rate": 0.00027489812759116326,
      "loss": 0.0141,
      "step": 4437
    },
    {
      "epoch": 19.905150576977203,
      "grad_norm": 0.065855473279953,
      "learning_rate": 0.00027467646977068585,
      "loss": 0.0949,
      "step": 4438
    },
    {
      "epoch": 19.90965381367858,
      "grad_norm": 0.0004535056941676885,
      "learning_rate": 0.0002744548675036046,
      "loss": 0.0041,
      "step": 4439
    },
    {
      "epoch": 19.91415705037996,
      "grad_norm": 0.00102763413451612,
      "learning_rate": 0.00027423332084455543,
      "loss": 0.0046,
      "step": 4440
    },
    {
      "epoch": 19.91866028708134,
      "grad_norm": 0.0008859289810061455,
      "learning_rate": 0.00027401182984816046,
      "loss": 0.0045,
      "step": 4441
    },
    {
      "epoch": 19.92316352378272,
      "grad_norm": 0.0052732257172465324,
      "learning_rate": 0.00027379039456902854,
      "loss": 0.0058,
      "step": 4442
    },
    {
      "epoch": 19.927666760484097,
      "grad_norm": 0.02710270881652832,
      "learning_rate": 0.00027356901506175423,
      "loss": 0.0108,
      "step": 4443
    },
    {
      "epoch": 19.932169997185476,
      "grad_norm": 0.037405308336019516,
      "learning_rate": 0.00027334769138091824,
      "loss": 0.0265,
      "step": 4444
    },
    {
      "epoch": 19.936673233886857,
      "grad_norm": 0.0043287030421197414,
      "learning_rate": 0.0002731264235810885,
      "loss": 0.0061,
      "step": 4445
    },
    {
      "epoch": 19.941176470588236,
      "grad_norm": 0.0033200003672391176,
      "learning_rate": 0.0002729052117168177,
      "loss": 0.0062,
      "step": 4446
    },
    {
      "epoch": 19.945679707289614,
      "grad_norm": 0.04204140231013298,
      "learning_rate": 0.00027268405584264597,
      "loss": 0.1101,
      "step": 4447
    },
    {
      "epoch": 19.950182943990992,
      "grad_norm": 0.029785798862576485,
      "learning_rate": 0.000272462956013099,
      "loss": 0.0179,
      "step": 4448
    },
    {
      "epoch": 19.954686180692374,
      "grad_norm": 0.0014235090930014849,
      "learning_rate": 0.0002722419122826891,
      "loss": 0.0049,
      "step": 4449
    },
    {
      "epoch": 19.959189417393752,
      "grad_norm": 0.020865002647042274,
      "learning_rate": 0.000272020924705914,
      "loss": 0.0232,
      "step": 4450
    },
    {
      "epoch": 19.96369265409513,
      "grad_norm": 0.0009829825721681118,
      "learning_rate": 0.00027179999333725856,
      "loss": 0.0048,
      "step": 4451
    },
    {
      "epoch": 19.96819589079651,
      "grad_norm": 0.0021156950388103724,
      "learning_rate": 0.000271579118231193,
      "loss": 0.005,
      "step": 4452
    },
    {
      "epoch": 19.97269912749789,
      "grad_norm": 0.0004118368960916996,
      "learning_rate": 0.00027135829944217405,
      "loss": 0.0048,
      "step": 4453
    },
    {
      "epoch": 19.977202364199268,
      "grad_norm": 0.010939761064946651,
      "learning_rate": 0.0002711375370246443,
      "loss": 0.0123,
      "step": 4454
    },
    {
      "epoch": 19.981705600900646,
      "grad_norm": 0.0005486326990649104,
      "learning_rate": 0.00027091683103303287,
      "loss": 0.0046,
      "step": 4455
    },
    {
      "epoch": 19.986208837602028,
      "grad_norm": 0.003218606812879443,
      "learning_rate": 0.00027069618152175467,
      "loss": 0.0048,
      "step": 4456
    },
    {
      "epoch": 19.990712074303406,
      "grad_norm": 0.020289281383156776,
      "learning_rate": 0.0002704755885452106,
      "loss": 0.0145,
      "step": 4457
    },
    {
      "epoch": 19.995215311004785,
      "grad_norm": 0.0019232287304475904,
      "learning_rate": 0.00027025505215778754,
      "loss": 0.0785,
      "step": 4458
    },
    {
      "epoch": 19.999718547706163,
      "grad_norm": 0.039081789553165436,
      "learning_rate": 0.0002700345724138591,
      "loss": 0.0052,
      "step": 4459
    },
    {
      "epoch": 20.0,
      "grad_norm": 0.039081789553165436,
      "learning_rate": 0.00026981414936778426,
      "loss": 0.0003,
      "step": 4460
    },
    {
      "epoch": 20.0,
      "eval_f1": 0.9857971594318864,
      "eval_loss": 0.035337213426828384,
      "eval_runtime": 26.2705,
      "eval_samples_per_second": 190.251,
      "eval_steps_per_second": 5.976,
      "step": 4460
    },
    {
      "epoch": 20.004503236701378,
      "grad_norm": 0.000391473644413054,
      "learning_rate": 0.00026959378307390785,
      "loss": 0.0039,
      "step": 4461
    },
    {
      "epoch": 20.00900647340276,
      "grad_norm": 0.002476179040968418,
      "learning_rate": 0.0002693734735865616,
      "loss": 0.0054,
      "step": 4462
    },
    {
      "epoch": 20.013509710104138,
      "grad_norm": 0.00032899717916734517,
      "learning_rate": 0.0002691532209600624,
      "loss": 0.0039,
      "step": 4463
    },
    {
      "epoch": 20.018012946805516,
      "grad_norm": 0.0005537436809390783,
      "learning_rate": 0.00026893302524871356,
      "loss": 0.0041,
      "step": 4464
    },
    {
      "epoch": 20.022516183506895,
      "grad_norm": 0.00048186242929659784,
      "learning_rate": 0.00026871288650680394,
      "loss": 0.0038,
      "step": 4465
    },
    {
      "epoch": 20.027019420208276,
      "grad_norm": 0.0019060642225667834,
      "learning_rate": 0.00026849280478860913,
      "loss": 0.0054,
      "step": 4466
    },
    {
      "epoch": 20.031522656909655,
      "grad_norm": 0.0003179894993081689,
      "learning_rate": 0.00026827278014838953,
      "loss": 0.0045,
      "step": 4467
    },
    {
      "epoch": 20.036025893611033,
      "grad_norm": 0.0030583213083446026,
      "learning_rate": 0.0002680528126403925,
      "loss": 0.0055,
      "step": 4468
    },
    {
      "epoch": 20.04052913031241,
      "grad_norm": 0.0008587713818997145,
      "learning_rate": 0.00026783290231885073,
      "loss": 0.0042,
      "step": 4469
    },
    {
      "epoch": 20.045032367013793,
      "grad_norm": 0.0028816387057304382,
      "learning_rate": 0.00026761304923798347,
      "loss": 0.0046,
      "step": 4470
    },
    {
      "epoch": 20.04953560371517,
      "grad_norm": 0.01437116414308548,
      "learning_rate": 0.0002673932534519946,
      "loss": 0.0078,
      "step": 4471
    },
    {
      "epoch": 20.05403884041655,
      "grad_norm": 0.0007642756681889296,
      "learning_rate": 0.0002671735150150752,
      "loss": 0.0044,
      "step": 4472
    },
    {
      "epoch": 20.058542077117927,
      "grad_norm": 0.0006538427551276982,
      "learning_rate": 0.0002669538339814016,
      "loss": 0.004,
      "step": 4473
    },
    {
      "epoch": 20.06304531381931,
      "grad_norm": 0.0015698610804975033,
      "learning_rate": 0.00026673421040513583,
      "loss": 0.0138,
      "step": 4474
    },
    {
      "epoch": 20.067548550520687,
      "grad_norm": 0.01923408731818199,
      "learning_rate": 0.000266514644340426,
      "loss": 0.0059,
      "step": 4475
    },
    {
      "epoch": 20.072051787222065,
      "grad_norm": 0.0031954466830939054,
      "learning_rate": 0.0002662951358414063,
      "loss": 0.005,
      "step": 4476
    },
    {
      "epoch": 20.076555023923444,
      "grad_norm": 0.0009905904298648238,
      "learning_rate": 0.0002660756849621962,
      "loss": 0.0064,
      "step": 4477
    },
    {
      "epoch": 20.081058260624825,
      "grad_norm": 0.0045312815345823765,
      "learning_rate": 0.00026585629175690105,
      "loss": 0.0048,
      "step": 4478
    },
    {
      "epoch": 20.085561497326204,
      "grad_norm": 0.001247765263542533,
      "learning_rate": 0.0002656369562796125,
      "loss": 0.0048,
      "step": 4479
    },
    {
      "epoch": 20.09006473402758,
      "grad_norm": 0.0008721803897060454,
      "learning_rate": 0.0002654176785844074,
      "loss": 0.0047,
      "step": 4480
    },
    {
      "epoch": 20.09456797072896,
      "grad_norm": 0.0022659164387732744,
      "learning_rate": 0.0002651984587253485,
      "loss": 0.0038,
      "step": 4481
    },
    {
      "epoch": 20.09907120743034,
      "grad_norm": 0.0008580341818742454,
      "learning_rate": 0.00026497929675648433,
      "loss": 0.0035,
      "step": 4482
    },
    {
      "epoch": 20.10357444413172,
      "grad_norm": 0.0031519834883511066,
      "learning_rate": 0.00026476019273184937,
      "loss": 0.005,
      "step": 4483
    },
    {
      "epoch": 20.108077680833098,
      "grad_norm": 0.019151462242007256,
      "learning_rate": 0.00026454114670546334,
      "loss": 0.0215,
      "step": 4484
    },
    {
      "epoch": 20.112580917534476,
      "grad_norm": 0.005316699855029583,
      "learning_rate": 0.00026432215873133216,
      "loss": 0.0051,
      "step": 4485
    },
    {
      "epoch": 20.117084154235858,
      "grad_norm": 0.0022111223079264164,
      "learning_rate": 0.0002641032288634468,
      "loss": 0.0035,
      "step": 4486
    },
    {
      "epoch": 20.121587390937236,
      "grad_norm": 0.0006963268970139325,
      "learning_rate": 0.000263884357155785,
      "loss": 0.0036,
      "step": 4487
    },
    {
      "epoch": 20.126090627638614,
      "grad_norm": 0.0012873602099716663,
      "learning_rate": 0.00026366554366230864,
      "loss": 0.0052,
      "step": 4488
    },
    {
      "epoch": 20.130593864339993,
      "grad_norm": 0.0008100048871710896,
      "learning_rate": 0.00026344678843696667,
      "loss": 0.0037,
      "step": 4489
    },
    {
      "epoch": 20.135097101041374,
      "grad_norm": 0.011873637326061726,
      "learning_rate": 0.00026322809153369263,
      "loss": 0.0066,
      "step": 4490
    },
    {
      "epoch": 20.139600337742753,
      "grad_norm": 0.0005342684453353286,
      "learning_rate": 0.0002630094530064068,
      "loss": 0.0035,
      "step": 4491
    },
    {
      "epoch": 20.14410357444413,
      "grad_norm": 0.001027860795147717,
      "learning_rate": 0.0002627908729090135,
      "loss": 0.0037,
      "step": 4492
    },
    {
      "epoch": 20.148606811145513,
      "grad_norm": 0.0015560786705464125,
      "learning_rate": 0.00026257235129540426,
      "loss": 0.0042,
      "step": 4493
    },
    {
      "epoch": 20.15311004784689,
      "grad_norm": 0.0004288974741939455,
      "learning_rate": 0.00026235388821945496,
      "loss": 0.0035,
      "step": 4494
    },
    {
      "epoch": 20.15761328454827,
      "grad_norm": 0.0005953845102339983,
      "learning_rate": 0.00026213548373502804,
      "loss": 0.0033,
      "step": 4495
    },
    {
      "epoch": 20.162116521249647,
      "grad_norm": 0.000380349752958864,
      "learning_rate": 0.0002619171378959707,
      "loss": 0.0032,
      "step": 4496
    },
    {
      "epoch": 20.16661975795103,
      "grad_norm": 0.0003136891173198819,
      "learning_rate": 0.0002616988507561161,
      "loss": 0.0035,
      "step": 4497
    },
    {
      "epoch": 20.171122994652407,
      "grad_norm": 0.005567369516938925,
      "learning_rate": 0.0002614806223692827,
      "loss": 0.0069,
      "step": 4498
    },
    {
      "epoch": 20.175626231353785,
      "grad_norm": 0.002061623614281416,
      "learning_rate": 0.0002612624527892745,
      "loss": 0.0042,
      "step": 4499
    },
    {
      "epoch": 20.180129468055163,
      "grad_norm": 0.050629932433366776,
      "learning_rate": 0.00026104434206988147,
      "loss": 0.0445,
      "step": 4500
    },
    {
      "epoch": 20.184632704756545,
      "grad_norm": 0.0011339234188199043,
      "learning_rate": 0.0002608262902648783,
      "loss": 0.0037,
      "step": 4501
    },
    {
      "epoch": 20.189135941457923,
      "grad_norm": 0.0007614968344569206,
      "learning_rate": 0.0002606082974280261,
      "loss": 0.0031,
      "step": 4502
    },
    {
      "epoch": 20.1936391781593,
      "grad_norm": 0.0008452108013443649,
      "learning_rate": 0.0002603903636130701,
      "loss": 0.004,
      "step": 4503
    },
    {
      "epoch": 20.19814241486068,
      "grad_norm": 0.0018176549347117543,
      "learning_rate": 0.00026017248887374246,
      "loss": 0.0032,
      "step": 4504
    },
    {
      "epoch": 20.20264565156206,
      "grad_norm": 0.0013315815012902021,
      "learning_rate": 0.00025995467326375964,
      "loss": 0.004,
      "step": 4505
    },
    {
      "epoch": 20.20714888826344,
      "grad_norm": 0.0011736807646229863,
      "learning_rate": 0.0002597369168368243,
      "loss": 0.0038,
      "step": 4506
    },
    {
      "epoch": 20.211652124964818,
      "grad_norm": 0.0006175613380037248,
      "learning_rate": 0.0002595192196466237,
      "loss": 0.0039,
      "step": 4507
    },
    {
      "epoch": 20.216155361666196,
      "grad_norm": 0.0008775373571552336,
      "learning_rate": 0.00025930158174683146,
      "loss": 0.0032,
      "step": 4508
    },
    {
      "epoch": 20.220658598367578,
      "grad_norm": 0.017415348440408707,
      "learning_rate": 0.0002590840031911059,
      "loss": 0.0134,
      "step": 4509
    },
    {
      "epoch": 20.225161835068956,
      "grad_norm": 0.0005218243459239602,
      "learning_rate": 0.00025886648403309086,
      "loss": 0.003,
      "step": 4510
    },
    {
      "epoch": 20.229665071770334,
      "grad_norm": 0.0005927704623900354,
      "learning_rate": 0.0002586490243264154,
      "loss": 0.0034,
      "step": 4511
    },
    {
      "epoch": 20.234168308471713,
      "grad_norm": 0.0007380498573184013,
      "learning_rate": 0.0002584316241246945,
      "loss": 0.003,
      "step": 4512
    },
    {
      "epoch": 20.238671545173094,
      "grad_norm": 0.00864338781684637,
      "learning_rate": 0.00025821428348152785,
      "loss": 0.0097,
      "step": 4513
    },
    {
      "epoch": 20.243174781874473,
      "grad_norm": 0.0003951163380406797,
      "learning_rate": 0.00025799700245050073,
      "loss": 0.0031,
      "step": 4514
    },
    {
      "epoch": 20.24767801857585,
      "grad_norm": 0.0009137273300439119,
      "learning_rate": 0.0002577797810851834,
      "loss": 0.0036,
      "step": 4515
    },
    {
      "epoch": 20.25218125527723,
      "grad_norm": 0.0003049211227335036,
      "learning_rate": 0.00025756261943913196,
      "loss": 0.052,
      "step": 4516
    },
    {
      "epoch": 20.25668449197861,
      "grad_norm": 0.03386295586824417,
      "learning_rate": 0.0002573455175658875,
      "loss": 0.0032,
      "step": 4517
    },
    {
      "epoch": 20.26118772867999,
      "grad_norm": 0.0010068326955661178,
      "learning_rate": 0.0002571284755189761,
      "loss": 0.0037,
      "step": 4518
    },
    {
      "epoch": 20.265690965381367,
      "grad_norm": 0.00040794070810079575,
      "learning_rate": 0.0002569114933519099,
      "loss": 0.003,
      "step": 4519
    },
    {
      "epoch": 20.270194202082745,
      "grad_norm": 0.004941408988088369,
      "learning_rate": 0.00025669457111818504,
      "loss": 0.0055,
      "step": 4520
    },
    {
      "epoch": 20.274697438784127,
      "grad_norm": 0.000732368731405586,
      "learning_rate": 0.00025647770887128406,
      "loss": 0.0029,
      "step": 4521
    },
    {
      "epoch": 20.279200675485505,
      "grad_norm": 0.00918545201420784,
      "learning_rate": 0.000256260906664674,
      "loss": 0.0046,
      "step": 4522
    },
    {
      "epoch": 20.283703912186883,
      "grad_norm": 0.03655789792537689,
      "learning_rate": 0.0002560441645518078,
      "loss": 0.0714,
      "step": 4523
    },
    {
      "epoch": 20.288207148888265,
      "grad_norm": 0.0011634343536570668,
      "learning_rate": 0.0002558274825861223,
      "loss": 0.004,
      "step": 4524
    },
    {
      "epoch": 20.292710385589643,
      "grad_norm": 0.001767510548233986,
      "learning_rate": 0.00025561086082104094,
      "loss": 0.0039,
      "step": 4525
    },
    {
      "epoch": 20.29721362229102,
      "grad_norm": 0.00928813498467207,
      "learning_rate": 0.0002553942993099716,
      "loss": 0.0194,
      "step": 4526
    },
    {
      "epoch": 20.3017168589924,
      "grad_norm": 0.004713789559900761,
      "learning_rate": 0.00025517779810630727,
      "loss": 0.0102,
      "step": 4527
    },
    {
      "epoch": 20.30622009569378,
      "grad_norm": 0.04632033407688141,
      "learning_rate": 0.00025496135726342604,
      "loss": 0.0157,
      "step": 4528
    },
    {
      "epoch": 20.31072333239516,
      "grad_norm": 0.015511671081185341,
      "learning_rate": 0.0002547449768346918,
      "loss": 0.0038,
      "step": 4529
    },
    {
      "epoch": 20.315226569096538,
      "grad_norm": 0.004734025802463293,
      "learning_rate": 0.00025452865687345267,
      "loss": 0.0065,
      "step": 4530
    },
    {
      "epoch": 20.319729805797916,
      "grad_norm": 0.0008453165064565837,
      "learning_rate": 0.0002543123974330423,
      "loss": 0.0032,
      "step": 4531
    },
    {
      "epoch": 20.324233042499298,
      "grad_norm": 0.001279275631532073,
      "learning_rate": 0.0002540961985667791,
      "loss": 0.0036,
      "step": 4532
    },
    {
      "epoch": 20.328736279200676,
      "grad_norm": 0.001046796445734799,
      "learning_rate": 0.0002538800603279673,
      "loss": 0.0035,
      "step": 4533
    },
    {
      "epoch": 20.333239515902054,
      "grad_norm": 0.001546870800666511,
      "learning_rate": 0.0002536639827698953,
      "loss": 0.0039,
      "step": 4534
    },
    {
      "epoch": 20.337742752603432,
      "grad_norm": 0.002610311144962907,
      "learning_rate": 0.00025344796594583684,
      "loss": 0.0048,
      "step": 4535
    },
    {
      "epoch": 20.342245989304814,
      "grad_norm": 0.0027169054374098778,
      "learning_rate": 0.00025323200990905106,
      "loss": 0.0047,
      "step": 4536
    },
    {
      "epoch": 20.346749226006192,
      "grad_norm": 0.041784875094890594,
      "learning_rate": 0.0002530161147127817,
      "loss": 0.0552,
      "step": 4537
    },
    {
      "epoch": 20.35125246270757,
      "grad_norm": 0.0016918920446187258,
      "learning_rate": 0.0002528002804102575,
      "loss": 0.0039,
      "step": 4538
    },
    {
      "epoch": 20.35575569940895,
      "grad_norm": 0.0003393786901142448,
      "learning_rate": 0.00025258450705469216,
      "loss": 0.0029,
      "step": 4539
    },
    {
      "epoch": 20.36025893611033,
      "grad_norm": 0.0003001752484124154,
      "learning_rate": 0.0002523687946992851,
      "loss": 0.003,
      "step": 4540
    },
    {
      "epoch": 20.36476217281171,
      "grad_norm": 0.0007158290827646852,
      "learning_rate": 0.00025215314339721925,
      "loss": 0.0034,
      "step": 4541
    },
    {
      "epoch": 20.369265409513087,
      "grad_norm": 0.0028081329073756933,
      "learning_rate": 0.0002519375532016639,
      "loss": 0.0051,
      "step": 4542
    },
    {
      "epoch": 20.373768646214465,
      "grad_norm": 0.0004724332538899034,
      "learning_rate": 0.0002517220241657723,
      "loss": 0.0033,
      "step": 4543
    },
    {
      "epoch": 20.378271882915847,
      "grad_norm": 0.0014091084012761712,
      "learning_rate": 0.0002515065563426837,
      "loss": 0.004,
      "step": 4544
    },
    {
      "epoch": 20.382775119617225,
      "grad_norm": 0.0008466301369480789,
      "learning_rate": 0.0002512911497855207,
      "loss": 0.0029,
      "step": 4545
    },
    {
      "epoch": 20.387278356318603,
      "grad_norm": 0.024827929213643074,
      "learning_rate": 0.0002510758045473923,
      "loss": 0.0421,
      "step": 4546
    },
    {
      "epoch": 20.39178159301998,
      "grad_norm": 0.011413545347750187,
      "learning_rate": 0.0002508605206813916,
      "loss": 0.0676,
      "step": 4547
    },
    {
      "epoch": 20.396284829721363,
      "grad_norm": 0.05676355957984924,
      "learning_rate": 0.00025064529824059663,
      "loss": 0.0033,
      "step": 4548
    },
    {
      "epoch": 20.40078806642274,
      "grad_norm": 0.0013415018329396844,
      "learning_rate": 0.0002504301372780702,
      "loss": 0.0037,
      "step": 4549
    },
    {
      "epoch": 20.40529130312412,
      "grad_norm": 0.001967883436009288,
      "learning_rate": 0.0002502150378468605,
      "loss": 0.0038,
      "step": 4550
    },
    {
      "epoch": 20.409794539825498,
      "grad_norm": 0.0007042361539788544,
      "learning_rate": 0.0002500000000000001,
      "loss": 0.0029,
      "step": 4551
    },
    {
      "epoch": 20.41429777652688,
      "grad_norm": 0.00037149726995266974,
      "learning_rate": 0.00024978502379050617,
      "loss": 0.0028,
      "step": 4552
    },
    {
      "epoch": 20.418801013228258,
      "grad_norm": 0.00018760068633127958,
      "learning_rate": 0.00024957010927138134,
      "loss": 0.0028,
      "step": 4553
    },
    {
      "epoch": 20.423304249929636,
      "grad_norm": 0.0006585617084056139,
      "learning_rate": 0.0002493552564956126,
      "loss": 0.003,
      "step": 4554
    },
    {
      "epoch": 20.427807486631018,
      "grad_norm": 0.0007053102599456906,
      "learning_rate": 0.0002491404655161717,
      "loss": 0.0035,
      "step": 4555
    },
    {
      "epoch": 20.432310723332396,
      "grad_norm": 0.0007000690675340593,
      "learning_rate": 0.00024892573638601504,
      "loss": 0.0032,
      "step": 4556
    },
    {
      "epoch": 20.436813960033774,
      "grad_norm": 0.0003301773394923657,
      "learning_rate": 0.00024871106915808435,
      "loss": 0.0027,
      "step": 4557
    },
    {
      "epoch": 20.441317196735152,
      "grad_norm": 0.0006519234739243984,
      "learning_rate": 0.0002484964638853056,
      "loss": 0.0032,
      "step": 4558
    },
    {
      "epoch": 20.445820433436534,
      "grad_norm": 0.0019621571991592646,
      "learning_rate": 0.00024828192062058957,
      "loss": 0.003,
      "step": 4559
    },
    {
      "epoch": 20.450323670137912,
      "grad_norm": 0.0005775027675554156,
      "learning_rate": 0.00024806743941683157,
      "loss": 0.0027,
      "step": 4560
    },
    {
      "epoch": 20.45482690683929,
      "grad_norm": 0.0359707735478878,
      "learning_rate": 0.00024785302032691244,
      "loss": 0.0493,
      "step": 4561
    },
    {
      "epoch": 20.45933014354067,
      "grad_norm": 0.0004876529856119305,
      "learning_rate": 0.0002476386634036963,
      "loss": 0.0029,
      "step": 4562
    },
    {
      "epoch": 20.46383338024205,
      "grad_norm": 0.01232039462774992,
      "learning_rate": 0.0002474243687000333,
      "loss": 0.0087,
      "step": 4563
    },
    {
      "epoch": 20.46833661694343,
      "grad_norm": 0.0009907808853313327,
      "learning_rate": 0.0002472101362687573,
      "loss": 0.003,
      "step": 4564
    },
    {
      "epoch": 20.472839853644807,
      "grad_norm": 0.0003325817233417183,
      "learning_rate": 0.00024699596616268785,
      "loss": 0.0027,
      "step": 4565
    },
    {
      "epoch": 20.477343090346185,
      "grad_norm": 0.022171668708324432,
      "learning_rate": 0.0002467818584346276,
      "loss": 0.0204,
      "step": 4566
    },
    {
      "epoch": 20.481846327047567,
      "grad_norm": 0.0032121913973242044,
      "learning_rate": 0.0002465678131373653,
      "loss": 0.0042,
      "step": 4567
    },
    {
      "epoch": 20.486349563748945,
      "grad_norm": 0.0007096793851815164,
      "learning_rate": 0.0002463538303236733,
      "loss": 0.0026,
      "step": 4568
    },
    {
      "epoch": 20.490852800450323,
      "grad_norm": 0.0002820776717271656,
      "learning_rate": 0.0002461399100463095,
      "loss": 0.0028,
      "step": 4569
    },
    {
      "epoch": 20.4953560371517,
      "grad_norm": 0.0005018458468839526,
      "learning_rate": 0.00024592605235801543,
      "loss": 0.0028,
      "step": 4570
    },
    {
      "epoch": 20.499859273853083,
      "grad_norm": 0.000711066706571728,
      "learning_rate": 0.0002457122573115176,
      "loss": 0.0031,
      "step": 4571
    },
    {
      "epoch": 20.50436251055446,
      "grad_norm": 0.0009857268305495381,
      "learning_rate": 0.0002454985249595272,
      "loss": 0.0031,
      "step": 4572
    },
    {
      "epoch": 20.50886574725584,
      "grad_norm": 0.0005333105218596756,
      "learning_rate": 0.0002452848553547396,
      "loss": 0.0028,
      "step": 4573
    },
    {
      "epoch": 20.513368983957218,
      "grad_norm": 0.0006268658326007426,
      "learning_rate": 0.0002450712485498352,
      "loss": 0.0028,
      "step": 4574
    },
    {
      "epoch": 20.5178722206586,
      "grad_norm": 0.00021886166359763592,
      "learning_rate": 0.0002448577045974784,
      "loss": 0.003,
      "step": 4575
    },
    {
      "epoch": 20.522375457359978,
      "grad_norm": 0.0007261529681272805,
      "learning_rate": 0.00024464422355031885,
      "loss": 0.0151,
      "step": 4576
    },
    {
      "epoch": 20.526878694061356,
      "grad_norm": 0.021789319813251495,
      "learning_rate": 0.00024443080546098937,
      "loss": 0.0028,
      "step": 4577
    },
    {
      "epoch": 20.531381930762734,
      "grad_norm": 0.005471580661833286,
      "learning_rate": 0.0002442174503821088,
      "loss": 0.0037,
      "step": 4578
    },
    {
      "epoch": 20.535885167464116,
      "grad_norm": 0.0004116669879294932,
      "learning_rate": 0.00024400415836627938,
      "loss": 0.0028,
      "step": 4579
    },
    {
      "epoch": 20.540388404165494,
      "grad_norm": 0.01523525733500719,
      "learning_rate": 0.0002437909294660882,
      "loss": 0.0101,
      "step": 4580
    },
    {
      "epoch": 20.544891640866872,
      "grad_norm": 0.0030158881563693285,
      "learning_rate": 0.00024357776373410656,
      "loss": 0.0043,
      "step": 4581
    },
    {
      "epoch": 20.549394877568254,
      "grad_norm": 0.0006262780516408384,
      "learning_rate": 0.00024336466122289074,
      "loss": 0.0032,
      "step": 4582
    },
    {
      "epoch": 20.553898114269632,
      "grad_norm": 0.00019149728177580982,
      "learning_rate": 0.00024315162198498087,
      "loss": 0.0026,
      "step": 4583
    },
    {
      "epoch": 20.55840135097101,
      "grad_norm": 0.0004064945096615702,
      "learning_rate": 0.00024293864607290156,
      "loss": 0.0026,
      "step": 4584
    },
    {
      "epoch": 20.56290458767239,
      "grad_norm": 0.0038806134834885597,
      "learning_rate": 0.00024272573353916182,
      "loss": 0.0051,
      "step": 4585
    },
    {
      "epoch": 20.56740782437377,
      "grad_norm": 0.0005802696105092764,
      "learning_rate": 0.00024251288443625553,
      "loss": 0.0025,
      "step": 4586
    },
    {
      "epoch": 20.57191106107515,
      "grad_norm": 0.05083300173282623,
      "learning_rate": 0.0002423000988166602,
      "loss": 0.1012,
      "step": 4587
    },
    {
      "epoch": 20.576414297776527,
      "grad_norm": 0.0006514400593005121,
      "learning_rate": 0.00024208737673283814,
      "loss": 0.0028,
      "step": 4588
    },
    {
      "epoch": 20.580917534477905,
      "grad_norm": 0.006430249661207199,
      "learning_rate": 0.00024187471823723555,
      "loss": 0.0067,
      "step": 4589
    },
    {
      "epoch": 20.585420771179287,
      "grad_norm": 0.02742859162390232,
      "learning_rate": 0.00024166212338228382,
      "loss": 0.0698,
      "step": 4590
    },
    {
      "epoch": 20.589924007880665,
      "grad_norm": 0.013575860299170017,
      "learning_rate": 0.00024144959222039775,
      "loss": 0.0055,
      "step": 4591
    },
    {
      "epoch": 20.594427244582043,
      "grad_norm": 0.00036617129808291793,
      "learning_rate": 0.0002412371248039767,
      "loss": 0.0026,
      "step": 4592
    },
    {
      "epoch": 20.59893048128342,
      "grad_norm": 0.037397194653749466,
      "learning_rate": 0.00024102472118540485,
      "loss": 0.0188,
      "step": 4593
    },
    {
      "epoch": 20.603433717984803,
      "grad_norm": 0.00084091437747702,
      "learning_rate": 0.00024081238141704958,
      "loss": 0.0029,
      "step": 4594
    },
    {
      "epoch": 20.60793695468618,
      "grad_norm": 0.0005537241231650114,
      "learning_rate": 0.0002406001055512636,
      "loss": 0.0032,
      "step": 4595
    },
    {
      "epoch": 20.61244019138756,
      "grad_norm": 0.001358386711217463,
      "learning_rate": 0.0002403878936403831,
      "loss": 0.0032,
      "step": 4596
    },
    {
      "epoch": 20.616943428088938,
      "grad_norm": 0.00048531475476920605,
      "learning_rate": 0.0002401757457367294,
      "loss": 0.0027,
      "step": 4597
    },
    {
      "epoch": 20.62144666479032,
      "grad_norm": 0.006408677902072668,
      "learning_rate": 0.0002399636618926066,
      "loss": 0.0068,
      "step": 4598
    },
    {
      "epoch": 20.625949901491698,
      "grad_norm": 0.0007889452972449362,
      "learning_rate": 0.00023975164216030455,
      "loss": 0.003,
      "step": 4599
    },
    {
      "epoch": 20.630453138193076,
      "grad_norm": 0.0009888465283438563,
      "learning_rate": 0.00023953968659209629,
      "loss": 0.0031,
      "step": 4600
    },
    {
      "epoch": 20.634956374894454,
      "grad_norm": 0.0007499501225538552,
      "learning_rate": 0.0002393277952402394,
      "loss": 0.0028,
      "step": 4601
    },
    {
      "epoch": 20.639459611595836,
      "grad_norm": 0.0006512578693218529,
      "learning_rate": 0.00023911596815697544,
      "loss": 0.0034,
      "step": 4602
    },
    {
      "epoch": 20.643962848297214,
      "grad_norm": 0.00044261454604566097,
      "learning_rate": 0.00023890420539453055,
      "loss": 0.0144,
      "step": 4603
    },
    {
      "epoch": 20.648466084998592,
      "grad_norm": 0.008465566672384739,
      "learning_rate": 0.00023869250700511463,
      "loss": 0.0032,
      "step": 4604
    },
    {
      "epoch": 20.65296932169997,
      "grad_norm": 0.029436536133289337,
      "learning_rate": 0.00023848087304092182,
      "loss": 0.0103,
      "step": 4605
    },
    {
      "epoch": 20.657472558401352,
      "grad_norm": 0.007330330554395914,
      "learning_rate": 0.00023826930355413,
      "loss": 0.0059,
      "step": 4606
    },
    {
      "epoch": 20.66197579510273,
      "grad_norm": 0.003978393040597439,
      "learning_rate": 0.00023805779859690208,
      "loss": 0.0027,
      "step": 4607
    },
    {
      "epoch": 20.66647903180411,
      "grad_norm": 0.00031025029602460563,
      "learning_rate": 0.00023784635822138422,
      "loss": 0.0026,
      "step": 4608
    },
    {
      "epoch": 20.670982268505487,
      "grad_norm": 0.01380962785333395,
      "learning_rate": 0.00023763498247970677,
      "loss": 0.0255,
      "step": 4609
    },
    {
      "epoch": 20.67548550520687,
      "grad_norm": 0.000374479015590623,
      "learning_rate": 0.0002374236714239847,
      "loss": 0.0025,
      "step": 4610
    },
    {
      "epoch": 20.679988741908247,
      "grad_norm": 0.00033425906440243125,
      "learning_rate": 0.00023721242510631635,
      "loss": 0.0026,
      "step": 4611
    },
    {
      "epoch": 20.684491978609625,
      "grad_norm": 0.004029144532978535,
      "learning_rate": 0.0002370012435787845,
      "loss": 0.0039,
      "step": 4612
    },
    {
      "epoch": 20.688995215311003,
      "grad_norm": 0.0004195761284790933,
      "learning_rate": 0.00023679012689345558,
      "loss": 0.0024,
      "step": 4613
    },
    {
      "epoch": 20.693498452012385,
      "grad_norm": 0.001235854346305132,
      "learning_rate": 0.0002365790751023809,
      "loss": 0.0035,
      "step": 4614
    },
    {
      "epoch": 20.698001688713763,
      "grad_norm": 0.017123857513070107,
      "learning_rate": 0.00023636808825759444,
      "loss": 0.0208,
      "step": 4615
    },
    {
      "epoch": 20.70250492541514,
      "grad_norm": 0.008075258694589138,
      "learning_rate": 0.0002361571664111154,
      "loss": 0.0095,
      "step": 4616
    },
    {
      "epoch": 20.707008162116523,
      "grad_norm": 0.000503211806062609,
      "learning_rate": 0.00023594630961494613,
      "loss": 0.0027,
      "step": 4617
    },
    {
      "epoch": 20.7115113988179,
      "grad_norm": 0.0025450848042964935,
      "learning_rate": 0.00023573551792107372,
      "loss": 0.0043,
      "step": 4618
    },
    {
      "epoch": 20.71601463551928,
      "grad_norm": 0.000506256939843297,
      "learning_rate": 0.00023552479138146815,
      "loss": 0.0627,
      "step": 4619
    },
    {
      "epoch": 20.720517872220658,
      "grad_norm": 0.03727846220135689,
      "learning_rate": 0.0002353141300480844,
      "loss": 0.0025,
      "step": 4620
    },
    {
      "epoch": 20.72502110892204,
      "grad_norm": 0.0004906918620690703,
      "learning_rate": 0.0002351035339728607,
      "loss": 0.0032,
      "step": 4621
    },
    {
      "epoch": 20.729524345623418,
      "grad_norm": 0.0020207143388688564,
      "learning_rate": 0.0002348930032077195,
      "loss": 0.0027,
      "step": 4622
    },
    {
      "epoch": 20.734027582324796,
      "grad_norm": 0.0009101946488954127,
      "learning_rate": 0.00023468253780456678,
      "loss": 0.0032,
      "step": 4623
    },
    {
      "epoch": 20.738530819026174,
      "grad_norm": 0.0025961322244256735,
      "learning_rate": 0.00023447213781529303,
      "loss": 0.0042,
      "step": 4624
    },
    {
      "epoch": 20.743034055727556,
      "grad_norm": 0.0003203160595148802,
      "learning_rate": 0.00023426180329177217,
      "loss": 0.0026,
      "step": 4625
    },
    {
      "epoch": 20.747537292428934,
      "grad_norm": 0.013806415721774101,
      "learning_rate": 0.0002340515342858618,
      "loss": 0.1064,
      "step": 4626
    },
    {
      "epoch": 20.752040529130312,
      "grad_norm": 0.045793429017066956,
      "learning_rate": 0.000233841330849404,
      "loss": 0.0031,
      "step": 4627
    },
    {
      "epoch": 20.75654376583169,
      "grad_norm": 0.0004874110163655132,
      "learning_rate": 0.00023363119303422414,
      "loss": 0.0026,
      "step": 4628
    },
    {
      "epoch": 20.761047002533072,
      "grad_norm": 0.0024525155313313007,
      "learning_rate": 0.00023342112089213163,
      "loss": 0.0033,
      "step": 4629
    },
    {
      "epoch": 20.76555023923445,
      "grad_norm": 0.0004020633059553802,
      "learning_rate": 0.00023321111447491939,
      "loss": 0.0029,
      "step": 4630
    },
    {
      "epoch": 20.77005347593583,
      "grad_norm": 0.010837377049028873,
      "learning_rate": 0.0002330011738343648,
      "loss": 0.0148,
      "step": 4631
    },
    {
      "epoch": 20.774556712637207,
      "grad_norm": 0.0021460663992911577,
      "learning_rate": 0.00023279129902222846,
      "loss": 0.0035,
      "step": 4632
    },
    {
      "epoch": 20.77905994933859,
      "grad_norm": 0.0008452059119008482,
      "learning_rate": 0.0002325814900902548,
      "loss": 0.0031,
      "step": 4633
    },
    {
      "epoch": 20.783563186039967,
      "grad_norm": 0.0011606545886024833,
      "learning_rate": 0.000232371747090172,
      "loss": 0.0033,
      "step": 4634
    },
    {
      "epoch": 20.788066422741345,
      "grad_norm": 0.00025933136930689216,
      "learning_rate": 0.00023216207007369243,
      "loss": 0.0028,
      "step": 4635
    },
    {
      "epoch": 20.792569659442723,
      "grad_norm": 0.03114839643239975,
      "learning_rate": 0.00023195245909251168,
      "loss": 0.0232,
      "step": 4636
    },
    {
      "epoch": 20.797072896144105,
      "grad_norm": 0.011300131678581238,
      "learning_rate": 0.00023174291419830918,
      "loss": 0.0035,
      "step": 4637
    },
    {
      "epoch": 20.801576132845483,
      "grad_norm": 0.0010084357345476747,
      "learning_rate": 0.00023153343544274796,
      "loss": 0.0036,
      "step": 4638
    },
    {
      "epoch": 20.80607936954686,
      "grad_norm": 0.0010860820766538382,
      "learning_rate": 0.00023132402287747545,
      "loss": 0.003,
      "step": 4639
    },
    {
      "epoch": 20.81058260624824,
      "grad_norm": 0.0004407416854519397,
      "learning_rate": 0.00023111467655412144,
      "loss": 0.0029,
      "step": 4640
    },
    {
      "epoch": 20.81508584294962,
      "grad_norm": 0.00040654223994351923,
      "learning_rate": 0.0002309053965243007,
      "loss": 0.0029,
      "step": 4641
    },
    {
      "epoch": 20.819589079651,
      "grad_norm": 0.0016827275976538658,
      "learning_rate": 0.0002306961828396108,
      "loss": 0.0036,
      "step": 4642
    },
    {
      "epoch": 20.824092316352377,
      "grad_norm": 0.0037555238232016563,
      "learning_rate": 0.00023048703555163358,
      "loss": 0.0045,
      "step": 4643
    },
    {
      "epoch": 20.82859555305376,
      "grad_norm": 0.0011129964841529727,
      "learning_rate": 0.00023027795471193403,
      "loss": 0.0041,
      "step": 4644
    },
    {
      "epoch": 20.833098789755137,
      "grad_norm": 0.0008003436378203332,
      "learning_rate": 0.00023006894037206095,
      "loss": 0.0031,
      "step": 4645
    },
    {
      "epoch": 20.837602026456516,
      "grad_norm": 0.00028224760899320245,
      "learning_rate": 0.00022985999258354661,
      "loss": 0.0028,
      "step": 4646
    },
    {
      "epoch": 20.842105263157894,
      "grad_norm": 0.0005910043837502599,
      "learning_rate": 0.00022965111139790695,
      "loss": 0.0035,
      "step": 4647
    },
    {
      "epoch": 20.846608499859276,
      "grad_norm": 0.0007525251712650061,
      "learning_rate": 0.0002294422968666417,
      "loss": 0.0032,
      "step": 4648
    },
    {
      "epoch": 20.851111736560654,
      "grad_norm": 0.0003784169675782323,
      "learning_rate": 0.00022923354904123377,
      "loss": 0.0031,
      "step": 4649
    },
    {
      "epoch": 20.855614973262032,
      "grad_norm": 0.0006473225657828152,
      "learning_rate": 0.00022902486797315026,
      "loss": 0.0042,
      "step": 4650
    },
    {
      "epoch": 20.86011820996341,
      "grad_norm": 0.0034718995448201895,
      "learning_rate": 0.00022881625371384075,
      "loss": 0.0033,
      "step": 4651
    },
    {
      "epoch": 20.864621446664792,
      "grad_norm": 0.0009993539424613118,
      "learning_rate": 0.00022860770631473936,
      "loss": 0.0043,
      "step": 4652
    },
    {
      "epoch": 20.86912468336617,
      "grad_norm": 0.007880214601755142,
      "learning_rate": 0.00022839922582726336,
      "loss": 0.0103,
      "step": 4653
    },
    {
      "epoch": 20.87362792006755,
      "grad_norm": 0.006293625105172396,
      "learning_rate": 0.00022819081230281336,
      "loss": 0.0086,
      "step": 4654
    },
    {
      "epoch": 20.878131156768927,
      "grad_norm": 0.0005953383515588939,
      "learning_rate": 0.00022798246579277344,
      "loss": 0.0029,
      "step": 4655
    },
    {
      "epoch": 20.88263439347031,
      "grad_norm": 0.00038208760088309646,
      "learning_rate": 0.0002277741863485117,
      "loss": 0.0086,
      "step": 4656
    },
    {
      "epoch": 20.887137630171686,
      "grad_norm": 0.00871598906815052,
      "learning_rate": 0.0002275659740213792,
      "loss": 0.0035,
      "step": 4657
    },
    {
      "epoch": 20.891640866873065,
      "grad_norm": 0.00041238617268390954,
      "learning_rate": 0.0002273578288627105,
      "loss": 0.0027,
      "step": 4658
    },
    {
      "epoch": 20.896144103574443,
      "grad_norm": 0.00015855215315241367,
      "learning_rate": 0.0002271497509238235,
      "loss": 0.0026,
      "step": 4659
    },
    {
      "epoch": 20.900647340275825,
      "grad_norm": 0.0002544307499192655,
      "learning_rate": 0.0002269417402560201,
      "loss": 0.0026,
      "step": 4660
    },
    {
      "epoch": 20.905150576977203,
      "grad_norm": 0.0015090616652742028,
      "learning_rate": 0.00022673379691058503,
      "loss": 0.0041,
      "step": 4661
    },
    {
      "epoch": 20.90965381367858,
      "grad_norm": 0.0008682707557454705,
      "learning_rate": 0.00022652592093878665,
      "loss": 0.0027,
      "step": 4662
    },
    {
      "epoch": 20.91415705037996,
      "grad_norm": 0.0002536811225581914,
      "learning_rate": 0.00022631811239187644,
      "loss": 0.0026,
      "step": 4663
    },
    {
      "epoch": 20.91866028708134,
      "grad_norm": 0.0002856295614037663,
      "learning_rate": 0.00022611037132108986,
      "loss": 0.0026,
      "step": 4664
    },
    {
      "epoch": 20.92316352378272,
      "grad_norm": 0.00039509159978479147,
      "learning_rate": 0.00022590269777764517,
      "loss": 0.0047,
      "step": 4665
    },
    {
      "epoch": 20.927666760484097,
      "grad_norm": 0.0024940206203609705,
      "learning_rate": 0.00022569509181274394,
      "loss": 0.0028,
      "step": 4666
    },
    {
      "epoch": 20.932169997185476,
      "grad_norm": 0.006593326106667519,
      "learning_rate": 0.000225487553477572,
      "loss": 0.0045,
      "step": 4667
    },
    {
      "epoch": 20.936673233886857,
      "grad_norm": 0.0005203743930906057,
      "learning_rate": 0.00022528008282329698,
      "loss": 0.0034,
      "step": 4668
    },
    {
      "epoch": 20.941176470588236,
      "grad_norm": 0.0010869536781683564,
      "learning_rate": 0.00022507267990107122,
      "loss": 0.0027,
      "step": 4669
    },
    {
      "epoch": 20.945679707289614,
      "grad_norm": 0.0012015136890113354,
      "learning_rate": 0.0002248653447620294,
      "loss": 0.0035,
      "step": 4670
    },
    {
      "epoch": 20.950182943990992,
      "grad_norm": 0.0017589674098417163,
      "learning_rate": 0.00022465807745729056,
      "loss": 0.0034,
      "step": 4671
    },
    {
      "epoch": 20.954686180692374,
      "grad_norm": 0.00045449973549693823,
      "learning_rate": 0.00022445087803795545,
      "loss": 0.0048,
      "step": 4672
    },
    {
      "epoch": 20.959189417393752,
      "grad_norm": 0.006631659809499979,
      "learning_rate": 0.00022424374655510964,
      "loss": 0.003,
      "step": 4673
    },
    {
      "epoch": 20.96369265409513,
      "grad_norm": 0.0008842374663800001,
      "learning_rate": 0.00022403668305982105,
      "loss": 0.0029,
      "step": 4674
    },
    {
      "epoch": 20.96819589079651,
      "grad_norm": 0.0006071201059967279,
      "learning_rate": 0.00022382968760314116,
      "loss": 0.0027,
      "step": 4675
    },
    {
      "epoch": 20.97269912749789,
      "grad_norm": 0.002014833502471447,
      "learning_rate": 0.00022362276023610427,
      "loss": 0.0051,
      "step": 4676
    },
    {
      "epoch": 20.977202364199268,
      "grad_norm": 0.0010920925997197628,
      "learning_rate": 0.0002234159010097287,
      "loss": 0.0032,
      "step": 4677
    },
    {
      "epoch": 20.981705600900646,
      "grad_norm": 0.00043288787128403783,
      "learning_rate": 0.0002232091099750152,
      "loss": 0.0026,
      "step": 4678
    },
    {
      "epoch": 20.986208837602028,
      "grad_norm": 0.0013282407307997346,
      "learning_rate": 0.000223002387182948,
      "loss": 0.0035,
      "step": 4679
    },
    {
      "epoch": 20.990712074303406,
      "grad_norm": 0.001564646023325622,
      "learning_rate": 0.00022279573268449443,
      "loss": 0.0035,
      "step": 4680
    },
    {
      "epoch": 20.995215311004785,
      "grad_norm": 0.0003901538730133325,
      "learning_rate": 0.0002225891465306053,
      "loss": 0.0027,
      "step": 4681
    },
    {
      "epoch": 20.999718547706163,
      "grad_norm": 0.00028938479954376817,
      "learning_rate": 0.00022238262877221415,
      "loss": 0.0024,
      "step": 4682
    },
    {
      "epoch": 21.0,
      "grad_norm": 0.00028938479954376817,
      "learning_rate": 0.00022217617946023767,
      "loss": 0.0001,
      "step": 4683
    },
    {
      "epoch": 21.0,
      "eval_f1": 0.9857943177270908,
      "eval_loss": 0.03768172487616539,
      "eval_runtime": 26.2956,
      "eval_samples_per_second": 190.07,
      "eval_steps_per_second": 5.971,
      "step": 4683
    },
    {
      "epoch": 21.004503236701378,
      "grad_norm": 0.0003588664112612605,
      "learning_rate": 0.00022196979864557621,
      "loss": 0.0025,
      "step": 4684
    },
    {
      "epoch": 21.00900647340276,
      "grad_norm": 0.003971960861235857,
      "learning_rate": 0.0002217634863791126,
      "loss": 0.0054,
      "step": 4685
    },
    {
      "epoch": 21.013509710104138,
      "grad_norm": 0.001967976801097393,
      "learning_rate": 0.00022155724271171303,
      "loss": 0.0032,
      "step": 4686
    },
    {
      "epoch": 21.018012946805516,
      "grad_norm": 0.00027636709273792803,
      "learning_rate": 0.00022135106769422658,
      "loss": 0.0025,
      "step": 4687
    },
    {
      "epoch": 21.022516183506895,
      "grad_norm": 0.0005060635157860816,
      "learning_rate": 0.00022114496137748624,
      "loss": 0.0026,
      "step": 4688
    },
    {
      "epoch": 21.027019420208276,
      "grad_norm": 0.00027585471980273724,
      "learning_rate": 0.00022093892381230658,
      "loss": 0.0024,
      "step": 4689
    },
    {
      "epoch": 21.031522656909655,
      "grad_norm": 0.00043560771155171096,
      "learning_rate": 0.00022073295504948658,
      "loss": 0.0027,
      "step": 4690
    },
    {
      "epoch": 21.036025893611033,
      "grad_norm": 0.00047028984408825636,
      "learning_rate": 0.00022052705513980747,
      "loss": 0.0023,
      "step": 4691
    },
    {
      "epoch": 21.04052913031241,
      "grad_norm": 0.000315259414492175,
      "learning_rate": 0.00022032122413403422,
      "loss": 0.0026,
      "step": 4692
    },
    {
      "epoch": 21.045032367013793,
      "grad_norm": 0.0005913472268730402,
      "learning_rate": 0.00022011546208291366,
      "loss": 0.0024,
      "step": 4693
    },
    {
      "epoch": 21.04953560371517,
      "grad_norm": 0.0008335072780027986,
      "learning_rate": 0.00021990976903717686,
      "loss": 0.0025,
      "step": 4694
    },
    {
      "epoch": 21.05403884041655,
      "grad_norm": 0.0003828862973023206,
      "learning_rate": 0.00021970414504753717,
      "loss": 0.0026,
      "step": 4695
    },
    {
      "epoch": 21.058542077117927,
      "grad_norm": 0.0004548263386823237,
      "learning_rate": 0.00021949859016469103,
      "loss": 0.0024,
      "step": 4696
    },
    {
      "epoch": 21.06304531381931,
      "grad_norm": 0.0006283613620325923,
      "learning_rate": 0.00021929310443931772,
      "loss": 0.0025,
      "step": 4697
    },
    {
      "epoch": 21.067548550520687,
      "grad_norm": 0.0002559564891271293,
      "learning_rate": 0.00021908768792208,
      "loss": 0.0025,
      "step": 4698
    },
    {
      "epoch": 21.072051787222065,
      "grad_norm": 0.0006736000650562346,
      "learning_rate": 0.000218882340663623,
      "loss": 0.0025,
      "step": 4699
    },
    {
      "epoch": 21.076555023923444,
      "grad_norm": 0.00021800871763844043,
      "learning_rate": 0.00021867706271457487,
      "loss": 0.0023,
      "step": 4700
    },
    {
      "epoch": 21.081058260624825,
      "grad_norm": 0.02412150800228119,
      "learning_rate": 0.0002184718541255471,
      "loss": 0.0789,
      "step": 4701
    },
    {
      "epoch": 21.085561497326204,
      "grad_norm": 0.0003204988606739789,
      "learning_rate": 0.0002182667149471335,
      "loss": 0.0024,
      "step": 4702
    },
    {
      "epoch": 21.09006473402758,
      "grad_norm": 0.0003462327003944665,
      "learning_rate": 0.00021806164522991117,
      "loss": 0.0025,
      "step": 4703
    },
    {
      "epoch": 21.09456797072896,
      "grad_norm": 0.015857119113206863,
      "learning_rate": 0.00021785664502443965,
      "loss": 0.0233,
      "step": 4704
    },
    {
      "epoch": 21.09907120743034,
      "grad_norm": 0.0003071704995818436,
      "learning_rate": 0.000217651714381262,
      "loss": 0.0023,
      "step": 4705
    },
    {
      "epoch": 21.10357444413172,
      "grad_norm": 0.0006159184849821031,
      "learning_rate": 0.00021744685335090363,
      "loss": 0.0027,
      "step": 4706
    },
    {
      "epoch": 21.108077680833098,
      "grad_norm": 0.0005421910900622606,
      "learning_rate": 0.00021724206198387293,
      "loss": 0.0023,
      "step": 4707
    },
    {
      "epoch": 21.112580917534476,
      "grad_norm": 8.336519385920838e-05,
      "learning_rate": 0.00021703734033066087,
      "loss": 0.0022,
      "step": 4708
    },
    {
      "epoch": 21.117084154235858,
      "grad_norm": 7.964581891428679e-05,
      "learning_rate": 0.00021683268844174182,
      "loss": 0.0023,
      "step": 4709
    },
    {
      "epoch": 21.121587390937236,
      "grad_norm": 0.0007416937733069062,
      "learning_rate": 0.0002166281063675724,
      "loss": 0.0035,
      "step": 4710
    },
    {
      "epoch": 21.126090627638614,
      "grad_norm": 0.0006171046989038587,
      "learning_rate": 0.00021642359415859232,
      "loss": 0.0026,
      "step": 4711
    },
    {
      "epoch": 21.130593864339993,
      "grad_norm": 0.000444454955868423,
      "learning_rate": 0.00021621915186522363,
      "loss": 0.0023,
      "step": 4712
    },
    {
      "epoch": 21.135097101041374,
      "grad_norm": 0.00020661244343500584,
      "learning_rate": 0.00021601477953787213,
      "loss": 0.0023,
      "step": 4713
    },
    {
      "epoch": 21.139600337742753,
      "grad_norm": 0.00012959132436662912,
      "learning_rate": 0.00021581047722692492,
      "loss": 0.0023,
      "step": 4714
    },
    {
      "epoch": 21.14410357444413,
      "grad_norm": 0.0003072156978305429,
      "learning_rate": 0.00021560624498275315,
      "loss": 0.0025,
      "step": 4715
    },
    {
      "epoch": 21.148606811145513,
      "grad_norm": 0.0002917959645856172,
      "learning_rate": 0.00021540208285570996,
      "loss": 0.0025,
      "step": 4716
    },
    {
      "epoch": 21.15311004784689,
      "grad_norm": 0.0004116320633329451,
      "learning_rate": 0.00021519799089613173,
      "loss": 0.0678,
      "step": 4717
    },
    {
      "epoch": 21.15761328454827,
      "grad_norm": 0.023966390639543533,
      "learning_rate": 0.00021499396915433666,
      "loss": 0.0025,
      "step": 4718
    },
    {
      "epoch": 21.162116521249647,
      "grad_norm": 0.0006200079806149006,
      "learning_rate": 0.00021479001768062668,
      "loss": 0.0026,
      "step": 4719
    },
    {
      "epoch": 21.16661975795103,
      "grad_norm": 0.00037889988743700087,
      "learning_rate": 0.00021458613652528574,
      "loss": 0.0025,
      "step": 4720
    },
    {
      "epoch": 21.171122994652407,
      "grad_norm": 0.00044109387090429664,
      "learning_rate": 0.00021438232573858047,
      "loss": 0.0026,
      "step": 4721
    },
    {
      "epoch": 21.175626231353785,
      "grad_norm": 0.0016220868565142155,
      "learning_rate": 0.0002141785853707607,
      "loss": 0.003,
      "step": 4722
    },
    {
      "epoch": 21.180129468055163,
      "grad_norm": 0.014708968810737133,
      "learning_rate": 0.00021397491547205805,
      "loss": 0.0079,
      "step": 4723
    },
    {
      "epoch": 21.184632704756545,
      "grad_norm": 0.001983345253393054,
      "learning_rate": 0.00021377131609268786,
      "loss": 0.0035,
      "step": 4724
    },
    {
      "epoch": 21.189135941457923,
      "grad_norm": 0.0004963011015206575,
      "learning_rate": 0.0002135677872828467,
      "loss": 0.0024,
      "step": 4725
    },
    {
      "epoch": 21.1936391781593,
      "grad_norm": 0.0001680836285231635,
      "learning_rate": 0.00021336432909271498,
      "loss": 0.0023,
      "step": 4726
    },
    {
      "epoch": 21.19814241486068,
      "grad_norm": 0.0007252776413224638,
      "learning_rate": 0.00021316094157245515,
      "loss": 0.0029,
      "step": 4727
    },
    {
      "epoch": 21.20264565156206,
      "grad_norm": 0.0004075446049682796,
      "learning_rate": 0.00021295762477221216,
      "loss": 0.0024,
      "step": 4728
    },
    {
      "epoch": 21.20714888826344,
      "grad_norm": 0.000287521950667724,
      "learning_rate": 0.00021275437874211358,
      "loss": 0.0024,
      "step": 4729
    },
    {
      "epoch": 21.211652124964818,
      "grad_norm": 0.00016311026411131024,
      "learning_rate": 0.00021255120353226987,
      "loss": 0.0025,
      "step": 4730
    },
    {
      "epoch": 21.216155361666196,
      "grad_norm": 0.0003117891028523445,
      "learning_rate": 0.00021234809919277366,
      "loss": 0.0023,
      "step": 4731
    },
    {
      "epoch": 21.220658598367578,
      "grad_norm": 0.00029506231658160686,
      "learning_rate": 0.0002121450657737002,
      "loss": 0.0023,
      "step": 4732
    },
    {
      "epoch": 21.225161835068956,
      "grad_norm": 0.00042800145456567407,
      "learning_rate": 0.0002119421033251071,
      "loss": 0.0028,
      "step": 4733
    },
    {
      "epoch": 21.229665071770334,
      "grad_norm": 0.0005335760652087629,
      "learning_rate": 0.00021173921189703522,
      "loss": 0.0023,
      "step": 4734
    },
    {
      "epoch": 21.234168308471713,
      "grad_norm": 0.00013804090849589556,
      "learning_rate": 0.00021153639153950653,
      "loss": 0.0023,
      "step": 4735
    },
    {
      "epoch": 21.238671545173094,
      "grad_norm": 0.00041679030982777476,
      "learning_rate": 0.00021133364230252688,
      "loss": 0.0053,
      "step": 4736
    },
    {
      "epoch": 21.243174781874473,
      "grad_norm": 0.004728705622255802,
      "learning_rate": 0.00021113096423608358,
      "loss": 0.0023,
      "step": 4737
    },
    {
      "epoch": 21.24767801857585,
      "grad_norm": 0.0002284277870785445,
      "learning_rate": 0.00021092835739014722,
      "loss": 0.0025,
      "step": 4738
    },
    {
      "epoch": 21.25218125527723,
      "grad_norm": 0.0005725874216295779,
      "learning_rate": 0.00021072582181467015,
      "loss": 0.0024,
      "step": 4739
    },
    {
      "epoch": 21.25668449197861,
      "grad_norm": 0.0003629198472481221,
      "learning_rate": 0.0002105233575595873,
      "loss": 0.0023,
      "step": 4740
    },
    {
      "epoch": 21.26118772867999,
      "grad_norm": 0.00029837992042303085,
      "learning_rate": 0.00021032096467481665,
      "loss": 0.0023,
      "step": 4741
    },
    {
      "epoch": 21.265690965381367,
      "grad_norm": 0.0006885856273584068,
      "learning_rate": 0.0002101186432102573,
      "loss": 0.0025,
      "step": 4742
    },
    {
      "epoch": 21.270194202082745,
      "grad_norm": 0.00022367792553268373,
      "learning_rate": 0.00020991639321579214,
      "loss": 0.0027,
      "step": 4743
    },
    {
      "epoch": 21.274697438784127,
      "grad_norm": 0.0003869444190058857,
      "learning_rate": 0.00020971421474128528,
      "loss": 0.0023,
      "step": 4744
    },
    {
      "epoch": 21.279200675485505,
      "grad_norm": 0.03528236597776413,
      "learning_rate": 0.00020951210783658436,
      "loss": 0.0266,
      "step": 4745
    },
    {
      "epoch": 21.283703912186883,
      "grad_norm": 0.0003424540627747774,
      "learning_rate": 0.000209310072551518,
      "loss": 0.0024,
      "step": 4746
    },
    {
      "epoch": 21.288207148888265,
      "grad_norm": 0.00014272984117269516,
      "learning_rate": 0.00020910810893589845,
      "loss": 0.0281,
      "step": 4747
    },
    {
      "epoch": 21.292710385589643,
      "grad_norm": 0.032594699412584305,
      "learning_rate": 0.00020890621703951952,
      "loss": 0.0023,
      "step": 4748
    },
    {
      "epoch": 21.29721362229102,
      "grad_norm": 0.00021090720838401467,
      "learning_rate": 0.00020870439691215748,
      "loss": 0.0022,
      "step": 4749
    },
    {
      "epoch": 21.3017168589924,
      "grad_norm": 0.00021150846441742033,
      "learning_rate": 0.00020850264860357092,
      "loss": 0.0023,
      "step": 4750
    },
    {
      "epoch": 21.30622009569378,
      "grad_norm": 0.00023755589791107923,
      "learning_rate": 0.0002083009721635011,
      "loss": 0.0024,
      "step": 4751
    },
    {
      "epoch": 21.31072333239516,
      "grad_norm": 0.00037251145113259554,
      "learning_rate": 0.00020809936764167104,
      "loss": 0.0025,
      "step": 4752
    },
    {
      "epoch": 21.315226569096538,
      "grad_norm": 0.0004624514258466661,
      "learning_rate": 0.0002078978350877862,
      "loss": 0.0023,
      "step": 4753
    },
    {
      "epoch": 21.319729805797916,
      "grad_norm": 0.0002557896077632904,
      "learning_rate": 0.00020769637455153418,
      "loss": 0.0028,
      "step": 4754
    },
    {
      "epoch": 21.324233042499298,
      "grad_norm": 0.0009768964955583215,
      "learning_rate": 0.0002074949860825853,
      "loss": 0.0023,
      "step": 4755
    },
    {
      "epoch": 21.328736279200676,
      "grad_norm": 0.0002712416462600231,
      "learning_rate": 0.00020729366973059167,
      "loss": 0.0024,
      "step": 4756
    },
    {
      "epoch": 21.333239515902054,
      "grad_norm": 0.00032888163696043193,
      "learning_rate": 0.00020709242554518766,
      "loss": 0.0023,
      "step": 4757
    },
    {
      "epoch": 21.337742752603432,
      "grad_norm": 5.509265247383155e-05,
      "learning_rate": 0.00020689125357598975,
      "loss": 0.0025,
      "step": 4758
    },
    {
      "epoch": 21.342245989304814,
      "grad_norm": 0.0005361898220144212,
      "learning_rate": 0.00020669015387259721,
      "loss": 0.0024,
      "step": 4759
    },
    {
      "epoch": 21.346749226006192,
      "grad_norm": 0.00041546611464582384,
      "learning_rate": 0.00020648912648459073,
      "loss": 0.0027,
      "step": 4760
    },
    {
      "epoch": 21.35125246270757,
      "grad_norm": 0.0004112579335924238,
      "learning_rate": 0.0002062881714615335,
      "loss": 0.0023,
      "step": 4761
    },
    {
      "epoch": 21.35575569940895,
      "grad_norm": 0.00011919772805413231,
      "learning_rate": 0.00020608728885297128,
      "loss": 0.0022,
      "step": 4762
    },
    {
      "epoch": 21.36025893611033,
      "grad_norm": 0.0001641184790059924,
      "learning_rate": 0.0002058864787084309,
      "loss": 0.0024,
      "step": 4763
    },
    {
      "epoch": 21.36476217281171,
      "grad_norm": 0.0016648301389068365,
      "learning_rate": 0.00020568574107742254,
      "loss": 0.0036,
      "step": 4764
    },
    {
      "epoch": 21.369265409513087,
      "grad_norm": 0.00023999404220376164,
      "learning_rate": 0.00020548507600943766,
      "loss": 0.0023,
      "step": 4765
    },
    {
      "epoch": 21.373768646214465,
      "grad_norm": 0.0005395662155933678,
      "learning_rate": 0.0002052844835539505,
      "loss": 0.0025,
      "step": 4766
    },
    {
      "epoch": 21.378271882915847,
      "grad_norm": 0.0004576322971843183,
      "learning_rate": 0.0002050839637604165,
      "loss": 0.0024,
      "step": 4767
    },
    {
      "epoch": 21.382775119617225,
      "grad_norm": 0.00022263800201471895,
      "learning_rate": 0.0002048835166782741,
      "loss": 0.0022,
      "step": 4768
    },
    {
      "epoch": 21.387278356318603,
      "grad_norm": 0.00024007914180401713,
      "learning_rate": 0.0002046831423569433,
      "loss": 0.0023,
      "step": 4769
    },
    {
      "epoch": 21.39178159301998,
      "grad_norm": 0.00032567011658102274,
      "learning_rate": 0.00020448284084582623,
      "loss": 0.0023,
      "step": 4770
    },
    {
      "epoch": 21.396284829721363,
      "grad_norm": 0.0019919793121516705,
      "learning_rate": 0.00020428261219430704,
      "loss": 0.003,
      "step": 4771
    },
    {
      "epoch": 21.40078806642274,
      "grad_norm": 0.00023914682969916612,
      "learning_rate": 0.00020408245645175228,
      "loss": 0.0026,
      "step": 4772
    },
    {
      "epoch": 21.40529130312412,
      "grad_norm": 0.0012148097157478333,
      "learning_rate": 0.00020388237366751006,
      "loss": 0.0022,
      "step": 4773
    },
    {
      "epoch": 21.409794539825498,
      "grad_norm": 0.0007461914210580289,
      "learning_rate": 0.00020368236389091076,
      "loss": 0.0031,
      "step": 4774
    },
    {
      "epoch": 21.41429777652688,
      "grad_norm": 0.0008580851717852056,
      "learning_rate": 0.0002034824271712664,
      "loss": 0.0023,
      "step": 4775
    },
    {
      "epoch": 21.418801013228258,
      "grad_norm": 0.00035266668419353664,
      "learning_rate": 0.00020328256355787172,
      "loss": 0.0024,
      "step": 4776
    },
    {
      "epoch": 21.423304249929636,
      "grad_norm": 0.000271355063887313,
      "learning_rate": 0.00020308277310000274,
      "loss": 0.0024,
      "step": 4777
    },
    {
      "epoch": 21.427807486631018,
      "grad_norm": 0.00021761818788945675,
      "learning_rate": 0.0002028830558469176,
      "loss": 0.0022,
      "step": 4778
    },
    {
      "epoch": 21.432310723332396,
      "grad_norm": 0.0003163981018587947,
      "learning_rate": 0.0002026834118478567,
      "loss": 0.0024,
      "step": 4779
    },
    {
      "epoch": 21.436813960033774,
      "grad_norm": 0.08519595861434937,
      "learning_rate": 0.0002024838411520421,
      "loss": 0.0236,
      "step": 4780
    },
    {
      "epoch": 21.441317196735152,
      "grad_norm": 0.00017363388906233013,
      "learning_rate": 0.00020228434380867777,
      "loss": 0.0022,
      "step": 4781
    },
    {
      "epoch": 21.445820433436534,
      "grad_norm": 0.0002477398084010929,
      "learning_rate": 0.0002020849198669496,
      "loss": 0.0021,
      "step": 4782
    },
    {
      "epoch": 21.450323670137912,
      "grad_norm": 0.001778904814273119,
      "learning_rate": 0.0002018855693760257,
      "loss": 0.0035,
      "step": 4783
    },
    {
      "epoch": 21.45482690683929,
      "grad_norm": 0.002008226467296481,
      "learning_rate": 0.00020168629238505575,
      "loss": 0.0041,
      "step": 4784
    },
    {
      "epoch": 21.45933014354067,
      "grad_norm": 0.00012961796892341226,
      "learning_rate": 0.0002014870889431713,
      "loss": 0.0036,
      "step": 4785
    },
    {
      "epoch": 21.46383338024205,
      "grad_norm": 0.0018682910595089197,
      "learning_rate": 0.00020128795909948573,
      "loss": 0.0049,
      "step": 4786
    },
    {
      "epoch": 21.46833661694343,
      "grad_norm": 0.003201790852472186,
      "learning_rate": 0.00020108890290309488,
      "loss": 0.0022,
      "step": 4787
    },
    {
      "epoch": 21.472839853644807,
      "grad_norm": 0.06702867150306702,
      "learning_rate": 0.0002008899204030753,
      "loss": 0.0271,
      "step": 4788
    },
    {
      "epoch": 21.477343090346185,
      "grad_norm": 0.00029475081828422844,
      "learning_rate": 0.00020069101164848653,
      "loss": 0.0022,
      "step": 4789
    },
    {
      "epoch": 21.481846327047567,
      "grad_norm": 0.0003293749177828431,
      "learning_rate": 0.00020049217668836905,
      "loss": 0.0031,
      "step": 4790
    },
    {
      "epoch": 21.486349563748945,
      "grad_norm": 0.0055452375672757626,
      "learning_rate": 0.00020029341557174603,
      "loss": 0.0078,
      "step": 4791
    },
    {
      "epoch": 21.490852800450323,
      "grad_norm": 0.0003768324968405068,
      "learning_rate": 0.0002000947283476212,
      "loss": 0.0022,
      "step": 4792
    },
    {
      "epoch": 21.4953560371517,
      "grad_norm": 0.00027024809969589114,
      "learning_rate": 0.00019989611506498139,
      "loss": 0.0028,
      "step": 4793
    },
    {
      "epoch": 21.499859273853083,
      "grad_norm": 0.0009738990920595825,
      "learning_rate": 0.00019969757577279441,
      "loss": 0.0025,
      "step": 4794
    },
    {
      "epoch": 21.50436251055446,
      "grad_norm": 0.0002836987841874361,
      "learning_rate": 0.00019949911052000974,
      "loss": 0.0023,
      "step": 4795
    },
    {
      "epoch": 21.50886574725584,
      "grad_norm": 0.0006299372762441635,
      "learning_rate": 0.00019930071935555932,
      "loss": 0.0024,
      "step": 4796
    },
    {
      "epoch": 21.513368983957218,
      "grad_norm": 5.483873246703297e-05,
      "learning_rate": 0.0001991024023283562,
      "loss": 0.0021,
      "step": 4797
    },
    {
      "epoch": 21.5178722206586,
      "grad_norm": 0.00016296823741868138,
      "learning_rate": 0.00019890415948729535,
      "loss": 0.0023,
      "step": 4798
    },
    {
      "epoch": 21.522375457359978,
      "grad_norm": 0.0013036368181928992,
      "learning_rate": 0.00019870599088125324,
      "loss": 0.0025,
      "step": 4799
    },
    {
      "epoch": 21.526878694061356,
      "grad_norm": 0.00918956845998764,
      "learning_rate": 0.00019850789655908858,
      "loss": 0.008,
      "step": 4800
    },
    {
      "epoch": 21.531381930762734,
      "grad_norm": 0.00014565681340172887,
      "learning_rate": 0.00019830987656964123,
      "loss": 0.0022,
      "step": 4801
    },
    {
      "epoch": 21.535885167464116,
      "grad_norm": 0.0004142017860431224,
      "learning_rate": 0.00019811193096173297,
      "loss": 0.0024,
      "step": 4802
    },
    {
      "epoch": 21.540388404165494,
      "grad_norm": 0.0003115127910859883,
      "learning_rate": 0.00019791405978416695,
      "loss": 0.0022,
      "step": 4803
    },
    {
      "epoch": 21.544891640866872,
      "grad_norm": 0.007214927580207586,
      "learning_rate": 0.00019771626308572854,
      "loss": 0.0103,
      "step": 4804
    },
    {
      "epoch": 21.549394877568254,
      "grad_norm": 0.0004821967741008848,
      "learning_rate": 0.00019751854091518435,
      "loss": 0.0023,
      "step": 4805
    },
    {
      "epoch": 21.553898114269632,
      "grad_norm": 0.00032380770426243544,
      "learning_rate": 0.00019732089332128255,
      "loss": 0.0026,
      "step": 4806
    },
    {
      "epoch": 21.55840135097101,
      "grad_norm": 0.03929363936185837,
      "learning_rate": 0.00019712332035275293,
      "loss": 0.0324,
      "step": 4807
    },
    {
      "epoch": 21.56290458767239,
      "grad_norm": 0.0010122221428900957,
      "learning_rate": 0.0001969258220583075,
      "loss": 0.0025,
      "step": 4808
    },
    {
      "epoch": 21.56740782437377,
      "grad_norm": 0.0017705252394080162,
      "learning_rate": 0.0001967283984866387,
      "loss": 0.0031,
      "step": 4809
    },
    {
      "epoch": 21.57191106107515,
      "grad_norm": 0.0005186104099266231,
      "learning_rate": 0.0001965310496864217,
      "loss": 0.0024,
      "step": 4810
    },
    {
      "epoch": 21.576414297776527,
      "grad_norm": 0.00015724064724054188,
      "learning_rate": 0.00019633377570631245,
      "loss": 0.0021,
      "step": 4811
    },
    {
      "epoch": 21.580917534477905,
      "grad_norm": 0.008644215762615204,
      "learning_rate": 0.000196136576594949,
      "loss": 0.0044,
      "step": 4812
    },
    {
      "epoch": 21.585420771179287,
      "grad_norm": 0.0010105188703164458,
      "learning_rate": 0.0001959394524009505,
      "loss": 0.0025,
      "step": 4813
    },
    {
      "epoch": 21.589924007880665,
      "grad_norm": 0.00018554934649728239,
      "learning_rate": 0.00019574240317291793,
      "loss": 0.0028,
      "step": 4814
    },
    {
      "epoch": 21.594427244582043,
      "grad_norm": 0.001160656800493598,
      "learning_rate": 0.0001955454289594336,
      "loss": 0.0025,
      "step": 4815
    },
    {
      "epoch": 21.59893048128342,
      "grad_norm": 0.00026431388687342405,
      "learning_rate": 0.00019534852980906126,
      "loss": 0.0022,
      "step": 4816
    },
    {
      "epoch": 21.603433717984803,
      "grad_norm": 0.00047902853111736476,
      "learning_rate": 0.00019515170577034659,
      "loss": 0.0024,
      "step": 4817
    },
    {
      "epoch": 21.60793695468618,
      "grad_norm": 0.00035159484832547605,
      "learning_rate": 0.00019495495689181614,
      "loss": 0.0023,
      "step": 4818
    },
    {
      "epoch": 21.61244019138756,
      "grad_norm": 0.023844420909881592,
      "learning_rate": 0.0001947582832219787,
      "loss": 0.0172,
      "step": 4819
    },
    {
      "epoch": 21.616943428088938,
      "grad_norm": 0.0007313756505027413,
      "learning_rate": 0.00019456168480932345,
      "loss": 0.0025,
      "step": 4820
    },
    {
      "epoch": 21.62144666479032,
      "grad_norm": 0.00029655234538950026,
      "learning_rate": 0.0001943651617023221,
      "loss": 0.0024,
      "step": 4821
    },
    {
      "epoch": 21.625949901491698,
      "grad_norm": 0.0010619009844958782,
      "learning_rate": 0.00019416871394942715,
      "loss": 0.003,
      "step": 4822
    },
    {
      "epoch": 21.630453138193076,
      "grad_norm": 0.00011545102461241186,
      "learning_rate": 0.00019397234159907272,
      "loss": 0.0022,
      "step": 4823
    },
    {
      "epoch": 21.634956374894454,
      "grad_norm": 0.017356742173433304,
      "learning_rate": 0.00019377604469967408,
      "loss": 0.0086,
      "step": 4824
    },
    {
      "epoch": 21.639459611595836,
      "grad_norm": 0.00017918343655765057,
      "learning_rate": 0.0001935798232996285,
      "loss": 0.0022,
      "step": 4825
    },
    {
      "epoch": 21.643962848297214,
      "grad_norm": 0.0009000874706543982,
      "learning_rate": 0.0001933836774473141,
      "loss": 0.0025,
      "step": 4826
    },
    {
      "epoch": 21.648466084998592,
      "grad_norm": 0.00038873625453561544,
      "learning_rate": 0.00019318760719109053,
      "loss": 0.0022,
      "step": 4827
    },
    {
      "epoch": 21.65296932169997,
      "grad_norm": 0.0001217444587382488,
      "learning_rate": 0.00019299161257929853,
      "loss": 0.0022,
      "step": 4828
    },
    {
      "epoch": 21.657472558401352,
      "grad_norm": 0.00037165445974096656,
      "learning_rate": 0.000192795693660261,
      "loss": 0.0023,
      "step": 4829
    },
    {
      "epoch": 21.66197579510273,
      "grad_norm": 0.00015554401034023613,
      "learning_rate": 0.00019259985048228134,
      "loss": 0.0021,
      "step": 4830
    },
    {
      "epoch": 21.66647903180411,
      "grad_norm": 0.0003996221348643303,
      "learning_rate": 0.00019240408309364465,
      "loss": 0.0023,
      "step": 4831
    },
    {
      "epoch": 21.670982268505487,
      "grad_norm": 0.03019946627318859,
      "learning_rate": 0.0001922083915426171,
      "loss": 0.0097,
      "step": 4832
    },
    {
      "epoch": 21.67548550520687,
      "grad_norm": 0.0014637232525274158,
      "learning_rate": 0.00019201277587744658,
      "loss": 0.0029,
      "step": 4833
    },
    {
      "epoch": 21.679988741908247,
      "grad_norm": 0.0007349015213549137,
      "learning_rate": 0.00019181723614636198,
      "loss": 0.0023,
      "step": 4834
    },
    {
      "epoch": 21.684491978609625,
      "grad_norm": 0.0003733786870725453,
      "learning_rate": 0.00019162177239757334,
      "loss": 0.0024,
      "step": 4835
    },
    {
      "epoch": 21.688995215311003,
      "grad_norm": 0.0002833419421222061,
      "learning_rate": 0.00019142638467927253,
      "loss": 0.0021,
      "step": 4836
    },
    {
      "epoch": 21.693498452012385,
      "grad_norm": 0.0003165974630974233,
      "learning_rate": 0.00019123107303963173,
      "loss": 0.0024,
      "step": 4837
    },
    {
      "epoch": 21.698001688713763,
      "grad_norm": 0.00027163076447322965,
      "learning_rate": 0.00019103583752680536,
      "loss": 0.0023,
      "step": 4838
    },
    {
      "epoch": 21.70250492541514,
      "grad_norm": 0.009700672701001167,
      "learning_rate": 0.00019084067818892836,
      "loss": 0.0049,
      "step": 4839
    },
    {
      "epoch": 21.707008162116523,
      "grad_norm": 0.00020551883790176362,
      "learning_rate": 0.00019064559507411767,
      "loss": 0.0022,
      "step": 4840
    },
    {
      "epoch": 21.7115113988179,
      "grad_norm": 0.00023565132869407535,
      "learning_rate": 0.00019045058823047013,
      "loss": 0.0025,
      "step": 4841
    },
    {
      "epoch": 21.71601463551928,
      "grad_norm": 0.0016768283676356077,
      "learning_rate": 0.0001902556577060652,
      "loss": 0.0033,
      "step": 4842
    },
    {
      "epoch": 21.720517872220658,
      "grad_norm": 0.00012463188613764942,
      "learning_rate": 0.00019006080354896265,
      "loss": 0.0022,
      "step": 4843
    },
    {
      "epoch": 21.72502110892204,
      "grad_norm": 0.0017413898603990674,
      "learning_rate": 0.00018986602580720375,
      "loss": 0.0109,
      "step": 4844
    },
    {
      "epoch": 21.729524345623418,
      "grad_norm": 0.0074766855686903,
      "learning_rate": 0.00018967132452881065,
      "loss": 0.0021,
      "step": 4845
    },
    {
      "epoch": 21.734027582324796,
      "grad_norm": 0.0002348673006054014,
      "learning_rate": 0.00018947669976178712,
      "loss": 0.0022,
      "step": 4846
    },
    {
      "epoch": 21.738530819026174,
      "grad_norm": 0.0003166747046634555,
      "learning_rate": 0.0001892821515541177,
      "loss": 0.0022,
      "step": 4847
    },
    {
      "epoch": 21.743034055727556,
      "grad_norm": 0.00024621307966299355,
      "learning_rate": 0.00018908767995376812,
      "loss": 0.0022,
      "step": 4848
    },
    {
      "epoch": 21.747537292428934,
      "grad_norm": 0.00015380467812065035,
      "learning_rate": 0.00018889328500868515,
      "loss": 0.0022,
      "step": 4849
    },
    {
      "epoch": 21.752040529130312,
      "grad_norm": 7.909844134701416e-05,
      "learning_rate": 0.00018869896676679694,
      "loss": 0.0021,
      "step": 4850
    },
    {
      "epoch": 21.75654376583169,
      "grad_norm": 0.00033886267920024693,
      "learning_rate": 0.0001885047252760125,
      "loss": 0.0023,
      "step": 4851
    },
    {
      "epoch": 21.761047002533072,
      "grad_norm": 0.00011440338130341843,
      "learning_rate": 0.00018831056058422175,
      "loss": 0.0022,
      "step": 4852
    },
    {
      "epoch": 21.76555023923445,
      "grad_norm": 0.0010658177779987454,
      "learning_rate": 0.00018811647273929628,
      "loss": 0.0028,
      "step": 4853
    },
    {
      "epoch": 21.77005347593583,
      "grad_norm": 0.000518342771101743,
      "learning_rate": 0.00018792246178908818,
      "loss": 0.0023,
      "step": 4854
    },
    {
      "epoch": 21.774556712637207,
      "grad_norm": 0.001231794129125774,
      "learning_rate": 0.00018772852778143064,
      "loss": 0.0029,
      "step": 4855
    },
    {
      "epoch": 21.77905994933859,
      "grad_norm": 0.0002327766123926267,
      "learning_rate": 0.0001875346707641379,
      "loss": 0.0022,
      "step": 4856
    },
    {
      "epoch": 21.783563186039967,
      "grad_norm": 0.00020858256903011352,
      "learning_rate": 0.00018734089078500566,
      "loss": 0.0022,
      "step": 4857
    },
    {
      "epoch": 21.788066422741345,
      "grad_norm": 0.0012141070328652859,
      "learning_rate": 0.00018714718789181002,
      "loss": 0.0027,
      "step": 4858
    },
    {
      "epoch": 21.792569659442723,
      "grad_norm": 0.0009485328337177634,
      "learning_rate": 0.0001869535621323084,
      "loss": 0.0031,
      "step": 4859
    },
    {
      "epoch": 21.797072896144105,
      "grad_norm": 0.02194051444530487,
      "learning_rate": 0.00018676001355423893,
      "loss": 0.0145,
      "step": 4860
    },
    {
      "epoch": 21.801576132845483,
      "grad_norm": 0.00018734864715952426,
      "learning_rate": 0.00018656654220532143,
      "loss": 0.0022,
      "step": 4861
    },
    {
      "epoch": 21.80607936954686,
      "grad_norm": 0.000335368124069646,
      "learning_rate": 0.0001863731481332555,
      "loss": 0.0022,
      "step": 4862
    },
    {
      "epoch": 21.81058260624824,
      "grad_norm": 9.074858826352283e-05,
      "learning_rate": 0.00018617983138572277,
      "loss": 0.0022,
      "step": 4863
    },
    {
      "epoch": 21.81508584294962,
      "grad_norm": 0.0007131741149351001,
      "learning_rate": 0.00018598659201038515,
      "loss": 0.0021,
      "step": 4864
    },
    {
      "epoch": 21.819589079651,
      "grad_norm": 0.0003096164728049189,
      "learning_rate": 0.00018579343005488614,
      "loss": 0.0087,
      "step": 4865
    },
    {
      "epoch": 21.824092316352377,
      "grad_norm": 0.018183976411819458,
      "learning_rate": 0.00018560034556684902,
      "loss": 0.0022,
      "step": 4866
    },
    {
      "epoch": 21.82859555305376,
      "grad_norm": 0.0012151410337537527,
      "learning_rate": 0.00018540733859387926,
      "loss": 0.0032,
      "step": 4867
    },
    {
      "epoch": 21.833098789755137,
      "grad_norm": 0.00040746855665929615,
      "learning_rate": 0.00018521440918356236,
      "loss": 0.0022,
      "step": 4868
    },
    {
      "epoch": 21.837602026456516,
      "grad_norm": 0.00023037579376250505,
      "learning_rate": 0.00018502155738346488,
      "loss": 0.0031,
      "step": 4869
    },
    {
      "epoch": 21.842105263157894,
      "grad_norm": 0.003090167883783579,
      "learning_rate": 0.00018482878324113466,
      "loss": 0.0034,
      "step": 4870
    },
    {
      "epoch": 21.846608499859276,
      "grad_norm": 0.03216586634516716,
      "learning_rate": 0.00018463608680409984,
      "loss": 0.0203,
      "step": 4871
    },
    {
      "epoch": 21.851111736560654,
      "grad_norm": 0.0009769032476469874,
      "learning_rate": 0.00018444346811986967,
      "loss": 0.0026,
      "step": 4872
    },
    {
      "epoch": 21.855614973262032,
      "grad_norm": 0.00048542555305175483,
      "learning_rate": 0.00018425092723593395,
      "loss": 0.0023,
      "step": 4873
    },
    {
      "epoch": 21.86011820996341,
      "grad_norm": 0.000309348659357056,
      "learning_rate": 0.00018405846419976396,
      "loss": 0.0022,
      "step": 4874
    },
    {
      "epoch": 21.864621446664792,
      "grad_norm": 0.0006481069722212851,
      "learning_rate": 0.0001838660790588111,
      "loss": 0.0043,
      "step": 4875
    },
    {
      "epoch": 21.86912468336617,
      "grad_norm": 0.0030025006271898746,
      "learning_rate": 0.00018367377186050788,
      "loss": 0.0021,
      "step": 4876
    },
    {
      "epoch": 21.87362792006755,
      "grad_norm": 0.00014147436013445258,
      "learning_rate": 0.0001834815426522674,
      "loss": 0.0021,
      "step": 4877
    },
    {
      "epoch": 21.878131156768927,
      "grad_norm": 0.000576247985009104,
      "learning_rate": 0.00018328939148148395,
      "loss": 0.0025,
      "step": 4878
    },
    {
      "epoch": 21.88263439347031,
      "grad_norm": 0.0002862362307496369,
      "learning_rate": 0.00018309731839553212,
      "loss": 0.0022,
      "step": 4879
    },
    {
      "epoch": 21.887137630171686,
      "grad_norm": 0.00019759181304834783,
      "learning_rate": 0.00018290532344176743,
      "loss": 0.002,
      "step": 4880
    },
    {
      "epoch": 21.891640866873065,
      "grad_norm": 0.0015739505179226398,
      "learning_rate": 0.000182713406667526,
      "loss": 0.0035,
      "step": 4881
    },
    {
      "epoch": 21.896144103574443,
      "grad_norm": 0.0007985435076989233,
      "learning_rate": 0.00018252156812012532,
      "loss": 0.0023,
      "step": 4882
    },
    {
      "epoch": 21.900647340275825,
      "grad_norm": 0.00013038805627729744,
      "learning_rate": 0.00018232980784686238,
      "loss": 0.002,
      "step": 4883
    },
    {
      "epoch": 21.905150576977203,
      "grad_norm": 0.00021017856488469988,
      "learning_rate": 0.0001821381258950161,
      "loss": 0.0021,
      "step": 4884
    },
    {
      "epoch": 21.90965381367858,
      "grad_norm": 0.0002966144238598645,
      "learning_rate": 0.00018194652231184516,
      "loss": 0.0022,
      "step": 4885
    },
    {
      "epoch": 21.91415705037996,
      "grad_norm": 0.0006669835420325398,
      "learning_rate": 0.00018175499714458975,
      "loss": 0.0022,
      "step": 4886
    },
    {
      "epoch": 21.91866028708134,
      "grad_norm": 0.00035304794437251985,
      "learning_rate": 0.00018156355044047007,
      "loss": 0.0024,
      "step": 4887
    },
    {
      "epoch": 21.92316352378272,
      "grad_norm": 0.0003329261962790042,
      "learning_rate": 0.0001813721822466873,
      "loss": 0.0116,
      "step": 4888
    },
    {
      "epoch": 21.927666760484097,
      "grad_norm": 0.011531902477145195,
      "learning_rate": 0.00018118089261042296,
      "loss": 0.002,
      "step": 4889
    },
    {
      "epoch": 21.932169997185476,
      "grad_norm": 5.728732867282815e-05,
      "learning_rate": 0.00018098968157883943,
      "loss": 0.0021,
      "step": 4890
    },
    {
      "epoch": 21.936673233886857,
      "grad_norm": 0.028299439698457718,
      "learning_rate": 0.00018079854919907996,
      "loss": 0.0504,
      "step": 4891
    },
    {
      "epoch": 21.941176470588236,
      "grad_norm": 8.728979446459562e-05,
      "learning_rate": 0.00018060749551826783,
      "loss": 0.002,
      "step": 4892
    },
    {
      "epoch": 21.945679707289614,
      "grad_norm": 0.0002018788509303704,
      "learning_rate": 0.00018041652058350767,
      "loss": 0.002,
      "step": 4893
    },
    {
      "epoch": 21.950182943990992,
      "grad_norm": 4.0164057281799614e-05,
      "learning_rate": 0.00018022562444188357,
      "loss": 0.0262,
      "step": 4894
    },
    {
      "epoch": 21.954686180692374,
      "grad_norm": 0.01474746409803629,
      "learning_rate": 0.00018003480714046143,
      "loss": 0.002,
      "step": 4895
    },
    {
      "epoch": 21.959189417393752,
      "grad_norm": 0.0002812568563967943,
      "learning_rate": 0.000179844068726287,
      "loss": 0.0047,
      "step": 4896
    },
    {
      "epoch": 21.96369265409513,
      "grad_norm": 0.0035311393439769745,
      "learning_rate": 0.00017965340924638667,
      "loss": 0.0021,
      "step": 4897
    },
    {
      "epoch": 21.96819589079651,
      "grad_norm": 0.0007859005709178746,
      "learning_rate": 0.00017946282874776732,
      "loss": 0.0025,
      "step": 4898
    },
    {
      "epoch": 21.97269912749789,
      "grad_norm": 0.00040797589463181794,
      "learning_rate": 0.00017927232727741677,
      "loss": 0.002,
      "step": 4899
    },
    {
      "epoch": 21.977202364199268,
      "grad_norm": 0.0002884101413656026,
      "learning_rate": 0.00017908190488230292,
      "loss": 0.0021,
      "step": 4900
    },
    {
      "epoch": 21.981705600900646,
      "grad_norm": 8.300552144646645e-05,
      "learning_rate": 0.00017889156160937425,
      "loss": 0.0021,
      "step": 4901
    },
    {
      "epoch": 21.986208837602028,
      "grad_norm": 0.0001080255678971298,
      "learning_rate": 0.00017870129750555968,
      "loss": 0.0021,
      "step": 4902
    },
    {
      "epoch": 21.990712074303406,
      "grad_norm": 0.0067444429732859135,
      "learning_rate": 0.0001785111126177691,
      "loss": 0.0045,
      "step": 4903
    },
    {
      "epoch": 21.995215311004785,
      "grad_norm": 0.003199150087311864,
      "learning_rate": 0.00017832100699289222,
      "loss": 0.0079,
      "step": 4904
    },
    {
      "epoch": 21.999718547706163,
      "grad_norm": 0.012937633320689201,
      "learning_rate": 0.00017813098067779947,
      "loss": 0.0028,
      "step": 4905
    },
    {
      "epoch": 22.0,
      "grad_norm": 0.012937633320689201,
      "learning_rate": 0.00017794103371934173,
      "loss": 0.0001,
      "step": 4906
    },
    {
      "epoch": 22.0,
      "eval_f1": 0.9869947979191677,
      "eval_loss": 0.037980709224939346,
      "eval_runtime": 26.6191,
      "eval_samples_per_second": 187.76,
      "eval_steps_per_second": 5.898,
      "step": 4906
    },
    {
      "epoch": 22.004503236701378,
      "grad_norm": 0.0008051222539506853,
      "learning_rate": 0.0001777511661643505,
      "loss": 0.0027,
      "step": 4907
    },
    {
      "epoch": 22.00900647340276,
      "grad_norm": 0.0023052894975990057,
      "learning_rate": 0.00017756137805963746,
      "loss": 0.0037,
      "step": 4908
    },
    {
      "epoch": 22.013509710104138,
      "grad_norm": 0.0002971563662867993,
      "learning_rate": 0.00017737166945199452,
      "loss": 0.0021,
      "step": 4909
    },
    {
      "epoch": 22.018012946805516,
      "grad_norm": 0.0006149852997623384,
      "learning_rate": 0.00017718204038819475,
      "loss": 0.0021,
      "step": 4910
    },
    {
      "epoch": 22.022516183506895,
      "grad_norm": 0.00024783218395896256,
      "learning_rate": 0.0001769924909149904,
      "loss": 0.0021,
      "step": 4911
    },
    {
      "epoch": 22.027019420208276,
      "grad_norm": 0.0001261417055502534,
      "learning_rate": 0.00017680302107911546,
      "loss": 0.002,
      "step": 4912
    },
    {
      "epoch": 22.031522656909655,
      "grad_norm": 0.00020547206804621965,
      "learning_rate": 0.00017661363092728305,
      "loss": 0.0022,
      "step": 4913
    },
    {
      "epoch": 22.036025893611033,
      "grad_norm": 0.00022325025929603726,
      "learning_rate": 0.0001764243205061879,
      "loss": 0.0021,
      "step": 4914
    },
    {
      "epoch": 22.04052913031241,
      "grad_norm": 0.00012577474990393966,
      "learning_rate": 0.0001762350898625036,
      "loss": 0.0021,
      "step": 4915
    },
    {
      "epoch": 22.045032367013793,
      "grad_norm": 0.00019100868667010218,
      "learning_rate": 0.00017604593904288547,
      "loss": 0.0022,
      "step": 4916
    },
    {
      "epoch": 22.04953560371517,
      "grad_norm": 0.00032449327409267426,
      "learning_rate": 0.00017585686809396821,
      "loss": 0.0021,
      "step": 4917
    },
    {
      "epoch": 22.05403884041655,
      "grad_norm": 0.0036018837708979845,
      "learning_rate": 0.00017566787706236738,
      "loss": 0.004,
      "step": 4918
    },
    {
      "epoch": 22.058542077117927,
      "grad_norm": 0.00036931774229742587,
      "learning_rate": 0.00017547896599467828,
      "loss": 0.0021,
      "step": 4919
    },
    {
      "epoch": 22.06304531381931,
      "grad_norm": 0.0002470667823217809,
      "learning_rate": 0.00017529013493747725,
      "loss": 0.0022,
      "step": 4920
    },
    {
      "epoch": 22.067548550520687,
      "grad_norm": 0.000511790974996984,
      "learning_rate": 0.00017510138393732027,
      "loss": 0.0022,
      "step": 4921
    },
    {
      "epoch": 22.072051787222065,
      "grad_norm": 0.00039599798037670553,
      "learning_rate": 0.0001749127130407439,
      "loss": 0.0021,
      "step": 4922
    },
    {
      "epoch": 22.076555023923444,
      "grad_norm": 0.0001960835070349276,
      "learning_rate": 0.00017472412229426455,
      "loss": 0.0071,
      "step": 4923
    },
    {
      "epoch": 22.081058260624825,
      "grad_norm": 0.010674684308469296,
      "learning_rate": 0.0001745356117443796,
      "loss": 0.0021,
      "step": 4924
    },
    {
      "epoch": 22.085561497326204,
      "grad_norm": 0.00042787965503521264,
      "learning_rate": 0.00017434718143756594,
      "loss": 0.0023,
      "step": 4925
    },
    {
      "epoch": 22.09006473402758,
      "grad_norm": 0.0004034458252135664,
      "learning_rate": 0.00017415883142028095,
      "loss": 0.0021,
      "step": 4926
    },
    {
      "epoch": 22.09456797072896,
      "grad_norm": 0.000541598885320127,
      "learning_rate": 0.00017397056173896246,
      "loss": 0.0025,
      "step": 4927
    },
    {
      "epoch": 22.09907120743034,
      "grad_norm": 0.0002434844645904377,
      "learning_rate": 0.00017378237244002816,
      "loss": 0.0021,
      "step": 4928
    },
    {
      "epoch": 22.10357444413172,
      "grad_norm": 0.00020604820747394115,
      "learning_rate": 0.0001735942635698759,
      "loss": 0.0021,
      "step": 4929
    },
    {
      "epoch": 22.108077680833098,
      "grad_norm": 0.0001741735904943198,
      "learning_rate": 0.00017340623517488374,
      "loss": 0.0021,
      "step": 4930
    },
    {
      "epoch": 22.112580917534476,
      "grad_norm": 0.0001799875171855092,
      "learning_rate": 0.00017321828730141036,
      "loss": 0.0021,
      "step": 4931
    },
    {
      "epoch": 22.117084154235858,
      "grad_norm": 0.00018122981418855488,
      "learning_rate": 0.00017303041999579394,
      "loss": 0.0036,
      "step": 4932
    },
    {
      "epoch": 22.121587390937236,
      "grad_norm": 0.005088101606816053,
      "learning_rate": 0.00017284263330435317,
      "loss": 0.0022,
      "step": 4933
    },
    {
      "epoch": 22.126090627638614,
      "grad_norm": 0.0006394219817593694,
      "learning_rate": 0.0001726549272733865,
      "loss": 0.0025,
      "step": 4934
    },
    {
      "epoch": 22.130593864339993,
      "grad_norm": 0.00019741139840334654,
      "learning_rate": 0.00017246730194917325,
      "loss": 0.0021,
      "step": 4935
    },
    {
      "epoch": 22.135097101041374,
      "grad_norm": 0.0008375460165552795,
      "learning_rate": 0.0001722797573779718,
      "loss": 0.0024,
      "step": 4936
    },
    {
      "epoch": 22.139600337742753,
      "grad_norm": 5.19620552950073e-05,
      "learning_rate": 0.0001720922936060215,
      "loss": 0.0021,
      "step": 4937
    },
    {
      "epoch": 22.14410357444413,
      "grad_norm": 0.0006707957945764065,
      "learning_rate": 0.00017190491067954123,
      "loss": 0.0022,
      "step": 4938
    },
    {
      "epoch": 22.148606811145513,
      "grad_norm": 0.00040696797077544034,
      "learning_rate": 0.00017171760864473056,
      "loss": 0.0022,
      "step": 4939
    },
    {
      "epoch": 22.15311004784689,
      "grad_norm": 0.00027454327209852636,
      "learning_rate": 0.00017153038754776816,
      "loss": 0.0021,
      "step": 4940
    },
    {
      "epoch": 22.15761328454827,
      "grad_norm": 0.00012935906124766916,
      "learning_rate": 0.00017134324743481368,
      "loss": 0.0021,
      "step": 4941
    },
    {
      "epoch": 22.162116521249647,
      "grad_norm": 0.00013689097249880433,
      "learning_rate": 0.00017115618835200625,
      "loss": 0.0021,
      "step": 4942
    },
    {
      "epoch": 22.16661975795103,
      "grad_norm": 0.00023376179160550237,
      "learning_rate": 0.0001709692103454651,
      "loss": 0.0021,
      "step": 4943
    },
    {
      "epoch": 22.171122994652407,
      "grad_norm": 0.0003576043527573347,
      "learning_rate": 0.00017078231346128985,
      "loss": 0.0022,
      "step": 4944
    },
    {
      "epoch": 22.175626231353785,
      "grad_norm": 8.52922021294944e-05,
      "learning_rate": 0.00017059549774555967,
      "loss": 0.002,
      "step": 4945
    },
    {
      "epoch": 22.180129468055163,
      "grad_norm": 0.00010352211393183097,
      "learning_rate": 0.00017040876324433385,
      "loss": 0.0021,
      "step": 4946
    },
    {
      "epoch": 22.184632704756545,
      "grad_norm": 0.00018273618479724973,
      "learning_rate": 0.00017022211000365152,
      "loss": 0.0022,
      "step": 4947
    },
    {
      "epoch": 22.189135941457923,
      "grad_norm": 0.0009718173532746732,
      "learning_rate": 0.00017003553806953226,
      "loss": 0.0021,
      "step": 4948
    },
    {
      "epoch": 22.1936391781593,
      "grad_norm": 6.763562851119787e-05,
      "learning_rate": 0.0001698490474879752,
      "loss": 0.002,
      "step": 4949
    },
    {
      "epoch": 22.19814241486068,
      "grad_norm": 0.00014055818610358983,
      "learning_rate": 0.00016966263830495937,
      "loss": 0.002,
      "step": 4950
    },
    {
      "epoch": 22.20264565156206,
      "grad_norm": 0.003258474636822939,
      "learning_rate": 0.00016947631056644374,
      "loss": 0.0051,
      "step": 4951
    },
    {
      "epoch": 22.20714888826344,
      "grad_norm": 0.00010771518282126635,
      "learning_rate": 0.0001692900643183677,
      "loss": 0.0021,
      "step": 4952
    },
    {
      "epoch": 22.211652124964818,
      "grad_norm": 0.00025439541786909103,
      "learning_rate": 0.0001691038996066499,
      "loss": 0.0021,
      "step": 4953
    },
    {
      "epoch": 22.216155361666196,
      "grad_norm": 0.0008252468542195857,
      "learning_rate": 0.00016891781647718923,
      "loss": 0.0032,
      "step": 4954
    },
    {
      "epoch": 22.220658598367578,
      "grad_norm": 0.00014000525698065758,
      "learning_rate": 0.0001687318149758642,
      "loss": 0.002,
      "step": 4955
    },
    {
      "epoch": 22.225161835068956,
      "grad_norm": 0.00022326456382870674,
      "learning_rate": 0.00016854589514853386,
      "loss": 0.002,
      "step": 4956
    },
    {
      "epoch": 22.229665071770334,
      "grad_norm": 0.0001245231251232326,
      "learning_rate": 0.000168360057041036,
      "loss": 0.0021,
      "step": 4957
    },
    {
      "epoch": 22.234168308471713,
      "grad_norm": 0.00023338088067248464,
      "learning_rate": 0.00016817430069918936,
      "loss": 0.0025,
      "step": 4958
    },
    {
      "epoch": 22.238671545173094,
      "grad_norm": 0.0003968444070778787,
      "learning_rate": 0.00016798862616879186,
      "loss": 0.002,
      "step": 4959
    },
    {
      "epoch": 22.243174781874473,
      "grad_norm": 0.00014336244203150272,
      "learning_rate": 0.0001678030334956216,
      "loss": 0.0021,
      "step": 4960
    },
    {
      "epoch": 22.24767801857585,
      "grad_norm": 9.372044587507844e-05,
      "learning_rate": 0.0001676175227254363,
      "loss": 0.002,
      "step": 4961
    },
    {
      "epoch": 22.25218125527723,
      "grad_norm": 0.00025169571745209396,
      "learning_rate": 0.00016743209390397356,
      "loss": 0.0021,
      "step": 4962
    },
    {
      "epoch": 22.25668449197861,
      "grad_norm": 0.00012096406135242432,
      "learning_rate": 0.0001672467470769507,
      "loss": 0.0021,
      "step": 4963
    },
    {
      "epoch": 22.26118772867999,
      "grad_norm": 0.0001460817438783124,
      "learning_rate": 0.00016706148229006474,
      "loss": 0.002,
      "step": 4964
    },
    {
      "epoch": 22.265690965381367,
      "grad_norm": 0.00011745654774131253,
      "learning_rate": 0.00016687629958899298,
      "loss": 0.002,
      "step": 4965
    },
    {
      "epoch": 22.270194202082745,
      "grad_norm": 0.00016763941675890237,
      "learning_rate": 0.0001666911990193917,
      "loss": 0.0021,
      "step": 4966
    },
    {
      "epoch": 22.274697438784127,
      "grad_norm": 0.00018360595277044922,
      "learning_rate": 0.00016650618062689793,
      "loss": 0.0021,
      "step": 4967
    },
    {
      "epoch": 22.279200675485505,
      "grad_norm": 0.00016064477676991373,
      "learning_rate": 0.00016632124445712716,
      "loss": 0.0021,
      "step": 4968
    },
    {
      "epoch": 22.283703912186883,
      "grad_norm": 0.00024670324637554586,
      "learning_rate": 0.00016613639055567582,
      "loss": 0.002,
      "step": 4969
    },
    {
      "epoch": 22.288207148888265,
      "grad_norm": 9.687304554972798e-05,
      "learning_rate": 0.00016595161896811928,
      "loss": 0.0043,
      "step": 4970
    },
    {
      "epoch": 22.292710385589643,
      "grad_norm": 0.0062190210446715355,
      "learning_rate": 0.000165766929740013,
      "loss": 0.0021,
      "step": 4971
    },
    {
      "epoch": 22.29721362229102,
      "grad_norm": 0.00017603376181796193,
      "learning_rate": 0.0001655823229168918,
      "loss": 0.002,
      "step": 4972
    },
    {
      "epoch": 22.3017168589924,
      "grad_norm": 0.000180744071258232,
      "learning_rate": 0.00016539779854427074,
      "loss": 0.0023,
      "step": 4973
    },
    {
      "epoch": 22.30622009569378,
      "grad_norm": 0.0004991755704395473,
      "learning_rate": 0.00016521335666764398,
      "loss": 0.002,
      "step": 4974
    },
    {
      "epoch": 22.31072333239516,
      "grad_norm": 0.00043229106813669205,
      "learning_rate": 0.00016502899733248562,
      "loss": 0.0025,
      "step": 4975
    },
    {
      "epoch": 22.315226569096538,
      "grad_norm": 8.649584924569353e-05,
      "learning_rate": 0.00016484472058424915,
      "loss": 0.0021,
      "step": 4976
    },
    {
      "epoch": 22.319729805797916,
      "grad_norm": 0.0002571887744124979,
      "learning_rate": 0.00016466052646836832,
      "loss": 0.002,
      "step": 4977
    },
    {
      "epoch": 22.324233042499298,
      "grad_norm": 0.0003383067378308624,
      "learning_rate": 0.00016447641503025584,
      "loss": 0.0022,
      "step": 4978
    },
    {
      "epoch": 22.328736279200676,
      "grad_norm": 0.00029265001649037004,
      "learning_rate": 0.0001642923863153043,
      "loss": 0.0021,
      "step": 4979
    },
    {
      "epoch": 22.333239515902054,
      "grad_norm": 0.00014907075092196465,
      "learning_rate": 0.00016410844036888572,
      "loss": 0.002,
      "step": 4980
    },
    {
      "epoch": 22.337742752603432,
      "grad_norm": 0.00020367598335724324,
      "learning_rate": 0.0001639245772363523,
      "loss": 0.0021,
      "step": 4981
    },
    {
      "epoch": 22.342245989304814,
      "grad_norm": 0.0002007237490033731,
      "learning_rate": 0.00016374079696303506,
      "loss": 0.0021,
      "step": 4982
    },
    {
      "epoch": 22.346749226006192,
      "grad_norm": 0.0005238826270215213,
      "learning_rate": 0.00016355709959424487,
      "loss": 0.0022,
      "step": 4983
    },
    {
      "epoch": 22.35125246270757,
      "grad_norm": 0.00013638506061397493,
      "learning_rate": 0.00016337348517527273,
      "loss": 0.0021,
      "step": 4984
    },
    {
      "epoch": 22.35575569940895,
      "grad_norm": 0.00021572140394710004,
      "learning_rate": 0.00016318995375138795,
      "loss": 0.0024,
      "step": 4985
    },
    {
      "epoch": 22.36025893611033,
      "grad_norm": 0.0008479692623950541,
      "learning_rate": 0.00016300650536784066,
      "loss": 0.002,
      "step": 4986
    },
    {
      "epoch": 22.36476217281171,
      "grad_norm": 0.00013625426799990237,
      "learning_rate": 0.0001628231400698596,
      "loss": 0.0021,
      "step": 4987
    },
    {
      "epoch": 22.369265409513087,
      "grad_norm": 0.0001137674626079388,
      "learning_rate": 0.00016263985790265385,
      "loss": 0.002,
      "step": 4988
    },
    {
      "epoch": 22.373768646214465,
      "grad_norm": 0.00022845237981528044,
      "learning_rate": 0.00016245665891141093,
      "loss": 0.0022,
      "step": 4989
    },
    {
      "epoch": 22.378271882915847,
      "grad_norm": 0.0006229611462913454,
      "learning_rate": 0.00016227354314129894,
      "loss": 0.0024,
      "step": 4990
    },
    {
      "epoch": 22.382775119617225,
      "grad_norm": 0.0003814644296653569,
      "learning_rate": 0.0001620905106374646,
      "loss": 0.0022,
      "step": 4991
    },
    {
      "epoch": 22.387278356318603,
      "grad_norm": 0.00020315957954153419,
      "learning_rate": 0.000161907561445035,
      "loss": 0.0022,
      "step": 4992
    },
    {
      "epoch": 22.39178159301998,
      "grad_norm": 0.0003768117749132216,
      "learning_rate": 0.0001617246956091155,
      "loss": 0.0022,
      "step": 4993
    },
    {
      "epoch": 22.396284829721363,
      "grad_norm": 0.0011002132669091225,
      "learning_rate": 0.00016154191317479212,
      "loss": 0.0024,
      "step": 4994
    },
    {
      "epoch": 22.40078806642274,
      "grad_norm": 3.376346285222098e-05,
      "learning_rate": 0.00016135921418712956,
      "loss": 0.002,
      "step": 4995
    },
    {
      "epoch": 22.40529130312412,
      "grad_norm": 0.0002428979059914127,
      "learning_rate": 0.00016117659869117212,
      "loss": 0.0019,
      "step": 4996
    },
    {
      "epoch": 22.409794539825498,
      "grad_norm": 0.0007790187373757362,
      "learning_rate": 0.00016099406673194345,
      "loss": 0.0023,
      "step": 4997
    },
    {
      "epoch": 22.41429777652688,
      "grad_norm": 3.40614169545006e-05,
      "learning_rate": 0.000160811618354447,
      "loss": 0.002,
      "step": 4998
    },
    {
      "epoch": 22.418801013228258,
      "grad_norm": 7.480947533622384e-05,
      "learning_rate": 0.0001606292536036652,
      "loss": 0.002,
      "step": 4999
    },
    {
      "epoch": 22.423304249929636,
      "grad_norm": 0.00011335123417666182,
      "learning_rate": 0.00016044697252455976,
      "loss": 0.002,
      "step": 5000
    },
    {
      "epoch": 22.427807486631018,
      "grad_norm": 0.0003242672246415168,
      "learning_rate": 0.00016026477516207238,
      "loss": 0.0023,
      "step": 5001
    },
    {
      "epoch": 22.432310723332396,
      "grad_norm": 0.0002821304660756141,
      "learning_rate": 0.00016008266156112349,
      "loss": 0.0021,
      "step": 5002
    },
    {
      "epoch": 22.436813960033774,
      "grad_norm": 0.00018141012697014958,
      "learning_rate": 0.00015990063176661313,
      "loss": 0.002,
      "step": 5003
    },
    {
      "epoch": 22.441317196735152,
      "grad_norm": 0.0002969024935737252,
      "learning_rate": 0.00015971868582342048,
      "loss": 0.0021,
      "step": 5004
    },
    {
      "epoch": 22.445820433436534,
      "grad_norm": 0.00017816959007177502,
      "learning_rate": 0.00015953682377640454,
      "loss": 0.0021,
      "step": 5005
    },
    {
      "epoch": 22.450323670137912,
      "grad_norm": 0.00018549137166701257,
      "learning_rate": 0.00015935504567040322,
      "loss": 0.0021,
      "step": 5006
    },
    {
      "epoch": 22.45482690683929,
      "grad_norm": 0.000197317756828852,
      "learning_rate": 0.00015917335155023367,
      "loss": 0.002,
      "step": 5007
    },
    {
      "epoch": 22.45933014354067,
      "grad_norm": 0.037660952657461166,
      "learning_rate": 0.0001589917414606924,
      "loss": 0.1006,
      "step": 5008
    },
    {
      "epoch": 22.46383338024205,
      "grad_norm": 0.00017293475684709847,
      "learning_rate": 0.00015881021544655573,
      "loss": 0.0021,
      "step": 5009
    },
    {
      "epoch": 22.46833661694343,
      "grad_norm": 0.0003248726425226778,
      "learning_rate": 0.0001586287735525782,
      "loss": 0.0021,
      "step": 5010
    },
    {
      "epoch": 22.472839853644807,
      "grad_norm": 0.00028075295267626643,
      "learning_rate": 0.00015844741582349465,
      "loss": 0.0021,
      "step": 5011
    },
    {
      "epoch": 22.477343090346185,
      "grad_norm": 5.663862975779921e-05,
      "learning_rate": 0.00015826614230401848,
      "loss": 0.0022,
      "step": 5012
    },
    {
      "epoch": 22.481846327047567,
      "grad_norm": 0.00041745248017832637,
      "learning_rate": 0.00015808495303884295,
      "loss": 0.0021,
      "step": 5013
    },
    {
      "epoch": 22.486349563748945,
      "grad_norm": 0.00020362096256576478,
      "learning_rate": 0.00015790384807263968,
      "loss": 0.0023,
      "step": 5014
    },
    {
      "epoch": 22.490852800450323,
      "grad_norm": 0.0010045565431937575,
      "learning_rate": 0.00015772282745006033,
      "loss": 0.0025,
      "step": 5015
    },
    {
      "epoch": 22.4953560371517,
      "grad_norm": 0.0003926164354197681,
      "learning_rate": 0.00015754189121573543,
      "loss": 0.0022,
      "step": 5016
    },
    {
      "epoch": 22.499859273853083,
      "grad_norm": 3.9445414586225525e-05,
      "learning_rate": 0.00015736103941427443,
      "loss": 0.0028,
      "step": 5017
    },
    {
      "epoch": 22.50436251055446,
      "grad_norm": 0.0018785580759868026,
      "learning_rate": 0.0001571802720902666,
      "loss": 0.0022,
      "step": 5018
    },
    {
      "epoch": 22.50886574725584,
      "grad_norm": 0.0001450149284210056,
      "learning_rate": 0.00015699958928827985,
      "loss": 0.0022,
      "step": 5019
    },
    {
      "epoch": 22.513368983957218,
      "grad_norm": 0.005053516943007708,
      "learning_rate": 0.00015681899105286152,
      "loss": 0.0042,
      "step": 5020
    },
    {
      "epoch": 22.5178722206586,
      "grad_norm": 0.0013285119784995914,
      "learning_rate": 0.00015663847742853777,
      "loss": 0.0029,
      "step": 5021
    },
    {
      "epoch": 22.522375457359978,
      "grad_norm": 0.00010462598584126681,
      "learning_rate": 0.00015645804845981442,
      "loss": 0.0021,
      "step": 5022
    },
    {
      "epoch": 22.526878694061356,
      "grad_norm": 9.291843889513984e-05,
      "learning_rate": 0.0001562777041911761,
      "loss": 0.0021,
      "step": 5023
    },
    {
      "epoch": 22.531381930762734,
      "grad_norm": 7.898356852820143e-05,
      "learning_rate": 0.00015609744466708647,
      "loss": 0.0021,
      "step": 5024
    },
    {
      "epoch": 22.535885167464116,
      "grad_norm": 0.0001285855396417901,
      "learning_rate": 0.0001559172699319883,
      "loss": 0.0021,
      "step": 5025
    },
    {
      "epoch": 22.540388404165494,
      "grad_norm": 0.00037198132486082613,
      "learning_rate": 0.0001557371800303039,
      "loss": 0.0022,
      "step": 5026
    },
    {
      "epoch": 22.544891640866872,
      "grad_norm": 0.00023658205464016646,
      "learning_rate": 0.00015555717500643425,
      "loss": 0.0022,
      "step": 5027
    },
    {
      "epoch": 22.549394877568254,
      "grad_norm": 2.9796814487781376e-05,
      "learning_rate": 0.0001553772549047594,
      "loss": 0.0021,
      "step": 5028
    },
    {
      "epoch": 22.553898114269632,
      "grad_norm": 0.00018726369307842106,
      "learning_rate": 0.0001551974197696384,
      "loss": 0.0022,
      "step": 5029
    },
    {
      "epoch": 22.55840135097101,
      "grad_norm": 0.00011681440810207278,
      "learning_rate": 0.00015501766964541003,
      "loss": 0.0021,
      "step": 5030
    },
    {
      "epoch": 22.56290458767239,
      "grad_norm": 0.00015971227549016476,
      "learning_rate": 0.0001548380045763909,
      "loss": 0.0022,
      "step": 5031
    },
    {
      "epoch": 22.56740782437377,
      "grad_norm": 0.0001529483706690371,
      "learning_rate": 0.00015465842460687785,
      "loss": 0.0022,
      "step": 5032
    },
    {
      "epoch": 22.57191106107515,
      "grad_norm": 7.104045653250068e-05,
      "learning_rate": 0.00015447892978114592,
      "loss": 0.0022,
      "step": 5033
    },
    {
      "epoch": 22.576414297776527,
      "grad_norm": 0.00038541556568816304,
      "learning_rate": 0.00015429952014344974,
      "loss": 0.0022,
      "step": 5034
    },
    {
      "epoch": 22.580917534477905,
      "grad_norm": 9.389404294779524e-05,
      "learning_rate": 0.0001541201957380225,
      "loss": 0.0021,
      "step": 5035
    },
    {
      "epoch": 22.585420771179287,
      "grad_norm": 0.00011846622510347515,
      "learning_rate": 0.0001539409566090766,
      "loss": 0.0022,
      "step": 5036
    },
    {
      "epoch": 22.589924007880665,
      "grad_norm": 0.00019527810218278319,
      "learning_rate": 0.00015376180280080333,
      "loss": 0.0022,
      "step": 5037
    },
    {
      "epoch": 22.594427244582043,
      "grad_norm": 9.701534145278856e-05,
      "learning_rate": 0.00015358273435737274,
      "loss": 0.0022,
      "step": 5038
    },
    {
      "epoch": 22.59893048128342,
      "grad_norm": 0.0006283120019361377,
      "learning_rate": 0.00015340375132293443,
      "loss": 0.0021,
      "step": 5039
    },
    {
      "epoch": 22.603433717984803,
      "grad_norm": 0.00015612442803103477,
      "learning_rate": 0.00015322485374161626,
      "loss": 0.0022,
      "step": 5040
    },
    {
      "epoch": 22.60793695468618,
      "grad_norm": 0.0004801536852028221,
      "learning_rate": 0.00015304604165752584,
      "loss": 0.0022,
      "step": 5041
    },
    {
      "epoch": 22.61244019138756,
      "grad_norm": 0.0026476995553821325,
      "learning_rate": 0.00015286731511474845,
      "loss": 0.0028,
      "step": 5042
    },
    {
      "epoch": 22.616943428088938,
      "grad_norm": 0.00038261906593106687,
      "learning_rate": 0.0001526886741573496,
      "loss": 0.0024,
      "step": 5043
    },
    {
      "epoch": 22.62144666479032,
      "grad_norm": 0.0007052782457321882,
      "learning_rate": 0.00015251011882937292,
      "loss": 0.0027,
      "step": 5044
    },
    {
      "epoch": 22.625949901491698,
      "grad_norm": 0.00012064171460224316,
      "learning_rate": 0.00015233164917484115,
      "loss": 0.0022,
      "step": 5045
    },
    {
      "epoch": 22.630453138193076,
      "grad_norm": 0.0004452553403098136,
      "learning_rate": 0.0001521532652377557,
      "loss": 0.0023,
      "step": 5046
    },
    {
      "epoch": 22.634956374894454,
      "grad_norm": 0.00023015377519186586,
      "learning_rate": 0.0001519749670620974,
      "loss": 0.0022,
      "step": 5047
    },
    {
      "epoch": 22.639459611595836,
      "grad_norm": 0.0002485525037627667,
      "learning_rate": 0.0001517967546918254,
      "loss": 0.0023,
      "step": 5048
    },
    {
      "epoch": 22.643962848297214,
      "grad_norm": 0.00037972891004756093,
      "learning_rate": 0.0001516186281708778,
      "loss": 0.0021,
      "step": 5049
    },
    {
      "epoch": 22.648466084998592,
      "grad_norm": 0.00016908577526919544,
      "learning_rate": 0.00015144058754317153,
      "loss": 0.0022,
      "step": 5050
    },
    {
      "epoch": 22.65296932169997,
      "grad_norm": 0.00011877687211381271,
      "learning_rate": 0.00015126263285260283,
      "loss": 0.0021,
      "step": 5051
    },
    {
      "epoch": 22.657472558401352,
      "grad_norm": 6.70872614136897e-05,
      "learning_rate": 0.00015108476414304572,
      "loss": 0.0021,
      "step": 5052
    },
    {
      "epoch": 22.66197579510273,
      "grad_norm": 0.00014939815446268767,
      "learning_rate": 0.00015090698145835414,
      "loss": 0.0022,
      "step": 5053
    },
    {
      "epoch": 22.66647903180411,
      "grad_norm": 0.0002560689754318446,
      "learning_rate": 0.00015072928484235993,
      "loss": 0.0021,
      "step": 5054
    },
    {
      "epoch": 22.670982268505487,
      "grad_norm": 2.2523423467646353e-05,
      "learning_rate": 0.00015055167433887444,
      "loss": 0.0021,
      "step": 5055
    },
    {
      "epoch": 22.67548550520687,
      "grad_norm": 8.797794725978747e-05,
      "learning_rate": 0.00015037414999168736,
      "loss": 0.0021,
      "step": 5056
    },
    {
      "epoch": 22.679988741908247,
      "grad_norm": 4.0937728044809774e-05,
      "learning_rate": 0.00015019671184456694,
      "loss": 0.0022,
      "step": 5057
    },
    {
      "epoch": 22.684491978609625,
      "grad_norm": 8.218990842578933e-05,
      "learning_rate": 0.00015001935994126103,
      "loss": 0.0021,
      "step": 5058
    },
    {
      "epoch": 22.688995215311003,
      "grad_norm": 0.00012939605221617967,
      "learning_rate": 0.00014984209432549494,
      "loss": 0.0021,
      "step": 5059
    },
    {
      "epoch": 22.693498452012385,
      "grad_norm": 0.00022550090216100216,
      "learning_rate": 0.00014966491504097396,
      "loss": 0.0023,
      "step": 5060
    },
    {
      "epoch": 22.698001688713763,
      "grad_norm": 8.617014827905223e-05,
      "learning_rate": 0.00014948782213138124,
      "loss": 0.0021,
      "step": 5061
    },
    {
      "epoch": 22.70250492541514,
      "grad_norm": 0.00021464428573381156,
      "learning_rate": 0.00014931081564037928,
      "loss": 0.0021,
      "step": 5062
    },
    {
      "epoch": 22.707008162116523,
      "grad_norm": 9.164025686914101e-05,
      "learning_rate": 0.0001491338956116085,
      "loss": 0.0021,
      "step": 5063
    },
    {
      "epoch": 22.7115113988179,
      "grad_norm": 4.1263985622208565e-05,
      "learning_rate": 0.00014895706208868875,
      "loss": 0.0021,
      "step": 5064
    },
    {
      "epoch": 22.71601463551928,
      "grad_norm": 0.0002875758509617299,
      "learning_rate": 0.00014878031511521807,
      "loss": 0.0023,
      "step": 5065
    },
    {
      "epoch": 22.720517872220658,
      "grad_norm": 0.00026707627694122493,
      "learning_rate": 0.00014860365473477367,
      "loss": 0.0022,
      "step": 5066
    },
    {
      "epoch": 22.72502110892204,
      "grad_norm": 0.00017269827367272228,
      "learning_rate": 0.00014842708099091045,
      "loss": 0.0023,
      "step": 5067
    },
    {
      "epoch": 22.729524345623418,
      "grad_norm": 0.0005788500420749187,
      "learning_rate": 0.00014825059392716317,
      "loss": 0.0023,
      "step": 5068
    },
    {
      "epoch": 22.734027582324796,
      "grad_norm": 0.005322227720171213,
      "learning_rate": 0.00014807419358704434,
      "loss": 0.0055,
      "step": 5069
    },
    {
      "epoch": 22.738530819026174,
      "grad_norm": 0.0005453676567412913,
      "learning_rate": 0.0001478978800140454,
      "loss": 0.0023,
      "step": 5070
    },
    {
      "epoch": 22.743034055727556,
      "grad_norm": 0.00015019091370049864,
      "learning_rate": 0.0001477216532516363,
      "loss": 0.0022,
      "step": 5071
    },
    {
      "epoch": 22.747537292428934,
      "grad_norm": 0.000251756573561579,
      "learning_rate": 0.00014754551334326583,
      "loss": 0.0022,
      "step": 5072
    },
    {
      "epoch": 22.752040529130312,
      "grad_norm": 0.00010015568841481581,
      "learning_rate": 0.0001473694603323611,
      "loss": 0.0022,
      "step": 5073
    },
    {
      "epoch": 22.75654376583169,
      "grad_norm": 7.750772056169808e-05,
      "learning_rate": 0.00014719349426232776,
      "loss": 0.0021,
      "step": 5074
    },
    {
      "epoch": 22.761047002533072,
      "grad_norm": 0.0007580526871606708,
      "learning_rate": 0.00014701761517655037,
      "loss": 0.0024,
      "step": 5075
    },
    {
      "epoch": 22.76555023923445,
      "grad_norm": 0.00010592844046186656,
      "learning_rate": 0.0001468418231183918,
      "loss": 0.0021,
      "step": 5076
    },
    {
      "epoch": 22.77005347593583,
      "grad_norm": 0.00015894610260147601,
      "learning_rate": 0.0001466661181311934,
      "loss": 0.0023,
      "step": 5077
    },
    {
      "epoch": 22.774556712637207,
      "grad_norm": 0.00041387169039808214,
      "learning_rate": 0.00014649050025827498,
      "loss": 0.0022,
      "step": 5078
    },
    {
      "epoch": 22.77905994933859,
      "grad_norm": 0.00015185121446847916,
      "learning_rate": 0.0001463149695429354,
      "loss": 0.0025,
      "step": 5079
    },
    {
      "epoch": 22.783563186039967,
      "grad_norm": 0.0007452911231666803,
      "learning_rate": 0.00014613952602845142,
      "loss": 0.0022,
      "step": 5080
    },
    {
      "epoch": 22.788066422741345,
      "grad_norm": 0.023127609863877296,
      "learning_rate": 0.00014596416975807863,
      "loss": 0.01,
      "step": 5081
    },
    {
      "epoch": 22.792569659442723,
      "grad_norm": 0.0003905424673575908,
      "learning_rate": 0.00014578890077505087,
      "loss": 0.0023,
      "step": 5082
    },
    {
      "epoch": 22.797072896144105,
      "grad_norm": 0.00014602276496589184,
      "learning_rate": 0.00014561371912258099,
      "loss": 0.0026,
      "step": 5083
    },
    {
      "epoch": 22.801576132845483,
      "grad_norm": 0.0006515316781587899,
      "learning_rate": 0.0001454386248438594,
      "loss": 0.0022,
      "step": 5084
    },
    {
      "epoch": 22.80607936954686,
      "grad_norm": 9.33212140807882e-05,
      "learning_rate": 0.00014526361798205596,
      "loss": 0.0021,
      "step": 5085
    },
    {
      "epoch": 22.81058260624824,
      "grad_norm": 8.029499440453947e-05,
      "learning_rate": 0.00014508869858031814,
      "loss": 0.0021,
      "step": 5086
    },
    {
      "epoch": 22.81508584294962,
      "grad_norm": 0.00017313454009126872,
      "learning_rate": 0.0001449138666817728,
      "loss": 0.0022,
      "step": 5087
    },
    {
      "epoch": 22.819589079651,
      "grad_norm": 0.0001022946962621063,
      "learning_rate": 0.0001447391223295239,
      "loss": 0.0022,
      "step": 5088
    },
    {
      "epoch": 22.824092316352377,
      "grad_norm": 0.0001331905514234677,
      "learning_rate": 0.00014456446556665515,
      "loss": 0.0021,
      "step": 5089
    },
    {
      "epoch": 22.82859555305376,
      "grad_norm": 0.001019761897623539,
      "learning_rate": 0.0001443898964362279,
      "loss": 0.003,
      "step": 5090
    },
    {
      "epoch": 22.833098789755137,
      "grad_norm": 3.419846325414255e-05,
      "learning_rate": 0.00014421541498128198,
      "loss": 0.0021,
      "step": 5091
    },
    {
      "epoch": 22.837602026456516,
      "grad_norm": 0.03407369554042816,
      "learning_rate": 0.0001440410212448357,
      "loss": 0.0576,
      "step": 5092
    },
    {
      "epoch": 22.842105263157894,
      "grad_norm": 0.0005295031587593257,
      "learning_rate": 0.00014386671526988592,
      "loss": 0.0025,
      "step": 5093
    },
    {
      "epoch": 22.846608499859276,
      "grad_norm": 0.00011905891733476892,
      "learning_rate": 0.00014369249709940757,
      "loss": 0.0022,
      "step": 5094
    },
    {
      "epoch": 22.851111736560654,
      "grad_norm": 0.0001501268270658329,
      "learning_rate": 0.00014351836677635395,
      "loss": 0.0021,
      "step": 5095
    },
    {
      "epoch": 22.855614973262032,
      "grad_norm": 6.45255931885913e-05,
      "learning_rate": 0.00014334432434365702,
      "loss": 0.0021,
      "step": 5096
    },
    {
      "epoch": 22.86011820996341,
      "grad_norm": 0.00014702427142765373,
      "learning_rate": 0.00014317036984422672,
      "loss": 0.0022,
      "step": 5097
    },
    {
      "epoch": 22.864621446664792,
      "grad_norm": 0.00044777849689126015,
      "learning_rate": 0.00014299650332095148,
      "loss": 0.0022,
      "step": 5098
    },
    {
      "epoch": 22.86912468336617,
      "grad_norm": 0.0001605684810783714,
      "learning_rate": 0.00014282272481669784,
      "loss": 0.0021,
      "step": 5099
    },
    {
      "epoch": 22.87362792006755,
      "grad_norm": 0.0002165240002796054,
      "learning_rate": 0.00014264903437431102,
      "loss": 0.0024,
      "step": 5100
    },
    {
      "epoch": 22.878131156768927,
      "grad_norm": 0.0005354200256988406,
      "learning_rate": 0.00014247543203661428,
      "loss": 0.0024,
      "step": 5101
    },
    {
      "epoch": 22.88263439347031,
      "grad_norm": 0.00048379143117927015,
      "learning_rate": 0.00014230191784640912,
      "loss": 0.0022,
      "step": 5102
    },
    {
      "epoch": 22.887137630171686,
      "grad_norm": 0.00025549810379743576,
      "learning_rate": 0.0001421284918464752,
      "loss": 0.0024,
      "step": 5103
    },
    {
      "epoch": 22.891640866873065,
      "grad_norm": 0.00018185509543400258,
      "learning_rate": 0.00014195515407957105,
      "loss": 0.0022,
      "step": 5104
    },
    {
      "epoch": 22.896144103574443,
      "grad_norm": 0.0012096039718016982,
      "learning_rate": 0.00014178190458843248,
      "loss": 0.003,
      "step": 5105
    },
    {
      "epoch": 22.900647340275825,
      "grad_norm": 0.00020908612350467592,
      "learning_rate": 0.00014160874341577446,
      "loss": 0.0022,
      "step": 5106
    },
    {
      "epoch": 22.905150576977203,
      "grad_norm": 4.659509431803599e-05,
      "learning_rate": 0.00014143567060428947,
      "loss": 0.0021,
      "step": 5107
    },
    {
      "epoch": 22.90965381367858,
      "grad_norm": 0.00027678871992975473,
      "learning_rate": 0.000141262686196649,
      "loss": 0.0022,
      "step": 5108
    },
    {
      "epoch": 22.91415705037996,
      "grad_norm": 0.0004998473450541496,
      "learning_rate": 0.0001410897902355016,
      "loss": 0.0023,
      "step": 5109
    },
    {
      "epoch": 22.91866028708134,
      "grad_norm": 0.00010306391777703539,
      "learning_rate": 0.00014091698276347524,
      "loss": 0.0021,
      "step": 5110
    },
    {
      "epoch": 22.92316352378272,
      "grad_norm": 5.230486567597836e-05,
      "learning_rate": 0.0001407442638231753,
      "loss": 0.0022,
      "step": 5111
    },
    {
      "epoch": 22.927666760484097,
      "grad_norm": 0.0001771706301951781,
      "learning_rate": 0.0001405716334571853,
      "loss": 0.0022,
      "step": 5112
    },
    {
      "epoch": 22.932169997185476,
      "grad_norm": 0.0003180519270244986,
      "learning_rate": 0.00014039909170806764,
      "loss": 0.0021,
      "step": 5113
    },
    {
      "epoch": 22.936673233886857,
      "grad_norm": 8.221835014410317e-05,
      "learning_rate": 0.00014022663861836215,
      "loss": 0.0022,
      "step": 5114
    },
    {
      "epoch": 22.941176470588236,
      "grad_norm": 0.00019888834503944963,
      "learning_rate": 0.00014005427423058702,
      "loss": 0.0021,
      "step": 5115
    },
    {
      "epoch": 22.945679707289614,
      "grad_norm": 0.0008648845250718296,
      "learning_rate": 0.00013988199858723854,
      "loss": 0.0028,
      "step": 5116
    },
    {
      "epoch": 22.950182943990992,
      "grad_norm": 0.00019086000975221395,
      "learning_rate": 0.0001397098117307914,
      "loss": 0.0021,
      "step": 5117
    },
    {
      "epoch": 22.954686180692374,
      "grad_norm": 0.00014766214007977396,
      "learning_rate": 0.00013953771370369804,
      "loss": 0.0022,
      "step": 5118
    },
    {
      "epoch": 22.959189417393752,
      "grad_norm": 0.03578314930200577,
      "learning_rate": 0.00013936570454838916,
      "loss": 0.0213,
      "step": 5119
    },
    {
      "epoch": 22.96369265409513,
      "grad_norm": 0.0004717425035778433,
      "learning_rate": 0.00013919378430727336,
      "loss": 0.0023,
      "step": 5120
    },
    {
      "epoch": 22.96819589079651,
      "grad_norm": 0.0002723437501117587,
      "learning_rate": 0.0001390219530227378,
      "loss": 0.0022,
      "step": 5121
    },
    {
      "epoch": 22.97269912749789,
      "grad_norm": 0.0002720056800171733,
      "learning_rate": 0.0001388502107371472,
      "loss": 0.0021,
      "step": 5122
    },
    {
      "epoch": 22.977202364199268,
      "grad_norm": 0.0013224569847807288,
      "learning_rate": 0.00013867855749284458,
      "loss": 0.0025,
      "step": 5123
    },
    {
      "epoch": 22.981705600900646,
      "grad_norm": 4.835869185626507e-05,
      "learning_rate": 0.00013850699333215076,
      "loss": 0.0021,
      "step": 5124
    },
    {
      "epoch": 22.986208837602028,
      "grad_norm": 3.2802141504362226e-05,
      "learning_rate": 0.0001383355182973653,
      "loss": 0.0021,
      "step": 5125
    },
    {
      "epoch": 22.990712074303406,
      "grad_norm": 6.981890328461304e-05,
      "learning_rate": 0.00013816413243076465,
      "loss": 0.0021,
      "step": 5126
    },
    {
      "epoch": 22.995215311004785,
      "grad_norm": 9.961899922927842e-05,
      "learning_rate": 0.0001379928357746043,
      "loss": 0.0022,
      "step": 5127
    },
    {
      "epoch": 22.999718547706163,
      "grad_norm": 6.790801126044244e-05,
      "learning_rate": 0.00013782162837111718,
      "loss": 0.0023,
      "step": 5128
    },
    {
      "epoch": 23.0,
      "grad_norm": 6.790801126044244e-05,
      "learning_rate": 0.00013765051026251452,
      "loss": 0.0001,
      "step": 5129
    },
    {
      "epoch": 23.0,
      "eval_f1": 0.986594637855142,
      "eval_loss": 0.03886321559548378,
      "eval_runtime": 26.742,
      "eval_samples_per_second": 186.897,
      "eval_steps_per_second": 5.871,
      "step": 5129
    },
    {
      "epoch": 23.004503236701378,
      "grad_norm": 0.0003580600896384567,
      "learning_rate": 0.00013747948149098538,
      "loss": 0.0022,
      "step": 5130
    },
    {
      "epoch": 23.00900647340276,
      "grad_norm": 0.00010114962060470134,
      "learning_rate": 0.00013730854209869676,
      "loss": 0.0022,
      "step": 5131
    },
    {
      "epoch": 23.013509710104138,
      "grad_norm": 0.00021022460714448243,
      "learning_rate": 0.00013713769212779349,
      "loss": 0.0022,
      "step": 5132
    },
    {
      "epoch": 23.018012946805516,
      "grad_norm": 0.0002207569486927241,
      "learning_rate": 0.0001369669316203989,
      "loss": 0.0023,
      "step": 5133
    },
    {
      "epoch": 23.022516183506895,
      "grad_norm": 0.00017380266217514873,
      "learning_rate": 0.00013679626061861372,
      "loss": 0.0021,
      "step": 5134
    },
    {
      "epoch": 23.027019420208276,
      "grad_norm": 0.0002997323463205248,
      "learning_rate": 0.00013662567916451667,
      "loss": 0.0023,
      "step": 5135
    },
    {
      "epoch": 23.031522656909655,
      "grad_norm": 0.00021924995235167444,
      "learning_rate": 0.000136455187300165,
      "loss": 0.0022,
      "step": 5136
    },
    {
      "epoch": 23.036025893611033,
      "grad_norm": 0.00016186409629881382,
      "learning_rate": 0.00013628478506759267,
      "loss": 0.0022,
      "step": 5137
    },
    {
      "epoch": 23.04052913031241,
      "grad_norm": 0.0003710786404553801,
      "learning_rate": 0.00013611447250881276,
      "loss": 0.0023,
      "step": 5138
    },
    {
      "epoch": 23.045032367013793,
      "grad_norm": 0.0001776496064849198,
      "learning_rate": 0.00013594424966581554,
      "loss": 0.0022,
      "step": 5139
    },
    {
      "epoch": 23.04953560371517,
      "grad_norm": 0.0008224701741710305,
      "learning_rate": 0.00013577411658056965,
      "loss": 0.0026,
      "step": 5140
    },
    {
      "epoch": 23.05403884041655,
      "grad_norm": 0.00010490956628927961,
      "learning_rate": 0.00013560407329502085,
      "loss": 0.0022,
      "step": 5141
    },
    {
      "epoch": 23.058542077117927,
      "grad_norm": 5.840339872520417e-05,
      "learning_rate": 0.0001354341198510936,
      "loss": 0.0022,
      "step": 5142
    },
    {
      "epoch": 23.06304531381931,
      "grad_norm": 7.541985542047769e-05,
      "learning_rate": 0.00013526425629068966,
      "loss": 0.0021,
      "step": 5143
    },
    {
      "epoch": 23.067548550520687,
      "grad_norm": 0.00010102475062012672,
      "learning_rate": 0.00013509448265568884,
      "loss": 0.0021,
      "step": 5144
    },
    {
      "epoch": 23.072051787222065,
      "grad_norm": 0.00018696929328143597,
      "learning_rate": 0.00013492479898794864,
      "loss": 0.0106,
      "step": 5145
    },
    {
      "epoch": 23.076555023923444,
      "grad_norm": 0.012896156869828701,
      "learning_rate": 0.00013475520532930469,
      "loss": 0.0021,
      "step": 5146
    },
    {
      "epoch": 23.081058260624825,
      "grad_norm": 0.000579525891225785,
      "learning_rate": 0.0001345857017215701,
      "loss": 0.0027,
      "step": 5147
    },
    {
      "epoch": 23.085561497326204,
      "grad_norm": 0.00011034208000637591,
      "learning_rate": 0.0001344162882065359,
      "loss": 0.0021,
      "step": 5148
    },
    {
      "epoch": 23.09006473402758,
      "grad_norm": 6.743310223100707e-05,
      "learning_rate": 0.00013424696482597072,
      "loss": 0.0022,
      "step": 5149
    },
    {
      "epoch": 23.09456797072896,
      "grad_norm": 0.00018777950026560575,
      "learning_rate": 0.00013407773162162152,
      "loss": 0.0021,
      "step": 5150
    },
    {
      "epoch": 23.09907120743034,
      "grad_norm": 0.00013257631508167833,
      "learning_rate": 0.00013390858863521237,
      "loss": 0.0022,
      "step": 5151
    },
    {
      "epoch": 23.10357444413172,
      "grad_norm": 0.00015561009058728814,
      "learning_rate": 0.0001337395359084454,
      "loss": 0.0021,
      "step": 5152
    },
    {
      "epoch": 23.108077680833098,
      "grad_norm": 0.00027705548563972116,
      "learning_rate": 0.00013357057348300068,
      "loss": 0.0021,
      "step": 5153
    },
    {
      "epoch": 23.112580917534476,
      "grad_norm": 4.105453263036907e-05,
      "learning_rate": 0.00013340170140053564,
      "loss": 0.0021,
      "step": 5154
    },
    {
      "epoch": 23.117084154235858,
      "grad_norm": 0.00010947589908028021,
      "learning_rate": 0.00013323291970268565,
      "loss": 0.0022,
      "step": 5155
    },
    {
      "epoch": 23.121587390937236,
      "grad_norm": 0.00016100393258966506,
      "learning_rate": 0.00013306422843106357,
      "loss": 0.0021,
      "step": 5156
    },
    {
      "epoch": 23.126090627638614,
      "grad_norm": 7.502643711632118e-05,
      "learning_rate": 0.0001328956276272606,
      "loss": 0.0022,
      "step": 5157
    },
    {
      "epoch": 23.130593864339993,
      "grad_norm": 0.0002437041694065556,
      "learning_rate": 0.0001327271173328446,
      "loss": 0.0022,
      "step": 5158
    },
    {
      "epoch": 23.135097101041374,
      "grad_norm": 0.0003467065980657935,
      "learning_rate": 0.00013255869758936213,
      "loss": 0.0022,
      "step": 5159
    },
    {
      "epoch": 23.139600337742753,
      "grad_norm": 0.00016483565559610724,
      "learning_rate": 0.00013239036843833664,
      "loss": 0.0022,
      "step": 5160
    },
    {
      "epoch": 23.14410357444413,
      "grad_norm": 0.00013965003017801791,
      "learning_rate": 0.0001322221299212701,
      "loss": 0.0022,
      "step": 5161
    },
    {
      "epoch": 23.148606811145513,
      "grad_norm": 4.7424222429981455e-05,
      "learning_rate": 0.00013205398207964098,
      "loss": 0.0022,
      "step": 5162
    },
    {
      "epoch": 23.15311004784689,
      "grad_norm": 5.2632134611485526e-05,
      "learning_rate": 0.0001318859249549066,
      "loss": 0.0021,
      "step": 5163
    },
    {
      "epoch": 23.15761328454827,
      "grad_norm": 9.635100286686793e-05,
      "learning_rate": 0.00013171795858850106,
      "loss": 0.002,
      "step": 5164
    },
    {
      "epoch": 23.162116521249647,
      "grad_norm": 0.0002528041950426996,
      "learning_rate": 0.00013155008302183642,
      "loss": 0.0021,
      "step": 5165
    },
    {
      "epoch": 23.16661975795103,
      "grad_norm": 3.570891931303777e-05,
      "learning_rate": 0.00013138229829630222,
      "loss": 0.0022,
      "step": 5166
    },
    {
      "epoch": 23.171122994652407,
      "grad_norm": 0.00023955650976859033,
      "learning_rate": 0.00013121460445326594,
      "loss": 0.0021,
      "step": 5167
    },
    {
      "epoch": 23.175626231353785,
      "grad_norm": 7.341799937421456e-05,
      "learning_rate": 0.00013104700153407234,
      "loss": 0.0025,
      "step": 5168
    },
    {
      "epoch": 23.180129468055163,
      "grad_norm": 0.0005191990057937801,
      "learning_rate": 0.00013087948958004353,
      "loss": 0.0023,
      "step": 5169
    },
    {
      "epoch": 23.184632704756545,
      "grad_norm": 0.00024164428759831935,
      "learning_rate": 0.0001307120686324799,
      "loss": 0.0022,
      "step": 5170
    },
    {
      "epoch": 23.189135941457923,
      "grad_norm": 0.00015315583732444793,
      "learning_rate": 0.00013054473873265888,
      "loss": 0.0022,
      "step": 5171
    },
    {
      "epoch": 23.1936391781593,
      "grad_norm": 2.550698809500318e-05,
      "learning_rate": 0.00013037749992183544,
      "loss": 0.0021,
      "step": 5172
    },
    {
      "epoch": 23.19814241486068,
      "grad_norm": 0.0001507554843556136,
      "learning_rate": 0.0001302103522412422,
      "loss": 0.0021,
      "step": 5173
    },
    {
      "epoch": 23.20264565156206,
      "grad_norm": 0.00015557130973320454,
      "learning_rate": 0.00013004329573208955,
      "loss": 0.0022,
      "step": 5174
    },
    {
      "epoch": 23.20714888826344,
      "grad_norm": 6.88559448462911e-05,
      "learning_rate": 0.00012987633043556507,
      "loss": 0.0021,
      "step": 5175
    },
    {
      "epoch": 23.211652124964818,
      "grad_norm": 0.00021470368665177375,
      "learning_rate": 0.00012970945639283394,
      "loss": 0.0021,
      "step": 5176
    },
    {
      "epoch": 23.216155361666196,
      "grad_norm": 4.7952951717888936e-05,
      "learning_rate": 0.0001295426736450387,
      "loss": 0.0021,
      "step": 5177
    },
    {
      "epoch": 23.220658598367578,
      "grad_norm": 6.587276584468782e-05,
      "learning_rate": 0.00012937598223330005,
      "loss": 0.0021,
      "step": 5178
    },
    {
      "epoch": 23.225161835068956,
      "grad_norm": 0.00010144543193746358,
      "learning_rate": 0.00012920938219871503,
      "loss": 0.0022,
      "step": 5179
    },
    {
      "epoch": 23.229665071770334,
      "grad_norm": 0.00012416092795319855,
      "learning_rate": 0.00012904287358235929,
      "loss": 0.0021,
      "step": 5180
    },
    {
      "epoch": 23.234168308471713,
      "grad_norm": 0.0001976609491975978,
      "learning_rate": 0.00012887645642528506,
      "loss": 0.0022,
      "step": 5181
    },
    {
      "epoch": 23.238671545173094,
      "grad_norm": 0.00016092159785330296,
      "learning_rate": 0.00012871013076852294,
      "loss": 0.0022,
      "step": 5182
    },
    {
      "epoch": 23.243174781874473,
      "grad_norm": 0.00019465819059405476,
      "learning_rate": 0.00012854389665307975,
      "loss": 0.0021,
      "step": 5183
    },
    {
      "epoch": 23.24767801857585,
      "grad_norm": 8.326889656018466e-05,
      "learning_rate": 0.0001283777541199409,
      "loss": 0.0021,
      "step": 5184
    },
    {
      "epoch": 23.25218125527723,
      "grad_norm": 4.65291814180091e-05,
      "learning_rate": 0.00012821170321006864,
      "loss": 0.0026,
      "step": 5185
    },
    {
      "epoch": 23.25668449197861,
      "grad_norm": 0.000581730215344578,
      "learning_rate": 0.00012804574396440256,
      "loss": 0.0022,
      "step": 5186
    },
    {
      "epoch": 23.26118772867999,
      "grad_norm": 0.00012620976485777646,
      "learning_rate": 0.00012787987642386007,
      "loss": 0.0021,
      "step": 5187
    },
    {
      "epoch": 23.265690965381367,
      "grad_norm": 0.00011894223280251026,
      "learning_rate": 0.00012771410062933564,
      "loss": 0.0022,
      "step": 5188
    },
    {
      "epoch": 23.270194202082745,
      "grad_norm": 6.85348131810315e-05,
      "learning_rate": 0.00012754841662170115,
      "loss": 0.0021,
      "step": 5189
    },
    {
      "epoch": 23.274697438784127,
      "grad_norm": 7.445897063007578e-05,
      "learning_rate": 0.00012738282444180578,
      "loss": 0.0022,
      "step": 5190
    },
    {
      "epoch": 23.279200675485505,
      "grad_norm": 0.00021116349671501666,
      "learning_rate": 0.0001272173241304765,
      "loss": 0.0022,
      "step": 5191
    },
    {
      "epoch": 23.283703912186883,
      "grad_norm": 0.00022208949667401612,
      "learning_rate": 0.0001270519157285172,
      "loss": 0.0023,
      "step": 5192
    },
    {
      "epoch": 23.288207148888265,
      "grad_norm": 8.830981096252799e-05,
      "learning_rate": 0.00012688659927670914,
      "loss": 0.0021,
      "step": 5193
    },
    {
      "epoch": 23.292710385589643,
      "grad_norm": 7.46874138712883e-05,
      "learning_rate": 0.00012672137481581098,
      "loss": 0.0021,
      "step": 5194
    },
    {
      "epoch": 23.29721362229102,
      "grad_norm": 0.00011873848416144028,
      "learning_rate": 0.00012655624238655893,
      "loss": 0.0021,
      "step": 5195
    },
    {
      "epoch": 23.3017168589924,
      "grad_norm": 0.0002860458043869585,
      "learning_rate": 0.00012639120202966614,
      "loss": 0.0023,
      "step": 5196
    },
    {
      "epoch": 23.30622009569378,
      "grad_norm": 0.000132415778352879,
      "learning_rate": 0.0001262262537858233,
      "loss": 0.0022,
      "step": 5197
    },
    {
      "epoch": 23.31072333239516,
      "grad_norm": 9.323801350547001e-05,
      "learning_rate": 0.00012606139769569814,
      "loss": 0.0021,
      "step": 5198
    },
    {
      "epoch": 23.315226569096538,
      "grad_norm": 6.524606578750536e-05,
      "learning_rate": 0.00012589663379993627,
      "loss": 0.0021,
      "step": 5199
    },
    {
      "epoch": 23.319729805797916,
      "grad_norm": 0.00030565864290110767,
      "learning_rate": 0.0001257319621391595,
      "loss": 0.0022,
      "step": 5200
    },
    {
      "epoch": 23.324233042499298,
      "grad_norm": 0.0004065066750627011,
      "learning_rate": 0.00012556738275396807,
      "loss": 0.0025,
      "step": 5201
    },
    {
      "epoch": 23.328736279200676,
      "grad_norm": 0.000141029100632295,
      "learning_rate": 0.00012540289568493862,
      "loss": 0.0021,
      "step": 5202
    },
    {
      "epoch": 23.333239515902054,
      "grad_norm": 0.00032460986403748393,
      "learning_rate": 0.00012523850097262562,
      "loss": 0.0023,
      "step": 5203
    },
    {
      "epoch": 23.337742752603432,
      "grad_norm": 0.00010163438855670393,
      "learning_rate": 0.00012507419865756032,
      "loss": 0.0022,
      "step": 5204
    },
    {
      "epoch": 23.342245989304814,
      "grad_norm": 0.00010535654291743413,
      "learning_rate": 0.00012490998878025145,
      "loss": 0.0022,
      "step": 5205
    },
    {
      "epoch": 23.346749226006192,
      "grad_norm": 0.00015137337322812527,
      "learning_rate": 0.0001247458713811847,
      "loss": 0.0023,
      "step": 5206
    },
    {
      "epoch": 23.35125246270757,
      "grad_norm": 0.00027086277259513736,
      "learning_rate": 0.0001245818465008234,
      "loss": 0.0022,
      "step": 5207
    },
    {
      "epoch": 23.35575569940895,
      "grad_norm": 5.563072409131564e-05,
      "learning_rate": 0.00012441791417960757,
      "loss": 0.0022,
      "step": 5208
    },
    {
      "epoch": 23.36025893611033,
      "grad_norm": 0.0001970368903130293,
      "learning_rate": 0.00012425407445795466,
      "loss": 0.0023,
      "step": 5209
    },
    {
      "epoch": 23.36476217281171,
      "grad_norm": 0.00046074288547970355,
      "learning_rate": 0.00012409032737625958,
      "loss": 0.0026,
      "step": 5210
    },
    {
      "epoch": 23.369265409513087,
      "grad_norm": 0.0003348673926666379,
      "learning_rate": 0.00012392667297489356,
      "loss": 0.0022,
      "step": 5211
    },
    {
      "epoch": 23.373768646214465,
      "grad_norm": 5.921586853219196e-05,
      "learning_rate": 0.00012376311129420593,
      "loss": 0.0021,
      "step": 5212
    },
    {
      "epoch": 23.378271882915847,
      "grad_norm": 0.00013260907144285738,
      "learning_rate": 0.00012359964237452237,
      "loss": 0.0021,
      "step": 5213
    },
    {
      "epoch": 23.382775119617225,
      "grad_norm": 0.00010651011689333245,
      "learning_rate": 0.00012343626625614662,
      "loss": 0.0021,
      "step": 5214
    },
    {
      "epoch": 23.387278356318603,
      "grad_norm": 0.0007970634615048766,
      "learning_rate": 0.0001232729829793583,
      "loss": 0.0023,
      "step": 5215
    },
    {
      "epoch": 23.39178159301998,
      "grad_norm": 7.172921323217452e-05,
      "learning_rate": 0.0001231097925844153,
      "loss": 0.0021,
      "step": 5216
    },
    {
      "epoch": 23.396284829721363,
      "grad_norm": 4.8493606300326064e-05,
      "learning_rate": 0.00012294669511155192,
      "loss": 0.0021,
      "step": 5217
    },
    {
      "epoch": 23.40078806642274,
      "grad_norm": 0.00011036787327611819,
      "learning_rate": 0.00012278369060097984,
      "loss": 0.0022,
      "step": 5218
    },
    {
      "epoch": 23.40529130312412,
      "grad_norm": 7.735464896541089e-05,
      "learning_rate": 0.00012262077909288755,
      "loss": 0.0022,
      "step": 5219
    },
    {
      "epoch": 23.409794539825498,
      "grad_norm": 9.071100794244558e-05,
      "learning_rate": 0.00012245796062744103,
      "loss": 0.0021,
      "step": 5220
    },
    {
      "epoch": 23.41429777652688,
      "grad_norm": 0.00036978418938815594,
      "learning_rate": 0.00012229523524478304,
      "loss": 0.0022,
      "step": 5221
    },
    {
      "epoch": 23.418801013228258,
      "grad_norm": 0.00014113781799096614,
      "learning_rate": 0.00012213260298503338,
      "loss": 0.0022,
      "step": 5222
    },
    {
      "epoch": 23.423304249929636,
      "grad_norm": 0.00019688268366735429,
      "learning_rate": 0.0001219700638882888,
      "loss": 0.0022,
      "step": 5223
    },
    {
      "epoch": 23.427807486631018,
      "grad_norm": 0.0002623409091029316,
      "learning_rate": 0.00012180761799462353,
      "loss": 0.0023,
      "step": 5224
    },
    {
      "epoch": 23.432310723332396,
      "grad_norm": 6.0275389841990545e-05,
      "learning_rate": 0.00012164526534408837,
      "loss": 0.0021,
      "step": 5225
    },
    {
      "epoch": 23.436813960033774,
      "grad_norm": 5.769036943092942e-05,
      "learning_rate": 0.00012148300597671114,
      "loss": 0.0021,
      "step": 5226
    },
    {
      "epoch": 23.441317196735152,
      "grad_norm": 7.486876711482182e-05,
      "learning_rate": 0.00012132083993249705,
      "loss": 0.0022,
      "step": 5227
    },
    {
      "epoch": 23.445820433436534,
      "grad_norm": 0.00021057151025161147,
      "learning_rate": 0.000121158767251428,
      "loss": 0.0022,
      "step": 5228
    },
    {
      "epoch": 23.450323670137912,
      "grad_norm": 0.00020589306950569153,
      "learning_rate": 0.00012099678797346281,
      "loss": 0.0022,
      "step": 5229
    },
    {
      "epoch": 23.45482690683929,
      "grad_norm": 7.710673526162282e-05,
      "learning_rate": 0.00012083490213853732,
      "loss": 0.0022,
      "step": 5230
    },
    {
      "epoch": 23.45933014354067,
      "grad_norm": 0.00014900410315021873,
      "learning_rate": 0.00012067310978656481,
      "loss": 0.0021,
      "step": 5231
    },
    {
      "epoch": 23.46383338024205,
      "grad_norm": 0.0001515834592282772,
      "learning_rate": 0.00012051141095743456,
      "loss": 0.002,
      "step": 5232
    },
    {
      "epoch": 23.46833661694343,
      "grad_norm": 2.6572517526801676e-05,
      "learning_rate": 0.00012034980569101367,
      "loss": 0.0022,
      "step": 5233
    },
    {
      "epoch": 23.472839853644807,
      "grad_norm": 0.00016700489504728466,
      "learning_rate": 0.00012018829402714559,
      "loss": 0.0022,
      "step": 5234
    },
    {
      "epoch": 23.477343090346185,
      "grad_norm": 0.00016275870439130813,
      "learning_rate": 0.00012002687600565138,
      "loss": 0.0023,
      "step": 5235
    },
    {
      "epoch": 23.481846327047567,
      "grad_norm": 0.00017982702411245555,
      "learning_rate": 0.00011986555166632795,
      "loss": 0.0021,
      "step": 5236
    },
    {
      "epoch": 23.486349563748945,
      "grad_norm": 0.00014190572255756706,
      "learning_rate": 0.00011970432104895023,
      "loss": 0.0021,
      "step": 5237
    },
    {
      "epoch": 23.490852800450323,
      "grad_norm": 3.611383363022469e-05,
      "learning_rate": 0.00011954318419326938,
      "loss": 0.0021,
      "step": 5238
    },
    {
      "epoch": 23.4953560371517,
      "grad_norm": 4.17877163272351e-05,
      "learning_rate": 0.00011938214113901352,
      "loss": 0.0022,
      "step": 5239
    },
    {
      "epoch": 23.499859273853083,
      "grad_norm": 0.000354781310306862,
      "learning_rate": 0.0001192211919258877,
      "loss": 0.0023,
      "step": 5240
    },
    {
      "epoch": 23.50436251055446,
      "grad_norm": 8.219201117753983e-05,
      "learning_rate": 0.00011906033659357413,
      "loss": 0.0022,
      "step": 5241
    },
    {
      "epoch": 23.50886574725584,
      "grad_norm": 5.954453445156105e-05,
      "learning_rate": 0.00011889957518173139,
      "loss": 0.0021,
      "step": 5242
    },
    {
      "epoch": 23.513368983957218,
      "grad_norm": 7.646819722140208e-05,
      "learning_rate": 0.00011873890772999501,
      "loss": 0.0022,
      "step": 5243
    },
    {
      "epoch": 23.5178722206586,
      "grad_norm": 0.0008109700866043568,
      "learning_rate": 0.00011857833427797782,
      "loss": 0.0024,
      "step": 5244
    },
    {
      "epoch": 23.522375457359978,
      "grad_norm": 0.00017500505782663822,
      "learning_rate": 0.00011841785486526885,
      "loss": 0.0022,
      "step": 5245
    },
    {
      "epoch": 23.526878694061356,
      "grad_norm": 0.00035985230351798236,
      "learning_rate": 0.00011825746953143435,
      "loss": 0.0023,
      "step": 5246
    },
    {
      "epoch": 23.531381930762734,
      "grad_norm": 0.00010822546028066427,
      "learning_rate": 0.00011809717831601696,
      "loss": 0.0021,
      "step": 5247
    },
    {
      "epoch": 23.535885167464116,
      "grad_norm": 0.0001516331103630364,
      "learning_rate": 0.0001179369812585368,
      "loss": 0.0022,
      "step": 5248
    },
    {
      "epoch": 23.540388404165494,
      "grad_norm": 0.0002400107914581895,
      "learning_rate": 0.00011777687839849017,
      "loss": 0.0022,
      "step": 5249
    },
    {
      "epoch": 23.544891640866872,
      "grad_norm": 0.000528293545357883,
      "learning_rate": 0.00011761686977535036,
      "loss": 0.0025,
      "step": 5250
    },
    {
      "epoch": 23.549394877568254,
      "grad_norm": 7.481736975023523e-05,
      "learning_rate": 0.00011745695542856722,
      "loss": 0.0022,
      "step": 5251
    },
    {
      "epoch": 23.553898114269632,
      "grad_norm": 0.0001181460902444087,
      "learning_rate": 0.00011729713539756803,
      "loss": 0.0022,
      "step": 5252
    },
    {
      "epoch": 23.55840135097101,
      "grad_norm": 0.00033101061126217246,
      "learning_rate": 0.00011713740972175574,
      "loss": 0.0023,
      "step": 5253
    },
    {
      "epoch": 23.56290458767239,
      "grad_norm": 0.0001205737644340843,
      "learning_rate": 0.00011697777844051105,
      "loss": 0.0022,
      "step": 5254
    },
    {
      "epoch": 23.56740782437377,
      "grad_norm": 0.00012155784497736022,
      "learning_rate": 0.00011681824159319072,
      "loss": 0.0023,
      "step": 5255
    },
    {
      "epoch": 23.57191106107515,
      "grad_norm": 0.0012212303699925542,
      "learning_rate": 0.00011665879921912886,
      "loss": 0.0022,
      "step": 5256
    },
    {
      "epoch": 23.576414297776527,
      "grad_norm": 0.00011792330769822001,
      "learning_rate": 0.00011649945135763535,
      "loss": 0.0021,
      "step": 5257
    },
    {
      "epoch": 23.580917534477905,
      "grad_norm": 3.8150330510688946e-05,
      "learning_rate": 0.00011634019804799772,
      "loss": 0.0021,
      "step": 5258
    },
    {
      "epoch": 23.585420771179287,
      "grad_norm": 2.75192014669301e-05,
      "learning_rate": 0.00011618103932947977,
      "loss": 0.0022,
      "step": 5259
    },
    {
      "epoch": 23.589924007880665,
      "grad_norm": 0.00047100288793444633,
      "learning_rate": 0.00011602197524132169,
      "loss": 0.0022,
      "step": 5260
    },
    {
      "epoch": 23.594427244582043,
      "grad_norm": 4.627107409760356e-05,
      "learning_rate": 0.00011586300582274096,
      "loss": 0.0022,
      "step": 5261
    },
    {
      "epoch": 23.59893048128342,
      "grad_norm": 0.00010331961675547063,
      "learning_rate": 0.00011570413111293137,
      "loss": 0.0022,
      "step": 5262
    },
    {
      "epoch": 23.603433717984803,
      "grad_norm": 0.0001855062146205455,
      "learning_rate": 0.0001155453511510633,
      "loss": 0.0021,
      "step": 5263
    },
    {
      "epoch": 23.60793695468618,
      "grad_norm": 4.5352593588177115e-05,
      "learning_rate": 0.00011538666597628372,
      "loss": 0.0022,
      "step": 5264
    },
    {
      "epoch": 23.61244019138756,
      "grad_norm": 0.0001900335046229884,
      "learning_rate": 0.00011522807562771675,
      "loss": 0.0021,
      "step": 5265
    },
    {
      "epoch": 23.616943428088938,
      "grad_norm": 3.258499054936692e-05,
      "learning_rate": 0.0001150695801444625,
      "loss": 0.0021,
      "step": 5266
    },
    {
      "epoch": 23.62144666479032,
      "grad_norm": 0.00010754405957413837,
      "learning_rate": 0.00011491117956559804,
      "loss": 0.0023,
      "step": 5267
    },
    {
      "epoch": 23.625949901491698,
      "grad_norm": 0.00019967311527580023,
      "learning_rate": 0.00011475287393017675,
      "loss": 0.0021,
      "step": 5268
    },
    {
      "epoch": 23.630453138193076,
      "grad_norm": 9.001390571938828e-05,
      "learning_rate": 0.00011459466327722911,
      "loss": 0.0021,
      "step": 5269
    },
    {
      "epoch": 23.634956374894454,
      "grad_norm": 9.12236500880681e-05,
      "learning_rate": 0.00011443654764576172,
      "loss": 0.0021,
      "step": 5270
    },
    {
      "epoch": 23.639459611595836,
      "grad_norm": 0.0001594504137756303,
      "learning_rate": 0.00011427852707475788,
      "loss": 0.0022,
      "step": 5271
    },
    {
      "epoch": 23.643962848297214,
      "grad_norm": 0.0005302271456457675,
      "learning_rate": 0.00011412060160317739,
      "loss": 0.0025,
      "step": 5272
    },
    {
      "epoch": 23.648466084998592,
      "grad_norm": 0.00010213664791081101,
      "learning_rate": 0.00011396277126995707,
      "loss": 0.0022,
      "step": 5273
    },
    {
      "epoch": 23.65296932169997,
      "grad_norm": 0.00021733123867306858,
      "learning_rate": 0.00011380503611400932,
      "loss": 0.0022,
      "step": 5274
    },
    {
      "epoch": 23.657472558401352,
      "grad_norm": 0.00012668626732192934,
      "learning_rate": 0.00011364739617422421,
      "loss": 0.0021,
      "step": 5275
    },
    {
      "epoch": 23.66197579510273,
      "grad_norm": 0.00028419887530617416,
      "learning_rate": 0.00011348985148946734,
      "loss": 0.0021,
      "step": 5276
    },
    {
      "epoch": 23.66647903180411,
      "grad_norm": 0.00018309349252376705,
      "learning_rate": 0.00011333240209858158,
      "loss": 0.0021,
      "step": 5277
    },
    {
      "epoch": 23.670982268505487,
      "grad_norm": 0.00012881123984698206,
      "learning_rate": 0.00011317504804038597,
      "loss": 0.0023,
      "step": 5278
    },
    {
      "epoch": 23.67548550520687,
      "grad_norm": 0.00034325956949032843,
      "learning_rate": 0.00011301778935367596,
      "loss": 0.0021,
      "step": 5279
    },
    {
      "epoch": 23.679988741908247,
      "grad_norm": 0.00011222243483643979,
      "learning_rate": 0.00011286062607722347,
      "loss": 0.0022,
      "step": 5280
    },
    {
      "epoch": 23.684491978609625,
      "grad_norm": 0.00017630016373004764,
      "learning_rate": 0.00011270355824977735,
      "loss": 0.0022,
      "step": 5281
    },
    {
      "epoch": 23.688995215311003,
      "grad_norm": 8.990766218630597e-05,
      "learning_rate": 0.0001125465859100624,
      "loss": 0.0021,
      "step": 5282
    },
    {
      "epoch": 23.693498452012385,
      "grad_norm": 0.0001485055690864101,
      "learning_rate": 0.00011238970909677992,
      "loss": 0.0021,
      "step": 5283
    },
    {
      "epoch": 23.698001688713763,
      "grad_norm": 0.00016766731278039515,
      "learning_rate": 0.00011223292784860828,
      "loss": 0.0022,
      "step": 5284
    },
    {
      "epoch": 23.70250492541514,
      "grad_norm": 0.00016619201051071286,
      "learning_rate": 0.00011207624220420121,
      "loss": 0.0022,
      "step": 5285
    },
    {
      "epoch": 23.707008162116523,
      "grad_norm": 0.0001984749542316422,
      "learning_rate": 0.00011191965220218992,
      "loss": 0.0021,
      "step": 5286
    },
    {
      "epoch": 23.7115113988179,
      "grad_norm": 0.00015659769997000694,
      "learning_rate": 0.0001117631578811813,
      "loss": 0.0021,
      "step": 5287
    },
    {
      "epoch": 23.71601463551928,
      "grad_norm": 0.0003095669380854815,
      "learning_rate": 0.00011160675927975933,
      "loss": 0.0021,
      "step": 5288
    },
    {
      "epoch": 23.720517872220658,
      "grad_norm": 0.0005503356806002557,
      "learning_rate": 0.00011145045643648344,
      "loss": 0.0026,
      "step": 5289
    },
    {
      "epoch": 23.72502110892204,
      "grad_norm": 0.00018660536443348974,
      "learning_rate": 0.00011129424938989053,
      "loss": 0.0022,
      "step": 5290
    },
    {
      "epoch": 23.729524345623418,
      "grad_norm": 3.304043639218435e-05,
      "learning_rate": 0.00011113813817849311,
      "loss": 0.0022,
      "step": 5291
    },
    {
      "epoch": 23.734027582324796,
      "grad_norm": 0.00015255737525876611,
      "learning_rate": 0.00011098212284078036,
      "loss": 0.0021,
      "step": 5292
    },
    {
      "epoch": 23.738530819026174,
      "grad_norm": 0.00016603802214376628,
      "learning_rate": 0.00011082620341521765,
      "loss": 0.0021,
      "step": 5293
    },
    {
      "epoch": 23.743034055727556,
      "grad_norm": 8.757207251619548e-05,
      "learning_rate": 0.00011067037994024709,
      "loss": 0.0021,
      "step": 5294
    },
    {
      "epoch": 23.747537292428934,
      "grad_norm": 0.00012672417506109923,
      "learning_rate": 0.00011051465245428672,
      "loss": 0.0024,
      "step": 5295
    },
    {
      "epoch": 23.752040529130312,
      "grad_norm": 0.0003395297680981457,
      "learning_rate": 0.00011035902099573115,
      "loss": 0.0021,
      "step": 5296
    },
    {
      "epoch": 23.75654376583169,
      "grad_norm": 0.00022198984515853226,
      "learning_rate": 0.00011020348560295096,
      "loss": 0.0022,
      "step": 5297
    },
    {
      "epoch": 23.761047002533072,
      "grad_norm": 0.0001589971361681819,
      "learning_rate": 0.00011004804631429376,
      "loss": 0.0022,
      "step": 5298
    },
    {
      "epoch": 23.76555023923445,
      "grad_norm": 6.699444202240556e-05,
      "learning_rate": 0.00010989270316808276,
      "loss": 0.0022,
      "step": 5299
    },
    {
      "epoch": 23.77005347593583,
      "grad_norm": 0.00017981187556870282,
      "learning_rate": 0.0001097374562026176,
      "loss": 0.0022,
      "step": 5300
    },
    {
      "epoch": 23.774556712637207,
      "grad_norm": 6.223451055120677e-05,
      "learning_rate": 0.0001095823054561747,
      "loss": 0.0022,
      "step": 5301
    },
    {
      "epoch": 23.77905994933859,
      "grad_norm": 0.00028220313834026456,
      "learning_rate": 0.00010942725096700618,
      "loss": 0.0021,
      "step": 5302
    },
    {
      "epoch": 23.783563186039967,
      "grad_norm": 0.00012072676327079535,
      "learning_rate": 0.00010927229277334061,
      "loss": 0.0021,
      "step": 5303
    },
    {
      "epoch": 23.788066422741345,
      "grad_norm": 0.00011253699631197378,
      "learning_rate": 0.00010911743091338284,
      "loss": 0.0021,
      "step": 5304
    },
    {
      "epoch": 23.792569659442723,
      "grad_norm": 5.905908255954273e-05,
      "learning_rate": 0.00010896266542531425,
      "loss": 0.0021,
      "step": 5305
    },
    {
      "epoch": 23.797072896144105,
      "grad_norm": 0.00011454117338871583,
      "learning_rate": 0.00010880799634729172,
      "loss": 0.0021,
      "step": 5306
    },
    {
      "epoch": 23.801576132845483,
      "grad_norm": 8.456522482447326e-05,
      "learning_rate": 0.00010865342371744923,
      "loss": 0.0022,
      "step": 5307
    },
    {
      "epoch": 23.80607936954686,
      "grad_norm": 0.00014075734361540526,
      "learning_rate": 0.00010849894757389628,
      "loss": 0.0026,
      "step": 5308
    },
    {
      "epoch": 23.81058260624824,
      "grad_norm": 0.0004974597250111401,
      "learning_rate": 0.00010834456795471937,
      "loss": 0.0022,
      "step": 5309
    },
    {
      "epoch": 23.81508584294962,
      "grad_norm": 0.00022028107196092606,
      "learning_rate": 0.00010819028489798005,
      "loss": 0.0021,
      "step": 5310
    },
    {
      "epoch": 23.819589079651,
      "grad_norm": 0.00021997040312271565,
      "learning_rate": 0.00010803609844171719,
      "loss": 0.0022,
      "step": 5311
    },
    {
      "epoch": 23.824092316352377,
      "grad_norm": 0.0003762879059650004,
      "learning_rate": 0.00010788200862394526,
      "loss": 0.0022,
      "step": 5312
    },
    {
      "epoch": 23.82859555305376,
      "grad_norm": 0.00012795162911061198,
      "learning_rate": 0.00010772801548265499,
      "loss": 0.0021,
      "step": 5313
    },
    {
      "epoch": 23.833098789755137,
      "grad_norm": 7.659893162781373e-05,
      "learning_rate": 0.00010757411905581322,
      "loss": 0.0021,
      "step": 5314
    },
    {
      "epoch": 23.837602026456516,
      "grad_norm": 8.483595593133941e-05,
      "learning_rate": 0.00010742031938136326,
      "loss": 0.002,
      "step": 5315
    },
    {
      "epoch": 23.842105263157894,
      "grad_norm": 4.372604234958999e-05,
      "learning_rate": 0.00010726661649722419,
      "loss": 0.0022,
      "step": 5316
    },
    {
      "epoch": 23.846608499859276,
      "grad_norm": 0.00016650134057272226,
      "learning_rate": 0.0001071130104412913,
      "loss": 0.0022,
      "step": 5317
    },
    {
      "epoch": 23.851111736560654,
      "grad_norm": 0.00033985808840952814,
      "learning_rate": 0.00010695950125143628,
      "loss": 0.0022,
      "step": 5318
    },
    {
      "epoch": 23.855614973262032,
      "grad_norm": 0.00010461123019922525,
      "learning_rate": 0.00010680608896550659,
      "loss": 0.0022,
      "step": 5319
    },
    {
      "epoch": 23.86011820996341,
      "grad_norm": 0.00020779608166776597,
      "learning_rate": 0.00010665277362132608,
      "loss": 0.0022,
      "step": 5320
    },
    {
      "epoch": 23.864621446664792,
      "grad_norm": 0.00018413316865917295,
      "learning_rate": 0.0001064995552566943,
      "loss": 0.0021,
      "step": 5321
    },
    {
      "epoch": 23.86912468336617,
      "grad_norm": 7.535176700912416e-05,
      "learning_rate": 0.00010634643390938748,
      "loss": 0.0021,
      "step": 5322
    },
    {
      "epoch": 23.87362792006755,
      "grad_norm": 9.032538946485147e-05,
      "learning_rate": 0.00010619340961715746,
      "loss": 0.0021,
      "step": 5323
    },
    {
      "epoch": 23.878131156768927,
      "grad_norm": 0.00010794146510306746,
      "learning_rate": 0.00010604048241773229,
      "loss": 0.0021,
      "step": 5324
    },
    {
      "epoch": 23.88263439347031,
      "grad_norm": 0.00025457810261286795,
      "learning_rate": 0.00010588765234881598,
      "loss": 0.0022,
      "step": 5325
    },
    {
      "epoch": 23.887137630171686,
      "grad_norm": 0.00030996426357887685,
      "learning_rate": 0.0001057349194480891,
      "loss": 0.0022,
      "step": 5326
    },
    {
      "epoch": 23.891640866873065,
      "grad_norm": 0.00023577695537824184,
      "learning_rate": 0.00010558228375320733,
      "loss": 0.0021,
      "step": 5327
    },
    {
      "epoch": 23.896144103574443,
      "grad_norm": 0.00011190175428055227,
      "learning_rate": 0.00010542974530180327,
      "loss": 0.0021,
      "step": 5328
    },
    {
      "epoch": 23.900647340275825,
      "grad_norm": 3.208056659786962e-05,
      "learning_rate": 0.00010527730413148496,
      "loss": 0.0021,
      "step": 5329
    },
    {
      "epoch": 23.905150576977203,
      "grad_norm": 0.0004455358721315861,
      "learning_rate": 0.00010512496027983714,
      "loss": 0.0025,
      "step": 5330
    },
    {
      "epoch": 23.90965381367858,
      "grad_norm": 0.00011283205094514415,
      "learning_rate": 0.00010497271378441947,
      "loss": 0.002,
      "step": 5331
    },
    {
      "epoch": 23.91415705037996,
      "grad_norm": 6.853785453131422e-05,
      "learning_rate": 0.00010482056468276874,
      "loss": 0.0021,
      "step": 5332
    },
    {
      "epoch": 23.91866028708134,
      "grad_norm": 6.479165313066915e-05,
      "learning_rate": 0.0001046685130123971,
      "loss": 0.002,
      "step": 5333
    },
    {
      "epoch": 23.92316352378272,
      "grad_norm": 4.8347574193030596e-05,
      "learning_rate": 0.00010451655881079259,
      "loss": 0.0022,
      "step": 5334
    },
    {
      "epoch": 23.927666760484097,
      "grad_norm": 7.223225838970393e-05,
      "learning_rate": 0.00010436470211541971,
      "loss": 0.0021,
      "step": 5335
    },
    {
      "epoch": 23.932169997185476,
      "grad_norm": 0.00010159405064769089,
      "learning_rate": 0.00010421294296371858,
      "loss": 0.0022,
      "step": 5336
    },
    {
      "epoch": 23.936673233886857,
      "grad_norm": 0.0002547753101680428,
      "learning_rate": 0.00010406128139310533,
      "loss": 0.0021,
      "step": 5337
    },
    {
      "epoch": 23.941176470588236,
      "grad_norm": 0.00010744073370005935,
      "learning_rate": 0.00010390971744097184,
      "loss": 0.0021,
      "step": 5338
    },
    {
      "epoch": 23.945679707289614,
      "grad_norm": 7.967951387399808e-05,
      "learning_rate": 0.00010375825114468646,
      "loss": 0.0021,
      "step": 5339
    },
    {
      "epoch": 23.950182943990992,
      "grad_norm": 4.183329292573035e-05,
      "learning_rate": 0.00010360688254159294,
      "loss": 0.0021,
      "step": 5340
    },
    {
      "epoch": 23.954686180692374,
      "grad_norm": 0.0001309166691498831,
      "learning_rate": 0.00010345561166901118,
      "loss": 0.0022,
      "step": 5341
    },
    {
      "epoch": 23.959189417393752,
      "grad_norm": 6.396532990038395e-05,
      "learning_rate": 0.00010330443856423676,
      "loss": 0.0021,
      "step": 5342
    },
    {
      "epoch": 23.96369265409513,
      "grad_norm": 8.204634650610387e-05,
      "learning_rate": 0.00010315336326454161,
      "loss": 0.002,
      "step": 5343
    },
    {
      "epoch": 23.96819589079651,
      "grad_norm": 0.00016153477190528065,
      "learning_rate": 0.00010300238580717309,
      "loss": 0.0022,
      "step": 5344
    },
    {
      "epoch": 23.97269912749789,
      "grad_norm": 0.00014158296107780188,
      "learning_rate": 0.00010285150622935468,
      "loss": 0.0022,
      "step": 5345
    },
    {
      "epoch": 23.977202364199268,
      "grad_norm": 0.00012161368795204908,
      "learning_rate": 0.0001027007245682855,
      "loss": 0.0021,
      "step": 5346
    },
    {
      "epoch": 23.981705600900646,
      "grad_norm": 0.00010764003673102707,
      "learning_rate": 0.00010255004086114095,
      "loss": 0.0021,
      "step": 5347
    },
    {
      "epoch": 23.986208837602028,
      "grad_norm": 0.0018591234693303704,
      "learning_rate": 0.00010239945514507188,
      "loss": 0.0034,
      "step": 5348
    },
    {
      "epoch": 23.990712074303406,
      "grad_norm": 8.938702376326546e-05,
      "learning_rate": 0.00010224896745720513,
      "loss": 0.0022,
      "step": 5349
    },
    {
      "epoch": 23.995215311004785,
      "grad_norm": 0.0016351965023204684,
      "learning_rate": 0.00010209857783464321,
      "loss": 0.0026,
      "step": 5350
    },
    {
      "epoch": 23.999718547706163,
      "grad_norm": 2.6372204956714995e-05,
      "learning_rate": 0.00010194828631446485,
      "loss": 0.0021,
      "step": 5351
    },
    {
      "epoch": 24.0,
      "grad_norm": 2.6372204956714995e-05,
      "learning_rate": 0.00010179809293372428,
      "loss": 0.0001,
      "step": 5352
    },
    {
      "epoch": 24.0,
      "eval_f1": 0.986594637855142,
      "eval_loss": 0.039916764944791794,
      "eval_runtime": 26.878,
      "eval_samples_per_second": 185.951,
      "eval_steps_per_second": 5.841,
      "step": 5352
    },
    {
      "epoch": 24.004503236701378,
      "grad_norm": 4.025122325401753e-05,
      "learning_rate": 0.00010164799772945149,
      "loss": 0.0021,
      "step": 5353
    },
    {
      "epoch": 24.00900647340276,
      "grad_norm": 0.0001423791836714372,
      "learning_rate": 0.0001014980007386524,
      "loss": 0.0021,
      "step": 5354
    },
    {
      "epoch": 24.013509710104138,
      "grad_norm": 4.085927866981365e-05,
      "learning_rate": 0.0001013481019983088,
      "loss": 0.0021,
      "step": 5355
    },
    {
      "epoch": 24.018012946805516,
      "grad_norm": 2.978931115649175e-05,
      "learning_rate": 0.00010119830154537807,
      "loss": 0.0021,
      "step": 5356
    },
    {
      "epoch": 24.022516183506895,
      "grad_norm": 0.0003213168238289654,
      "learning_rate": 0.00010104859941679329,
      "loss": 0.0022,
      "step": 5357
    },
    {
      "epoch": 24.027019420208276,
      "grad_norm": 4.900816929875873e-05,
      "learning_rate": 0.00010089899564946387,
      "loss": 0.0021,
      "step": 5358
    },
    {
      "epoch": 24.031522656909655,
      "grad_norm": 0.00019625821732915938,
      "learning_rate": 0.00010074949028027397,
      "loss": 0.0022,
      "step": 5359
    },
    {
      "epoch": 24.036025893611033,
      "grad_norm": 9.827902249526232e-05,
      "learning_rate": 0.0001006000833460845,
      "loss": 0.0021,
      "step": 5360
    },
    {
      "epoch": 24.04052913031241,
      "grad_norm": 0.0001789651287253946,
      "learning_rate": 0.00010045077488373133,
      "loss": 0.0022,
      "step": 5361
    },
    {
      "epoch": 24.045032367013793,
      "grad_norm": 4.7439385525649413e-05,
      "learning_rate": 0.00010030156493002684,
      "loss": 0.0021,
      "step": 5362
    },
    {
      "epoch": 24.04953560371517,
      "grad_norm": 3.645310061983764e-05,
      "learning_rate": 0.00010015245352175811,
      "loss": 0.0021,
      "step": 5363
    },
    {
      "epoch": 24.05403884041655,
      "grad_norm": 0.00011187980999238789,
      "learning_rate": 0.00010000344069568884,
      "loss": 0.0021,
      "step": 5364
    },
    {
      "epoch": 24.058542077117927,
      "grad_norm": 8.715502917766571e-05,
      "learning_rate": 9.985452648855803e-05,
      "loss": 0.0022,
      "step": 5365
    },
    {
      "epoch": 24.06304531381931,
      "grad_norm": 0.0002952678769361228,
      "learning_rate": 9.97057109370803e-05,
      "loss": 0.0022,
      "step": 5366
    },
    {
      "epoch": 24.067548550520687,
      "grad_norm": 0.00014518768875859678,
      "learning_rate": 9.955699407794594e-05,
      "loss": 0.0023,
      "step": 5367
    },
    {
      "epoch": 24.072051787222065,
      "grad_norm": 0.0002010973112192005,
      "learning_rate": 9.940837594782126e-05,
      "loss": 0.0026,
      "step": 5368
    },
    {
      "epoch": 24.076555023923444,
      "grad_norm": 0.0003698017681017518,
      "learning_rate": 9.925985658334796e-05,
      "loss": 0.0021,
      "step": 5369
    },
    {
      "epoch": 24.081058260624825,
      "grad_norm": 2.862158180505503e-05,
      "learning_rate": 9.911143602114326e-05,
      "loss": 0.0021,
      "step": 5370
    },
    {
      "epoch": 24.085561497326204,
      "grad_norm": 4.497573172557168e-05,
      "learning_rate": 9.896311429780009e-05,
      "loss": 0.0021,
      "step": 5371
    },
    {
      "epoch": 24.09006473402758,
      "grad_norm": 2.9320555768208578e-05,
      "learning_rate": 9.881489144988743e-05,
      "loss": 0.0021,
      "step": 5372
    },
    {
      "epoch": 24.09456797072896,
      "grad_norm": 0.00015800479741301388,
      "learning_rate": 9.866676751394927e-05,
      "loss": 0.0022,
      "step": 5373
    },
    {
      "epoch": 24.09907120743034,
      "grad_norm": 0.00010893609578488395,
      "learning_rate": 9.85187425265055e-05,
      "loss": 0.0022,
      "step": 5374
    },
    {
      "epoch": 24.10357444413172,
      "grad_norm": 0.00025603725225664675,
      "learning_rate": 9.837081652405178e-05,
      "loss": 0.0021,
      "step": 5375
    },
    {
      "epoch": 24.108077680833098,
      "grad_norm": 0.0001068427663994953,
      "learning_rate": 9.822298954305902e-05,
      "loss": 0.0021,
      "step": 5376
    },
    {
      "epoch": 24.112580917534476,
      "grad_norm": 0.00012104834604542702,
      "learning_rate": 9.807526161997404e-05,
      "loss": 0.0021,
      "step": 5377
    },
    {
      "epoch": 24.117084154235858,
      "grad_norm": 6.936741556273773e-05,
      "learning_rate": 9.79276327912188e-05,
      "loss": 0.0021,
      "step": 5378
    },
    {
      "epoch": 24.121587390937236,
      "grad_norm": 9.870932262856513e-05,
      "learning_rate": 9.778010309319152e-05,
      "loss": 0.0022,
      "step": 5379
    },
    {
      "epoch": 24.126090627638614,
      "grad_norm": 0.0002055200602626428,
      "learning_rate": 9.76326725622651e-05,
      "loss": 0.0021,
      "step": 5380
    },
    {
      "epoch": 24.130593864339993,
      "grad_norm": 0.00029717214056290686,
      "learning_rate": 9.748534123478886e-05,
      "loss": 0.0023,
      "step": 5381
    },
    {
      "epoch": 24.135097101041374,
      "grad_norm": 0.00010851754632312804,
      "learning_rate": 9.733810914708691e-05,
      "loss": 0.0022,
      "step": 5382
    },
    {
      "epoch": 24.139600337742753,
      "grad_norm": 0.00010041429050033912,
      "learning_rate": 9.719097633545975e-05,
      "loss": 0.0021,
      "step": 5383
    },
    {
      "epoch": 24.14410357444413,
      "grad_norm": 0.0001591751934029162,
      "learning_rate": 9.704394283618228e-05,
      "loss": 0.0022,
      "step": 5384
    },
    {
      "epoch": 24.148606811145513,
      "grad_norm": 0.00012913935643155128,
      "learning_rate": 9.689700868550593e-05,
      "loss": 0.0021,
      "step": 5385
    },
    {
      "epoch": 24.15311004784689,
      "grad_norm": 7.547009590780362e-05,
      "learning_rate": 9.675017391965718e-05,
      "loss": 0.002,
      "step": 5386
    },
    {
      "epoch": 24.15761328454827,
      "grad_norm": 0.00011994139640592039,
      "learning_rate": 9.6603438574838e-05,
      "loss": 0.0022,
      "step": 5387
    },
    {
      "epoch": 24.162116521249647,
      "grad_norm": 6.144561484688893e-05,
      "learning_rate": 9.645680268722578e-05,
      "loss": 0.0021,
      "step": 5388
    },
    {
      "epoch": 24.16661975795103,
      "grad_norm": 0.00011099894618382677,
      "learning_rate": 9.631026629297379e-05,
      "loss": 0.0022,
      "step": 5389
    },
    {
      "epoch": 24.171122994652407,
      "grad_norm": 9.061289165401831e-05,
      "learning_rate": 9.616382942821039e-05,
      "loss": 0.002,
      "step": 5390
    },
    {
      "epoch": 24.175626231353785,
      "grad_norm": 9.376637899549678e-05,
      "learning_rate": 9.601749212903937e-05,
      "loss": 0.0022,
      "step": 5391
    },
    {
      "epoch": 24.180129468055163,
      "grad_norm": 0.0002514791558496654,
      "learning_rate": 9.587125443154037e-05,
      "loss": 0.0022,
      "step": 5392
    },
    {
      "epoch": 24.184632704756545,
      "grad_norm": 0.00022008601808920503,
      "learning_rate": 9.572511637176812e-05,
      "loss": 0.0027,
      "step": 5393
    },
    {
      "epoch": 24.189135941457923,
      "grad_norm": 0.00034263977431692183,
      "learning_rate": 9.557907798575283e-05,
      "loss": 0.0021,
      "step": 5394
    },
    {
      "epoch": 24.1936391781593,
      "grad_norm": 9.719791705720127e-05,
      "learning_rate": 9.543313930950004e-05,
      "loss": 0.0021,
      "step": 5395
    },
    {
      "epoch": 24.19814241486068,
      "grad_norm": 2.676742587937042e-05,
      "learning_rate": 9.52873003789912e-05,
      "loss": 0.0021,
      "step": 5396
    },
    {
      "epoch": 24.20264565156206,
      "grad_norm": 7.358456787187606e-05,
      "learning_rate": 9.514156123018258e-05,
      "loss": 0.0021,
      "step": 5397
    },
    {
      "epoch": 24.20714888826344,
      "grad_norm": 3.18580714520067e-05,
      "learning_rate": 9.499592189900618e-05,
      "loss": 0.0021,
      "step": 5398
    },
    {
      "epoch": 24.211652124964818,
      "grad_norm": 8.521241397829726e-05,
      "learning_rate": 9.485038242136912e-05,
      "loss": 0.0022,
      "step": 5399
    },
    {
      "epoch": 24.216155361666196,
      "grad_norm": 0.00015463748422916979,
      "learning_rate": 9.47049428331545e-05,
      "loss": 0.0021,
      "step": 5400
    },
    {
      "epoch": 24.220658598367578,
      "grad_norm": 5.0536400522105396e-05,
      "learning_rate": 9.455960317021983e-05,
      "loss": 0.0021,
      "step": 5401
    },
    {
      "epoch": 24.225161835068956,
      "grad_norm": 8.607653580838814e-05,
      "learning_rate": 9.441436346839893e-05,
      "loss": 0.0022,
      "step": 5402
    },
    {
      "epoch": 24.229665071770334,
      "grad_norm": 8.613744284957647e-05,
      "learning_rate": 9.426922376350028e-05,
      "loss": 0.0021,
      "step": 5403
    },
    {
      "epoch": 24.234168308471713,
      "grad_norm": 8.77266502357088e-05,
      "learning_rate": 9.412418409130846e-05,
      "loss": 0.0021,
      "step": 5404
    },
    {
      "epoch": 24.238671545173094,
      "grad_norm": 6.189165287651122e-05,
      "learning_rate": 9.397924448758232e-05,
      "loss": 0.0021,
      "step": 5405
    },
    {
      "epoch": 24.243174781874473,
      "grad_norm": 4.51017331215553e-05,
      "learning_rate": 9.383440498805712e-05,
      "loss": 0.0022,
      "step": 5406
    },
    {
      "epoch": 24.24767801857585,
      "grad_norm": 0.0002284932415932417,
      "learning_rate": 9.368966562844272e-05,
      "loss": 0.0022,
      "step": 5407
    },
    {
      "epoch": 24.25218125527723,
      "grad_norm": 0.0002457233495078981,
      "learning_rate": 9.354502644442448e-05,
      "loss": 0.0021,
      "step": 5408
    },
    {
      "epoch": 24.25668449197861,
      "grad_norm": 0.00010059275518869981,
      "learning_rate": 9.340048747166341e-05,
      "loss": 0.0021,
      "step": 5409
    },
    {
      "epoch": 24.26118772867999,
      "grad_norm": 7.731131336186081e-05,
      "learning_rate": 9.325604874579525e-05,
      "loss": 0.0022,
      "step": 5410
    },
    {
      "epoch": 24.265690965381367,
      "grad_norm": 0.00015910129877738655,
      "learning_rate": 9.311171030243143e-05,
      "loss": 0.0021,
      "step": 5411
    },
    {
      "epoch": 24.270194202082745,
      "grad_norm": 9.281691018259153e-05,
      "learning_rate": 9.296747217715829e-05,
      "loss": 0.0024,
      "step": 5412
    },
    {
      "epoch": 24.274697438784127,
      "grad_norm": 0.00047240094863809645,
      "learning_rate": 9.282333440553803e-05,
      "loss": 0.0021,
      "step": 5413
    },
    {
      "epoch": 24.279200675485505,
      "grad_norm": 0.0001347584620816633,
      "learning_rate": 9.267929702310746e-05,
      "loss": 0.0021,
      "step": 5414
    },
    {
      "epoch": 24.283703912186883,
      "grad_norm": 0.00010688071051845327,
      "learning_rate": 9.253536006537905e-05,
      "loss": 0.0022,
      "step": 5415
    },
    {
      "epoch": 24.288207148888265,
      "grad_norm": 8.186756895156577e-05,
      "learning_rate": 9.23915235678402e-05,
      "loss": 0.0021,
      "step": 5416
    },
    {
      "epoch": 24.292710385589643,
      "grad_norm": 0.00011964652367169037,
      "learning_rate": 9.224778756595398e-05,
      "loss": 0.0021,
      "step": 5417
    },
    {
      "epoch": 24.29721362229102,
      "grad_norm": 8.58717758092098e-05,
      "learning_rate": 9.210415209515832e-05,
      "loss": 0.0022,
      "step": 5418
    },
    {
      "epoch": 24.3017168589924,
      "grad_norm": 9.682436211733148e-05,
      "learning_rate": 9.196061719086646e-05,
      "loss": 0.0022,
      "step": 5419
    },
    {
      "epoch": 24.30622009569378,
      "grad_norm": 0.00025827751960605383,
      "learning_rate": 9.181718288846664e-05,
      "loss": 0.0021,
      "step": 5420
    },
    {
      "epoch": 24.31072333239516,
      "grad_norm": 0.00014509036554954946,
      "learning_rate": 9.167384922332289e-05,
      "loss": 0.0021,
      "step": 5421
    },
    {
      "epoch": 24.315226569096538,
      "grad_norm": 7.502422522520646e-05,
      "learning_rate": 9.153061623077391e-05,
      "loss": 0.0021,
      "step": 5422
    },
    {
      "epoch": 24.319729805797916,
      "grad_norm": 3.4408800274832174e-05,
      "learning_rate": 9.138748394613361e-05,
      "loss": 0.0021,
      "step": 5423
    },
    {
      "epoch": 24.324233042499298,
      "grad_norm": 0.00016865799261722714,
      "learning_rate": 9.124445240469115e-05,
      "loss": 0.0023,
      "step": 5424
    },
    {
      "epoch": 24.328736279200676,
      "grad_norm": 0.00030697102192789316,
      "learning_rate": 9.110152164171127e-05,
      "loss": 0.0022,
      "step": 5425
    },
    {
      "epoch": 24.333239515902054,
      "grad_norm": 0.00013130037405062467,
      "learning_rate": 9.095869169243287e-05,
      "loss": 0.0021,
      "step": 5426
    },
    {
      "epoch": 24.337742752603432,
      "grad_norm": 9.246679837815464e-05,
      "learning_rate": 9.081596259207109e-05,
      "loss": 0.0021,
      "step": 5427
    },
    {
      "epoch": 24.342245989304814,
      "grad_norm": 7.394146814476699e-05,
      "learning_rate": 9.067333437581537e-05,
      "loss": 0.0022,
      "step": 5428
    },
    {
      "epoch": 24.346749226006192,
      "grad_norm": 0.00016512932779733092,
      "learning_rate": 9.053080707883093e-05,
      "loss": 0.0021,
      "step": 5429
    },
    {
      "epoch": 24.35125246270757,
      "grad_norm": 0.0001414074213244021,
      "learning_rate": 9.038838073625766e-05,
      "loss": 0.0022,
      "step": 5430
    },
    {
      "epoch": 24.35575569940895,
      "grad_norm": 0.0001256419491255656,
      "learning_rate": 9.024605538321051e-05,
      "loss": 0.0021,
      "step": 5431
    },
    {
      "epoch": 24.36025893611033,
      "grad_norm": 0.0001763505715643987,
      "learning_rate": 9.010383105478021e-05,
      "loss": 0.0021,
      "step": 5432
    },
    {
      "epoch": 24.36476217281171,
      "grad_norm": 9.366951417177916e-05,
      "learning_rate": 8.996170778603153e-05,
      "loss": 0.0021,
      "step": 5433
    },
    {
      "epoch": 24.369265409513087,
      "grad_norm": 0.0002657900913618505,
      "learning_rate": 8.981968561200527e-05,
      "loss": 0.0022,
      "step": 5434
    },
    {
      "epoch": 24.373768646214465,
      "grad_norm": 0.00011139718117192388,
      "learning_rate": 8.967776456771665e-05,
      "loss": 0.0021,
      "step": 5435
    },
    {
      "epoch": 24.378271882915847,
      "grad_norm": 3.186312460456975e-05,
      "learning_rate": 8.953594468815663e-05,
      "loss": 0.0021,
      "step": 5436
    },
    {
      "epoch": 24.382775119617225,
      "grad_norm": 0.00019408452499192208,
      "learning_rate": 8.939422600829028e-05,
      "loss": 0.0022,
      "step": 5437
    },
    {
      "epoch": 24.387278356318603,
      "grad_norm": 0.00011318099132040516,
      "learning_rate": 8.925260856305873e-05,
      "loss": 0.0022,
      "step": 5438
    },
    {
      "epoch": 24.39178159301998,
      "grad_norm": 0.0002193128311773762,
      "learning_rate": 8.911109238737747e-05,
      "loss": 0.0022,
      "step": 5439
    },
    {
      "epoch": 24.396284829721363,
      "grad_norm": 8.03034272394143e-05,
      "learning_rate": 8.896967751613728e-05,
      "loss": 0.0021,
      "step": 5440
    },
    {
      "epoch": 24.40078806642274,
      "grad_norm": 0.000117869334644638,
      "learning_rate": 8.882836398420379e-05,
      "loss": 0.0022,
      "step": 5441
    },
    {
      "epoch": 24.40529130312412,
      "grad_norm": 8.304840594064444e-05,
      "learning_rate": 8.868715182641807e-05,
      "loss": 0.0022,
      "step": 5442
    },
    {
      "epoch": 24.409794539825498,
      "grad_norm": 0.00012205010716570541,
      "learning_rate": 8.854604107759567e-05,
      "loss": 0.0021,
      "step": 5443
    },
    {
      "epoch": 24.41429777652688,
      "grad_norm": 0.00033077888656407595,
      "learning_rate": 8.840503177252746e-05,
      "loss": 0.0026,
      "step": 5444
    },
    {
      "epoch": 24.418801013228258,
      "grad_norm": 0.0002213180996477604,
      "learning_rate": 8.826412394597904e-05,
      "loss": 0.0022,
      "step": 5445
    },
    {
      "epoch": 24.423304249929636,
      "grad_norm": 5.0339873268967494e-05,
      "learning_rate": 8.812331763269144e-05,
      "loss": 0.0022,
      "step": 5446
    },
    {
      "epoch": 24.427807486631018,
      "grad_norm": 0.000266070943325758,
      "learning_rate": 8.798261286738024e-05,
      "loss": 0.0022,
      "step": 5447
    },
    {
      "epoch": 24.432310723332396,
      "grad_norm": 0.000190294609637931,
      "learning_rate": 8.784200968473616e-05,
      "loss": 0.0021,
      "step": 5448
    },
    {
      "epoch": 24.436813960033774,
      "grad_norm": 8.207296923501417e-05,
      "learning_rate": 8.770150811942462e-05,
      "loss": 0.0021,
      "step": 5449
    },
    {
      "epoch": 24.441317196735152,
      "grad_norm": 2.448057239234913e-05,
      "learning_rate": 8.75611082060866e-05,
      "loss": 0.0022,
      "step": 5450
    },
    {
      "epoch": 24.445820433436534,
      "grad_norm": 5.092601350042969e-05,
      "learning_rate": 8.742080997933732e-05,
      "loss": 0.0022,
      "step": 5451
    },
    {
      "epoch": 24.450323670137912,
      "grad_norm": 0.0001492427836637944,
      "learning_rate": 8.728061347376726e-05,
      "loss": 0.0022,
      "step": 5452
    },
    {
      "epoch": 24.45482690683929,
      "grad_norm": 9.419151319889352e-05,
      "learning_rate": 8.714051872394213e-05,
      "loss": 0.0021,
      "step": 5453
    },
    {
      "epoch": 24.45933014354067,
      "grad_norm": 4.502461160882376e-05,
      "learning_rate": 8.700052576440165e-05,
      "loss": 0.002,
      "step": 5454
    },
    {
      "epoch": 24.46383338024205,
      "grad_norm": 3.281594763393514e-05,
      "learning_rate": 8.686063462966149e-05,
      "loss": 0.0021,
      "step": 5455
    },
    {
      "epoch": 24.46833661694343,
      "grad_norm": 0.00011785807146225125,
      "learning_rate": 8.672084535421138e-05,
      "loss": 0.0021,
      "step": 5456
    },
    {
      "epoch": 24.472839853644807,
      "grad_norm": 5.5246906413231045e-05,
      "learning_rate": 8.658115797251676e-05,
      "loss": 0.0022,
      "step": 5457
    },
    {
      "epoch": 24.477343090346185,
      "grad_norm": 4.684492159867659e-05,
      "learning_rate": 8.64415725190169e-05,
      "loss": 0.0021,
      "step": 5458
    },
    {
      "epoch": 24.481846327047567,
      "grad_norm": 0.00013233810022938997,
      "learning_rate": 8.630208902812697e-05,
      "loss": 0.0022,
      "step": 5459
    },
    {
      "epoch": 24.486349563748945,
      "grad_norm": 4.322520544519648e-05,
      "learning_rate": 8.616270753423632e-05,
      "loss": 0.002,
      "step": 5460
    },
    {
      "epoch": 24.490852800450323,
      "grad_norm": 2.5921963242581114e-05,
      "learning_rate": 8.602342807170948e-05,
      "loss": 0.0021,
      "step": 5461
    },
    {
      "epoch": 24.4953560371517,
      "grad_norm": 2.9064090995234437e-05,
      "learning_rate": 8.588425067488559e-05,
      "loss": 0.0022,
      "step": 5462
    },
    {
      "epoch": 24.499859273853083,
      "grad_norm": 0.00012939235602971166,
      "learning_rate": 8.574517537807896e-05,
      "loss": 0.0021,
      "step": 5463
    },
    {
      "epoch": 24.50436251055446,
      "grad_norm": 9.305668936576694e-05,
      "learning_rate": 8.560620221557846e-05,
      "loss": 0.0022,
      "step": 5464
    },
    {
      "epoch": 24.50886574725584,
      "grad_norm": 6.595769082196057e-05,
      "learning_rate": 8.546733122164785e-05,
      "loss": 0.0022,
      "step": 5465
    },
    {
      "epoch": 24.513368983957218,
      "grad_norm": 0.0001871017593657598,
      "learning_rate": 8.53285624305255e-05,
      "loss": 0.0022,
      "step": 5466
    },
    {
      "epoch": 24.5178722206586,
      "grad_norm": 5.8962370530935004e-05,
      "learning_rate": 8.518989587642511e-05,
      "loss": 0.0022,
      "step": 5467
    },
    {
      "epoch": 24.522375457359978,
      "grad_norm": 7.321740849874914e-05,
      "learning_rate": 8.505133159353468e-05,
      "loss": 0.0021,
      "step": 5468
    },
    {
      "epoch": 24.526878694061356,
      "grad_norm": 3.041632953681983e-05,
      "learning_rate": 8.491286961601702e-05,
      "loss": 0.0022,
      "step": 5469
    },
    {
      "epoch": 24.531381930762734,
      "grad_norm": 0.00016222229169216007,
      "learning_rate": 8.477450997801018e-05,
      "loss": 0.0021,
      "step": 5470
    },
    {
      "epoch": 24.535885167464116,
      "grad_norm": 3.7768055335618556e-05,
      "learning_rate": 8.463625271362645e-05,
      "loss": 0.0021,
      "step": 5471
    },
    {
      "epoch": 24.540388404165494,
      "grad_norm": 6.444403697969392e-05,
      "learning_rate": 8.449809785695318e-05,
      "loss": 0.0024,
      "step": 5472
    },
    {
      "epoch": 24.544891640866872,
      "grad_norm": 0.0003830670320894569,
      "learning_rate": 8.436004544205217e-05,
      "loss": 0.0021,
      "step": 5473
    },
    {
      "epoch": 24.549394877568254,
      "grad_norm": 5.774368401034735e-05,
      "learning_rate": 8.42220955029605e-05,
      "loss": 0.0022,
      "step": 5474
    },
    {
      "epoch": 24.553898114269632,
      "grad_norm": 0.00011274588905507699,
      "learning_rate": 8.40842480736893e-05,
      "loss": 0.0022,
      "step": 5475
    },
    {
      "epoch": 24.55840135097101,
      "grad_norm": 0.00011389392602723092,
      "learning_rate": 8.3946503188225e-05,
      "loss": 0.0021,
      "step": 5476
    },
    {
      "epoch": 24.56290458767239,
      "grad_norm": 0.00012714067997876555,
      "learning_rate": 8.380886088052841e-05,
      "loss": 0.0022,
      "step": 5477
    },
    {
      "epoch": 24.56740782437377,
      "grad_norm": 0.0002500080445315689,
      "learning_rate": 8.367132118453546e-05,
      "loss": 0.0022,
      "step": 5478
    },
    {
      "epoch": 24.57191106107515,
      "grad_norm": 7.144443225115538e-05,
      "learning_rate": 8.353388413415603e-05,
      "loss": 0.0022,
      "step": 5479
    },
    {
      "epoch": 24.576414297776527,
      "grad_norm": 3.319246752653271e-05,
      "learning_rate": 8.339654976327548e-05,
      "loss": 0.0021,
      "step": 5480
    },
    {
      "epoch": 24.580917534477905,
      "grad_norm": 0.00012139464524807408,
      "learning_rate": 8.325931810575343e-05,
      "loss": 0.0022,
      "step": 5481
    },
    {
      "epoch": 24.585420771179287,
      "grad_norm": 7.283738523256034e-05,
      "learning_rate": 8.312218919542431e-05,
      "loss": 0.0023,
      "step": 5482
    },
    {
      "epoch": 24.589924007880665,
      "grad_norm": 0.0002522538707125932,
      "learning_rate": 8.2985163066097e-05,
      "loss": 0.0021,
      "step": 5483
    },
    {
      "epoch": 24.594427244582043,
      "grad_norm": 2.8522890715976246e-05,
      "learning_rate": 8.284823975155547e-05,
      "loss": 0.0021,
      "step": 5484
    },
    {
      "epoch": 24.59893048128342,
      "grad_norm": 0.0001401566551066935,
      "learning_rate": 8.271141928555803e-05,
      "loss": 0.0022,
      "step": 5485
    },
    {
      "epoch": 24.603433717984803,
      "grad_norm": 2.745484744082205e-05,
      "learning_rate": 8.257470170183745e-05,
      "loss": 0.0021,
      "step": 5486
    },
    {
      "epoch": 24.60793695468618,
      "grad_norm": 0.00013561225205194205,
      "learning_rate": 8.243808703410177e-05,
      "loss": 0.0022,
      "step": 5487
    },
    {
      "epoch": 24.61244019138756,
      "grad_norm": 0.00016143880202434957,
      "learning_rate": 8.2301575316033e-05,
      "loss": 0.0022,
      "step": 5488
    },
    {
      "epoch": 24.616943428088938,
      "grad_norm": 0.0001479204511269927,
      "learning_rate": 8.216516658128815e-05,
      "loss": 0.0022,
      "step": 5489
    },
    {
      "epoch": 24.62144666479032,
      "grad_norm": 0.00027779568335972726,
      "learning_rate": 8.202886086349848e-05,
      "loss": 0.0022,
      "step": 5490
    },
    {
      "epoch": 24.625949901491698,
      "grad_norm": 5.3624185966327786e-05,
      "learning_rate": 8.189265819627046e-05,
      "loss": 0.0021,
      "step": 5491
    },
    {
      "epoch": 24.630453138193076,
      "grad_norm": 7.042470679152757e-05,
      "learning_rate": 8.17565586131846e-05,
      "loss": 0.0021,
      "step": 5492
    },
    {
      "epoch": 24.634956374894454,
      "grad_norm": 0.0001793737756088376,
      "learning_rate": 8.162056214779618e-05,
      "loss": 0.0023,
      "step": 5493
    },
    {
      "epoch": 24.639459611595836,
      "grad_norm": 0.00018821451521944255,
      "learning_rate": 8.148466883363493e-05,
      "loss": 0.0022,
      "step": 5494
    },
    {
      "epoch": 24.643962848297214,
      "grad_norm": 9.518904698779806e-05,
      "learning_rate": 8.134887870420549e-05,
      "loss": 0.0021,
      "step": 5495
    },
    {
      "epoch": 24.648466084998592,
      "grad_norm": 0.00018173715216107666,
      "learning_rate": 8.12131917929868e-05,
      "loss": 0.0022,
      "step": 5496
    },
    {
      "epoch": 24.65296932169997,
      "grad_norm": 6.664265674771741e-05,
      "learning_rate": 8.107760813343235e-05,
      "loss": 0.0022,
      "step": 5497
    },
    {
      "epoch": 24.657472558401352,
      "grad_norm": 0.00010482162906555459,
      "learning_rate": 8.094212775897008e-05,
      "loss": 0.0021,
      "step": 5498
    },
    {
      "epoch": 24.66197579510273,
      "grad_norm": 5.453596168081276e-05,
      "learning_rate": 8.080675070300303e-05,
      "loss": 0.0022,
      "step": 5499
    },
    {
      "epoch": 24.66647903180411,
      "grad_norm": 0.00016061570204328746,
      "learning_rate": 8.067147699890775e-05,
      "loss": 0.0022,
      "step": 5500
    },
    {
      "epoch": 24.670982268505487,
      "grad_norm": 0.00024151569232344627,
      "learning_rate": 8.053630668003642e-05,
      "loss": 0.0023,
      "step": 5501
    },
    {
      "epoch": 24.67548550520687,
      "grad_norm": 0.00016830352251417935,
      "learning_rate": 8.04012397797148e-05,
      "loss": 0.0021,
      "step": 5502
    },
    {
      "epoch": 24.679988741908247,
      "grad_norm": 6.839756679255515e-05,
      "learning_rate": 8.026627633124389e-05,
      "loss": 0.0021,
      "step": 5503
    },
    {
      "epoch": 24.684491978609625,
      "grad_norm": 9.85718215815723e-05,
      "learning_rate": 8.013141636789877e-05,
      "loss": 0.0021,
      "step": 5504
    },
    {
      "epoch": 24.688995215311003,
      "grad_norm": 0.0001533534232294187,
      "learning_rate": 7.999665992292904e-05,
      "loss": 0.0021,
      "step": 5505
    },
    {
      "epoch": 24.693498452012385,
      "grad_norm": 2.476974441378843e-05,
      "learning_rate": 7.986200702955881e-05,
      "loss": 0.0021,
      "step": 5506
    },
    {
      "epoch": 24.698001688713763,
      "grad_norm": 4.919225466437638e-05,
      "learning_rate": 7.972745772098655e-05,
      "loss": 0.0022,
      "step": 5507
    },
    {
      "epoch": 24.70250492541514,
      "grad_norm": 0.00021031829237472266,
      "learning_rate": 7.959301203038566e-05,
      "loss": 0.0022,
      "step": 5508
    },
    {
      "epoch": 24.707008162116523,
      "grad_norm": 3.270827801316045e-05,
      "learning_rate": 7.945866999090334e-05,
      "loss": 0.0021,
      "step": 5509
    },
    {
      "epoch": 24.7115113988179,
      "grad_norm": 0.00010526971163926646,
      "learning_rate": 7.932443163566195e-05,
      "loss": 0.0022,
      "step": 5510
    },
    {
      "epoch": 24.71601463551928,
      "grad_norm": 0.00022454431746155024,
      "learning_rate": 7.919029699775731e-05,
      "loss": 0.0021,
      "step": 5511
    },
    {
      "epoch": 24.720517872220658,
      "grad_norm": 0.0001321962190559134,
      "learning_rate": 7.905626611026068e-05,
      "loss": 0.0022,
      "step": 5512
    },
    {
      "epoch": 24.72502110892204,
      "grad_norm": 9.858376142801717e-05,
      "learning_rate": 7.89223390062172e-05,
      "loss": 0.0021,
      "step": 5513
    },
    {
      "epoch": 24.729524345623418,
      "grad_norm": 2.7315330953570083e-05,
      "learning_rate": 7.878851571864648e-05,
      "loss": 0.0021,
      "step": 5514
    },
    {
      "epoch": 24.734027582324796,
      "grad_norm": 0.00015467757475562394,
      "learning_rate": 7.865479628054245e-05,
      "loss": 0.0021,
      "step": 5515
    },
    {
      "epoch": 24.738530819026174,
      "grad_norm": 4.3549418478505686e-05,
      "learning_rate": 7.852118072487386e-05,
      "loss": 0.0021,
      "step": 5516
    },
    {
      "epoch": 24.743034055727556,
      "grad_norm": 6.742554978700355e-05,
      "learning_rate": 7.838766908458339e-05,
      "loss": 0.0021,
      "step": 5517
    },
    {
      "epoch": 24.747537292428934,
      "grad_norm": 8.819273352855816e-05,
      "learning_rate": 7.825426139258835e-05,
      "loss": 0.0021,
      "step": 5518
    },
    {
      "epoch": 24.752040529130312,
      "grad_norm": 5.8616969909053296e-05,
      "learning_rate": 7.812095768178007e-05,
      "loss": 0.0021,
      "step": 5519
    },
    {
      "epoch": 24.75654376583169,
      "grad_norm": 2.7498637791723013e-05,
      "learning_rate": 7.798775798502483e-05,
      "loss": 0.0021,
      "step": 5520
    },
    {
      "epoch": 24.761047002533072,
      "grad_norm": 6.76550916978158e-05,
      "learning_rate": 7.785466233516286e-05,
      "loss": 0.0021,
      "step": 5521
    },
    {
      "epoch": 24.76555023923445,
      "grad_norm": 8.566844189772382e-05,
      "learning_rate": 7.772167076500875e-05,
      "loss": 0.0022,
      "step": 5522
    },
    {
      "epoch": 24.77005347593583,
      "grad_norm": 9.790592594072223e-05,
      "learning_rate": 7.758878330735141e-05,
      "loss": 0.0022,
      "step": 5523
    },
    {
      "epoch": 24.774556712637207,
      "grad_norm": 0.0002826948184520006,
      "learning_rate": 7.745599999495445e-05,
      "loss": 0.0021,
      "step": 5524
    },
    {
      "epoch": 24.77905994933859,
      "grad_norm": 3.792728966800496e-05,
      "learning_rate": 7.732332086055532e-05,
      "loss": 0.0021,
      "step": 5525
    },
    {
      "epoch": 24.783563186039967,
      "grad_norm": 7.769899093545973e-05,
      "learning_rate": 7.719074593686593e-05,
      "loss": 0.0021,
      "step": 5526
    },
    {
      "epoch": 24.788066422741345,
      "grad_norm": 7.765763439238071e-05,
      "learning_rate": 7.705827525657294e-05,
      "loss": 0.0022,
      "step": 5527
    },
    {
      "epoch": 24.792569659442723,
      "grad_norm": 0.00021535134874284267,
      "learning_rate": 7.692590885233635e-05,
      "loss": 0.0022,
      "step": 5528
    },
    {
      "epoch": 24.797072896144105,
      "grad_norm": 8.966599853010848e-05,
      "learning_rate": 7.679364675679151e-05,
      "loss": 0.0021,
      "step": 5529
    },
    {
      "epoch": 24.801576132845483,
      "grad_norm": 0.0001313187531195581,
      "learning_rate": 7.666148900254721e-05,
      "loss": 0.0021,
      "step": 5530
    },
    {
      "epoch": 24.80607936954686,
      "grad_norm": 5.892857734579593e-05,
      "learning_rate": 7.652943562218734e-05,
      "loss": 0.0022,
      "step": 5531
    },
    {
      "epoch": 24.81058260624824,
      "grad_norm": 6.668781134067103e-05,
      "learning_rate": 7.639748664826901e-05,
      "loss": 0.0021,
      "step": 5532
    },
    {
      "epoch": 24.81508584294962,
      "grad_norm": 4.871052806265652e-05,
      "learning_rate": 7.626564211332465e-05,
      "loss": 0.0021,
      "step": 5533
    },
    {
      "epoch": 24.819589079651,
      "grad_norm": 0.00011154561070725322,
      "learning_rate": 7.61339020498602e-05,
      "loss": 0.0021,
      "step": 5534
    },
    {
      "epoch": 24.824092316352377,
      "grad_norm": 3.9677404856774956e-05,
      "learning_rate": 7.600226649035619e-05,
      "loss": 0.0022,
      "step": 5535
    },
    {
      "epoch": 24.82859555305376,
      "grad_norm": 0.00014478877710644156,
      "learning_rate": 7.58707354672672e-05,
      "loss": 0.0021,
      "step": 5536
    },
    {
      "epoch": 24.833098789755137,
      "grad_norm": 4.919003913528286e-05,
      "learning_rate": 7.573930901302228e-05,
      "loss": 0.0021,
      "step": 5537
    },
    {
      "epoch": 24.837602026456516,
      "grad_norm": 2.7425132429925725e-05,
      "learning_rate": 7.560798716002448e-05,
      "loss": 0.0021,
      "step": 5538
    },
    {
      "epoch": 24.842105263157894,
      "grad_norm": 6.0545859014382586e-05,
      "learning_rate": 7.547676994065117e-05,
      "loss": 0.0021,
      "step": 5539
    },
    {
      "epoch": 24.846608499859276,
      "grad_norm": 9.154491999652237e-05,
      "learning_rate": 7.534565738725374e-05,
      "loss": 0.0022,
      "step": 5540
    },
    {
      "epoch": 24.851111736560654,
      "grad_norm": 0.00011499680840643123,
      "learning_rate": 7.521464953215812e-05,
      "loss": 0.0021,
      "step": 5541
    },
    {
      "epoch": 24.855614973262032,
      "grad_norm": 2.3464803234674037e-05,
      "learning_rate": 7.508374640766414e-05,
      "loss": 0.0021,
      "step": 5542
    },
    {
      "epoch": 24.86011820996341,
      "grad_norm": 7.494969759136438e-05,
      "learning_rate": 7.49529480460458e-05,
      "loss": 0.0022,
      "step": 5543
    },
    {
      "epoch": 24.864621446664792,
      "grad_norm": 8.693376003066078e-05,
      "learning_rate": 7.482225447955155e-05,
      "loss": 0.0021,
      "step": 5544
    },
    {
      "epoch": 24.86912468336617,
      "grad_norm": 3.313051274744794e-05,
      "learning_rate": 7.469166574040376e-05,
      "loss": 0.0021,
      "step": 5545
    },
    {
      "epoch": 24.87362792006755,
      "grad_norm": 9.59216631599702e-05,
      "learning_rate": 7.456118186079897e-05,
      "loss": 0.0021,
      "step": 5546
    },
    {
      "epoch": 24.878131156768927,
      "grad_norm": 6.231943552847952e-05,
      "learning_rate": 7.443080287290782e-05,
      "loss": 0.0021,
      "step": 5547
    },
    {
      "epoch": 24.88263439347031,
      "grad_norm": 4.9726557335816324e-05,
      "learning_rate": 7.43005288088755e-05,
      "loss": 0.0022,
      "step": 5548
    },
    {
      "epoch": 24.887137630171686,
      "grad_norm": 8.393752068514004e-05,
      "learning_rate": 7.417035970082059e-05,
      "loss": 0.0022,
      "step": 5549
    },
    {
      "epoch": 24.891640866873065,
      "grad_norm": 0.00018819642718881369,
      "learning_rate": 7.404029558083653e-05,
      "loss": 0.0021,
      "step": 5550
    },
    {
      "epoch": 24.896144103574443,
      "grad_norm": 0.0002180383016820997,
      "learning_rate": 7.391033648099033e-05,
      "loss": 0.0023,
      "step": 5551
    },
    {
      "epoch": 24.900647340275825,
      "grad_norm": 0.00013117043999955058,
      "learning_rate": 7.378048243332364e-05,
      "loss": 0.0021,
      "step": 5552
    },
    {
      "epoch": 24.905150576977203,
      "grad_norm": 9.346549632027745e-05,
      "learning_rate": 7.365073346985157e-05,
      "loss": 0.0021,
      "step": 5553
    },
    {
      "epoch": 24.90965381367858,
      "grad_norm": 8.43112647999078e-05,
      "learning_rate": 7.352108962256388e-05,
      "loss": 0.0022,
      "step": 5554
    },
    {
      "epoch": 24.91415705037996,
      "grad_norm": 0.00016473172581754625,
      "learning_rate": 7.339155092342414e-05,
      "loss": 0.0022,
      "step": 5555
    },
    {
      "epoch": 24.91866028708134,
      "grad_norm": 9.39456294872798e-05,
      "learning_rate": 7.326211740437e-05,
      "loss": 0.0021,
      "step": 5556
    },
    {
      "epoch": 24.92316352378272,
      "grad_norm": 0.0009240070939995348,
      "learning_rate": 7.313278909731318e-05,
      "loss": 0.0027,
      "step": 5557
    },
    {
      "epoch": 24.927666760484097,
      "grad_norm": 0.00011834679753519595,
      "learning_rate": 7.300356603413966e-05,
      "loss": 0.0022,
      "step": 5558
    },
    {
      "epoch": 24.932169997185476,
      "grad_norm": 0.00012913973478134722,
      "learning_rate": 7.287444824670925e-05,
      "loss": 0.0021,
      "step": 5559
    },
    {
      "epoch": 24.936673233886857,
      "grad_norm": 4.1623796278145164e-05,
      "learning_rate": 7.274543576685577e-05,
      "loss": 0.0022,
      "step": 5560
    },
    {
      "epoch": 24.941176470588236,
      "grad_norm": 0.00019827736832667142,
      "learning_rate": 7.261652862638734e-05,
      "loss": 0.0022,
      "step": 5561
    },
    {
      "epoch": 24.945679707289614,
      "grad_norm": 4.932417141390033e-05,
      "learning_rate": 7.248772685708588e-05,
      "loss": 0.0021,
      "step": 5562
    },
    {
      "epoch": 24.950182943990992,
      "grad_norm": 6.018591739120893e-05,
      "learning_rate": 7.235903049070741e-05,
      "loss": 0.0022,
      "step": 5563
    },
    {
      "epoch": 24.954686180692374,
      "grad_norm": 7.155841012718156e-05,
      "learning_rate": 7.223043955898184e-05,
      "loss": 0.0021,
      "step": 5564
    },
    {
      "epoch": 24.959189417393752,
      "grad_norm": 2.4613796995254233e-05,
      "learning_rate": 7.210195409361337e-05,
      "loss": 0.0021,
      "step": 5565
    },
    {
      "epoch": 24.96369265409513,
      "grad_norm": 0.00017287794617004693,
      "learning_rate": 7.197357412627992e-05,
      "loss": 0.0022,
      "step": 5566
    },
    {
      "epoch": 24.96819589079651,
      "grad_norm": 0.0001515012700110674,
      "learning_rate": 7.184529968863357e-05,
      "loss": 0.0023,
      "step": 5567
    },
    {
      "epoch": 24.97269912749789,
      "grad_norm": 0.0002553384692873806,
      "learning_rate": 7.171713081230008e-05,
      "loss": 0.0021,
      "step": 5568
    },
    {
      "epoch": 24.977202364199268,
      "grad_norm": 0.00012187907850602642,
      "learning_rate": 7.158906752887978e-05,
      "loss": 0.0021,
      "step": 5569
    },
    {
      "epoch": 24.981705600900646,
      "grad_norm": 0.00013807814684696496,
      "learning_rate": 7.146110986994642e-05,
      "loss": 0.0022,
      "step": 5570
    },
    {
      "epoch": 24.986208837602028,
      "grad_norm": 9.165883238893002e-05,
      "learning_rate": 7.133325786704792e-05,
      "loss": 0.0022,
      "step": 5571
    },
    {
      "epoch": 24.990712074303406,
      "grad_norm": 9.068306826520711e-05,
      "learning_rate": 7.120551155170596e-05,
      "loss": 0.0021,
      "step": 5572
    },
    {
      "epoch": 24.995215311004785,
      "grad_norm": 0.00014909925812389702,
      "learning_rate": 7.107787095541669e-05,
      "loss": 0.0024,
      "step": 5573
    },
    {
      "epoch": 24.999718547706163,
      "grad_norm": 0.0002479210670571774,
      "learning_rate": 7.095033610964941e-05,
      "loss": 0.0021,
      "step": 5574
    },
    {
      "epoch": 25.0,
      "grad_norm": 0.0002479210670571774,
      "learning_rate": 7.082290704584804e-05,
      "loss": 0.0001,
      "step": 5575
    },
    {
      "epoch": 25.0,
      "eval_f1": 0.986594637855142,
      "eval_loss": 0.040410883724689484,
      "eval_runtime": 26.91,
      "eval_samples_per_second": 185.73,
      "eval_steps_per_second": 5.834,
      "step": 5575
    },
    {
      "epoch": 25.004503236701378,
      "grad_norm": 4.903722583549097e-05,
      "learning_rate": 7.069558379543001e-05,
      "loss": 0.0022,
      "step": 5576
    },
    {
      "epoch": 25.00900647340276,
      "grad_norm": 0.0001235938398167491,
      "learning_rate": 7.056836638978698e-05,
      "loss": 0.0021,
      "step": 5577
    },
    {
      "epoch": 25.013509710104138,
      "grad_norm": 0.0001479245984228328,
      "learning_rate": 7.044125486028419e-05,
      "loss": 0.0022,
      "step": 5578
    },
    {
      "epoch": 25.018012946805516,
      "grad_norm": 0.00015786684525664896,
      "learning_rate": 7.031424923826096e-05,
      "loss": 0.0021,
      "step": 5579
    },
    {
      "epoch": 25.022516183506895,
      "grad_norm": 7.76416200096719e-05,
      "learning_rate": 7.018734955503048e-05,
      "loss": 0.0022,
      "step": 5580
    },
    {
      "epoch": 25.027019420208276,
      "grad_norm": 0.00021684808598365635,
      "learning_rate": 7.006055584187965e-05,
      "loss": 0.0023,
      "step": 5581
    },
    {
      "epoch": 25.031522656909655,
      "grad_norm": 0.00010114062752109021,
      "learning_rate": 6.993386813006958e-05,
      "loss": 0.0022,
      "step": 5582
    },
    {
      "epoch": 25.036025893611033,
      "grad_norm": 0.00016086614050436765,
      "learning_rate": 6.98072864508349e-05,
      "loss": 0.0022,
      "step": 5583
    },
    {
      "epoch": 25.04052913031241,
      "grad_norm": 7.516561163356528e-05,
      "learning_rate": 6.968081083538458e-05,
      "loss": 0.0021,
      "step": 5584
    },
    {
      "epoch": 25.045032367013793,
      "grad_norm": 0.00011835360055556521,
      "learning_rate": 6.955444131490063e-05,
      "loss": 0.0023,
      "step": 5585
    },
    {
      "epoch": 25.04953560371517,
      "grad_norm": 0.0002694248396437615,
      "learning_rate": 6.942817792053979e-05,
      "loss": 0.0021,
      "step": 5586
    },
    {
      "epoch": 25.05403884041655,
      "grad_norm": 9.812152711674571e-05,
      "learning_rate": 6.930202068343205e-05,
      "loss": 0.0022,
      "step": 5587
    },
    {
      "epoch": 25.058542077117927,
      "grad_norm": 0.00012708615395240486,
      "learning_rate": 6.917596963468143e-05,
      "loss": 0.0021,
      "step": 5588
    },
    {
      "epoch": 25.06304531381931,
      "grad_norm": 9.502441389486194e-05,
      "learning_rate": 6.905002480536566e-05,
      "loss": 0.0022,
      "step": 5589
    },
    {
      "epoch": 25.067548550520687,
      "grad_norm": 0.00027151821996085346,
      "learning_rate": 6.892418622653657e-05,
      "loss": 0.0022,
      "step": 5590
    },
    {
      "epoch": 25.072051787222065,
      "grad_norm": 3.4990167478099465e-05,
      "learning_rate": 6.879845392921952e-05,
      "loss": 0.0021,
      "step": 5591
    },
    {
      "epoch": 25.076555023923444,
      "grad_norm": 0.0001357446308247745,
      "learning_rate": 6.867282794441365e-05,
      "loss": 0.0022,
      "step": 5592
    },
    {
      "epoch": 25.081058260624825,
      "grad_norm": 0.0001199078033096157,
      "learning_rate": 6.854730830309203e-05,
      "loss": 0.0021,
      "step": 5593
    },
    {
      "epoch": 25.085561497326204,
      "grad_norm": 7.707555778324604e-05,
      "learning_rate": 6.84218950362015e-05,
      "loss": 0.0021,
      "step": 5594
    },
    {
      "epoch": 25.09006473402758,
      "grad_norm": 4.277406696928665e-05,
      "learning_rate": 6.829658817466267e-05,
      "loss": 0.0021,
      "step": 5595
    },
    {
      "epoch": 25.09456797072896,
      "grad_norm": 7.282276783371344e-05,
      "learning_rate": 6.817138774936976e-05,
      "loss": 0.0021,
      "step": 5596
    },
    {
      "epoch": 25.09907120743034,
      "grad_norm": 3.701204332173802e-05,
      "learning_rate": 6.804629379119087e-05,
      "loss": 0.0022,
      "step": 5597
    },
    {
      "epoch": 25.10357444413172,
      "grad_norm": 0.0001016372989397496,
      "learning_rate": 6.792130633096799e-05,
      "loss": 0.0022,
      "step": 5598
    },
    {
      "epoch": 25.108077680833098,
      "grad_norm": 6.0929298342671245e-05,
      "learning_rate": 6.779642539951664e-05,
      "loss": 0.0022,
      "step": 5599
    },
    {
      "epoch": 25.112580917534476,
      "grad_norm": 3.959907917305827e-05,
      "learning_rate": 6.767165102762596e-05,
      "loss": 0.0022,
      "step": 5600
    },
    {
      "epoch": 25.117084154235858,
      "grad_norm": 4.379835809231736e-05,
      "learning_rate": 6.754698324605946e-05,
      "loss": 0.0021,
      "step": 5601
    },
    {
      "epoch": 25.121587390937236,
      "grad_norm": 3.3495616662548855e-05,
      "learning_rate": 6.742242208555343e-05,
      "loss": 0.0022,
      "step": 5602
    },
    {
      "epoch": 25.126090627638614,
      "grad_norm": 0.00013298953126650304,
      "learning_rate": 6.729796757681861e-05,
      "loss": 0.0021,
      "step": 5603
    },
    {
      "epoch": 25.130593864339993,
      "grad_norm": 4.129705484956503e-05,
      "learning_rate": 6.71736197505391e-05,
      "loss": 0.0022,
      "step": 5604
    },
    {
      "epoch": 25.135097101041374,
      "grad_norm": 7.364182238234207e-05,
      "learning_rate": 6.704937863737298e-05,
      "loss": 0.0021,
      "step": 5605
    },
    {
      "epoch": 25.139600337742753,
      "grad_norm": 7.948285201564431e-05,
      "learning_rate": 6.692524426795154e-05,
      "loss": 0.0021,
      "step": 5606
    },
    {
      "epoch": 25.14410357444413,
      "grad_norm": 3.3876367524499074e-05,
      "learning_rate": 6.680121667288025e-05,
      "loss": 0.0022,
      "step": 5607
    },
    {
      "epoch": 25.148606811145513,
      "grad_norm": 0.0001596546935616061,
      "learning_rate": 6.667729588273801e-05,
      "loss": 0.0022,
      "step": 5608
    },
    {
      "epoch": 25.15311004784689,
      "grad_norm": 0.00015086409985087812,
      "learning_rate": 6.655348192807736e-05,
      "loss": 0.0023,
      "step": 5609
    },
    {
      "epoch": 25.15761328454827,
      "grad_norm": 7.214413199108094e-05,
      "learning_rate": 6.642977483942453e-05,
      "loss": 0.0022,
      "step": 5610
    },
    {
      "epoch": 25.162116521249647,
      "grad_norm": 7.516524783568457e-05,
      "learning_rate": 6.630617464727961e-05,
      "loss": 0.0023,
      "step": 5611
    },
    {
      "epoch": 25.16661975795103,
      "grad_norm": 0.0003314078494440764,
      "learning_rate": 6.618268138211608e-05,
      "loss": 0.0022,
      "step": 5612
    },
    {
      "epoch": 25.171122994652407,
      "grad_norm": 5.461737237055786e-05,
      "learning_rate": 6.605929507438108e-05,
      "loss": 0.0022,
      "step": 5613
    },
    {
      "epoch": 25.175626231353785,
      "grad_norm": 9.463193418923765e-05,
      "learning_rate": 6.593601575449543e-05,
      "loss": 0.0022,
      "step": 5614
    },
    {
      "epoch": 25.180129468055163,
      "grad_norm": 0.00014423490210901946,
      "learning_rate": 6.581284345285372e-05,
      "loss": 0.0022,
      "step": 5615
    },
    {
      "epoch": 25.184632704756545,
      "grad_norm": 2.560692337283399e-05,
      "learning_rate": 6.568977819982386e-05,
      "loss": 0.0021,
      "step": 5616
    },
    {
      "epoch": 25.189135941457923,
      "grad_norm": 8.242424519266933e-05,
      "learning_rate": 6.556682002574754e-05,
      "loss": 0.0021,
      "step": 5617
    },
    {
      "epoch": 25.1936391781593,
      "grad_norm": 6.669685535598546e-05,
      "learning_rate": 6.544396896094019e-05,
      "loss": 0.0021,
      "step": 5618
    },
    {
      "epoch": 25.19814241486068,
      "grad_norm": 3.767059388337657e-05,
      "learning_rate": 6.532122503569054e-05,
      "loss": 0.0022,
      "step": 5619
    },
    {
      "epoch": 25.20264565156206,
      "grad_norm": 0.00018452235963195562,
      "learning_rate": 6.519858828026103e-05,
      "loss": 0.0022,
      "step": 5620
    },
    {
      "epoch": 25.20714888826344,
      "grad_norm": 3.849504719255492e-05,
      "learning_rate": 6.50760587248877e-05,
      "loss": 0.0022,
      "step": 5621
    },
    {
      "epoch": 25.211652124964818,
      "grad_norm": 4.1977476939791813e-05,
      "learning_rate": 6.49536363997803e-05,
      "loss": 0.0021,
      "step": 5622
    },
    {
      "epoch": 25.216155361666196,
      "grad_norm": 9.019092976814136e-05,
      "learning_rate": 6.483132133512171e-05,
      "loss": 0.0022,
      "step": 5623
    },
    {
      "epoch": 25.220658598367578,
      "grad_norm": 2.619181395857595e-05,
      "learning_rate": 6.470911356106884e-05,
      "loss": 0.0022,
      "step": 5624
    },
    {
      "epoch": 25.225161835068956,
      "grad_norm": 0.0001619799149921164,
      "learning_rate": 6.458701310775183e-05,
      "loss": 0.0021,
      "step": 5625
    },
    {
      "epoch": 25.229665071770334,
      "grad_norm": 0.00011368098785169423,
      "learning_rate": 6.446502000527477e-05,
      "loss": 0.0021,
      "step": 5626
    },
    {
      "epoch": 25.234168308471713,
      "grad_norm": 0.00010514805762795731,
      "learning_rate": 6.434313428371452e-05,
      "loss": 0.0022,
      "step": 5627
    },
    {
      "epoch": 25.238671545173094,
      "grad_norm": 0.00010592717444524169,
      "learning_rate": 6.422135597312234e-05,
      "loss": 0.0021,
      "step": 5628
    },
    {
      "epoch": 25.243174781874473,
      "grad_norm": 7.769429066684097e-05,
      "learning_rate": 6.409968510352243e-05,
      "loss": 0.0022,
      "step": 5629
    },
    {
      "epoch": 25.24767801857585,
      "grad_norm": 0.00012975714344065636,
      "learning_rate": 6.397812170491274e-05,
      "loss": 0.0022,
      "step": 5630
    },
    {
      "epoch": 25.25218125527723,
      "grad_norm": 6.32788724033162e-05,
      "learning_rate": 6.385666580726451e-05,
      "loss": 0.0022,
      "step": 5631
    },
    {
      "epoch": 25.25668449197861,
      "grad_norm": 0.00010967550770146772,
      "learning_rate": 6.373531744052291e-05,
      "loss": 0.0022,
      "step": 5632
    },
    {
      "epoch": 25.26118772867999,
      "grad_norm": 0.00012620589404832572,
      "learning_rate": 6.361407663460611e-05,
      "loss": 0.0022,
      "step": 5633
    },
    {
      "epoch": 25.265690965381367,
      "grad_norm": 0.00011032335896743461,
      "learning_rate": 6.349294341940592e-05,
      "loss": 0.0021,
      "step": 5634
    },
    {
      "epoch": 25.270194202082745,
      "grad_norm": 0.00010357003338867798,
      "learning_rate": 6.337191782478785e-05,
      "loss": 0.0022,
      "step": 5635
    },
    {
      "epoch": 25.274697438784127,
      "grad_norm": 0.0001960587251232937,
      "learning_rate": 6.325099988059063e-05,
      "loss": 0.0023,
      "step": 5636
    },
    {
      "epoch": 25.279200675485505,
      "grad_norm": 7.604042184539139e-05,
      "learning_rate": 6.313018961662648e-05,
      "loss": 0.0022,
      "step": 5637
    },
    {
      "epoch": 25.283703912186883,
      "grad_norm": 0.00016689603216946125,
      "learning_rate": 6.3009487062681e-05,
      "loss": 0.0022,
      "step": 5638
    },
    {
      "epoch": 25.288207148888265,
      "grad_norm": 0.00012348417658358812,
      "learning_rate": 6.288889224851357e-05,
      "loss": 0.002,
      "step": 5639
    },
    {
      "epoch": 25.292710385589643,
      "grad_norm": 2.3542648705188185e-05,
      "learning_rate": 6.276840520385663e-05,
      "loss": 0.0021,
      "step": 5640
    },
    {
      "epoch": 25.29721362229102,
      "grad_norm": 0.000129680207464844,
      "learning_rate": 6.264802595841628e-05,
      "loss": 0.0021,
      "step": 5641
    },
    {
      "epoch": 25.3017168589924,
      "grad_norm": 9.702813986223191e-05,
      "learning_rate": 6.252775454187182e-05,
      "loss": 0.0022,
      "step": 5642
    },
    {
      "epoch": 25.30622009569378,
      "grad_norm": 0.0001524860126664862,
      "learning_rate": 6.240759098387627e-05,
      "loss": 0.0022,
      "step": 5643
    },
    {
      "epoch": 25.31072333239516,
      "grad_norm": 0.0001509006106061861,
      "learning_rate": 6.228753531405579e-05,
      "loss": 0.0022,
      "step": 5644
    },
    {
      "epoch": 25.315226569096538,
      "grad_norm": 0.00010174710041610524,
      "learning_rate": 6.216758756201008e-05,
      "loss": 0.0022,
      "step": 5645
    },
    {
      "epoch": 25.319729805797916,
      "grad_norm": 2.6866830012295395e-05,
      "learning_rate": 6.20477477573121e-05,
      "loss": 0.0021,
      "step": 5646
    },
    {
      "epoch": 25.324233042499298,
      "grad_norm": 3.8383961509680375e-05,
      "learning_rate": 6.192801592950859e-05,
      "loss": 0.0022,
      "step": 5647
    },
    {
      "epoch": 25.328736279200676,
      "grad_norm": 0.000272332807071507,
      "learning_rate": 6.18083921081189e-05,
      "loss": 0.0021,
      "step": 5648
    },
    {
      "epoch": 25.333239515902054,
      "grad_norm": 0.000161706906510517,
      "learning_rate": 6.168887632263659e-05,
      "loss": 0.0021,
      "step": 5649
    },
    {
      "epoch": 25.337742752603432,
      "grad_norm": 6.103527994127944e-05,
      "learning_rate": 6.156946860252799e-05,
      "loss": 0.0021,
      "step": 5650
    },
    {
      "epoch": 25.342245989304814,
      "grad_norm": 0.00015920349687803537,
      "learning_rate": 6.145016897723321e-05,
      "loss": 0.0022,
      "step": 5651
    },
    {
      "epoch": 25.346749226006192,
      "grad_norm": 7.725860632490367e-05,
      "learning_rate": 6.133097747616545e-05,
      "loss": 0.0021,
      "step": 5652
    },
    {
      "epoch": 25.35125246270757,
      "grad_norm": 8.625195187050849e-05,
      "learning_rate": 6.12118941287112e-05,
      "loss": 0.0022,
      "step": 5653
    },
    {
      "epoch": 25.35575569940895,
      "grad_norm": 0.00014616968110203743,
      "learning_rate": 6.109291896423052e-05,
      "loss": 0.0024,
      "step": 5654
    },
    {
      "epoch": 25.36025893611033,
      "grad_norm": 0.00024908941122703254,
      "learning_rate": 6.097405201205652e-05,
      "loss": 0.0022,
      "step": 5655
    },
    {
      "epoch": 25.36476217281171,
      "grad_norm": 0.00015326439461205155,
      "learning_rate": 6.085529330149597e-05,
      "loss": 0.0022,
      "step": 5656
    },
    {
      "epoch": 25.369265409513087,
      "grad_norm": 3.747077062143944e-05,
      "learning_rate": 6.073664286182856e-05,
      "loss": 0.0022,
      "step": 5657
    },
    {
      "epoch": 25.373768646214465,
      "grad_norm": 6.823155854362994e-05,
      "learning_rate": 6.0618100722307835e-05,
      "loss": 0.0021,
      "step": 5658
    },
    {
      "epoch": 25.378271882915847,
      "grad_norm": 0.00012836299720220268,
      "learning_rate": 6.0499666912159853e-05,
      "loss": 0.0021,
      "step": 5659
    },
    {
      "epoch": 25.382775119617225,
      "grad_norm": 8.217999857151881e-05,
      "learning_rate": 6.038134146058477e-05,
      "loss": 0.002,
      "step": 5660
    },
    {
      "epoch": 25.387278356318603,
      "grad_norm": 2.9482767786248587e-05,
      "learning_rate": 6.026312439675552e-05,
      "loss": 0.0021,
      "step": 5661
    },
    {
      "epoch": 25.39178159301998,
      "grad_norm": 0.0002442593686282635,
      "learning_rate": 6.0145015749818456e-05,
      "loss": 0.0022,
      "step": 5662
    },
    {
      "epoch": 25.396284829721363,
      "grad_norm": 4.453447400010191e-05,
      "learning_rate": 6.002701554889306e-05,
      "loss": 0.0021,
      "step": 5663
    },
    {
      "epoch": 25.40078806642274,
      "grad_norm": 0.00012082978355465457,
      "learning_rate": 5.990912382307251e-05,
      "loss": 0.0021,
      "step": 5664
    },
    {
      "epoch": 25.40529130312412,
      "grad_norm": 4.1205530578736216e-05,
      "learning_rate": 5.9791340601422775e-05,
      "loss": 0.0021,
      "step": 5665
    },
    {
      "epoch": 25.409794539825498,
      "grad_norm": 3.032307358807884e-05,
      "learning_rate": 5.967366591298329e-05,
      "loss": 0.0021,
      "step": 5666
    },
    {
      "epoch": 25.41429777652688,
      "grad_norm": 9.173452417599037e-05,
      "learning_rate": 5.9556099786766514e-05,
      "loss": 0.0023,
      "step": 5667
    },
    {
      "epoch": 25.418801013228258,
      "grad_norm": 0.0003479597216937691,
      "learning_rate": 5.94386422517586e-05,
      "loss": 0.0022,
      "step": 5668
    },
    {
      "epoch": 25.423304249929636,
      "grad_norm": 4.9746056902222335e-05,
      "learning_rate": 5.932129333691855e-05,
      "loss": 0.0021,
      "step": 5669
    },
    {
      "epoch": 25.427807486631018,
      "grad_norm": 2.735563975875266e-05,
      "learning_rate": 5.92040530711786e-05,
      "loss": 0.0022,
      "step": 5670
    },
    {
      "epoch": 25.432310723332396,
      "grad_norm": 0.0001763995096553117,
      "learning_rate": 5.9086921483444186e-05,
      "loss": 0.0021,
      "step": 5671
    },
    {
      "epoch": 25.436813960033774,
      "grad_norm": 4.0149083361029625e-05,
      "learning_rate": 5.896989860259433e-05,
      "loss": 0.0023,
      "step": 5672
    },
    {
      "epoch": 25.441317196735152,
      "grad_norm": 0.0001930477883433923,
      "learning_rate": 5.8852984457480716e-05,
      "loss": 0.002,
      "step": 5673
    },
    {
      "epoch": 25.445820433436534,
      "grad_norm": 7.812202966306359e-05,
      "learning_rate": 5.8736179076928465e-05,
      "loss": 0.0022,
      "step": 5674
    },
    {
      "epoch": 25.450323670137912,
      "grad_norm": 2.1912062948103994e-05,
      "learning_rate": 5.8619482489736196e-05,
      "loss": 0.0021,
      "step": 5675
    },
    {
      "epoch": 25.45482690683929,
      "grad_norm": 0.00012009420606773347,
      "learning_rate": 5.850289472467491e-05,
      "loss": 0.0021,
      "step": 5676
    },
    {
      "epoch": 25.45933014354067,
      "grad_norm": 0.00014099043619353324,
      "learning_rate": 5.8386415810489644e-05,
      "loss": 0.0022,
      "step": 5677
    },
    {
      "epoch": 25.46383338024205,
      "grad_norm": 6.685940024908632e-05,
      "learning_rate": 5.827004577589789e-05,
      "loss": 0.0021,
      "step": 5678
    },
    {
      "epoch": 25.46833661694343,
      "grad_norm": 3.601660500862636e-05,
      "learning_rate": 5.8153784649591094e-05,
      "loss": 0.0022,
      "step": 5679
    },
    {
      "epoch": 25.472839853644807,
      "grad_norm": 0.00011849182192236185,
      "learning_rate": 5.8037632460232806e-05,
      "loss": 0.0021,
      "step": 5680
    },
    {
      "epoch": 25.477343090346185,
      "grad_norm": 8.246801007771865e-05,
      "learning_rate": 5.792158923646068e-05,
      "loss": 0.0022,
      "step": 5681
    },
    {
      "epoch": 25.481846327047567,
      "grad_norm": 4.310063741286285e-05,
      "learning_rate": 5.780565500688495e-05,
      "loss": 0.0021,
      "step": 5682
    },
    {
      "epoch": 25.486349563748945,
      "grad_norm": 2.165753539884463e-05,
      "learning_rate": 5.768982980008925e-05,
      "loss": 0.0022,
      "step": 5683
    },
    {
      "epoch": 25.490852800450323,
      "grad_norm": 6.650508294114843e-05,
      "learning_rate": 5.757411364463e-05,
      "loss": 0.0021,
      "step": 5684
    },
    {
      "epoch": 25.4953560371517,
      "grad_norm": 2.884007517423015e-05,
      "learning_rate": 5.745850656903723e-05,
      "loss": 0.0022,
      "step": 5685
    },
    {
      "epoch": 25.499859273853083,
      "grad_norm": 3.2951036700978875e-05,
      "learning_rate": 5.734300860181363e-05,
      "loss": 0.0021,
      "step": 5686
    },
    {
      "epoch": 25.50436251055446,
      "grad_norm": 3.087421282543801e-05,
      "learning_rate": 5.7227619771435256e-05,
      "loss": 0.0022,
      "step": 5687
    },
    {
      "epoch": 25.50886574725584,
      "grad_norm": 0.00014790927525609732,
      "learning_rate": 5.7112340106351026e-05,
      "loss": 0.0022,
      "step": 5688
    },
    {
      "epoch": 25.513368983957218,
      "grad_norm": 0.00011570671631488949,
      "learning_rate": 5.699716963498325e-05,
      "loss": 0.0021,
      "step": 5689
    },
    {
      "epoch": 25.5178722206586,
      "grad_norm": 0.00010602832480799407,
      "learning_rate": 5.688210838572705e-05,
      "loss": 0.0022,
      "step": 5690
    },
    {
      "epoch": 25.522375457359978,
      "grad_norm": 9.495777339907363e-05,
      "learning_rate": 5.6767156386950624e-05,
      "loss": 0.0021,
      "step": 5691
    },
    {
      "epoch": 25.526878694061356,
      "grad_norm": 8.23506634333171e-05,
      "learning_rate": 5.665231366699558e-05,
      "loss": 0.0022,
      "step": 5692
    },
    {
      "epoch": 25.531381930762734,
      "grad_norm": 0.0002725437516346574,
      "learning_rate": 5.653758025417616e-05,
      "loss": 0.0022,
      "step": 5693
    },
    {
      "epoch": 25.535885167464116,
      "grad_norm": 0.00014116597594693303,
      "learning_rate": 5.6422956176779894e-05,
      "loss": 0.0022,
      "step": 5694
    },
    {
      "epoch": 25.540388404165494,
      "grad_norm": 0.00013127678539603949,
      "learning_rate": 5.6308441463067074e-05,
      "loss": 0.0021,
      "step": 5695
    },
    {
      "epoch": 25.544891640866872,
      "grad_norm": 7.504330278607085e-05,
      "learning_rate": 5.619403614127167e-05,
      "loss": 0.0021,
      "step": 5696
    },
    {
      "epoch": 25.549394877568254,
      "grad_norm": 5.5904882174218073e-05,
      "learning_rate": 5.607974023959978e-05,
      "loss": 0.0022,
      "step": 5697
    },
    {
      "epoch": 25.553898114269632,
      "grad_norm": 0.00011753195576602593,
      "learning_rate": 5.596555378623125e-05,
      "loss": 0.0021,
      "step": 5698
    },
    {
      "epoch": 25.55840135097101,
      "grad_norm": 0.00010532725718803704,
      "learning_rate": 5.585147680931862e-05,
      "loss": 0.0021,
      "step": 5699
    },
    {
      "epoch": 25.56290458767239,
      "grad_norm": 2.8893582566524856e-05,
      "learning_rate": 5.573750933698773e-05,
      "loss": 0.0022,
      "step": 5700
    },
    {
      "epoch": 25.56740782437377,
      "grad_norm": 0.0001356729189865291,
      "learning_rate": 5.562365139733677e-05,
      "loss": 0.0021,
      "step": 5701
    },
    {
      "epoch": 25.57191106107515,
      "grad_norm": 3.7011810491094366e-05,
      "learning_rate": 5.550990301843772e-05,
      "loss": 0.0022,
      "step": 5702
    },
    {
      "epoch": 25.576414297776527,
      "grad_norm": 0.00013693839719053358,
      "learning_rate": 5.539626422833499e-05,
      "loss": 0.0022,
      "step": 5703
    },
    {
      "epoch": 25.580917534477905,
      "grad_norm": 9.345071885036305e-05,
      "learning_rate": 5.528273505504638e-05,
      "loss": 0.0022,
      "step": 5704
    },
    {
      "epoch": 25.585420771179287,
      "grad_norm": 2.9833914595656097e-05,
      "learning_rate": 5.5169315526562126e-05,
      "loss": 0.0022,
      "step": 5705
    },
    {
      "epoch": 25.589924007880665,
      "grad_norm": 3.117391679552384e-05,
      "learning_rate": 5.505600567084601e-05,
      "loss": 0.0022,
      "step": 5706
    },
    {
      "epoch": 25.594427244582043,
      "grad_norm": 0.00011830397124867886,
      "learning_rate": 5.494280551583442e-05,
      "loss": 0.0022,
      "step": 5707
    },
    {
      "epoch": 25.59893048128342,
      "grad_norm": 0.0001492430455982685,
      "learning_rate": 5.482971508943668e-05,
      "loss": 0.0021,
      "step": 5708
    },
    {
      "epoch": 25.603433717984803,
      "grad_norm": 0.00012406909081619233,
      "learning_rate": 5.471673441953545e-05,
      "loss": 0.0022,
      "step": 5709
    },
    {
      "epoch": 25.60793695468618,
      "grad_norm": 8.802580123301595e-05,
      "learning_rate": 5.460386353398583e-05,
      "loss": 0.0022,
      "step": 5710
    },
    {
      "epoch": 25.61244019138756,
      "grad_norm": 4.183001510682516e-05,
      "learning_rate": 5.449110246061623e-05,
      "loss": 0.0021,
      "step": 5711
    },
    {
      "epoch": 25.616943428088938,
      "grad_norm": 7.989201549207792e-05,
      "learning_rate": 5.4378451227227566e-05,
      "loss": 0.0022,
      "step": 5712
    },
    {
      "epoch": 25.62144666479032,
      "grad_norm": 0.00010357307473896071,
      "learning_rate": 5.42659098615943e-05,
      "loss": 0.0021,
      "step": 5713
    },
    {
      "epoch": 25.625949901491698,
      "grad_norm": 9.630143904360011e-05,
      "learning_rate": 5.415347839146323e-05,
      "loss": 0.0022,
      "step": 5714
    },
    {
      "epoch": 25.630453138193076,
      "grad_norm": 8.646253263577819e-05,
      "learning_rate": 5.40411568445543e-05,
      "loss": 0.0021,
      "step": 5715
    },
    {
      "epoch": 25.634956374894454,
      "grad_norm": 6.377601675922051e-05,
      "learning_rate": 5.3928945248560234e-05,
      "loss": 0.0021,
      "step": 5716
    },
    {
      "epoch": 25.639459611595836,
      "grad_norm": 0.0001413847494404763,
      "learning_rate": 5.381684363114697e-05,
      "loss": 0.0025,
      "step": 5717
    },
    {
      "epoch": 25.643962848297214,
      "grad_norm": 0.0007441946654580534,
      "learning_rate": 5.370485201995301e-05,
      "loss": 0.0022,
      "step": 5718
    },
    {
      "epoch": 25.648466084998592,
      "grad_norm": 0.00020893926557619125,
      "learning_rate": 5.359297044258976e-05,
      "loss": 0.0022,
      "step": 5719
    },
    {
      "epoch": 25.65296932169997,
      "grad_norm": 4.689080742537044e-05,
      "learning_rate": 5.3481198926641495e-05,
      "loss": 0.0021,
      "step": 5720
    },
    {
      "epoch": 25.657472558401352,
      "grad_norm": 0.00015716947382315993,
      "learning_rate": 5.3369537499665724e-05,
      "loss": 0.0021,
      "step": 5721
    },
    {
      "epoch": 25.66197579510273,
      "grad_norm": 6.821948772994801e-05,
      "learning_rate": 5.325798618919214e-05,
      "loss": 0.0021,
      "step": 5722
    },
    {
      "epoch": 25.66647903180411,
      "grad_norm": 0.00012079942098353058,
      "learning_rate": 5.314654502272392e-05,
      "loss": 0.0021,
      "step": 5723
    },
    {
      "epoch": 25.670982268505487,
      "grad_norm": 0.00012755415809806436,
      "learning_rate": 5.3035214027736644e-05,
      "loss": 0.0022,
      "step": 5724
    },
    {
      "epoch": 25.67548550520687,
      "grad_norm": 9.579032484907657e-05,
      "learning_rate": 5.292399323167907e-05,
      "loss": 0.0022,
      "step": 5725
    },
    {
      "epoch": 25.679988741908247,
      "grad_norm": 0.0001249720371561125,
      "learning_rate": 5.2812882661972594e-05,
      "loss": 0.0021,
      "step": 5726
    },
    {
      "epoch": 25.684491978609625,
      "grad_norm": 0.0001068304554792121,
      "learning_rate": 5.270188234601142e-05,
      "loss": 0.0022,
      "step": 5727
    },
    {
      "epoch": 25.688995215311003,
      "grad_norm": 2.6955840439768508e-05,
      "learning_rate": 5.259099231116265e-05,
      "loss": 0.0021,
      "step": 5728
    },
    {
      "epoch": 25.693498452012385,
      "grad_norm": 2.6624191377777606e-05,
      "learning_rate": 5.248021258476604e-05,
      "loss": 0.0022,
      "step": 5729
    },
    {
      "epoch": 25.698001688713763,
      "grad_norm": 3.0233108191168867e-05,
      "learning_rate": 5.236954319413445e-05,
      "loss": 0.0022,
      "step": 5730
    },
    {
      "epoch": 25.70250492541514,
      "grad_norm": 0.00012980921019334346,
      "learning_rate": 5.2258984166553225e-05,
      "loss": 0.0021,
      "step": 5731
    },
    {
      "epoch": 25.707008162116523,
      "grad_norm": 0.0002955187810584903,
      "learning_rate": 5.2148535529280836e-05,
      "loss": 0.0022,
      "step": 5732
    },
    {
      "epoch": 25.7115113988179,
      "grad_norm": 9.220314677804708e-05,
      "learning_rate": 5.2038197309548066e-05,
      "loss": 0.0022,
      "step": 5733
    },
    {
      "epoch": 25.71601463551928,
      "grad_norm": 7.317244308069348e-05,
      "learning_rate": 5.192796953455892e-05,
      "loss": 0.0021,
      "step": 5734
    },
    {
      "epoch": 25.720517872220658,
      "grad_norm": 9.748415322974324e-05,
      "learning_rate": 5.181785223148999e-05,
      "loss": 0.0022,
      "step": 5735
    },
    {
      "epoch": 25.72502110892204,
      "grad_norm": 7.79008842073381e-05,
      "learning_rate": 5.170784542749057e-05,
      "loss": 0.0021,
      "step": 5736
    },
    {
      "epoch": 25.729524345623418,
      "grad_norm": 4.372793773654848e-05,
      "learning_rate": 5.1597949149682685e-05,
      "loss": 0.0022,
      "step": 5737
    },
    {
      "epoch": 25.734027582324796,
      "grad_norm": 0.00019578087085392326,
      "learning_rate": 5.148816342516144e-05,
      "loss": 0.0022,
      "step": 5738
    },
    {
      "epoch": 25.738530819026174,
      "grad_norm": 5.436831997940317e-05,
      "learning_rate": 5.137848828099434e-05,
      "loss": 0.0021,
      "step": 5739
    },
    {
      "epoch": 25.743034055727556,
      "grad_norm": 0.0003349491744302213,
      "learning_rate": 5.1268923744221765e-05,
      "loss": 0.0026,
      "step": 5740
    },
    {
      "epoch": 25.747537292428934,
      "grad_norm": 0.00010968651622533798,
      "learning_rate": 5.11594698418566e-05,
      "loss": 0.0021,
      "step": 5741
    },
    {
      "epoch": 25.752040529130312,
      "grad_norm": 6.37288176221773e-05,
      "learning_rate": 5.105012660088493e-05,
      "loss": 0.0021,
      "step": 5742
    },
    {
      "epoch": 25.75654376583169,
      "grad_norm": 5.3687272156821564e-05,
      "learning_rate": 5.094089404826513e-05,
      "loss": 0.0021,
      "step": 5743
    },
    {
      "epoch": 25.761047002533072,
      "grad_norm": 7.284350431291386e-05,
      "learning_rate": 5.083177221092838e-05,
      "loss": 0.0021,
      "step": 5744
    },
    {
      "epoch": 25.76555023923445,
      "grad_norm": 0.00011553166405064985,
      "learning_rate": 5.072276111577867e-05,
      "loss": 0.0021,
      "step": 5745
    },
    {
      "epoch": 25.77005347593583,
      "grad_norm": 3.1771913199918345e-05,
      "learning_rate": 5.0613860789692656e-05,
      "loss": 0.0021,
      "step": 5746
    },
    {
      "epoch": 25.774556712637207,
      "grad_norm": 8.482539124088362e-05,
      "learning_rate": 5.05050712595197e-05,
      "loss": 0.0022,
      "step": 5747
    },
    {
      "epoch": 25.77905994933859,
      "grad_norm": 0.00012094346311641857,
      "learning_rate": 5.039639255208156e-05,
      "loss": 0.0022,
      "step": 5748
    },
    {
      "epoch": 25.783563186039967,
      "grad_norm": 2.877117549360264e-05,
      "learning_rate": 5.028782469417331e-05,
      "loss": 0.0021,
      "step": 5749
    },
    {
      "epoch": 25.788066422741345,
      "grad_norm": 1.98345078388229e-05,
      "learning_rate": 5.017936771256187e-05,
      "loss": 0.0022,
      "step": 5750
    },
    {
      "epoch": 25.792569659442723,
      "grad_norm": 8.426146087003872e-05,
      "learning_rate": 5.007102163398758e-05,
      "loss": 0.0022,
      "step": 5751
    },
    {
      "epoch": 25.797072896144105,
      "grad_norm": 0.000134253321448341,
      "learning_rate": 4.996278648516284e-05,
      "loss": 0.0022,
      "step": 5752
    },
    {
      "epoch": 25.801576132845483,
      "grad_norm": 6.191041029524058e-05,
      "learning_rate": 4.98546622927733e-05,
      "loss": 0.0022,
      "step": 5753
    },
    {
      "epoch": 25.80607936954686,
      "grad_norm": 9.251963638234884e-05,
      "learning_rate": 4.974664908347654e-05,
      "loss": 0.0022,
      "step": 5754
    },
    {
      "epoch": 25.81058260624824,
      "grad_norm": 3.67985776392743e-05,
      "learning_rate": 4.963874688390346e-05,
      "loss": 0.0021,
      "step": 5755
    },
    {
      "epoch": 25.81508584294962,
      "grad_norm": 0.00010377129365224391,
      "learning_rate": 4.953095572065719e-05,
      "loss": 0.0021,
      "step": 5756
    },
    {
      "epoch": 25.819589079651,
      "grad_norm": 7.276471296790987e-05,
      "learning_rate": 4.942327562031357e-05,
      "loss": 0.0022,
      "step": 5757
    },
    {
      "epoch": 25.824092316352377,
      "grad_norm": 0.00013972124725114554,
      "learning_rate": 4.931570660942098e-05,
      "loss": 0.0022,
      "step": 5758
    },
    {
      "epoch": 25.82859555305376,
      "grad_norm": 0.00014333214494399726,
      "learning_rate": 4.920824871450069e-05,
      "loss": 0.0022,
      "step": 5759
    },
    {
      "epoch": 25.833098789755137,
      "grad_norm": 0.00022338774579111487,
      "learning_rate": 4.910090196204625e-05,
      "loss": 0.0022,
      "step": 5760
    },
    {
      "epoch": 25.837602026456516,
      "grad_norm": 0.00013126444537192583,
      "learning_rate": 4.899366637852404e-05,
      "loss": 0.0022,
      "step": 5761
    },
    {
      "epoch": 25.842105263157894,
      "grad_norm": 0.00017247683717869222,
      "learning_rate": 4.888654199037279e-05,
      "loss": 0.0022,
      "step": 5762
    },
    {
      "epoch": 25.846608499859276,
      "grad_norm": 0.0001120764936786145,
      "learning_rate": 4.8779528824004106e-05,
      "loss": 0.0021,
      "step": 5763
    },
    {
      "epoch": 25.851111736560654,
      "grad_norm": 7.795421697665006e-05,
      "learning_rate": 4.867262690580199e-05,
      "loss": 0.0021,
      "step": 5764
    },
    {
      "epoch": 25.855614973262032,
      "grad_norm": 0.00014663224283140153,
      "learning_rate": 4.8565836262122965e-05,
      "loss": 0.0022,
      "step": 5765
    },
    {
      "epoch": 25.86011820996341,
      "grad_norm": 7.672134233871475e-05,
      "learning_rate": 4.845915691929637e-05,
      "loss": 0.0021,
      "step": 5766
    },
    {
      "epoch": 25.864621446664792,
      "grad_norm": 2.7428102839621715e-05,
      "learning_rate": 4.835258890362387e-05,
      "loss": 0.0021,
      "step": 5767
    },
    {
      "epoch": 25.86912468336617,
      "grad_norm": 0.0001937693596119061,
      "learning_rate": 4.824613224137969e-05,
      "loss": 0.0021,
      "step": 5768
    },
    {
      "epoch": 25.87362792006755,
      "grad_norm": 7.123023533495143e-05,
      "learning_rate": 4.8139786958810604e-05,
      "loss": 0.0021,
      "step": 5769
    },
    {
      "epoch": 25.878131156768927,
      "grad_norm": 6.853164086351171e-05,
      "learning_rate": 4.80335530821363e-05,
      "loss": 0.0022,
      "step": 5770
    },
    {
      "epoch": 25.88263439347031,
      "grad_norm": 8.336389873875305e-05,
      "learning_rate": 4.792743063754829e-05,
      "loss": 0.0022,
      "step": 5771
    },
    {
      "epoch": 25.887137630171686,
      "grad_norm": 9.165130904875696e-05,
      "learning_rate": 4.7821419651211284e-05,
      "loss": 0.0022,
      "step": 5772
    },
    {
      "epoch": 25.891640866873065,
      "grad_norm": 1.6369620425393805e-05,
      "learning_rate": 4.771552014926206e-05,
      "loss": 0.0022,
      "step": 5773
    },
    {
      "epoch": 25.896144103574443,
      "grad_norm": 0.00022330957290250808,
      "learning_rate": 4.760973215781028e-05,
      "loss": 0.0022,
      "step": 5774
    },
    {
      "epoch": 25.900647340275825,
      "grad_norm": 5.947246972937137e-05,
      "learning_rate": 4.7504055702937696e-05,
      "loss": 0.0022,
      "step": 5775
    },
    {
      "epoch": 25.905150576977203,
      "grad_norm": 0.00012165839143563062,
      "learning_rate": 4.7398490810698916e-05,
      "loss": 0.0021,
      "step": 5776
    },
    {
      "epoch": 25.90965381367858,
      "grad_norm": 5.5387896281899884e-05,
      "learning_rate": 4.729303750712077e-05,
      "loss": 0.0022,
      "step": 5777
    },
    {
      "epoch": 25.91415705037996,
      "grad_norm": 0.00013151131861377507,
      "learning_rate": 4.718769581820309e-05,
      "loss": 0.0022,
      "step": 5778
    },
    {
      "epoch": 25.91866028708134,
      "grad_norm": 3.00224910461111e-05,
      "learning_rate": 4.708246576991726e-05,
      "loss": 0.0022,
      "step": 5779
    },
    {
      "epoch": 25.92316352378272,
      "grad_norm": 5.828926805406809e-05,
      "learning_rate": 4.697734738820814e-05,
      "loss": 0.0022,
      "step": 5780
    },
    {
      "epoch": 25.927666760484097,
      "grad_norm": 4.015137528767809e-05,
      "learning_rate": 4.6872340698992376e-05,
      "loss": 0.0021,
      "step": 5781
    },
    {
      "epoch": 25.932169997185476,
      "grad_norm": 6.119320460129529e-05,
      "learning_rate": 4.676744572815944e-05,
      "loss": 0.0021,
      "step": 5782
    },
    {
      "epoch": 25.936673233886857,
      "grad_norm": 9.880768629955128e-05,
      "learning_rate": 4.666266250157097e-05,
      "loss": 0.0021,
      "step": 5783
    },
    {
      "epoch": 25.941176470588236,
      "grad_norm": 8.983640145743266e-05,
      "learning_rate": 4.6557991045061366e-05,
      "loss": 0.0021,
      "step": 5784
    },
    {
      "epoch": 25.945679707289614,
      "grad_norm": 0.00013783109898213297,
      "learning_rate": 4.6453431384437304e-05,
      "loss": 0.0023,
      "step": 5785
    },
    {
      "epoch": 25.950182943990992,
      "grad_norm": 0.0002047678135568276,
      "learning_rate": 4.6348983545477786e-05,
      "loss": 0.0021,
      "step": 5786
    },
    {
      "epoch": 25.954686180692374,
      "grad_norm": 0.00018406427989248186,
      "learning_rate": 4.6244647553934594e-05,
      "loss": 0.0022,
      "step": 5787
    },
    {
      "epoch": 25.959189417393752,
      "grad_norm": 2.5265557269449346e-05,
      "learning_rate": 4.614042343553154e-05,
      "loss": 0.0021,
      "step": 5788
    },
    {
      "epoch": 25.96369265409513,
      "grad_norm": 0.00010831252438947558,
      "learning_rate": 4.6036311215965024e-05,
      "loss": 0.0022,
      "step": 5789
    },
    {
      "epoch": 25.96819589079651,
      "grad_norm": 1.959585824806709e-05,
      "learning_rate": 4.5932310920903885e-05,
      "loss": 0.0022,
      "step": 5790
    },
    {
      "epoch": 25.97269912749789,
      "grad_norm": 0.00010600919631542638,
      "learning_rate": 4.58284225759894e-05,
      "loss": 0.0021,
      "step": 5791
    },
    {
      "epoch": 25.977202364199268,
      "grad_norm": 0.00015213633014354855,
      "learning_rate": 4.5724646206835144e-05,
      "loss": 0.0022,
      "step": 5792
    },
    {
      "epoch": 25.981705600900646,
      "grad_norm": 9.442953887628391e-05,
      "learning_rate": 4.5620981839027135e-05,
      "loss": 0.0021,
      "step": 5793
    },
    {
      "epoch": 25.986208837602028,
      "grad_norm": 0.00010632150224409997,
      "learning_rate": 4.5517429498123656e-05,
      "loss": 0.0021,
      "step": 5794
    },
    {
      "epoch": 25.990712074303406,
      "grad_norm": 0.00020024592231493443,
      "learning_rate": 4.5413989209655785e-05,
      "loss": 0.0022,
      "step": 5795
    },
    {
      "epoch": 25.995215311004785,
      "grad_norm": 0.00012221129145473242,
      "learning_rate": 4.531066099912623e-05,
      "loss": 0.0022,
      "step": 5796
    },
    {
      "epoch": 25.999718547706163,
      "grad_norm": 8.803694072412327e-05,
      "learning_rate": 4.5207444892010895e-05,
      "loss": 0.0022,
      "step": 5797
    },
    {
      "epoch": 26.0,
      "grad_norm": 8.803694072412327e-05,
      "learning_rate": 4.510434091375737e-05,
      "loss": 0.0001,
      "step": 5798
    },
    {
      "epoch": 26.0,
      "eval_f1": 0.9866933466733366,
      "eval_loss": 0.040797971189022064,
      "eval_runtime": 27.0231,
      "eval_samples_per_second": 184.953,
      "eval_steps_per_second": 5.81,
      "step": 5798
    },
    {
      "epoch": 26.004503236701378,
      "grad_norm": 5.4839376389281824e-05,
      "learning_rate": 4.5001349089786204e-05,
      "loss": 0.0021,
      "step": 5799
    },
    {
      "epoch": 26.00900647340276,
      "grad_norm": 1.9020564650418237e-05,
      "learning_rate": 4.4898469445489585e-05,
      "loss": 0.0022,
      "step": 5800
    },
    {
      "epoch": 26.013509710104138,
      "grad_norm": 8.562994480598718e-05,
      "learning_rate": 4.479570200623279e-05,
      "loss": 0.0023,
      "step": 5801
    },
    {
      "epoch": 26.018012946805516,
      "grad_norm": 0.0002462113043293357,
      "learning_rate": 4.469304679735292e-05,
      "loss": 0.002,
      "step": 5802
    },
    {
      "epoch": 26.022516183506895,
      "grad_norm": 3.168829789501615e-05,
      "learning_rate": 4.459050384415941e-05,
      "loss": 0.0022,
      "step": 5803
    },
    {
      "epoch": 26.027019420208276,
      "grad_norm": 5.14037674292922e-05,
      "learning_rate": 4.4488073171934486e-05,
      "loss": 0.0022,
      "step": 5804
    },
    {
      "epoch": 26.031522656909655,
      "grad_norm": 0.00010297790140612051,
      "learning_rate": 4.43857548059321e-05,
      "loss": 0.0021,
      "step": 5805
    },
    {
      "epoch": 26.036025893611033,
      "grad_norm": 2.1973310140310787e-05,
      "learning_rate": 4.4283548771379076e-05,
      "loss": 0.0022,
      "step": 5806
    },
    {
      "epoch": 26.04052913031241,
      "grad_norm": 2.73873629339505e-05,
      "learning_rate": 4.4181455093473935e-05,
      "loss": 0.0021,
      "step": 5807
    },
    {
      "epoch": 26.045032367013793,
      "grad_norm": 9.218502236763015e-05,
      "learning_rate": 4.407947379738808e-05,
      "loss": 0.0021,
      "step": 5808
    },
    {
      "epoch": 26.04953560371517,
      "grad_norm": 3.0090792279224843e-05,
      "learning_rate": 4.39776049082648e-05,
      "loss": 0.0022,
      "step": 5809
    },
    {
      "epoch": 26.05403884041655,
      "grad_norm": 0.00012500298907980323,
      "learning_rate": 4.3875848451219834e-05,
      "loss": 0.0022,
      "step": 5810
    },
    {
      "epoch": 26.058542077117927,
      "grad_norm": 3.3163865737151355e-05,
      "learning_rate": 4.377420445134117e-05,
      "loss": 0.0021,
      "step": 5811
    },
    {
      "epoch": 26.06304531381931,
      "grad_norm": 0.00011830852599814534,
      "learning_rate": 4.3672672933689205e-05,
      "loss": 0.0021,
      "step": 5812
    },
    {
      "epoch": 26.067548550520687,
      "grad_norm": 0.00010918886255240068,
      "learning_rate": 4.3571253923296364e-05,
      "loss": 0.0021,
      "step": 5813
    },
    {
      "epoch": 26.072051787222065,
      "grad_norm": 2.7922493245569058e-05,
      "learning_rate": 4.3469947445167466e-05,
      "loss": 0.0022,
      "step": 5814
    },
    {
      "epoch": 26.076555023923444,
      "grad_norm": 6.720199598930776e-05,
      "learning_rate": 4.3368753524279495e-05,
      "loss": 0.0021,
      "step": 5815
    },
    {
      "epoch": 26.081058260624825,
      "grad_norm": 8.355953468708321e-05,
      "learning_rate": 4.326767218558203e-05,
      "loss": 0.0021,
      "step": 5816
    },
    {
      "epoch": 26.085561497326204,
      "grad_norm": 6.998312164796516e-05,
      "learning_rate": 4.316670345399626e-05,
      "loss": 0.0021,
      "step": 5817
    },
    {
      "epoch": 26.09006473402758,
      "grad_norm": 5.937566311331466e-05,
      "learning_rate": 4.306584735441621e-05,
      "loss": 0.0022,
      "step": 5818
    },
    {
      "epoch": 26.09456797072896,
      "grad_norm": 0.00018618702597450465,
      "learning_rate": 4.296510391170777e-05,
      "loss": 0.0022,
      "step": 5819
    },
    {
      "epoch": 26.09907120743034,
      "grad_norm": 6.297005893429741e-05,
      "learning_rate": 4.286447315070935e-05,
      "loss": 0.0022,
      "step": 5820
    },
    {
      "epoch": 26.10357444413172,
      "grad_norm": 9.105567005462945e-05,
      "learning_rate": 4.276395509623127e-05,
      "loss": 0.0022,
      "step": 5821
    },
    {
      "epoch": 26.108077680833098,
      "grad_norm": 0.00015223919763229787,
      "learning_rate": 4.266354977305625e-05,
      "loss": 0.0023,
      "step": 5822
    },
    {
      "epoch": 26.112580917534476,
      "grad_norm": 0.00018043779709842056,
      "learning_rate": 4.256325720593912e-05,
      "loss": 0.0021,
      "step": 5823
    },
    {
      "epoch": 26.117084154235858,
      "grad_norm": 5.483262430061586e-05,
      "learning_rate": 4.2463077419606977e-05,
      "loss": 0.0022,
      "step": 5824
    },
    {
      "epoch": 26.121587390937236,
      "grad_norm": 6.887521885801107e-05,
      "learning_rate": 4.236301043875918e-05,
      "loss": 0.0022,
      "step": 5825
    },
    {
      "epoch": 26.126090627638614,
      "grad_norm": 0.00010063066292786971,
      "learning_rate": 4.226305628806698e-05,
      "loss": 0.0022,
      "step": 5826
    },
    {
      "epoch": 26.130593864339993,
      "grad_norm": 0.00010324374306946993,
      "learning_rate": 4.21632149921744e-05,
      "loss": 0.0022,
      "step": 5827
    },
    {
      "epoch": 26.135097101041374,
      "grad_norm": 0.0001728869101498276,
      "learning_rate": 4.206348657569681e-05,
      "loss": 0.0023,
      "step": 5828
    },
    {
      "epoch": 26.139600337742753,
      "grad_norm": 0.0001431982673238963,
      "learning_rate": 4.1963871063222526e-05,
      "loss": 0.0022,
      "step": 5829
    },
    {
      "epoch": 26.14410357444413,
      "grad_norm": 0.00010244611621601507,
      "learning_rate": 4.1864368479311575e-05,
      "loss": 0.0021,
      "step": 5830
    },
    {
      "epoch": 26.148606811145513,
      "grad_norm": 6.215843313839287e-05,
      "learning_rate": 4.1764978848496285e-05,
      "loss": 0.0022,
      "step": 5831
    },
    {
      "epoch": 26.15311004784689,
      "grad_norm": 0.00011016992357326671,
      "learning_rate": 4.166570219528099e-05,
      "loss": 0.0022,
      "step": 5832
    },
    {
      "epoch": 26.15761328454827,
      "grad_norm": 5.751345815951936e-05,
      "learning_rate": 4.1566538544142496e-05,
      "loss": 0.0022,
      "step": 5833
    },
    {
      "epoch": 26.162116521249647,
      "grad_norm": 8.227283979067579e-05,
      "learning_rate": 4.146748791952948e-05,
      "loss": 0.0022,
      "step": 5834
    },
    {
      "epoch": 26.16661975795103,
      "grad_norm": 5.871184839634225e-05,
      "learning_rate": 4.136855034586279e-05,
      "loss": 0.0021,
      "step": 5835
    },
    {
      "epoch": 26.171122994652407,
      "grad_norm": 5.428120130090974e-05,
      "learning_rate": 4.126972584753536e-05,
      "loss": 0.0021,
      "step": 5836
    },
    {
      "epoch": 26.175626231353785,
      "grad_norm": 8.049181633396074e-05,
      "learning_rate": 4.117101444891247e-05,
      "loss": 0.0022,
      "step": 5837
    },
    {
      "epoch": 26.180129468055163,
      "grad_norm": 0.00013321227743290365,
      "learning_rate": 4.107241617433133e-05,
      "loss": 0.0022,
      "step": 5838
    },
    {
      "epoch": 26.184632704756545,
      "grad_norm": 0.00012124294880777597,
      "learning_rate": 4.097393104810126e-05,
      "loss": 0.0022,
      "step": 5839
    },
    {
      "epoch": 26.189135941457923,
      "grad_norm": 9.844559826888144e-05,
      "learning_rate": 4.087555909450358e-05,
      "loss": 0.0022,
      "step": 5840
    },
    {
      "epoch": 26.1936391781593,
      "grad_norm": 8.985440217657015e-05,
      "learning_rate": 4.0777300337792145e-05,
      "loss": 0.0022,
      "step": 5841
    },
    {
      "epoch": 26.19814241486068,
      "grad_norm": 6.765921716578305e-05,
      "learning_rate": 4.067915480219237e-05,
      "loss": 0.0021,
      "step": 5842
    },
    {
      "epoch": 26.20264565156206,
      "grad_norm": 6.343150016618893e-05,
      "learning_rate": 4.058112251190193e-05,
      "loss": 0.0021,
      "step": 5843
    },
    {
      "epoch": 26.20714888826344,
      "grad_norm": 6.341398693621159e-05,
      "learning_rate": 4.048320349109091e-05,
      "loss": 0.0022,
      "step": 5844
    },
    {
      "epoch": 26.211652124964818,
      "grad_norm": 4.4872147554997355e-05,
      "learning_rate": 4.0385397763900986e-05,
      "loss": 0.0022,
      "step": 5845
    },
    {
      "epoch": 26.216155361666196,
      "grad_norm": 6.799300172133371e-05,
      "learning_rate": 4.0287705354446145e-05,
      "loss": 0.0021,
      "step": 5846
    },
    {
      "epoch": 26.220658598367578,
      "grad_norm": 6.840885180281475e-05,
      "learning_rate": 4.019012628681235e-05,
      "loss": 0.0022,
      "step": 5847
    },
    {
      "epoch": 26.225161835068956,
      "grad_norm": 8.7340158643201e-05,
      "learning_rate": 4.009266058505784e-05,
      "loss": 0.0021,
      "step": 5848
    },
    {
      "epoch": 26.229665071770334,
      "grad_norm": 0.0001667290343903005,
      "learning_rate": 3.999530827321252e-05,
      "loss": 0.0023,
      "step": 5849
    },
    {
      "epoch": 26.234168308471713,
      "grad_norm": 0.00011264522618148476,
      "learning_rate": 3.989806937527868e-05,
      "loss": 0.0021,
      "step": 5850
    },
    {
      "epoch": 26.238671545173094,
      "grad_norm": 9.557889279676601e-05,
      "learning_rate": 3.980094391523043e-05,
      "loss": 0.0022,
      "step": 5851
    },
    {
      "epoch": 26.243174781874473,
      "grad_norm": 9.159709588857368e-05,
      "learning_rate": 3.9703931917014155e-05,
      "loss": 0.0022,
      "step": 5852
    },
    {
      "epoch": 26.24767801857585,
      "grad_norm": 0.00011463383270893246,
      "learning_rate": 3.960703340454791e-05,
      "loss": 0.0022,
      "step": 5853
    },
    {
      "epoch": 26.25218125527723,
      "grad_norm": 2.916983976319898e-05,
      "learning_rate": 3.9510248401722124e-05,
      "loss": 0.0022,
      "step": 5854
    },
    {
      "epoch": 26.25668449197861,
      "grad_norm": 6.330786709440872e-05,
      "learning_rate": 3.9413576932399055e-05,
      "loss": 0.0021,
      "step": 5855
    },
    {
      "epoch": 26.26118772867999,
      "grad_norm": 8.491254993714392e-05,
      "learning_rate": 3.9317019020413015e-05,
      "loss": 0.0023,
      "step": 5856
    },
    {
      "epoch": 26.265690965381367,
      "grad_norm": 0.00018024523160420358,
      "learning_rate": 3.922057468957013e-05,
      "loss": 0.0022,
      "step": 5857
    },
    {
      "epoch": 26.270194202082745,
      "grad_norm": 0.0002889887837227434,
      "learning_rate": 3.9124243963648945e-05,
      "loss": 0.0021,
      "step": 5858
    },
    {
      "epoch": 26.274697438784127,
      "grad_norm": 7.95043888501823e-05,
      "learning_rate": 3.902802686639967e-05,
      "loss": 0.0022,
      "step": 5859
    },
    {
      "epoch": 26.279200675485505,
      "grad_norm": 4.7929737775120884e-05,
      "learning_rate": 3.893192342154445e-05,
      "loss": 0.0021,
      "step": 5860
    },
    {
      "epoch": 26.283703912186883,
      "grad_norm": 3.60445847036317e-05,
      "learning_rate": 3.883593365277777e-05,
      "loss": 0.0021,
      "step": 5861
    },
    {
      "epoch": 26.288207148888265,
      "grad_norm": 2.4993189072120003e-05,
      "learning_rate": 3.8740057583765696e-05,
      "loss": 0.0022,
      "step": 5862
    },
    {
      "epoch": 26.292710385589643,
      "grad_norm": 5.2074257837375626e-05,
      "learning_rate": 3.864429523814644e-05,
      "loss": 0.0022,
      "step": 5863
    },
    {
      "epoch": 26.29721362229102,
      "grad_norm": 7.096786430338398e-05,
      "learning_rate": 3.8548646639530114e-05,
      "loss": 0.0021,
      "step": 5864
    },
    {
      "epoch": 26.3017168589924,
      "grad_norm": 0.00010426330118207261,
      "learning_rate": 3.845311181149896e-05,
      "loss": 0.0022,
      "step": 5865
    },
    {
      "epoch": 26.30622009569378,
      "grad_norm": 0.0001481361105106771,
      "learning_rate": 3.835769077760698e-05,
      "loss": 0.0022,
      "step": 5866
    },
    {
      "epoch": 26.31072333239516,
      "grad_norm": 7.28968734620139e-05,
      "learning_rate": 3.8262383561380174e-05,
      "loss": 0.0021,
      "step": 5867
    },
    {
      "epoch": 26.315226569096538,
      "grad_norm": 7.797386933816597e-05,
      "learning_rate": 3.816719018631637e-05,
      "loss": 0.0023,
      "step": 5868
    },
    {
      "epoch": 26.319729805797916,
      "grad_norm": 0.00012526822683867067,
      "learning_rate": 3.807211067588573e-05,
      "loss": 0.0021,
      "step": 5869
    },
    {
      "epoch": 26.324233042499298,
      "grad_norm": 4.24873833253514e-05,
      "learning_rate": 3.797714505352973e-05,
      "loss": 0.0021,
      "step": 5870
    },
    {
      "epoch": 26.328736279200676,
      "grad_norm": 1.7028458387358114e-05,
      "learning_rate": 3.78822933426623e-05,
      "loss": 0.0021,
      "step": 5871
    },
    {
      "epoch": 26.333239515902054,
      "grad_norm": 8.771887223701924e-05,
      "learning_rate": 3.7787555566668905e-05,
      "loss": 0.0022,
      "step": 5872
    },
    {
      "epoch": 26.337742752603432,
      "grad_norm": 0.00016574033361393958,
      "learning_rate": 3.7692931748907424e-05,
      "loss": 0.0022,
      "step": 5873
    },
    {
      "epoch": 26.342245989304814,
      "grad_norm": 7.130094309104607e-05,
      "learning_rate": 3.75984219127069e-05,
      "loss": 0.0022,
      "step": 5874
    },
    {
      "epoch": 26.346749226006192,
      "grad_norm": 5.6813332776073366e-05,
      "learning_rate": 3.750402608136899e-05,
      "loss": 0.0022,
      "step": 5875
    },
    {
      "epoch": 26.35125246270757,
      "grad_norm": 0.00011919725511688739,
      "learning_rate": 3.740974427816679e-05,
      "loss": 0.0021,
      "step": 5876
    },
    {
      "epoch": 26.35575569940895,
      "grad_norm": 2.875377867894713e-05,
      "learning_rate": 3.7315576526345426e-05,
      "loss": 0.0022,
      "step": 5877
    },
    {
      "epoch": 26.36025893611033,
      "grad_norm": 0.00010619794193189591,
      "learning_rate": 3.722152284912195e-05,
      "loss": 0.0027,
      "step": 5878
    },
    {
      "epoch": 26.36476217281171,
      "grad_norm": 0.0006236173794604838,
      "learning_rate": 3.7127583269685296e-05,
      "loss": 0.0021,
      "step": 5879
    },
    {
      "epoch": 26.369265409513087,
      "grad_norm": 6.050147567293607e-05,
      "learning_rate": 3.703375781119617e-05,
      "loss": 0.0022,
      "step": 5880
    },
    {
      "epoch": 26.373768646214465,
      "grad_norm": 2.4005366867640987e-05,
      "learning_rate": 3.694004649678706e-05,
      "loss": 0.0023,
      "step": 5881
    },
    {
      "epoch": 26.378271882915847,
      "grad_norm": 0.00021032507356721908,
      "learning_rate": 3.6846449349562604e-05,
      "loss": 0.0021,
      "step": 5882
    },
    {
      "epoch": 26.382775119617225,
      "grad_norm": 1.7863587345345877e-05,
      "learning_rate": 3.675296639259912e-05,
      "loss": 0.0021,
      "step": 5883
    },
    {
      "epoch": 26.387278356318603,
      "grad_norm": 5.9080080973217264e-05,
      "learning_rate": 3.6659597648944774e-05,
      "loss": 0.0022,
      "step": 5884
    },
    {
      "epoch": 26.39178159301998,
      "grad_norm": 7.906362588983029e-05,
      "learning_rate": 3.6566343141619443e-05,
      "loss": 0.0022,
      "step": 5885
    },
    {
      "epoch": 26.396284829721363,
      "grad_norm": 0.00010377977014286444,
      "learning_rate": 3.6473202893615166e-05,
      "loss": 0.0022,
      "step": 5886
    },
    {
      "epoch": 26.40078806642274,
      "grad_norm": 5.842647806275636e-05,
      "learning_rate": 3.6380176927895526e-05,
      "loss": 0.0022,
      "step": 5887
    },
    {
      "epoch": 26.40529130312412,
      "grad_norm": 3.13514428853523e-05,
      "learning_rate": 3.628726526739606e-05,
      "loss": 0.0021,
      "step": 5888
    },
    {
      "epoch": 26.409794539825498,
      "grad_norm": 5.597166818915866e-05,
      "learning_rate": 3.619446793502395e-05,
      "loss": 0.0022,
      "step": 5889
    },
    {
      "epoch": 26.41429777652688,
      "grad_norm": 2.393595059402287e-05,
      "learning_rate": 3.6101784953658624e-05,
      "loss": 0.0022,
      "step": 5890
    },
    {
      "epoch": 26.418801013228258,
      "grad_norm": 4.3911630200454965e-05,
      "learning_rate": 3.600921634615068e-05,
      "loss": 0.0022,
      "step": 5891
    },
    {
      "epoch": 26.423304249929636,
      "grad_norm": 0.00011747655662475154,
      "learning_rate": 3.591676213532313e-05,
      "loss": 0.0022,
      "step": 5892
    },
    {
      "epoch": 26.427807486631018,
      "grad_norm": 8.634047844680026e-05,
      "learning_rate": 3.582442234397026e-05,
      "loss": 0.0022,
      "step": 5893
    },
    {
      "epoch": 26.432310723332396,
      "grad_norm": 4.266448013368063e-05,
      "learning_rate": 3.573219699485869e-05,
      "loss": 0.0022,
      "step": 5894
    },
    {
      "epoch": 26.436813960033774,
      "grad_norm": 0.00013297153054736555,
      "learning_rate": 3.5640086110726335e-05,
      "loss": 0.0022,
      "step": 5895
    },
    {
      "epoch": 26.441317196735152,
      "grad_norm": 8.84492983459495e-05,
      "learning_rate": 3.554808971428314e-05,
      "loss": 0.0022,
      "step": 5896
    },
    {
      "epoch": 26.445820433436534,
      "grad_norm": 0.00012582310591824353,
      "learning_rate": 3.545620782821074e-05,
      "loss": 0.0022,
      "step": 5897
    },
    {
      "epoch": 26.450323670137912,
      "grad_norm": 9.913743269862607e-05,
      "learning_rate": 3.536444047516252e-05,
      "loss": 0.0022,
      "step": 5898
    },
    {
      "epoch": 26.45482690683929,
      "grad_norm": 0.0001689598138909787,
      "learning_rate": 3.527278767776382e-05,
      "loss": 0.0021,
      "step": 5899
    },
    {
      "epoch": 26.45933014354067,
      "grad_norm": 3.311030741315335e-05,
      "learning_rate": 3.5181249458611395e-05,
      "loss": 0.0021,
      "step": 5900
    },
    {
      "epoch": 26.46383338024205,
      "grad_norm": 0.00013387808576226234,
      "learning_rate": 3.5089825840274206e-05,
      "loss": 0.0022,
      "step": 5901
    },
    {
      "epoch": 26.46833661694343,
      "grad_norm": 3.85723433282692e-05,
      "learning_rate": 3.499851684529243e-05,
      "loss": 0.0022,
      "step": 5902
    },
    {
      "epoch": 26.472839853644807,
      "grad_norm": 9.33117262320593e-05,
      "learning_rate": 3.490732249617839e-05,
      "loss": 0.0022,
      "step": 5903
    },
    {
      "epoch": 26.477343090346185,
      "grad_norm": 7.485359674319625e-05,
      "learning_rate": 3.481624281541601e-05,
      "loss": 0.0021,
      "step": 5904
    },
    {
      "epoch": 26.481846327047567,
      "grad_norm": 1.9958279153797776e-05,
      "learning_rate": 3.472527782546086e-05,
      "loss": 0.0021,
      "step": 5905
    },
    {
      "epoch": 26.486349563748945,
      "grad_norm": 8.717664604773745e-05,
      "learning_rate": 3.46344275487403e-05,
      "loss": 0.0021,
      "step": 5906
    },
    {
      "epoch": 26.490852800450323,
      "grad_norm": 5.754489029641263e-05,
      "learning_rate": 3.454369200765356e-05,
      "loss": 0.0022,
      "step": 5907
    },
    {
      "epoch": 26.4953560371517,
      "grad_norm": 0.00010530590952839702,
      "learning_rate": 3.445307122457131e-05,
      "loss": 0.0022,
      "step": 5908
    },
    {
      "epoch": 26.499859273853083,
      "grad_norm": 7.459330663550645e-05,
      "learning_rate": 3.436256522183612e-05,
      "loss": 0.0021,
      "step": 5909
    },
    {
      "epoch": 26.50436251055446,
      "grad_norm": 5.639394294121303e-05,
      "learning_rate": 3.4272174021762136e-05,
      "loss": 0.0021,
      "step": 5910
    },
    {
      "epoch": 26.50886574725584,
      "grad_norm": 3.272034155088477e-05,
      "learning_rate": 3.418189764663532e-05,
      "loss": 0.0021,
      "step": 5911
    },
    {
      "epoch": 26.513368983957218,
      "grad_norm": 3.412542355363257e-05,
      "learning_rate": 3.409173611871324e-05,
      "loss": 0.0023,
      "step": 5912
    },
    {
      "epoch": 26.5178722206586,
      "grad_norm": 9.300307283410802e-05,
      "learning_rate": 3.4001689460225194e-05,
      "loss": 0.002,
      "step": 5913
    },
    {
      "epoch": 26.522375457359978,
      "grad_norm": 3.112779450020753e-05,
      "learning_rate": 3.3911757693372014e-05,
      "loss": 0.0022,
      "step": 5914
    },
    {
      "epoch": 26.526878694061356,
      "grad_norm": 0.0001464716624468565,
      "learning_rate": 3.3821940840326525e-05,
      "loss": 0.0023,
      "step": 5915
    },
    {
      "epoch": 26.531381930762734,
      "grad_norm": 0.00016613738262094557,
      "learning_rate": 3.373223892323296e-05,
      "loss": 0.0022,
      "step": 5916
    },
    {
      "epoch": 26.535885167464116,
      "grad_norm": 3.822693906840868e-05,
      "learning_rate": 3.364265196420713e-05,
      "loss": 0.0022,
      "step": 5917
    },
    {
      "epoch": 26.540388404165494,
      "grad_norm": 5.738588879466988e-05,
      "learning_rate": 3.355317998533686e-05,
      "loss": 0.0022,
      "step": 5918
    },
    {
      "epoch": 26.544891640866872,
      "grad_norm": 8.689150854479522e-05,
      "learning_rate": 3.3463823008681335e-05,
      "loss": 0.0021,
      "step": 5919
    },
    {
      "epoch": 26.549394877568254,
      "grad_norm": 0.00014499976532533765,
      "learning_rate": 3.3374581056271447e-05,
      "loss": 0.0023,
      "step": 5920
    },
    {
      "epoch": 26.553898114269632,
      "grad_norm": 0.00022825182531960309,
      "learning_rate": 3.328545415010975e-05,
      "loss": 0.0023,
      "step": 5921
    },
    {
      "epoch": 26.55840135097101,
      "grad_norm": 6.581802881555632e-05,
      "learning_rate": 3.319644231217056e-05,
      "loss": 0.0022,
      "step": 5922
    },
    {
      "epoch": 26.56290458767239,
      "grad_norm": 6.914474943187088e-05,
      "learning_rate": 3.3107545564399436e-05,
      "loss": 0.0022,
      "step": 5923
    },
    {
      "epoch": 26.56740782437377,
      "grad_norm": 2.071986091323197e-05,
      "learning_rate": 3.301876392871406e-05,
      "loss": 0.0022,
      "step": 5924
    },
    {
      "epoch": 26.57191106107515,
      "grad_norm": 9.433516970602795e-05,
      "learning_rate": 3.2930097427003366e-05,
      "loss": 0.0022,
      "step": 5925
    },
    {
      "epoch": 26.576414297776527,
      "grad_norm": 0.00022058573085814714,
      "learning_rate": 3.284154608112821e-05,
      "loss": 0.0021,
      "step": 5926
    },
    {
      "epoch": 26.580917534477905,
      "grad_norm": 0.00011109829938504845,
      "learning_rate": 3.275310991292063e-05,
      "loss": 0.0023,
      "step": 5927
    },
    {
      "epoch": 26.585420771179287,
      "grad_norm": 9.84391663223505e-05,
      "learning_rate": 3.266478894418468e-05,
      "loss": 0.0022,
      "step": 5928
    },
    {
      "epoch": 26.589924007880665,
      "grad_norm": 0.00010760510485852137,
      "learning_rate": 3.257658319669582e-05,
      "loss": 0.0022,
      "step": 5929
    },
    {
      "epoch": 26.594427244582043,
      "grad_norm": 2.544786548241973e-05,
      "learning_rate": 3.248849269220111e-05,
      "loss": 0.0021,
      "step": 5930
    },
    {
      "epoch": 26.59893048128342,
      "grad_norm": 7.011270645307377e-05,
      "learning_rate": 3.240051745241918e-05,
      "loss": 0.0022,
      "step": 5931
    },
    {
      "epoch": 26.603433717984803,
      "grad_norm": 9.479160507908091e-05,
      "learning_rate": 3.2312657499040386e-05,
      "loss": 0.0021,
      "step": 5932
    },
    {
      "epoch": 26.60793695468618,
      "grad_norm": 6.803625728935003e-05,
      "learning_rate": 3.2224912853726476e-05,
      "loss": 0.0022,
      "step": 5933
    },
    {
      "epoch": 26.61244019138756,
      "grad_norm": 3.295618444099091e-05,
      "learning_rate": 3.21372835381108e-05,
      "loss": 0.0022,
      "step": 5934
    },
    {
      "epoch": 26.616943428088938,
      "grad_norm": 3.854294118355028e-05,
      "learning_rate": 3.2049769573798456e-05,
      "loss": 0.0021,
      "step": 5935
    },
    {
      "epoch": 26.62144666479032,
      "grad_norm": 7.787504000589252e-05,
      "learning_rate": 3.196237098236588e-05,
      "loss": 0.0021,
      "step": 5936
    },
    {
      "epoch": 26.625949901491698,
      "grad_norm": 0.0001406935480190441,
      "learning_rate": 3.1875087785361136e-05,
      "loss": 0.0022,
      "step": 5937
    },
    {
      "epoch": 26.630453138193076,
      "grad_norm": 7.156151696108282e-05,
      "learning_rate": 3.1787920004303804e-05,
      "loss": 0.0022,
      "step": 5938
    },
    {
      "epoch": 26.634956374894454,
      "grad_norm": 8.588479249738157e-05,
      "learning_rate": 3.1700867660685194e-05,
      "loss": 0.0022,
      "step": 5939
    },
    {
      "epoch": 26.639459611595836,
      "grad_norm": 7.682379509788007e-05,
      "learning_rate": 3.161393077596797e-05,
      "loss": 0.0022,
      "step": 5940
    },
    {
      "epoch": 26.643962848297214,
      "grad_norm": 5.3367002692539245e-05,
      "learning_rate": 3.1527109371586317e-05,
      "loss": 0.0023,
      "step": 5941
    },
    {
      "epoch": 26.648466084998592,
      "grad_norm": 0.00028453420964069664,
      "learning_rate": 3.144040346894595e-05,
      "loss": 0.0022,
      "step": 5942
    },
    {
      "epoch": 26.65296932169997,
      "grad_norm": 0.00017567173927091062,
      "learning_rate": 3.135381308942442e-05,
      "loss": 0.0021,
      "step": 5943
    },
    {
      "epoch": 26.657472558401352,
      "grad_norm": 0.00011222463945159689,
      "learning_rate": 3.126733825437022e-05,
      "loss": 0.0022,
      "step": 5944
    },
    {
      "epoch": 26.66197579510273,
      "grad_norm": 6.84242695569992e-05,
      "learning_rate": 3.1180978985103856e-05,
      "loss": 0.0022,
      "step": 5945
    },
    {
      "epoch": 26.66647903180411,
      "grad_norm": 9.237969061359763e-05,
      "learning_rate": 3.109473530291706e-05,
      "loss": 0.0023,
      "step": 5946
    },
    {
      "epoch": 26.670982268505487,
      "grad_norm": 0.0002937070094048977,
      "learning_rate": 3.1008607229073446e-05,
      "loss": 0.0022,
      "step": 5947
    },
    {
      "epoch": 26.67548550520687,
      "grad_norm": 2.7664464141707867e-05,
      "learning_rate": 3.092259478480741e-05,
      "loss": 0.0021,
      "step": 5948
    },
    {
      "epoch": 26.679988741908247,
      "grad_norm": 0.00015281444939319044,
      "learning_rate": 3.0836697991325546e-05,
      "loss": 0.0023,
      "step": 5949
    },
    {
      "epoch": 26.684491978609625,
      "grad_norm": 6.92178073222749e-05,
      "learning_rate": 3.075091686980569e-05,
      "loss": 0.0022,
      "step": 5950
    },
    {
      "epoch": 26.688995215311003,
      "grad_norm": 7.733020902378485e-05,
      "learning_rate": 3.0665251441396924e-05,
      "loss": 0.0022,
      "step": 5951
    },
    {
      "epoch": 26.693498452012385,
      "grad_norm": 4.467345934244804e-05,
      "learning_rate": 3.057970172722019e-05,
      "loss": 0.0022,
      "step": 5952
    },
    {
      "epoch": 26.698001688713763,
      "grad_norm": 0.00011863382678711787,
      "learning_rate": 3.049426774836772e-05,
      "loss": 0.0022,
      "step": 5953
    },
    {
      "epoch": 26.70250492541514,
      "grad_norm": 5.730513657908887e-05,
      "learning_rate": 3.0408949525903174e-05,
      "loss": 0.0022,
      "step": 5954
    },
    {
      "epoch": 26.707008162116523,
      "grad_norm": 7.739176362520084e-05,
      "learning_rate": 3.0323747080861608e-05,
      "loss": 0.0022,
      "step": 5955
    },
    {
      "epoch": 26.7115113988179,
      "grad_norm": 8.004936535144225e-05,
      "learning_rate": 3.023866043424983e-05,
      "loss": 0.0022,
      "step": 5956
    },
    {
      "epoch": 26.71601463551928,
      "grad_norm": 0.00017103743448387831,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 0.0023,
      "step": 5957
    },
    {
      "epoch": 26.720517872220658,
      "grad_norm": 0.00011614544928306714,
      "learning_rate": 3.0068834620199105e-05,
      "loss": 0.0021,
      "step": 5958
    },
    {
      "epoch": 26.72502110892204,
      "grad_norm": 3.8402136851800606e-05,
      "learning_rate": 2.9984095494630547e-05,
      "loss": 0.0022,
      "step": 5959
    },
    {
      "epoch": 26.729524345623418,
      "grad_norm": 0.00012492200767155737,
      "learning_rate": 2.9899472251232683e-05,
      "loss": 0.0021,
      "step": 5960
    },
    {
      "epoch": 26.734027582324796,
      "grad_norm": 2.7396368750487454e-05,
      "learning_rate": 2.9814964910869212e-05,
      "loss": 0.0022,
      "step": 5961
    },
    {
      "epoch": 26.738530819026174,
      "grad_norm": 7.082648517098278e-05,
      "learning_rate": 2.9730573494375468e-05,
      "loss": 0.0021,
      "step": 5962
    },
    {
      "epoch": 26.743034055727556,
      "grad_norm": 7.084874960128218e-05,
      "learning_rate": 2.9646298022557916e-05,
      "loss": 0.0022,
      "step": 5963
    },
    {
      "epoch": 26.747537292428934,
      "grad_norm": 0.00011550327326403931,
      "learning_rate": 2.956213851619499e-05,
      "loss": 0.0022,
      "step": 5964
    },
    {
      "epoch": 26.752040529130312,
      "grad_norm": 9.153214341495186e-05,
      "learning_rate": 2.9478094996035765e-05,
      "loss": 0.0022,
      "step": 5965
    },
    {
      "epoch": 26.75654376583169,
      "grad_norm": 5.7896213547792286e-05,
      "learning_rate": 2.939416748280138e-05,
      "loss": 0.0022,
      "step": 5966
    },
    {
      "epoch": 26.761047002533072,
      "grad_norm": 1.8020669813267887e-05,
      "learning_rate": 2.9310355997183957e-05,
      "loss": 0.0021,
      "step": 5967
    },
    {
      "epoch": 26.76555023923445,
      "grad_norm": 2.824225157382898e-05,
      "learning_rate": 2.922666055984735e-05,
      "loss": 0.0021,
      "step": 5968
    },
    {
      "epoch": 26.77005347593583,
      "grad_norm": 0.0001615089422557503,
      "learning_rate": 2.9143081191426556e-05,
      "loss": 0.0022,
      "step": 5969
    },
    {
      "epoch": 26.774556712637207,
      "grad_norm": 2.2047373931854963e-05,
      "learning_rate": 2.9059617912528037e-05,
      "loss": 0.0022,
      "step": 5970
    },
    {
      "epoch": 26.77905994933859,
      "grad_norm": 0.00011389115388737991,
      "learning_rate": 2.8976270743729548e-05,
      "loss": 0.0023,
      "step": 5971
    },
    {
      "epoch": 26.783563186039967,
      "grad_norm": 7.601734978379682e-05,
      "learning_rate": 2.889303970558027e-05,
      "loss": 0.0021,
      "step": 5972
    },
    {
      "epoch": 26.788066422741345,
      "grad_norm": 5.055374640505761e-05,
      "learning_rate": 2.880992481860095e-05,
      "loss": 0.0022,
      "step": 5973
    },
    {
      "epoch": 26.792569659442723,
      "grad_norm": 8.635407721158117e-05,
      "learning_rate": 2.8726926103283256e-05,
      "loss": 0.0023,
      "step": 5974
    },
    {
      "epoch": 26.797072896144105,
      "grad_norm": 0.00032290982198901474,
      "learning_rate": 2.864404358009082e-05,
      "loss": 0.0022,
      "step": 5975
    },
    {
      "epoch": 26.801576132845483,
      "grad_norm": 9.55492869252339e-05,
      "learning_rate": 2.85612772694579e-05,
      "loss": 0.0022,
      "step": 5976
    },
    {
      "epoch": 26.80607936954686,
      "grad_norm": 0.000123321296996437,
      "learning_rate": 2.8478627191790786e-05,
      "loss": 0.0022,
      "step": 5977
    },
    {
      "epoch": 26.81058260624824,
      "grad_norm": 9.560192847857252e-05,
      "learning_rate": 2.839609336746668e-05,
      "loss": 0.0022,
      "step": 5978
    },
    {
      "epoch": 26.81508584294962,
      "grad_norm": 8.092468488030136e-05,
      "learning_rate": 2.831367581683425e-05,
      "loss": 0.0022,
      "step": 5979
    },
    {
      "epoch": 26.819589079651,
      "grad_norm": 1.74613123817835e-05,
      "learning_rate": 2.8231374560213464e-05,
      "loss": 0.0021,
      "step": 5980
    },
    {
      "epoch": 26.824092316352377,
      "grad_norm": 3.014745016116649e-05,
      "learning_rate": 2.8149189617895808e-05,
      "loss": 0.0021,
      "step": 5981
    },
    {
      "epoch": 26.82859555305376,
      "grad_norm": 8.847108256304637e-05,
      "learning_rate": 2.8067121010143804e-05,
      "loss": 0.0021,
      "step": 5982
    },
    {
      "epoch": 26.833098789755137,
      "grad_norm": 5.738749314332381e-05,
      "learning_rate": 2.7985168757191483e-05,
      "loss": 0.0022,
      "step": 5983
    },
    {
      "epoch": 26.837602026456516,
      "grad_norm": 0.00013961429067421705,
      "learning_rate": 2.790333287924396e-05,
      "loss": 0.0022,
      "step": 5984
    },
    {
      "epoch": 26.842105263157894,
      "grad_norm": 7.535723125329241e-05,
      "learning_rate": 2.7821613396478095e-05,
      "loss": 0.0022,
      "step": 5985
    },
    {
      "epoch": 26.846608499859276,
      "grad_norm": 2.3223396055982448e-05,
      "learning_rate": 2.7740010329041664e-05,
      "loss": 0.0022,
      "step": 5986
    },
    {
      "epoch": 26.851111736560654,
      "grad_norm": 3.105712676187977e-05,
      "learning_rate": 2.765852369705385e-05,
      "loss": 0.0023,
      "step": 5987
    },
    {
      "epoch": 26.855614973262032,
      "grad_norm": 0.0004887388204224408,
      "learning_rate": 2.7577153520605025e-05,
      "loss": 0.0022,
      "step": 5988
    },
    {
      "epoch": 26.86011820996341,
      "grad_norm": 2.5683519197627902e-05,
      "learning_rate": 2.7495899819757198e-05,
      "loss": 0.0021,
      "step": 5989
    },
    {
      "epoch": 26.864621446664792,
      "grad_norm": 2.4821134502417408e-05,
      "learning_rate": 2.7414762614543288e-05,
      "loss": 0.0021,
      "step": 5990
    },
    {
      "epoch": 26.86912468336617,
      "grad_norm": 1.843797872425057e-05,
      "learning_rate": 2.733374192496757e-05,
      "loss": 0.0022,
      "step": 5991
    },
    {
      "epoch": 26.87362792006755,
      "grad_norm": 0.00013891566777601838,
      "learning_rate": 2.725283777100579e-05,
      "loss": 0.0022,
      "step": 5992
    },
    {
      "epoch": 26.878131156768927,
      "grad_norm": 9.863621380645782e-05,
      "learning_rate": 2.7172050172604823e-05,
      "loss": 0.0021,
      "step": 5993
    },
    {
      "epoch": 26.88263439347031,
      "grad_norm": 5.5872507800813764e-05,
      "learning_rate": 2.709137914968268e-05,
      "loss": 0.0022,
      "step": 5994
    },
    {
      "epoch": 26.887137630171686,
      "grad_norm": 3.631819708971307e-05,
      "learning_rate": 2.701082472212879e-05,
      "loss": 0.0021,
      "step": 5995
    },
    {
      "epoch": 26.891640866873065,
      "grad_norm": 0.00011979310511378571,
      "learning_rate": 2.6930386909803985e-05,
      "loss": 0.0022,
      "step": 5996
    },
    {
      "epoch": 26.896144103574443,
      "grad_norm": 0.0001454014127375558,
      "learning_rate": 2.6850065732539842e-05,
      "loss": 0.0021,
      "step": 5997
    },
    {
      "epoch": 26.900647340275825,
      "grad_norm": 8.366780093638226e-05,
      "learning_rate": 2.67698612101398e-05,
      "loss": 0.0022,
      "step": 5998
    },
    {
      "epoch": 26.905150576977203,
      "grad_norm": 9.730391320772469e-05,
      "learning_rate": 2.6689773362378045e-05,
      "loss": 0.0023,
      "step": 5999
    },
    {
      "epoch": 26.90965381367858,
      "grad_norm": 0.00013921169738750905,
      "learning_rate": 2.660980220900039e-05,
      "loss": 0.0023,
      "step": 6000
    },
    {
      "epoch": 26.91415705037996,
      "grad_norm": 0.0001222856662934646,
      "learning_rate": 2.652994776972345e-05,
      "loss": 0.0022,
      "step": 6001
    },
    {
      "epoch": 26.91866028708134,
      "grad_norm": 0.0001496783079346642,
      "learning_rate": 2.645021006423548e-05,
      "loss": 0.0022,
      "step": 6002
    },
    {
      "epoch": 26.92316352378272,
      "grad_norm": 2.5335000827908516e-05,
      "learning_rate": 2.63705891121957e-05,
      "loss": 0.0023,
      "step": 6003
    },
    {
      "epoch": 26.927666760484097,
      "grad_norm": 0.0001427069801138714,
      "learning_rate": 2.6291084933234565e-05,
      "loss": 0.0022,
      "step": 6004
    },
    {
      "epoch": 26.932169997185476,
      "grad_norm": 0.00010785025369841605,
      "learning_rate": 2.6211697546953796e-05,
      "loss": 0.0022,
      "step": 6005
    },
    {
      "epoch": 26.936673233886857,
      "grad_norm": 0.00016037945169955492,
      "learning_rate": 2.6132426972926392e-05,
      "loss": 0.0022,
      "step": 6006
    },
    {
      "epoch": 26.941176470588236,
      "grad_norm": 5.431182944448665e-05,
      "learning_rate": 2.605327323069645e-05,
      "loss": 0.0021,
      "step": 6007
    },
    {
      "epoch": 26.945679707289614,
      "grad_norm": 6.060724626877345e-05,
      "learning_rate": 2.597423633977919e-05,
      "loss": 0.0022,
      "step": 6008
    },
    {
      "epoch": 26.950182943990992,
      "grad_norm": 5.272842463455163e-05,
      "learning_rate": 2.5895316319661245e-05,
      "loss": 0.0021,
      "step": 6009
    },
    {
      "epoch": 26.954686180692374,
      "grad_norm": 0.00010093332821270451,
      "learning_rate": 2.581651318980027e-05,
      "loss": 0.0022,
      "step": 6010
    },
    {
      "epoch": 26.959189417393752,
      "grad_norm": 9.643148223403841e-05,
      "learning_rate": 2.5737826969625066e-05,
      "loss": 0.0022,
      "step": 6011
    },
    {
      "epoch": 26.96369265409513,
      "grad_norm": 0.00014778724289499223,
      "learning_rate": 2.5659257678535664e-05,
      "loss": 0.0022,
      "step": 6012
    },
    {
      "epoch": 26.96819589079651,
      "grad_norm": 0.00010906634270213544,
      "learning_rate": 2.5580805335903456e-05,
      "loss": 0.0022,
      "step": 6013
    },
    {
      "epoch": 26.97269912749789,
      "grad_norm": 0.00010006957745645195,
      "learning_rate": 2.550246996107064e-05,
      "loss": 0.0021,
      "step": 6014
    },
    {
      "epoch": 26.977202364199268,
      "grad_norm": 6.490277883131057e-05,
      "learning_rate": 2.5424251573350875e-05,
      "loss": 0.0023,
      "step": 6015
    },
    {
      "epoch": 26.981705600900646,
      "grad_norm": 0.0001973421749426052,
      "learning_rate": 2.5346150192028682e-05,
      "loss": 0.0022,
      "step": 6016
    },
    {
      "epoch": 26.986208837602028,
      "grad_norm": 5.9795980632770807e-05,
      "learning_rate": 2.526816583636027e-05,
      "loss": 0.0021,
      "step": 6017
    },
    {
      "epoch": 26.990712074303406,
      "grad_norm": 3.645631659310311e-05,
      "learning_rate": 2.5190298525572197e-05,
      "loss": 0.0022,
      "step": 6018
    },
    {
      "epoch": 26.995215311004785,
      "grad_norm": 7.230698975035921e-05,
      "learning_rate": 2.5112548278862947e-05,
      "loss": 0.0022,
      "step": 6019
    },
    {
      "epoch": 26.999718547706163,
      "grad_norm": 0.00011509170872159302,
      "learning_rate": 2.5034915115401623e-05,
      "loss": 0.0021,
      "step": 6020
    },
    {
      "epoch": 27.0,
      "grad_norm": 0.00011509170872159302,
      "learning_rate": 2.4957399054328812e-05,
      "loss": 0.0001,
      "step": 6021
    },
    {
      "epoch": 27.0,
      "eval_f1": 0.9866933466733366,
      "eval_loss": 0.04094557836651802,
      "eval_runtime": 26.5242,
      "eval_samples_per_second": 188.432,
      "eval_steps_per_second": 5.919,
      "step": 6021
    },
    {
      "epoch": 27.004503236701378,
      "grad_norm": 2.0748220777022652e-05,
      "learning_rate": 2.488000011475583e-05,
      "loss": 0.0022,
      "step": 6022
    },
    {
      "epoch": 27.00900647340276,
      "grad_norm": 9.723264520289376e-05,
      "learning_rate": 2.4802718315765526e-05,
      "loss": 0.0021,
      "step": 6023
    },
    {
      "epoch": 27.013509710104138,
      "grad_norm": 8.343023364432156e-05,
      "learning_rate": 2.4725553676411605e-05,
      "loss": 0.0022,
      "step": 6024
    },
    {
      "epoch": 27.018012946805516,
      "grad_norm": 5.330888961907476e-05,
      "learning_rate": 2.46485062157189e-05,
      "loss": 0.0021,
      "step": 6025
    },
    {
      "epoch": 27.022516183506895,
      "grad_norm": 2.6667266865842976e-05,
      "learning_rate": 2.4571575952683613e-05,
      "loss": 0.0021,
      "step": 6026
    },
    {
      "epoch": 27.027019420208276,
      "grad_norm": 2.846033930836711e-05,
      "learning_rate": 2.4494762906272728e-05,
      "loss": 0.0022,
      "step": 6027
    },
    {
      "epoch": 27.031522656909655,
      "grad_norm": 0.00011075283691752702,
      "learning_rate": 2.441806709542449e-05,
      "loss": 0.0022,
      "step": 6028
    },
    {
      "epoch": 27.036025893611033,
      "grad_norm": 4.522919698501937e-05,
      "learning_rate": 2.4341488539048106e-05,
      "loss": 0.0023,
      "step": 6029
    },
    {
      "epoch": 27.04052913031241,
      "grad_norm": 0.0003322623379062861,
      "learning_rate": 2.42650272560242e-05,
      "loss": 0.0022,
      "step": 6030
    },
    {
      "epoch": 27.045032367013793,
      "grad_norm": 5.887663792236708e-05,
      "learning_rate": 2.4188683265204126e-05,
      "loss": 0.0022,
      "step": 6031
    },
    {
      "epoch": 27.04953560371517,
      "grad_norm": 1.9439716197666712e-05,
      "learning_rate": 2.4112456585410446e-05,
      "loss": 0.0022,
      "step": 6032
    },
    {
      "epoch": 27.05403884041655,
      "grad_norm": 0.0001269092463189736,
      "learning_rate": 2.403634723543674e-05,
      "loss": 0.0021,
      "step": 6033
    },
    {
      "epoch": 27.058542077117927,
      "grad_norm": 2.162700184271671e-05,
      "learning_rate": 2.396035523404788e-05,
      "loss": 0.0022,
      "step": 6034
    },
    {
      "epoch": 27.06304531381931,
      "grad_norm": 2.855719139915891e-05,
      "learning_rate": 2.3884480599979607e-05,
      "loss": 0.0022,
      "step": 6035
    },
    {
      "epoch": 27.067548550520687,
      "grad_norm": 7.226660090964288e-05,
      "learning_rate": 2.380872335193879e-05,
      "loss": 0.0022,
      "step": 6036
    },
    {
      "epoch": 27.072051787222065,
      "grad_norm": 9.292034519603476e-05,
      "learning_rate": 2.3733083508603205e-05,
      "loss": 0.0021,
      "step": 6037
    },
    {
      "epoch": 27.076555023923444,
      "grad_norm": 1.738928403938189e-05,
      "learning_rate": 2.3657561088621993e-05,
      "loss": 0.0021,
      "step": 6038
    },
    {
      "epoch": 27.081058260624825,
      "grad_norm": 3.630425635492429e-05,
      "learning_rate": 2.3582156110614984e-05,
      "loss": 0.0021,
      "step": 6039
    },
    {
      "epoch": 27.085561497326204,
      "grad_norm": 7.152187026804313e-05,
      "learning_rate": 2.3506868593173415e-05,
      "loss": 0.0023,
      "step": 6040
    },
    {
      "epoch": 27.09006473402758,
      "grad_norm": 0.00012175392475910485,
      "learning_rate": 2.3431698554859214e-05,
      "loss": 0.0021,
      "step": 6041
    },
    {
      "epoch": 27.09456797072896,
      "grad_norm": 7.443274080287665e-05,
      "learning_rate": 2.335664601420573e-05,
      "loss": 0.0022,
      "step": 6042
    },
    {
      "epoch": 27.09907120743034,
      "grad_norm": 6.430110079236329e-05,
      "learning_rate": 2.328171098971693e-05,
      "loss": 0.0022,
      "step": 6043
    },
    {
      "epoch": 27.10357444413172,
      "grad_norm": 9.385584417032078e-05,
      "learning_rate": 2.32068934998681e-05,
      "loss": 0.0023,
      "step": 6044
    },
    {
      "epoch": 27.108077680833098,
      "grad_norm": 7.687033212278038e-05,
      "learning_rate": 2.313219356310542e-05,
      "loss": 0.0022,
      "step": 6045
    },
    {
      "epoch": 27.112580917534476,
      "grad_norm": 2.8913274945807643e-05,
      "learning_rate": 2.305761119784605e-05,
      "loss": 0.0022,
      "step": 6046
    },
    {
      "epoch": 27.117084154235858,
      "grad_norm": 0.00012646328832488507,
      "learning_rate": 2.2983146422478397e-05,
      "loss": 0.0022,
      "step": 6047
    },
    {
      "epoch": 27.121587390937236,
      "grad_norm": 9.254775068257004e-05,
      "learning_rate": 2.2908799255361545e-05,
      "loss": 0.0022,
      "step": 6048
    },
    {
      "epoch": 27.126090627638614,
      "grad_norm": 2.4199676772695966e-05,
      "learning_rate": 2.283456971482595e-05,
      "loss": 0.0022,
      "step": 6049
    },
    {
      "epoch": 27.130593864339993,
      "grad_norm": 6.753548223059624e-05,
      "learning_rate": 2.276045781917263e-05,
      "loss": 0.0021,
      "step": 6050
    },
    {
      "epoch": 27.135097101041374,
      "grad_norm": 2.9572651328635402e-05,
      "learning_rate": 2.268646358667398e-05,
      "loss": 0.0022,
      "step": 6051
    },
    {
      "epoch": 27.139600337742753,
      "grad_norm": 7.350064697675407e-05,
      "learning_rate": 2.2612587035573228e-05,
      "loss": 0.0021,
      "step": 6052
    },
    {
      "epoch": 27.14410357444413,
      "grad_norm": 2.4866389139788225e-05,
      "learning_rate": 2.253882818408459e-05,
      "loss": 0.0022,
      "step": 6053
    },
    {
      "epoch": 27.148606811145513,
      "grad_norm": 7.628334424225613e-05,
      "learning_rate": 2.246518705039319e-05,
      "loss": 0.0022,
      "step": 6054
    },
    {
      "epoch": 27.15311004784689,
      "grad_norm": 0.0001808067609090358,
      "learning_rate": 2.239166365265527e-05,
      "loss": 0.0021,
      "step": 6055
    },
    {
      "epoch": 27.15761328454827,
      "grad_norm": 1.7857266357168555e-05,
      "learning_rate": 2.231825800899806e-05,
      "loss": 0.0022,
      "step": 6056
    },
    {
      "epoch": 27.162116521249647,
      "grad_norm": 6.746941653545946e-05,
      "learning_rate": 2.2244970137519583e-05,
      "loss": 0.0021,
      "step": 6057
    },
    {
      "epoch": 27.16661975795103,
      "grad_norm": 3.7540103221544996e-05,
      "learning_rate": 2.2171800056288938e-05,
      "loss": 0.0022,
      "step": 6058
    },
    {
      "epoch": 27.171122994652407,
      "grad_norm": 2.0889843654003926e-05,
      "learning_rate": 2.2098747783346194e-05,
      "loss": 0.0022,
      "step": 6059
    },
    {
      "epoch": 27.175626231353785,
      "grad_norm": 5.5106331274146214e-05,
      "learning_rate": 2.202581333670234e-05,
      "loss": 0.0021,
      "step": 6060
    },
    {
      "epoch": 27.180129468055163,
      "grad_norm": 4.636036101146601e-05,
      "learning_rate": 2.195299673433937e-05,
      "loss": 0.0021,
      "step": 6061
    },
    {
      "epoch": 27.184632704756545,
      "grad_norm": 2.3043927285471e-05,
      "learning_rate": 2.188029799421004e-05,
      "loss": 0.0022,
      "step": 6062
    },
    {
      "epoch": 27.189135941457923,
      "grad_norm": 0.00013049421249888837,
      "learning_rate": 2.180771713423835e-05,
      "loss": 0.0023,
      "step": 6063
    },
    {
      "epoch": 27.1936391781593,
      "grad_norm": 0.00015857281687203795,
      "learning_rate": 2.1735254172318976e-05,
      "loss": 0.0021,
      "step": 6064
    },
    {
      "epoch": 27.19814241486068,
      "grad_norm": 6.317286897683516e-05,
      "learning_rate": 2.166290912631763e-05,
      "loss": 0.0022,
      "step": 6065
    },
    {
      "epoch": 27.20264565156206,
      "grad_norm": 2.2857682779431343e-05,
      "learning_rate": 2.1590682014070993e-05,
      "loss": 0.0021,
      "step": 6066
    },
    {
      "epoch": 27.20714888826344,
      "grad_norm": 6.249787111300975e-05,
      "learning_rate": 2.1518572853386597e-05,
      "loss": 0.0022,
      "step": 6067
    },
    {
      "epoch": 27.211652124964818,
      "grad_norm": 3.899707007803954e-05,
      "learning_rate": 2.144658166204294e-05,
      "loss": 0.0022,
      "step": 6068
    },
    {
      "epoch": 27.216155361666196,
      "grad_norm": 0.0001054521999321878,
      "learning_rate": 2.1374708457789326e-05,
      "loss": 0.0023,
      "step": 6069
    },
    {
      "epoch": 27.220658598367578,
      "grad_norm": 0.00012490178050938994,
      "learning_rate": 2.130295325834619e-05,
      "loss": 0.0022,
      "step": 6070
    },
    {
      "epoch": 27.225161835068956,
      "grad_norm": 0.00014416893827728927,
      "learning_rate": 2.123131608140455e-05,
      "loss": 0.0022,
      "step": 6071
    },
    {
      "epoch": 27.229665071770334,
      "grad_norm": 9.50300382100977e-05,
      "learning_rate": 2.115979694462672e-05,
      "loss": 0.0022,
      "step": 6072
    },
    {
      "epoch": 27.234168308471713,
      "grad_norm": 6.465282058343291e-05,
      "learning_rate": 2.1088395865645537e-05,
      "loss": 0.0022,
      "step": 6073
    },
    {
      "epoch": 27.238671545173094,
      "grad_norm": 3.1272538763005286e-05,
      "learning_rate": 2.101711286206509e-05,
      "loss": 0.0022,
      "step": 6074
    },
    {
      "epoch": 27.243174781874473,
      "grad_norm": 3.291744360467419e-05,
      "learning_rate": 2.0945947951459876e-05,
      "loss": 0.0021,
      "step": 6075
    },
    {
      "epoch": 27.24767801857585,
      "grad_norm": 0.0001384212519042194,
      "learning_rate": 2.087490115137586e-05,
      "loss": 0.0022,
      "step": 6076
    },
    {
      "epoch": 27.25218125527723,
      "grad_norm": 0.0001403165515512228,
      "learning_rate": 2.080397247932947e-05,
      "loss": 0.0022,
      "step": 6077
    },
    {
      "epoch": 27.25668449197861,
      "grad_norm": 3.554750946932472e-05,
      "learning_rate": 2.073316195280811e-05,
      "loss": 0.0022,
      "step": 6078
    },
    {
      "epoch": 27.26118772867999,
      "grad_norm": 0.00011227492359466851,
      "learning_rate": 2.066246958927004e-05,
      "loss": 0.0022,
      "step": 6079
    },
    {
      "epoch": 27.265690965381367,
      "grad_norm": 3.8504236727021635e-05,
      "learning_rate": 2.0591895406144534e-05,
      "loss": 0.0022,
      "step": 6080
    },
    {
      "epoch": 27.270194202082745,
      "grad_norm": 3.923951226170175e-05,
      "learning_rate": 2.0521439420831623e-05,
      "loss": 0.0022,
      "step": 6081
    },
    {
      "epoch": 27.274697438784127,
      "grad_norm": 0.0001286468905163929,
      "learning_rate": 2.045110165070202e-05,
      "loss": 0.0022,
      "step": 6082
    },
    {
      "epoch": 27.279200675485505,
      "grad_norm": 9.118660091189668e-05,
      "learning_rate": 2.0380882113097686e-05,
      "loss": 0.0022,
      "step": 6083
    },
    {
      "epoch": 27.283703912186883,
      "grad_norm": 2.4872919311746955e-05,
      "learning_rate": 2.0310780825331056e-05,
      "loss": 0.0022,
      "step": 6084
    },
    {
      "epoch": 27.288207148888265,
      "grad_norm": 9.72808338701725e-05,
      "learning_rate": 2.024079780468563e-05,
      "loss": 0.0021,
      "step": 6085
    },
    {
      "epoch": 27.292710385589643,
      "grad_norm": 9.608121763449162e-05,
      "learning_rate": 2.0170933068415665e-05,
      "loss": 0.0022,
      "step": 6086
    },
    {
      "epoch": 27.29721362229102,
      "grad_norm": 9.708366997074336e-05,
      "learning_rate": 2.010118663374627e-05,
      "loss": 0.0022,
      "step": 6087
    },
    {
      "epoch": 27.3017168589924,
      "grad_norm": 2.9161476049921475e-05,
      "learning_rate": 2.0031558517873472e-05,
      "loss": 0.0022,
      "step": 6088
    },
    {
      "epoch": 27.30622009569378,
      "grad_norm": 0.00014200831355992705,
      "learning_rate": 1.9962048737963924e-05,
      "loss": 0.0023,
      "step": 6089
    },
    {
      "epoch": 27.31072333239516,
      "grad_norm": 0.00013676472008228302,
      "learning_rate": 1.989265731115525e-05,
      "loss": 0.0022,
      "step": 6090
    },
    {
      "epoch": 27.315226569096538,
      "grad_norm": 7.702687435084954e-05,
      "learning_rate": 1.9823384254555986e-05,
      "loss": 0.0022,
      "step": 6091
    },
    {
      "epoch": 27.319729805797916,
      "grad_norm": 9.663253877079114e-05,
      "learning_rate": 1.9754229585245198e-05,
      "loss": 0.0022,
      "step": 6092
    },
    {
      "epoch": 27.324233042499298,
      "grad_norm": 2.566803595982492e-05,
      "learning_rate": 1.968519332027302e-05,
      "loss": 0.0022,
      "step": 6093
    },
    {
      "epoch": 27.328736279200676,
      "grad_norm": 3.0538223654730245e-05,
      "learning_rate": 1.9616275476660285e-05,
      "loss": 0.0021,
      "step": 6094
    },
    {
      "epoch": 27.333239515902054,
      "grad_norm": 5.52598612557631e-05,
      "learning_rate": 1.9547476071398785e-05,
      "loss": 0.0022,
      "step": 6095
    },
    {
      "epoch": 27.337742752603432,
      "grad_norm": 6.50462752673775e-05,
      "learning_rate": 1.9478795121450732e-05,
      "loss": 0.0021,
      "step": 6096
    },
    {
      "epoch": 27.342245989304814,
      "grad_norm": 6.279617809923366e-05,
      "learning_rate": 1.9410232643749526e-05,
      "loss": 0.0022,
      "step": 6097
    },
    {
      "epoch": 27.346749226006192,
      "grad_norm": 3.417403422645293e-05,
      "learning_rate": 1.93417886551992e-05,
      "loss": 0.0021,
      "step": 6098
    },
    {
      "epoch": 27.35125246270757,
      "grad_norm": 0.00010044114605989307,
      "learning_rate": 1.9273463172674534e-05,
      "loss": 0.0022,
      "step": 6099
    },
    {
      "epoch": 27.35575569940895,
      "grad_norm": 6.129294342827052e-05,
      "learning_rate": 1.9205256213021217e-05,
      "loss": 0.0022,
      "step": 6100
    },
    {
      "epoch": 27.36025893611033,
      "grad_norm": 0.00012957528815604746,
      "learning_rate": 1.913716779305563e-05,
      "loss": 0.0022,
      "step": 6101
    },
    {
      "epoch": 27.36476217281171,
      "grad_norm": 2.7178519303561188e-05,
      "learning_rate": 1.906919792956485e-05,
      "loss": 0.0022,
      "step": 6102
    },
    {
      "epoch": 27.369265409513087,
      "grad_norm": 8.191229426302016e-05,
      "learning_rate": 1.9001346639306804e-05,
      "loss": 0.0022,
      "step": 6103
    },
    {
      "epoch": 27.373768646214465,
      "grad_norm": 6.83755351928994e-05,
      "learning_rate": 1.893361393901033e-05,
      "loss": 0.0022,
      "step": 6104
    },
    {
      "epoch": 27.378271882915847,
      "grad_norm": 0.000159542090841569,
      "learning_rate": 1.886599984537479e-05,
      "loss": 0.0023,
      "step": 6105
    },
    {
      "epoch": 27.382775119617225,
      "grad_norm": 0.00011899294622708112,
      "learning_rate": 1.879850437507047e-05,
      "loss": 0.0022,
      "step": 6106
    },
    {
      "epoch": 27.387278356318603,
      "grad_norm": 0.00027821242110803723,
      "learning_rate": 1.8731127544738213e-05,
      "loss": 0.0023,
      "step": 6107
    },
    {
      "epoch": 27.39178159301998,
      "grad_norm": 0.0005374121246859431,
      "learning_rate": 1.866386937098985e-05,
      "loss": 0.0023,
      "step": 6108
    },
    {
      "epoch": 27.396284829721363,
      "grad_norm": 2.976213363581337e-05,
      "learning_rate": 1.8596729870407835e-05,
      "loss": 0.0021,
      "step": 6109
    },
    {
      "epoch": 27.40078806642274,
      "grad_norm": 7.903872756287456e-05,
      "learning_rate": 1.8529709059545374e-05,
      "loss": 0.0022,
      "step": 6110
    },
    {
      "epoch": 27.40529130312412,
      "grad_norm": 4.291042569093406e-05,
      "learning_rate": 1.8462806954926302e-05,
      "loss": 0.0022,
      "step": 6111
    },
    {
      "epoch": 27.409794539825498,
      "grad_norm": 0.0001783430197974667,
      "learning_rate": 1.8396023573045596e-05,
      "loss": 0.0023,
      "step": 6112
    },
    {
      "epoch": 27.41429777652688,
      "grad_norm": 0.00015481743321288377,
      "learning_rate": 1.8329358930368246e-05,
      "loss": 0.0022,
      "step": 6113
    },
    {
      "epoch": 27.418801013228258,
      "grad_norm": 8.703456842340529e-05,
      "learning_rate": 1.826281304333072e-05,
      "loss": 0.0023,
      "step": 6114
    },
    {
      "epoch": 27.423304249929636,
      "grad_norm": 0.0002495198859833181,
      "learning_rate": 1.8196385928339663e-05,
      "loss": 0.0022,
      "step": 6115
    },
    {
      "epoch": 27.427807486631018,
      "grad_norm": 6.445319741033018e-05,
      "learning_rate": 1.8130077601772875e-05,
      "loss": 0.0022,
      "step": 6116
    },
    {
      "epoch": 27.432310723332396,
      "grad_norm": 7.629561878275126e-05,
      "learning_rate": 1.806388807997833e-05,
      "loss": 0.0021,
      "step": 6117
    },
    {
      "epoch": 27.436813960033774,
      "grad_norm": 6.324400601442903e-05,
      "learning_rate": 1.7997817379275305e-05,
      "loss": 0.0022,
      "step": 6118
    },
    {
      "epoch": 27.441317196735152,
      "grad_norm": 8.269147656392306e-05,
      "learning_rate": 1.7931865515953326e-05,
      "loss": 0.0021,
      "step": 6119
    },
    {
      "epoch": 27.445820433436534,
      "grad_norm": 0.0001265840546693653,
      "learning_rate": 1.7866032506272777e-05,
      "loss": 0.0022,
      "step": 6120
    },
    {
      "epoch": 27.450323670137912,
      "grad_norm": 1.9140994481858797e-05,
      "learning_rate": 1.7800318366464897e-05,
      "loss": 0.0021,
      "step": 6121
    },
    {
      "epoch": 27.45482690683929,
      "grad_norm": 5.564816819969565e-05,
      "learning_rate": 1.773472311273133e-05,
      "loss": 0.0021,
      "step": 6122
    },
    {
      "epoch": 27.45933014354067,
      "grad_norm": 6.439481512643397e-05,
      "learning_rate": 1.7669246761244762e-05,
      "loss": 0.0022,
      "step": 6123
    },
    {
      "epoch": 27.46383338024205,
      "grad_norm": 6.183620280353352e-05,
      "learning_rate": 1.7603889328147993e-05,
      "loss": 0.0022,
      "step": 6124
    },
    {
      "epoch": 27.46833661694343,
      "grad_norm": 0.0001644167787162587,
      "learning_rate": 1.753865082955519e-05,
      "loss": 0.0022,
      "step": 6125
    },
    {
      "epoch": 27.472839853644807,
      "grad_norm": 3.87999061786104e-05,
      "learning_rate": 1.747353128155077e-05,
      "loss": 0.0022,
      "step": 6126
    },
    {
      "epoch": 27.477343090346185,
      "grad_norm": 0.00010162437683902681,
      "learning_rate": 1.7408530700189886e-05,
      "loss": 0.0021,
      "step": 6127
    },
    {
      "epoch": 27.481846327047567,
      "grad_norm": 7.594207272632048e-05,
      "learning_rate": 1.7343649101498327e-05,
      "loss": 0.0022,
      "step": 6128
    },
    {
      "epoch": 27.486349563748945,
      "grad_norm": 7.301296864170581e-05,
      "learning_rate": 1.7278886501472802e-05,
      "loss": 0.0023,
      "step": 6129
    },
    {
      "epoch": 27.490852800450323,
      "grad_norm": 9.854840754996985e-05,
      "learning_rate": 1.721424291608037e-05,
      "loss": 0.0022,
      "step": 6130
    },
    {
      "epoch": 27.4953560371517,
      "grad_norm": 6.456948176492006e-05,
      "learning_rate": 1.7149718361258893e-05,
      "loss": 0.0022,
      "step": 6131
    },
    {
      "epoch": 27.499859273853083,
      "grad_norm": 2.517325629014522e-05,
      "learning_rate": 1.708531285291681e-05,
      "loss": 0.0021,
      "step": 6132
    },
    {
      "epoch": 27.50436251055446,
      "grad_norm": 6.572291749762371e-05,
      "learning_rate": 1.7021026406933425e-05,
      "loss": 0.0022,
      "step": 6133
    },
    {
      "epoch": 27.50886574725584,
      "grad_norm": 9.01759703992866e-05,
      "learning_rate": 1.695685903915839e-05,
      "loss": 0.0021,
      "step": 6134
    },
    {
      "epoch": 27.513368983957218,
      "grad_norm": 8.701511251274496e-05,
      "learning_rate": 1.6892810765412215e-05,
      "loss": 0.0021,
      "step": 6135
    },
    {
      "epoch": 27.5178722206586,
      "grad_norm": 2.1841906345798634e-05,
      "learning_rate": 1.6828881601485823e-05,
      "loss": 0.0021,
      "step": 6136
    },
    {
      "epoch": 27.522375457359978,
      "grad_norm": 5.9365796914789826e-05,
      "learning_rate": 1.676507156314111e-05,
      "loss": 0.0023,
      "step": 6137
    },
    {
      "epoch": 27.526878694061356,
      "grad_norm": 0.00018502042803447694,
      "learning_rate": 1.6701380666110322e-05,
      "loss": 0.0022,
      "step": 6138
    },
    {
      "epoch": 27.531381930762734,
      "grad_norm": 7.678502151975408e-05,
      "learning_rate": 1.6637808926096287e-05,
      "loss": 0.0023,
      "step": 6139
    },
    {
      "epoch": 27.535885167464116,
      "grad_norm": 9.986469376599416e-05,
      "learning_rate": 1.6574356358772858e-05,
      "loss": 0.0022,
      "step": 6140
    },
    {
      "epoch": 27.540388404165494,
      "grad_norm": 7.952177111292258e-05,
      "learning_rate": 1.651102297978402e-05,
      "loss": 0.0022,
      "step": 6141
    },
    {
      "epoch": 27.544891640866872,
      "grad_norm": 6.35868200333789e-05,
      "learning_rate": 1.644780880474467e-05,
      "loss": 0.0022,
      "step": 6142
    },
    {
      "epoch": 27.549394877568254,
      "grad_norm": 2.200223934778478e-05,
      "learning_rate": 1.6384713849240117e-05,
      "loss": 0.0023,
      "step": 6143
    },
    {
      "epoch": 27.553898114269632,
      "grad_norm": 0.00010202600242337212,
      "learning_rate": 1.632173812882659e-05,
      "loss": 0.0024,
      "step": 6144
    },
    {
      "epoch": 27.55840135097101,
      "grad_norm": 0.00022486549278255552,
      "learning_rate": 1.6258881659030555e-05,
      "loss": 0.0022,
      "step": 6145
    },
    {
      "epoch": 27.56290458767239,
      "grad_norm": 0.00010030001431005076,
      "learning_rate": 1.6196144455349282e-05,
      "loss": 0.0022,
      "step": 6146
    },
    {
      "epoch": 27.56740782437377,
      "grad_norm": 2.6202302251476794e-05,
      "learning_rate": 1.6133526533250563e-05,
      "loss": 0.0022,
      "step": 6147
    },
    {
      "epoch": 27.57191106107515,
      "grad_norm": 9.618284821044654e-05,
      "learning_rate": 1.607102790817294e-05,
      "loss": 0.0022,
      "step": 6148
    },
    {
      "epoch": 27.576414297776527,
      "grad_norm": 7.532128074672073e-05,
      "learning_rate": 1.6008648595525256e-05,
      "loss": 0.0022,
      "step": 6149
    },
    {
      "epoch": 27.580917534477905,
      "grad_norm": 2.2657990484731272e-05,
      "learning_rate": 1.59463886106872e-05,
      "loss": 0.0023,
      "step": 6150
    },
    {
      "epoch": 27.585420771179287,
      "grad_norm": 0.0001622348208911717,
      "learning_rate": 1.5884247969008946e-05,
      "loss": 0.0022,
      "step": 6151
    },
    {
      "epoch": 27.589924007880665,
      "grad_norm": 0.00011660678137559444,
      "learning_rate": 1.582222668581118e-05,
      "loss": 0.0022,
      "step": 6152
    },
    {
      "epoch": 27.594427244582043,
      "grad_norm": 7.834095595171675e-05,
      "learning_rate": 1.576032477638517e-05,
      "loss": 0.0022,
      "step": 6153
    },
    {
      "epoch": 27.59893048128342,
      "grad_norm": 0.0001125103808590211,
      "learning_rate": 1.569854225599293e-05,
      "loss": 0.0022,
      "step": 6154
    },
    {
      "epoch": 27.603433717984803,
      "grad_norm": 9.55482610152103e-05,
      "learning_rate": 1.5636879139866832e-05,
      "loss": 0.0021,
      "step": 6155
    },
    {
      "epoch": 27.60793695468618,
      "grad_norm": 2.275278529850766e-05,
      "learning_rate": 1.557533544320988e-05,
      "loss": 0.0022,
      "step": 6156
    },
    {
      "epoch": 27.61244019138756,
      "grad_norm": 0.00010996772471116856,
      "learning_rate": 1.5513911181195663e-05,
      "loss": 0.0022,
      "step": 6157
    },
    {
      "epoch": 27.616943428088938,
      "grad_norm": 3.62163336831145e-05,
      "learning_rate": 1.5452606368968282e-05,
      "loss": 0.0022,
      "step": 6158
    },
    {
      "epoch": 27.62144666479032,
      "grad_norm": 3.113343336735852e-05,
      "learning_rate": 1.5391421021642428e-05,
      "loss": 0.0022,
      "step": 6159
    },
    {
      "epoch": 27.625949901491698,
      "grad_norm": 5.395669722929597e-05,
      "learning_rate": 1.5330355154303255e-05,
      "loss": 0.0021,
      "step": 6160
    },
    {
      "epoch": 27.630453138193076,
      "grad_norm": 5.231645627645776e-05,
      "learning_rate": 1.526940878200661e-05,
      "loss": 0.0022,
      "step": 6161
    },
    {
      "epoch": 27.634956374894454,
      "grad_norm": 5.089386104373261e-05,
      "learning_rate": 1.5208581919778752e-05,
      "loss": 0.0021,
      "step": 6162
    },
    {
      "epoch": 27.639459611595836,
      "grad_norm": 5.584322570939548e-05,
      "learning_rate": 1.5147874582616517e-05,
      "loss": 0.0022,
      "step": 6163
    },
    {
      "epoch": 27.643962848297214,
      "grad_norm": 2.4896902687032707e-05,
      "learning_rate": 1.5087286785487153e-05,
      "loss": 0.0022,
      "step": 6164
    },
    {
      "epoch": 27.648466084998592,
      "grad_norm": 7.241057028295472e-05,
      "learning_rate": 1.5026818543328824e-05,
      "loss": 0.0022,
      "step": 6165
    },
    {
      "epoch": 27.65296932169997,
      "grad_norm": 7.386039214907214e-05,
      "learning_rate": 1.4966469871049604e-05,
      "loss": 0.0021,
      "step": 6166
    },
    {
      "epoch": 27.657472558401352,
      "grad_norm": 3.23675230902154e-05,
      "learning_rate": 1.4906240783528701e-05,
      "loss": 0.0023,
      "step": 6167
    },
    {
      "epoch": 27.66197579510273,
      "grad_norm": 0.00014149225899018347,
      "learning_rate": 1.484613129561535e-05,
      "loss": 0.0022,
      "step": 6168
    },
    {
      "epoch": 27.66647903180411,
      "grad_norm": 7.705988537054509e-05,
      "learning_rate": 1.4786141422129751e-05,
      "loss": 0.0023,
      "step": 6169
    },
    {
      "epoch": 27.670982268505487,
      "grad_norm": 0.00020316039444878697,
      "learning_rate": 1.4726271177862127e-05,
      "loss": 0.0022,
      "step": 6170
    },
    {
      "epoch": 27.67548550520687,
      "grad_norm": 0.00010737034608609974,
      "learning_rate": 1.4666520577573617e-05,
      "loss": 0.0022,
      "step": 6171
    },
    {
      "epoch": 27.679988741908247,
      "grad_norm": 3.10250798065681e-05,
      "learning_rate": 1.4606889635995712e-05,
      "loss": 0.0022,
      "step": 6172
    },
    {
      "epoch": 27.684491978609625,
      "grad_norm": 7.534206815762445e-05,
      "learning_rate": 1.4547378367830267e-05,
      "loss": 0.0021,
      "step": 6173
    },
    {
      "epoch": 27.688995215311003,
      "grad_norm": 6.588820542674512e-05,
      "learning_rate": 1.4487986787749763e-05,
      "loss": 0.0022,
      "step": 6174
    },
    {
      "epoch": 27.693498452012385,
      "grad_norm": 0.00011137311958009377,
      "learning_rate": 1.4428714910397267e-05,
      "loss": 0.0022,
      "step": 6175
    },
    {
      "epoch": 27.698001688713763,
      "grad_norm": 0.0001742923050187528,
      "learning_rate": 1.43695627503862e-05,
      "loss": 0.0021,
      "step": 6176
    },
    {
      "epoch": 27.70250492541514,
      "grad_norm": 6.542559276567772e-05,
      "learning_rate": 1.4310530322300453e-05,
      "loss": 0.0023,
      "step": 6177
    },
    {
      "epoch": 27.707008162116523,
      "grad_norm": 0.0001653684739721939,
      "learning_rate": 1.4251617640694436e-05,
      "loss": 0.0022,
      "step": 6178
    },
    {
      "epoch": 27.7115113988179,
      "grad_norm": 0.0002064670843537897,
      "learning_rate": 1.419282472009309e-05,
      "loss": 0.0022,
      "step": 6179
    },
    {
      "epoch": 27.71601463551928,
      "grad_norm": 0.00027347958530299366,
      "learning_rate": 1.413415157499176e-05,
      "loss": 0.0023,
      "step": 6180
    },
    {
      "epoch": 27.720517872220658,
      "grad_norm": 5.683993731508963e-05,
      "learning_rate": 1.4075598219856211e-05,
      "loss": 0.0022,
      "step": 6181
    },
    {
      "epoch": 27.72502110892204,
      "grad_norm": 2.0282428522477858e-05,
      "learning_rate": 1.4017164669122894e-05,
      "loss": 0.0023,
      "step": 6182
    },
    {
      "epoch": 27.729524345623418,
      "grad_norm": 0.00022254706709645689,
      "learning_rate": 1.3958850937198454e-05,
      "loss": 0.0022,
      "step": 6183
    },
    {
      "epoch": 27.734027582324796,
      "grad_norm": 9.916513226926327e-05,
      "learning_rate": 1.3900657038460107e-05,
      "loss": 0.0022,
      "step": 6184
    },
    {
      "epoch": 27.738530819026174,
      "grad_norm": 0.00010112386371474713,
      "learning_rate": 1.3842582987255492e-05,
      "loss": 0.0022,
      "step": 6185
    },
    {
      "epoch": 27.743034055727556,
      "grad_norm": 7.250716589624062e-05,
      "learning_rate": 1.3784628797902932e-05,
      "loss": 0.0021,
      "step": 6186
    },
    {
      "epoch": 27.747537292428934,
      "grad_norm": 2.1550087694777176e-05,
      "learning_rate": 1.3726794484690718e-05,
      "loss": 0.0022,
      "step": 6187
    },
    {
      "epoch": 27.752040529130312,
      "grad_norm": 3.059667142224498e-05,
      "learning_rate": 1.3669080061878115e-05,
      "loss": 0.0022,
      "step": 6188
    },
    {
      "epoch": 27.75654376583169,
      "grad_norm": 6.728776497766376e-05,
      "learning_rate": 1.3611485543694458e-05,
      "loss": 0.0022,
      "step": 6189
    },
    {
      "epoch": 27.761047002533072,
      "grad_norm": 9.480039443587884e-05,
      "learning_rate": 1.3554010944339723e-05,
      "loss": 0.0021,
      "step": 6190
    },
    {
      "epoch": 27.76555023923445,
      "grad_norm": 2.9388607799774036e-05,
      "learning_rate": 1.3496656277984076e-05,
      "loss": 0.0022,
      "step": 6191
    },
    {
      "epoch": 27.77005347593583,
      "grad_norm": 0.00021196831949055195,
      "learning_rate": 1.3439421558768483e-05,
      "loss": 0.0022,
      "step": 6192
    },
    {
      "epoch": 27.774556712637207,
      "grad_norm": 9.801379928831011e-05,
      "learning_rate": 1.3382306800804044e-05,
      "loss": 0.0022,
      "step": 6193
    },
    {
      "epoch": 27.77905994933859,
      "grad_norm": 2.6577441531117074e-05,
      "learning_rate": 1.3325312018172276e-05,
      "loss": 0.0022,
      "step": 6194
    },
    {
      "epoch": 27.783563186039967,
      "grad_norm": 6.895768456161022e-05,
      "learning_rate": 1.3268437224925433e-05,
      "loss": 0.0022,
      "step": 6195
    },
    {
      "epoch": 27.788066422741345,
      "grad_norm": 5.7786612160271034e-05,
      "learning_rate": 1.3211682435085804e-05,
      "loss": 0.0022,
      "step": 6196
    },
    {
      "epoch": 27.792569659442723,
      "grad_norm": 2.9705030101467855e-05,
      "learning_rate": 1.3155047662646247e-05,
      "loss": 0.0021,
      "step": 6197
    },
    {
      "epoch": 27.797072896144105,
      "grad_norm": 2.536729516577907e-05,
      "learning_rate": 1.3098532921570094e-05,
      "loss": 0.0022,
      "step": 6198
    },
    {
      "epoch": 27.801576132845483,
      "grad_norm": 8.901132241589949e-05,
      "learning_rate": 1.3042138225791034e-05,
      "loss": 0.0022,
      "step": 6199
    },
    {
      "epoch": 27.80607936954686,
      "grad_norm": 9.080651216208935e-05,
      "learning_rate": 1.2985863589213055e-05,
      "loss": 0.0022,
      "step": 6200
    },
    {
      "epoch": 27.81058260624824,
      "grad_norm": 0.00016865921497810632,
      "learning_rate": 1.292970902571078e-05,
      "loss": 0.0023,
      "step": 6201
    },
    {
      "epoch": 27.81508584294962,
      "grad_norm": 0.00011631660163402557,
      "learning_rate": 1.2873674549128967e-05,
      "loss": 0.0023,
      "step": 6202
    },
    {
      "epoch": 27.819589079651,
      "grad_norm": 0.00011394167086109519,
      "learning_rate": 1.2817760173282954e-05,
      "loss": 0.0022,
      "step": 6203
    },
    {
      "epoch": 27.824092316352377,
      "grad_norm": 7.488311530323699e-05,
      "learning_rate": 1.2761965911958384e-05,
      "loss": 0.0021,
      "step": 6204
    },
    {
      "epoch": 27.82859555305376,
      "grad_norm": 3.107744123553857e-05,
      "learning_rate": 1.2706291778911306e-05,
      "loss": 0.0022,
      "step": 6205
    },
    {
      "epoch": 27.833098789755137,
      "grad_norm": 0.00014159292913973331,
      "learning_rate": 1.2650737787868128e-05,
      "loss": 0.0022,
      "step": 6206
    },
    {
      "epoch": 27.837602026456516,
      "grad_norm": 2.7006224627257325e-05,
      "learning_rate": 1.2595303952525672e-05,
      "loss": 0.0022,
      "step": 6207
    },
    {
      "epoch": 27.842105263157894,
      "grad_norm": 1.9186305507901125e-05,
      "learning_rate": 1.2539990286551117e-05,
      "loss": 0.0021,
      "step": 6208
    },
    {
      "epoch": 27.846608499859276,
      "grad_norm": 4.6365148591576144e-05,
      "learning_rate": 1.2484796803581999e-05,
      "loss": 0.0022,
      "step": 6209
    },
    {
      "epoch": 27.851111736560654,
      "grad_norm": 0.0001235806557815522,
      "learning_rate": 1.242972351722621e-05,
      "loss": 0.0023,
      "step": 6210
    },
    {
      "epoch": 27.855614973262032,
      "grad_norm": 0.0001548992731841281,
      "learning_rate": 1.2374770441062167e-05,
      "loss": 0.0023,
      "step": 6211
    },
    {
      "epoch": 27.86011820996341,
      "grad_norm": 0.00011781564535340294,
      "learning_rate": 1.2319937588638474e-05,
      "loss": 0.0022,
      "step": 6212
    },
    {
      "epoch": 27.864621446664792,
      "grad_norm": 3.826384272542782e-05,
      "learning_rate": 1.2265224973474043e-05,
      "loss": 0.0022,
      "step": 6213
    },
    {
      "epoch": 27.86912468336617,
      "grad_norm": 0.00014478068624157459,
      "learning_rate": 1.2210632609058303e-05,
      "loss": 0.0022,
      "step": 6214
    },
    {
      "epoch": 27.87362792006755,
      "grad_norm": 9.147592936642468e-05,
      "learning_rate": 1.2156160508850989e-05,
      "loss": 0.0022,
      "step": 6215
    },
    {
      "epoch": 27.878131156768927,
      "grad_norm": 3.30026050505694e-05,
      "learning_rate": 1.210180868628219e-05,
      "loss": 0.0022,
      "step": 6216
    },
    {
      "epoch": 27.88263439347031,
      "grad_norm": 0.00010474977898411453,
      "learning_rate": 1.2047577154752244e-05,
      "loss": 0.0023,
      "step": 6217
    },
    {
      "epoch": 27.887137630171686,
      "grad_norm": 7.898894546087831e-05,
      "learning_rate": 1.1993465927632009e-05,
      "loss": 0.0024,
      "step": 6218
    },
    {
      "epoch": 27.891640866873065,
      "grad_norm": 0.0002757634501904249,
      "learning_rate": 1.193947501826248e-05,
      "loss": 0.0022,
      "step": 6219
    },
    {
      "epoch": 27.896144103574443,
      "grad_norm": 5.126517862663604e-05,
      "learning_rate": 1.1885604439955123e-05,
      "loss": 0.0022,
      "step": 6220
    },
    {
      "epoch": 27.900647340275825,
      "grad_norm": 0.00017285029753111303,
      "learning_rate": 1.1831854205991643e-05,
      "loss": 0.0022,
      "step": 6221
    },
    {
      "epoch": 27.905150576977203,
      "grad_norm": 6.398763798642904e-05,
      "learning_rate": 1.1778224329624333e-05,
      "loss": 0.0022,
      "step": 6222
    },
    {
      "epoch": 27.90965381367858,
      "grad_norm": 0.00013543033855967224,
      "learning_rate": 1.1724714824075334e-05,
      "loss": 0.0022,
      "step": 6223
    },
    {
      "epoch": 27.91415705037996,
      "grad_norm": 5.342650183592923e-05,
      "learning_rate": 1.1671325702537595e-05,
      "loss": 0.0022,
      "step": 6224
    },
    {
      "epoch": 27.91866028708134,
      "grad_norm": 0.00011380384239600971,
      "learning_rate": 1.1618056978174086e-05,
      "loss": 0.0022,
      "step": 6225
    },
    {
      "epoch": 27.92316352378272,
      "grad_norm": 7.581462705275044e-05,
      "learning_rate": 1.156490866411819e-05,
      "loss": 0.0022,
      "step": 6226
    },
    {
      "epoch": 27.927666760484097,
      "grad_norm": 5.603559475275688e-05,
      "learning_rate": 1.1511880773473593e-05,
      "loss": 0.0023,
      "step": 6227
    },
    {
      "epoch": 27.932169997185476,
      "grad_norm": 0.00030902103753760457,
      "learning_rate": 1.1458973319314336e-05,
      "loss": 0.0022,
      "step": 6228
    },
    {
      "epoch": 27.936673233886857,
      "grad_norm": 6.10535207670182e-05,
      "learning_rate": 1.1406186314684652e-05,
      "loss": 0.0022,
      "step": 6229
    },
    {
      "epoch": 27.941176470588236,
      "grad_norm": 2.0916651919833384e-05,
      "learning_rate": 1.1353519772599242e-05,
      "loss": 0.0022,
      "step": 6230
    },
    {
      "epoch": 27.945679707289614,
      "grad_norm": 2.5849907615338452e-05,
      "learning_rate": 1.1300973706042884e-05,
      "loss": 0.0022,
      "step": 6231
    },
    {
      "epoch": 27.950182943990992,
      "grad_norm": 8.701586921233684e-05,
      "learning_rate": 1.1248548127970882e-05,
      "loss": 0.0022,
      "step": 6232
    },
    {
      "epoch": 27.954686180692374,
      "grad_norm": 0.0001245396997546777,
      "learning_rate": 1.1196243051308786e-05,
      "loss": 0.0022,
      "step": 6233
    },
    {
      "epoch": 27.959189417393752,
      "grad_norm": 9.304239938501269e-05,
      "learning_rate": 1.1144058488952168e-05,
      "loss": 0.0022,
      "step": 6234
    },
    {
      "epoch": 27.96369265409513,
      "grad_norm": 2.2413489205064252e-05,
      "learning_rate": 1.109199445376735e-05,
      "loss": 0.0022,
      "step": 6235
    },
    {
      "epoch": 27.96819589079651,
      "grad_norm": 7.833381823729724e-05,
      "learning_rate": 1.1040050958590564e-05,
      "loss": 0.0022,
      "step": 6236
    },
    {
      "epoch": 27.97269912749789,
      "grad_norm": 0.00010116645717062056,
      "learning_rate": 1.0988228016228507e-05,
      "loss": 0.0022,
      "step": 6237
    },
    {
      "epoch": 27.977202364199268,
      "grad_norm": 3.108902456006035e-05,
      "learning_rate": 1.0936525639458018e-05,
      "loss": 0.0022,
      "step": 6238
    },
    {
      "epoch": 27.981705600900646,
      "grad_norm": 0.00019060428894590586,
      "learning_rate": 1.0884943841026395e-05,
      "loss": 0.0023,
      "step": 6239
    },
    {
      "epoch": 27.986208837602028,
      "grad_norm": 0.00018586177611723542,
      "learning_rate": 1.083348263365097e-05,
      "loss": 0.0022,
      "step": 6240
    },
    {
      "epoch": 27.990712074303406,
      "grad_norm": 0.00010933879821095616,
      "learning_rate": 1.0782142030019593e-05,
      "loss": 0.0022,
      "step": 6241
    },
    {
      "epoch": 27.995215311004785,
      "grad_norm": 3.21619663736783e-05,
      "learning_rate": 1.0730922042790193e-05,
      "loss": 0.0022,
      "step": 6242
    },
    {
      "epoch": 27.999718547706163,
      "grad_norm": 0.00010848255624296144,
      "learning_rate": 1.0679822684591112e-05,
      "loss": 0.0022,
      "step": 6243
    },
    {
      "epoch": 28.0,
      "grad_norm": 0.00010848255624296144,
      "learning_rate": 1.0628843968020718e-05,
      "loss": 0.0002,
      "step": 6244
    },
    {
      "epoch": 28.0,
      "eval_f1": 0.9866933466733366,
      "eval_loss": 0.04114983230829239,
      "eval_runtime": 26.7134,
      "eval_samples_per_second": 187.097,
      "eval_steps_per_second": 5.877,
      "step": 6244
    },
    {
      "epoch": 28.004503236701378,
      "grad_norm": 7.08859515725635e-05,
      "learning_rate": 1.0577985905648013e-05,
      "loss": 0.0022,
      "step": 6245
    },
    {
      "epoch": 28.00900647340276,
      "grad_norm": 0.000199134461581707,
      "learning_rate": 1.05272485100118e-05,
      "loss": 0.0022,
      "step": 6246
    },
    {
      "epoch": 28.013509710104138,
      "grad_norm": 8.457298099528998e-05,
      "learning_rate": 1.0476631793621517e-05,
      "loss": 0.0021,
      "step": 6247
    },
    {
      "epoch": 28.018012946805516,
      "grad_norm": 3.76444986613933e-05,
      "learning_rate": 1.0426135768956568e-05,
      "loss": 0.0022,
      "step": 6248
    },
    {
      "epoch": 28.022516183506895,
      "grad_norm": 0.0001024575176415965,
      "learning_rate": 1.037576044846683e-05,
      "loss": 0.0021,
      "step": 6249
    },
    {
      "epoch": 28.027019420208276,
      "grad_norm": 2.386032065260224e-05,
      "learning_rate": 1.0325505844572203e-05,
      "loss": 0.0022,
      "step": 6250
    },
    {
      "epoch": 28.031522656909655,
      "grad_norm": 0.00010012040729634464,
      "learning_rate": 1.0275371969662995e-05,
      "loss": 0.0023,
      "step": 6251
    },
    {
      "epoch": 28.036025893611033,
      "grad_norm": 0.0001239377015735954,
      "learning_rate": 1.0225358836099707e-05,
      "loss": 0.0022,
      "step": 6252
    },
    {
      "epoch": 28.04052913031241,
      "grad_norm": 5.981590220471844e-05,
      "learning_rate": 1.0175466456213034e-05,
      "loss": 0.0022,
      "step": 6253
    },
    {
      "epoch": 28.045032367013793,
      "grad_norm": 7.091141742421314e-05,
      "learning_rate": 1.0125694842303912e-05,
      "loss": 0.0022,
      "step": 6254
    },
    {
      "epoch": 28.04953560371517,
      "grad_norm": 2.8956488677067682e-05,
      "learning_rate": 1.007604400664347e-05,
      "loss": 0.0021,
      "step": 6255
    },
    {
      "epoch": 28.05403884041655,
      "grad_norm": 1.8242157239001244e-05,
      "learning_rate": 1.0026513961473138e-05,
      "loss": 0.0022,
      "step": 6256
    },
    {
      "epoch": 28.058542077117927,
      "grad_norm": 9.951722313417122e-05,
      "learning_rate": 9.977104719004538e-06,
      "loss": 0.0022,
      "step": 6257
    },
    {
      "epoch": 28.06304531381931,
      "grad_norm": 0.00010831980762304738,
      "learning_rate": 9.927816291419423e-06,
      "loss": 0.0022,
      "step": 6258
    },
    {
      "epoch": 28.067548550520687,
      "grad_norm": 0.00010977416968671605,
      "learning_rate": 9.878648690869852e-06,
      "loss": 0.0022,
      "step": 6259
    },
    {
      "epoch": 28.072051787222065,
      "grad_norm": 0.000124016180052422,
      "learning_rate": 9.829601929478182e-06,
      "loss": 0.0021,
      "step": 6260
    },
    {
      "epoch": 28.076555023923444,
      "grad_norm": 1.730359872453846e-05,
      "learning_rate": 9.780676019336631e-06,
      "loss": 0.0022,
      "step": 6261
    },
    {
      "epoch": 28.081058260624825,
      "grad_norm": 3.123815622529946e-05,
      "learning_rate": 9.731870972508106e-06,
      "loss": 0.0022,
      "step": 6262
    },
    {
      "epoch": 28.085561497326204,
      "grad_norm": 0.00016228086315095425,
      "learning_rate": 9.683186801025257e-06,
      "loss": 0.0021,
      "step": 6263
    },
    {
      "epoch": 28.09006473402758,
      "grad_norm": 2.103435508615803e-05,
      "learning_rate": 9.634623516891372e-06,
      "loss": 0.0022,
      "step": 6264
    },
    {
      "epoch": 28.09456797072896,
      "grad_norm": 0.00013658033276442438,
      "learning_rate": 9.586181132079485e-06,
      "loss": 0.0022,
      "step": 6265
    },
    {
      "epoch": 28.09907120743034,
      "grad_norm": 7.32538101146929e-05,
      "learning_rate": 9.537859658533154e-06,
      "loss": 0.0022,
      "step": 6266
    },
    {
      "epoch": 28.10357444413172,
      "grad_norm": 0.00011663958866847679,
      "learning_rate": 9.48965910816596e-06,
      "loss": 0.0022,
      "step": 6267
    },
    {
      "epoch": 28.108077680833098,
      "grad_norm": 8.714962314115837e-05,
      "learning_rate": 9.44157949286173e-06,
      "loss": 0.0022,
      "step": 6268
    },
    {
      "epoch": 28.112580917534476,
      "grad_norm": 7.976459164638072e-05,
      "learning_rate": 9.39362082447448e-06,
      "loss": 0.0021,
      "step": 6269
    },
    {
      "epoch": 28.117084154235858,
      "grad_norm": 5.934882574365474e-05,
      "learning_rate": 9.345783114828477e-06,
      "loss": 0.0022,
      "step": 6270
    },
    {
      "epoch": 28.121587390937236,
      "grad_norm": 8.758320473134518e-05,
      "learning_rate": 9.29806637571795e-06,
      "loss": 0.0023,
      "step": 6271
    },
    {
      "epoch": 28.126090627638614,
      "grad_norm": 0.00024276043404825032,
      "learning_rate": 9.250470618907435e-06,
      "loss": 0.0022,
      "step": 6272
    },
    {
      "epoch": 28.130593864339993,
      "grad_norm": 6.591939018107951e-05,
      "learning_rate": 9.202995856131768e-06,
      "loss": 0.0022,
      "step": 6273
    },
    {
      "epoch": 28.135097101041374,
      "grad_norm": 6.592569116037339e-05,
      "learning_rate": 9.155642099095697e-06,
      "loss": 0.0021,
      "step": 6274
    },
    {
      "epoch": 28.139600337742753,
      "grad_norm": 1.5483085007872432e-05,
      "learning_rate": 9.108409359474434e-06,
      "loss": 0.0022,
      "step": 6275
    },
    {
      "epoch": 28.14410357444413,
      "grad_norm": 7.720283610979095e-05,
      "learning_rate": 9.061297648912948e-06,
      "loss": 0.0021,
      "step": 6276
    },
    {
      "epoch": 28.148606811145513,
      "grad_norm": 7.182639819802716e-05,
      "learning_rate": 9.014306979026833e-06,
      "loss": 0.0022,
      "step": 6277
    },
    {
      "epoch": 28.15311004784689,
      "grad_norm": 7.459737389581278e-05,
      "learning_rate": 8.967437361401431e-06,
      "loss": 0.0022,
      "step": 6278
    },
    {
      "epoch": 28.15761328454827,
      "grad_norm": 3.776254743570462e-05,
      "learning_rate": 8.920688807592559e-06,
      "loss": 0.0021,
      "step": 6279
    },
    {
      "epoch": 28.162116521249647,
      "grad_norm": 7.59768663556315e-05,
      "learning_rate": 8.874061329125938e-06,
      "loss": 0.0022,
      "step": 6280
    },
    {
      "epoch": 28.16661975795103,
      "grad_norm": 0.00010191930778091773,
      "learning_rate": 8.82755493749765e-06,
      "loss": 0.0022,
      "step": 6281
    },
    {
      "epoch": 28.171122994652407,
      "grad_norm": 2.7019275876227766e-05,
      "learning_rate": 8.781169644173747e-06,
      "loss": 0.0022,
      "step": 6282
    },
    {
      "epoch": 28.175626231353785,
      "grad_norm": 0.0001501695514889434,
      "learning_rate": 8.734905460590581e-06,
      "loss": 0.0022,
      "step": 6283
    },
    {
      "epoch": 28.180129468055163,
      "grad_norm": 9.807656897464767e-05,
      "learning_rate": 8.688762398154415e-06,
      "loss": 0.0022,
      "step": 6284
    },
    {
      "epoch": 28.184632704756545,
      "grad_norm": 7.44421049603261e-05,
      "learning_rate": 8.642740468241928e-06,
      "loss": 0.0022,
      "step": 6285
    },
    {
      "epoch": 28.189135941457923,
      "grad_norm": 2.933428913820535e-05,
      "learning_rate": 8.596839682199764e-06,
      "loss": 0.0021,
      "step": 6286
    },
    {
      "epoch": 28.1936391781593,
      "grad_norm": 3.258362630731426e-05,
      "learning_rate": 8.551060051344761e-06,
      "loss": 0.0022,
      "step": 6287
    },
    {
      "epoch": 28.19814241486068,
      "grad_norm": 7.612894842168316e-05,
      "learning_rate": 8.505401586963723e-06,
      "loss": 0.0023,
      "step": 6288
    },
    {
      "epoch": 28.20264565156206,
      "grad_norm": 8.100039121927693e-05,
      "learning_rate": 8.459864300313924e-06,
      "loss": 0.0024,
      "step": 6289
    },
    {
      "epoch": 28.20714888826344,
      "grad_norm": 0.000178061643964611,
      "learning_rate": 8.414448202622493e-06,
      "loss": 0.0022,
      "step": 6290
    },
    {
      "epoch": 28.211652124964818,
      "grad_norm": 8.387665002373978e-05,
      "learning_rate": 8.36915330508664e-06,
      "loss": 0.0023,
      "step": 6291
    },
    {
      "epoch": 28.216155361666196,
      "grad_norm": 0.0001890520507004112,
      "learning_rate": 8.323979618873989e-06,
      "loss": 0.0022,
      "step": 6292
    },
    {
      "epoch": 28.220658598367578,
      "grad_norm": 3.9277481846511364e-05,
      "learning_rate": 8.278927155121852e-06,
      "loss": 0.0022,
      "step": 6293
    },
    {
      "epoch": 28.225161835068956,
      "grad_norm": 6.461667362600565e-05,
      "learning_rate": 8.233995924938065e-06,
      "loss": 0.0022,
      "step": 6294
    },
    {
      "epoch": 28.229665071770334,
      "grad_norm": 0.00012196900206618011,
      "learning_rate": 8.189185939400323e-06,
      "loss": 0.0022,
      "step": 6295
    },
    {
      "epoch": 28.234168308471713,
      "grad_norm": 0.00011272064875811338,
      "learning_rate": 8.144497209556624e-06,
      "loss": 0.0022,
      "step": 6296
    },
    {
      "epoch": 28.238671545173094,
      "grad_norm": 8.179299038602039e-05,
      "learning_rate": 8.099929746424706e-06,
      "loss": 0.0023,
      "step": 6297
    },
    {
      "epoch": 28.243174781874473,
      "grad_norm": 0.0001368395605823025,
      "learning_rate": 8.055483560992894e-06,
      "loss": 0.0022,
      "step": 6298
    },
    {
      "epoch": 28.24767801857585,
      "grad_norm": 0.00020082377886865288,
      "learning_rate": 8.011158664219253e-06,
      "loss": 0.0023,
      "step": 6299
    },
    {
      "epoch": 28.25218125527723,
      "grad_norm": 7.168071169871837e-05,
      "learning_rate": 7.9669550670321e-06,
      "loss": 0.0022,
      "step": 6300
    },
    {
      "epoch": 28.25668449197861,
      "grad_norm": 2.4039321942836978e-05,
      "learning_rate": 7.92287278032977e-06,
      "loss": 0.0022,
      "step": 6301
    },
    {
      "epoch": 28.26118772867999,
      "grad_norm": 0.00010766104969661683,
      "learning_rate": 7.878911814980794e-06,
      "loss": 0.0021,
      "step": 6302
    },
    {
      "epoch": 28.265690965381367,
      "grad_norm": 7.175706559792161e-05,
      "learning_rate": 7.835072181823666e-06,
      "loss": 0.0022,
      "step": 6303
    },
    {
      "epoch": 28.270194202082745,
      "grad_norm": 0.0003106777148786932,
      "learning_rate": 7.791353891667075e-06,
      "loss": 0.0023,
      "step": 6304
    },
    {
      "epoch": 28.274697438784127,
      "grad_norm": 2.90446805593092e-05,
      "learning_rate": 7.74775695528962e-06,
      "loss": 0.0024,
      "step": 6305
    },
    {
      "epoch": 28.279200675485505,
      "grad_norm": 0.0005494746728800237,
      "learning_rate": 7.70428138344026e-06,
      "loss": 0.0022,
      "step": 6306
    },
    {
      "epoch": 28.283703912186883,
      "grad_norm": 0.00013396555732470006,
      "learning_rate": 7.660927186837808e-06,
      "loss": 0.0022,
      "step": 6307
    },
    {
      "epoch": 28.288207148888265,
      "grad_norm": 7.006429950706661e-05,
      "learning_rate": 7.617694376171214e-06,
      "loss": 0.0022,
      "step": 6308
    },
    {
      "epoch": 28.292710385589643,
      "grad_norm": 2.0107019736315124e-05,
      "learning_rate": 7.574582962099508e-06,
      "loss": 0.0022,
      "step": 6309
    },
    {
      "epoch": 28.29721362229102,
      "grad_norm": 2.631751158332918e-05,
      "learning_rate": 7.531592955251742e-06,
      "loss": 0.0023,
      "step": 6310
    },
    {
      "epoch": 28.3017168589924,
      "grad_norm": 0.00011634461407084018,
      "learning_rate": 7.488724366227218e-06,
      "loss": 0.0022,
      "step": 6311
    },
    {
      "epoch": 28.30622009569378,
      "grad_norm": 2.341459367016796e-05,
      "learning_rate": 7.445977205594923e-06,
      "loss": 0.0022,
      "step": 6312
    },
    {
      "epoch": 28.31072333239516,
      "grad_norm": 0.00017314353317487985,
      "learning_rate": 7.403351483894427e-06,
      "loss": 0.0023,
      "step": 6313
    },
    {
      "epoch": 28.315226569096538,
      "grad_norm": 2.8047565137967467e-05,
      "learning_rate": 7.36084721163488e-06,
      "loss": 0.0022,
      "step": 6314
    },
    {
      "epoch": 28.319729805797916,
      "grad_norm": 0.00014196911070030183,
      "learning_rate": 7.318464399295788e-06,
      "loss": 0.0022,
      "step": 6315
    },
    {
      "epoch": 28.324233042499298,
      "grad_norm": 1.8151107724406756e-05,
      "learning_rate": 7.276203057326514e-06,
      "loss": 0.0022,
      "step": 6316
    },
    {
      "epoch": 28.328736279200676,
      "grad_norm": 9.326411236543208e-05,
      "learning_rate": 7.234063196146723e-06,
      "loss": 0.0022,
      "step": 6317
    },
    {
      "epoch": 28.333239515902054,
      "grad_norm": 2.847600080713164e-05,
      "learning_rate": 7.1920448261457715e-06,
      "loss": 0.0022,
      "step": 6318
    },
    {
      "epoch": 28.337742752603432,
      "grad_norm": 2.2009453459759243e-05,
      "learning_rate": 7.150147957683428e-06,
      "loss": 0.0022,
      "step": 6319
    },
    {
      "epoch": 28.342245989304814,
      "grad_norm": 0.00012676995538640767,
      "learning_rate": 7.108372601089319e-06,
      "loss": 0.0022,
      "step": 6320
    },
    {
      "epoch": 28.346749226006192,
      "grad_norm": 7.018534961389378e-05,
      "learning_rate": 7.066718766663094e-06,
      "loss": 0.0022,
      "step": 6321
    },
    {
      "epoch": 28.35125246270757,
      "grad_norm": 9.031190711539239e-05,
      "learning_rate": 7.025186464674426e-06,
      "loss": 0.0022,
      "step": 6322
    },
    {
      "epoch": 28.35575569940895,
      "grad_norm": 2.565414979471825e-05,
      "learning_rate": 6.983775705363238e-06,
      "loss": 0.0021,
      "step": 6323
    },
    {
      "epoch": 28.36025893611033,
      "grad_norm": 2.8730984922731295e-05,
      "learning_rate": 6.9424864989392485e-06,
      "loss": 0.0022,
      "step": 6324
    },
    {
      "epoch": 28.36476217281171,
      "grad_norm": 1.7161784853669815e-05,
      "learning_rate": 6.901318855582206e-06,
      "loss": 0.0022,
      "step": 6325
    },
    {
      "epoch": 28.369265409513087,
      "grad_norm": 3.364299118402414e-05,
      "learning_rate": 6.860272785442156e-06,
      "loss": 0.0021,
      "step": 6326
    },
    {
      "epoch": 28.373768646214465,
      "grad_norm": 4.38447532360442e-05,
      "learning_rate": 6.819348298638839e-06,
      "loss": 0.0022,
      "step": 6327
    },
    {
      "epoch": 28.378271882915847,
      "grad_norm": 0.00010638484673108906,
      "learning_rate": 6.778545405262182e-06,
      "loss": 0.0022,
      "step": 6328
    },
    {
      "epoch": 28.382775119617225,
      "grad_norm": 6.361625128192827e-05,
      "learning_rate": 6.737864115372139e-06,
      "loss": 0.0022,
      "step": 6329
    },
    {
      "epoch": 28.387278356318603,
      "grad_norm": 8.105974120553583e-05,
      "learning_rate": 6.697304438998741e-06,
      "loss": 0.0022,
      "step": 6330
    },
    {
      "epoch": 28.39178159301998,
      "grad_norm": 2.2851716494187713e-05,
      "learning_rate": 6.656866386141824e-06,
      "loss": 0.0022,
      "step": 6331
    },
    {
      "epoch": 28.396284829721363,
      "grad_norm": 0.00016271762433461845,
      "learning_rate": 6.616549966771413e-06,
      "loss": 0.0022,
      "step": 6332
    },
    {
      "epoch": 28.40078806642274,
      "grad_norm": 3.431786535657011e-05,
      "learning_rate": 6.576355190827498e-06,
      "loss": 0.0022,
      "step": 6333
    },
    {
      "epoch": 28.40529130312412,
      "grad_norm": 6.136184674687684e-05,
      "learning_rate": 6.536282068220156e-06,
      "loss": 0.0022,
      "step": 6334
    },
    {
      "epoch": 28.409794539825498,
      "grad_norm": 9.806876914808527e-05,
      "learning_rate": 6.49633060882926e-06,
      "loss": 0.0022,
      "step": 6335
    },
    {
      "epoch": 28.41429777652688,
      "grad_norm": 1.673458427831065e-05,
      "learning_rate": 6.45650082250493e-06,
      "loss": 0.0021,
      "step": 6336
    },
    {
      "epoch": 28.418801013228258,
      "grad_norm": 8.246809738921002e-05,
      "learning_rate": 6.416792719067144e-06,
      "loss": 0.0023,
      "step": 6337
    },
    {
      "epoch": 28.423304249929636,
      "grad_norm": 8.467125735478476e-05,
      "learning_rate": 6.377206308305905e-06,
      "loss": 0.0022,
      "step": 6338
    },
    {
      "epoch": 28.427807486631018,
      "grad_norm": 0.00011174124665558338,
      "learning_rate": 6.337741599981184e-06,
      "loss": 0.0022,
      "step": 6339
    },
    {
      "epoch": 28.432310723332396,
      "grad_norm": 7.271711365319788e-05,
      "learning_rate": 6.2983986038230855e-06,
      "loss": 0.0023,
      "step": 6340
    },
    {
      "epoch": 28.436813960033774,
      "grad_norm": 0.00013399781892076135,
      "learning_rate": 6.259177329531463e-06,
      "loss": 0.0022,
      "step": 6341
    },
    {
      "epoch": 28.441317196735152,
      "grad_norm": 8.680276368977502e-05,
      "learning_rate": 6.220077786776412e-06,
      "loss": 0.0022,
      "step": 6342
    },
    {
      "epoch": 28.445820433436534,
      "grad_norm": 4.920973151456565e-05,
      "learning_rate": 6.181099985197947e-06,
      "loss": 0.0022,
      "step": 6343
    },
    {
      "epoch": 28.450323670137912,
      "grad_norm": 0.00011780072964029387,
      "learning_rate": 6.142243934405878e-06,
      "loss": 0.0022,
      "step": 6344
    },
    {
      "epoch": 28.45482690683929,
      "grad_norm": 6.512644904432818e-05,
      "learning_rate": 6.10350964398021e-06,
      "loss": 0.0022,
      "step": 6345
    },
    {
      "epoch": 28.45933014354067,
      "grad_norm": 8.059431274887174e-05,
      "learning_rate": 6.064897123470858e-06,
      "loss": 0.0022,
      "step": 6346
    },
    {
      "epoch": 28.46383338024205,
      "grad_norm": 7.531799201387912e-05,
      "learning_rate": 6.026406382397764e-06,
      "loss": 0.0022,
      "step": 6347
    },
    {
      "epoch": 28.46833661694343,
      "grad_norm": 0.0001162969128927216,
      "learning_rate": 5.988037430250726e-06,
      "loss": 0.0023,
      "step": 6348
    },
    {
      "epoch": 28.472839853644807,
      "grad_norm": 0.00011311076377751306,
      "learning_rate": 5.949790276489731e-06,
      "loss": 0.0022,
      "step": 6349
    },
    {
      "epoch": 28.477343090346185,
      "grad_norm": 3.559717515599914e-05,
      "learning_rate": 5.911664930544347e-06,
      "loss": 0.0022,
      "step": 6350
    },
    {
      "epoch": 28.481846327047567,
      "grad_norm": 0.00028691033367067575,
      "learning_rate": 5.873661401814611e-06,
      "loss": 0.0023,
      "step": 6351
    },
    {
      "epoch": 28.486349563748945,
      "grad_norm": 0.00011154294043080881,
      "learning_rate": 5.8357796996700855e-06,
      "loss": 0.0022,
      "step": 6352
    },
    {
      "epoch": 28.490852800450323,
      "grad_norm": 3.151911005261354e-05,
      "learning_rate": 5.79801983345063e-06,
      "loss": 0.0021,
      "step": 6353
    },
    {
      "epoch": 28.4953560371517,
      "grad_norm": 6.432102964026853e-05,
      "learning_rate": 5.760381812465798e-06,
      "loss": 0.0022,
      "step": 6354
    },
    {
      "epoch": 28.499859273853083,
      "grad_norm": 2.5394247131771408e-05,
      "learning_rate": 5.722865645995279e-06,
      "loss": 0.0022,
      "step": 6355
    },
    {
      "epoch": 28.50436251055446,
      "grad_norm": 7.771181117277592e-05,
      "learning_rate": 5.685471343288673e-06,
      "loss": 0.0022,
      "step": 6356
    },
    {
      "epoch": 28.50886574725584,
      "grad_norm": 7.046936661936343e-05,
      "learning_rate": 5.648198913565495e-06,
      "loss": 0.0022,
      "step": 6357
    },
    {
      "epoch": 28.513368983957218,
      "grad_norm": 0.00012840221461374313,
      "learning_rate": 5.611048366015281e-06,
      "loss": 0.0021,
      "step": 6358
    },
    {
      "epoch": 28.5178722206586,
      "grad_norm": 3.1020157621242106e-05,
      "learning_rate": 5.574019709797429e-06,
      "loss": 0.0022,
      "step": 6359
    },
    {
      "epoch": 28.522375457359978,
      "grad_norm": 0.00019199335656594485,
      "learning_rate": 5.537112954041412e-06,
      "loss": 0.0021,
      "step": 6360
    },
    {
      "epoch": 28.526878694061356,
      "grad_norm": 2.7651542040985078e-05,
      "learning_rate": 5.500328107846509e-06,
      "loss": 0.0021,
      "step": 6361
    },
    {
      "epoch": 28.531381930762734,
      "grad_norm": 2.2917045498616062e-05,
      "learning_rate": 5.463665180281962e-06,
      "loss": 0.0021,
      "step": 6362
    },
    {
      "epoch": 28.535885167464116,
      "grad_norm": 6.0925169236725196e-05,
      "learning_rate": 5.427124180387099e-06,
      "loss": 0.0022,
      "step": 6363
    },
    {
      "epoch": 28.540388404165494,
      "grad_norm": 7.258677942445502e-05,
      "learning_rate": 5.390705117171046e-06,
      "loss": 0.0024,
      "step": 6364
    },
    {
      "epoch": 28.544891640866872,
      "grad_norm": 0.0002788406563922763,
      "learning_rate": 5.3544079996128426e-06,
      "loss": 0.0022,
      "step": 6365
    },
    {
      "epoch": 28.549394877568254,
      "grad_norm": 0.0002621279563754797,
      "learning_rate": 5.318232836661663e-06,
      "loss": 0.0022,
      "step": 6366
    },
    {
      "epoch": 28.553898114269632,
      "grad_norm": 3.0516919650835916e-05,
      "learning_rate": 5.282179637236318e-06,
      "loss": 0.0022,
      "step": 6367
    },
    {
      "epoch": 28.55840135097101,
      "grad_norm": 3.655653927125968e-05,
      "learning_rate": 5.246248410225751e-06,
      "loss": 0.0023,
      "step": 6368
    },
    {
      "epoch": 28.56290458767239,
      "grad_norm": 0.00023764066281728446,
      "learning_rate": 5.210439164488823e-06,
      "loss": 0.0022,
      "step": 6369
    },
    {
      "epoch": 28.56740782437377,
      "grad_norm": 0.000144379839184694,
      "learning_rate": 5.1747519088543585e-06,
      "loss": 0.0023,
      "step": 6370
    },
    {
      "epoch": 28.57191106107515,
      "grad_norm": 7.06503851688467e-05,
      "learning_rate": 5.13918665212082e-06,
      "loss": 0.0022,
      "step": 6371
    },
    {
      "epoch": 28.576414297776527,
      "grad_norm": 9.581808990333229e-05,
      "learning_rate": 5.1037434030570264e-06,
      "loss": 0.0022,
      "step": 6372
    },
    {
      "epoch": 28.580917534477905,
      "grad_norm": 2.425376806058921e-05,
      "learning_rate": 5.068422170401377e-06,
      "loss": 0.0021,
      "step": 6373
    },
    {
      "epoch": 28.585420771179287,
      "grad_norm": 2.753264743660111e-05,
      "learning_rate": 5.0332229628622935e-06,
      "loss": 0.0022,
      "step": 6374
    },
    {
      "epoch": 28.589924007880665,
      "grad_norm": 9.793470962904394e-05,
      "learning_rate": 4.998145789118113e-06,
      "loss": 0.0022,
      "step": 6375
    },
    {
      "epoch": 28.594427244582043,
      "grad_norm": 7.754650869173929e-05,
      "learning_rate": 4.963190657817141e-06,
      "loss": 0.0023,
      "step": 6376
    },
    {
      "epoch": 28.59893048128342,
      "grad_norm": 9.479491563979536e-05,
      "learning_rate": 4.928357577577536e-06,
      "loss": 0.0022,
      "step": 6377
    },
    {
      "epoch": 28.603433717984803,
      "grad_norm": 3.317281880299561e-05,
      "learning_rate": 4.89364655698743e-06,
      "loss": 0.0021,
      "step": 6378
    },
    {
      "epoch": 28.60793695468618,
      "grad_norm": 5.999355562380515e-05,
      "learning_rate": 4.859057604604644e-06,
      "loss": 0.0022,
      "step": 6379
    },
    {
      "epoch": 28.61244019138756,
      "grad_norm": 0.00013014978321734816,
      "learning_rate": 4.824590728957245e-06,
      "loss": 0.0022,
      "step": 6380
    },
    {
      "epoch": 28.616943428088938,
      "grad_norm": 4.8756708565633744e-05,
      "learning_rate": 4.790245938542936e-06,
      "loss": 0.0023,
      "step": 6381
    },
    {
      "epoch": 28.62144666479032,
      "grad_norm": 6.916138954693452e-05,
      "learning_rate": 4.756023241829388e-06,
      "loss": 0.0022,
      "step": 6382
    },
    {
      "epoch": 28.625949901491698,
      "grad_norm": 0.00015947045176289976,
      "learning_rate": 4.72192264725424e-06,
      "loss": 0.0022,
      "step": 6383
    },
    {
      "epoch": 28.630453138193076,
      "grad_norm": 2.7237474569119513e-05,
      "learning_rate": 4.687944163224989e-06,
      "loss": 0.0022,
      "step": 6384
    },
    {
      "epoch": 28.634956374894454,
      "grad_norm": 0.00013276017853058875,
      "learning_rate": 4.654087798118934e-06,
      "loss": 0.0022,
      "step": 6385
    },
    {
      "epoch": 28.639459611595836,
      "grad_norm": 6.96859642630443e-05,
      "learning_rate": 4.620353560283397e-06,
      "loss": 0.0023,
      "step": 6386
    },
    {
      "epoch": 28.643962848297214,
      "grad_norm": 0.00016680441331118345,
      "learning_rate": 4.586741458035559e-06,
      "loss": 0.0023,
      "step": 6387
    },
    {
      "epoch": 28.648466084998592,
      "grad_norm": 0.00024030088388826698,
      "learning_rate": 4.553251499662403e-06,
      "loss": 0.0022,
      "step": 6388
    },
    {
      "epoch": 28.65296932169997,
      "grad_norm": 2.5614323021727614e-05,
      "learning_rate": 4.5198836934208785e-06,
      "loss": 0.0022,
      "step": 6389
    },
    {
      "epoch": 28.657472558401352,
      "grad_norm": 6.841112917754799e-05,
      "learning_rate": 4.486638047537795e-06,
      "loss": 0.0022,
      "step": 6390
    },
    {
      "epoch": 28.66197579510273,
      "grad_norm": 0.00022155613987706602,
      "learning_rate": 4.453514570209927e-06,
      "loss": 0.0021,
      "step": 6391
    },
    {
      "epoch": 28.66647903180411,
      "grad_norm": 2.7598995075095445e-05,
      "learning_rate": 4.420513269603743e-06,
      "loss": 0.0021,
      "step": 6392
    },
    {
      "epoch": 28.670982268505487,
      "grad_norm": 2.428076732030604e-05,
      "learning_rate": 4.38763415385579e-06,
      "loss": 0.0022,
      "step": 6393
    },
    {
      "epoch": 28.67548550520687,
      "grad_norm": 8.204283221857622e-05,
      "learning_rate": 4.3548772310723075e-06,
      "loss": 0.0021,
      "step": 6394
    },
    {
      "epoch": 28.679988741908247,
      "grad_norm": 2.0612147636711597e-05,
      "learning_rate": 4.322242509329555e-06,
      "loss": 0.0023,
      "step": 6395
    },
    {
      "epoch": 28.684491978609625,
      "grad_norm": 0.00011699066817527637,
      "learning_rate": 4.289729996673597e-06,
      "loss": 0.0023,
      "step": 6396
    },
    {
      "epoch": 28.688995215311003,
      "grad_norm": 0.00010957938502542675,
      "learning_rate": 4.2573397011203556e-06,
      "loss": 0.0022,
      "step": 6397
    },
    {
      "epoch": 28.693498452012385,
      "grad_norm": 9.601479541743174e-05,
      "learning_rate": 4.225071630655664e-06,
      "loss": 0.0021,
      "step": 6398
    },
    {
      "epoch": 28.698001688713763,
      "grad_norm": 2.1116800780873746e-05,
      "learning_rate": 4.192925793235158e-06,
      "loss": 0.0021,
      "step": 6399
    },
    {
      "epoch": 28.70250492541514,
      "grad_norm": 2.1989095330354758e-05,
      "learning_rate": 4.160902196784444e-06,
      "loss": 0.0022,
      "step": 6400
    },
    {
      "epoch": 28.707008162116523,
      "grad_norm": 9.183022484648973e-05,
      "learning_rate": 4.129000849198872e-06,
      "loss": 0.0022,
      "step": 6401
    },
    {
      "epoch": 28.7115113988179,
      "grad_norm": 9.245609544450417e-05,
      "learning_rate": 4.0972217583437055e-06,
      "loss": 0.0022,
      "step": 6402
    },
    {
      "epoch": 28.71601463551928,
      "grad_norm": 9.64792343438603e-05,
      "learning_rate": 4.065564932054067e-06,
      "loss": 0.0022,
      "step": 6403
    },
    {
      "epoch": 28.720517872220658,
      "grad_norm": 2.221773138444405e-05,
      "learning_rate": 4.034030378134934e-06,
      "loss": 0.0022,
      "step": 6404
    },
    {
      "epoch": 28.72502110892204,
      "grad_norm": 2.4620661861263216e-05,
      "learning_rate": 4.002618104361144e-06,
      "loss": 0.0023,
      "step": 6405
    },
    {
      "epoch": 28.729524345623418,
      "grad_norm": 7.2565941081848e-05,
      "learning_rate": 3.9713281184773904e-06,
      "loss": 0.0023,
      "step": 6406
    },
    {
      "epoch": 28.734027582324796,
      "grad_norm": 0.00018036417895928025,
      "learning_rate": 3.940160428198169e-06,
      "loss": 0.0022,
      "step": 6407
    },
    {
      "epoch": 28.738530819026174,
      "grad_norm": 2.2627587895840406e-05,
      "learning_rate": 3.909115041207889e-06,
      "loss": 0.0022,
      "step": 6408
    },
    {
      "epoch": 28.743034055727556,
      "grad_norm": 4.448303661774844e-05,
      "learning_rate": 3.878191965160704e-06,
      "loss": 0.0022,
      "step": 6409
    },
    {
      "epoch": 28.747537292428934,
      "grad_norm": 6.560031033586711e-05,
      "learning_rate": 3.847391207680795e-06,
      "loss": 0.0022,
      "step": 6410
    },
    {
      "epoch": 28.752040529130312,
      "grad_norm": 1.5213999176921789e-05,
      "learning_rate": 3.816712776361919e-06,
      "loss": 0.0022,
      "step": 6411
    },
    {
      "epoch": 28.75654376583169,
      "grad_norm": 8.97385980351828e-05,
      "learning_rate": 3.786156678768027e-06,
      "loss": 0.0022,
      "step": 6412
    },
    {
      "epoch": 28.761047002533072,
      "grad_norm": 5.9892452554777265e-05,
      "learning_rate": 3.755722922432481e-06,
      "loss": 0.0022,
      "step": 6413
    },
    {
      "epoch": 28.76555023923445,
      "grad_norm": 0.00011478110536700115,
      "learning_rate": 3.7254115148588897e-06,
      "loss": 0.0021,
      "step": 6414
    },
    {
      "epoch": 28.77005347593583,
      "grad_norm": 6.120366015238687e-05,
      "learning_rate": 3.6952224635204425e-06,
      "loss": 0.0022,
      "step": 6415
    },
    {
      "epoch": 28.774556712637207,
      "grad_norm": 0.00011641693708952516,
      "learning_rate": 3.6651557758602406e-06,
      "loss": 0.0022,
      "step": 6416
    },
    {
      "epoch": 28.77905994933859,
      "grad_norm": 8.06127063697204e-05,
      "learning_rate": 3.6352114592911876e-06,
      "loss": 0.0022,
      "step": 6417
    },
    {
      "epoch": 28.783563186039967,
      "grad_norm": 0.0001262637524632737,
      "learning_rate": 3.6053895211961007e-06,
      "loss": 0.0022,
      "step": 6418
    },
    {
      "epoch": 28.788066422741345,
      "grad_norm": 3.919929076801054e-05,
      "learning_rate": 3.5756899689275425e-06,
      "loss": 0.0022,
      "step": 6419
    },
    {
      "epoch": 28.792569659442723,
      "grad_norm": 0.000176663335878402,
      "learning_rate": 3.546112809807822e-06,
      "loss": 0.0023,
      "step": 6420
    },
    {
      "epoch": 28.797072896144105,
      "grad_norm": 0.00011521124542923644,
      "learning_rate": 3.5166580511292734e-06,
      "loss": 0.0022,
      "step": 6421
    },
    {
      "epoch": 28.801576132845483,
      "grad_norm": 7.42152551538311e-05,
      "learning_rate": 3.487325700153976e-06,
      "loss": 0.0022,
      "step": 6422
    },
    {
      "epoch": 28.80607936954686,
      "grad_norm": 2.26748816203326e-05,
      "learning_rate": 3.458115764113756e-06,
      "loss": 0.0022,
      "step": 6423
    },
    {
      "epoch": 28.81058260624824,
      "grad_norm": 2.951518035843037e-05,
      "learning_rate": 3.429028250210242e-06,
      "loss": 0.0022,
      "step": 6424
    },
    {
      "epoch": 28.81508584294962,
      "grad_norm": 9.632401634007692e-05,
      "learning_rate": 3.400063165615086e-06,
      "loss": 0.0022,
      "step": 6425
    },
    {
      "epoch": 28.819589079651,
      "grad_norm": 0.00010476798343006521,
      "learning_rate": 3.37122051746952e-06,
      "loss": 0.0022,
      "step": 6426
    },
    {
      "epoch": 28.824092316352377,
      "grad_norm": 5.6249642511829734e-05,
      "learning_rate": 3.342500312884744e-06,
      "loss": 0.0022,
      "step": 6427
    },
    {
      "epoch": 28.82859555305376,
      "grad_norm": 2.94515848509036e-05,
      "learning_rate": 3.313902558941595e-06,
      "loss": 0.0022,
      "step": 6428
    },
    {
      "epoch": 28.833098789755137,
      "grad_norm": 0.00011316462769173086,
      "learning_rate": 3.285427262690932e-06,
      "loss": 0.0022,
      "step": 6429
    },
    {
      "epoch": 28.837602026456516,
      "grad_norm": 6.599532207474113e-05,
      "learning_rate": 3.257074431153362e-06,
      "loss": 0.0022,
      "step": 6430
    },
    {
      "epoch": 28.842105263157894,
      "grad_norm": 1.7792675862438045e-05,
      "learning_rate": 3.228844071319126e-06,
      "loss": 0.0021,
      "step": 6431
    },
    {
      "epoch": 28.846608499859276,
      "grad_norm": 7.222966087283567e-05,
      "learning_rate": 3.2007361901485453e-06,
      "loss": 0.0022,
      "step": 6432
    },
    {
      "epoch": 28.851111736560654,
      "grad_norm": 8.345944661414251e-05,
      "learning_rate": 3.1727507945714664e-06,
      "loss": 0.0022,
      "step": 6433
    },
    {
      "epoch": 28.855614973262032,
      "grad_norm": 2.7310034056426957e-05,
      "learning_rate": 3.144887891487813e-06,
      "loss": 0.0022,
      "step": 6434
    },
    {
      "epoch": 28.86011820996341,
      "grad_norm": 3.5646604374051094e-05,
      "learning_rate": 3.1171474877670914e-06,
      "loss": 0.0023,
      "step": 6435
    },
    {
      "epoch": 28.864621446664792,
      "grad_norm": 0.0001227435132022947,
      "learning_rate": 3.0895295902486078e-06,
      "loss": 0.0021,
      "step": 6436
    },
    {
      "epoch": 28.86912468336617,
      "grad_norm": 2.99609328067163e-05,
      "learning_rate": 3.062034205741693e-06,
      "loss": 0.0022,
      "step": 6437
    },
    {
      "epoch": 28.87362792006755,
      "grad_norm": 3.9056820241967216e-05,
      "learning_rate": 3.034661341025258e-06,
      "loss": 0.0021,
      "step": 6438
    },
    {
      "epoch": 28.878131156768927,
      "grad_norm": 3.9092748920666054e-05,
      "learning_rate": 3.007411002848015e-06,
      "loss": 0.0022,
      "step": 6439
    },
    {
      "epoch": 28.88263439347031,
      "grad_norm": 6.64136532577686e-05,
      "learning_rate": 2.980283197928646e-06,
      "loss": 0.0022,
      "step": 6440
    },
    {
      "epoch": 28.887137630171686,
      "grad_norm": 0.00010974102769978344,
      "learning_rate": 2.953277932955356e-06,
      "loss": 0.0021,
      "step": 6441
    },
    {
      "epoch": 28.891640866873065,
      "grad_norm": 0.00013081544602755457,
      "learning_rate": 2.926395214586375e-06,
      "loss": 0.0022,
      "step": 6442
    },
    {
      "epoch": 28.896144103574443,
      "grad_norm": 2.2820657250122167e-05,
      "learning_rate": 2.8996350494495116e-06,
      "loss": 0.0022,
      "step": 6443
    },
    {
      "epoch": 28.900647340275825,
      "grad_norm": 2.3987851818674244e-05,
      "learning_rate": 2.8729974441426555e-06,
      "loss": 0.0022,
      "step": 6444
    },
    {
      "epoch": 28.905150576977203,
      "grad_norm": 6.297081563388929e-05,
      "learning_rate": 2.8464824052331083e-06,
      "loss": 0.0022,
      "step": 6445
    },
    {
      "epoch": 28.90965381367858,
      "grad_norm": 0.00012427523324731737,
      "learning_rate": 2.8200899392582522e-06,
      "loss": 0.0022,
      "step": 6446
    },
    {
      "epoch": 28.91415705037996,
      "grad_norm": 8.261825132649392e-05,
      "learning_rate": 2.793820052725049e-06,
      "loss": 0.0022,
      "step": 6447
    },
    {
      "epoch": 28.91866028708134,
      "grad_norm": 2.8534694138215855e-05,
      "learning_rate": 2.767672752110428e-06,
      "loss": 0.0022,
      "step": 6448
    },
    {
      "epoch": 28.92316352378272,
      "grad_norm": 8.053085184656084e-05,
      "learning_rate": 2.7416480438609e-06,
      "loss": 0.0021,
      "step": 6449
    },
    {
      "epoch": 28.927666760484097,
      "grad_norm": 4.0204286051448435e-05,
      "learning_rate": 2.7157459343928883e-06,
      "loss": 0.0022,
      "step": 6450
    },
    {
      "epoch": 28.932169997185476,
      "grad_norm": 2.1173193090362474e-05,
      "learning_rate": 2.689966430092561e-06,
      "loss": 0.0022,
      "step": 6451
    },
    {
      "epoch": 28.936673233886857,
      "grad_norm": 6.371195922838524e-05,
      "learning_rate": 2.6643095373158343e-06,
      "loss": 0.0022,
      "step": 6452
    },
    {
      "epoch": 28.941176470588236,
      "grad_norm": 9.996730659622699e-05,
      "learning_rate": 2.6387752623883154e-06,
      "loss": 0.0023,
      "step": 6453
    },
    {
      "epoch": 28.945679707289614,
      "grad_norm": 3.405749157536775e-05,
      "learning_rate": 2.6133636116056346e-06,
      "loss": 0.0021,
      "step": 6454
    },
    {
      "epoch": 28.950182943990992,
      "grad_norm": 2.482741001585964e-05,
      "learning_rate": 2.5880745912328363e-06,
      "loss": 0.0023,
      "step": 6455
    },
    {
      "epoch": 28.954686180692374,
      "grad_norm": 0.00013216953084338456,
      "learning_rate": 2.5629082075050437e-06,
      "loss": 0.0022,
      "step": 6456
    },
    {
      "epoch": 28.959189417393752,
      "grad_norm": 0.0002099088451359421,
      "learning_rate": 2.53786446662696e-06,
      "loss": 0.0022,
      "step": 6457
    },
    {
      "epoch": 28.96369265409513,
      "grad_norm": 3.879629366565496e-05,
      "learning_rate": 2.5129433747730913e-06,
      "loss": 0.0022,
      "step": 6458
    },
    {
      "epoch": 28.96819589079651,
      "grad_norm": 0.00010479187039891258,
      "learning_rate": 2.4881449380877997e-06,
      "loss": 0.0022,
      "step": 6459
    },
    {
      "epoch": 28.97269912749789,
      "grad_norm": 1.9715045709745027e-05,
      "learning_rate": 2.463469162685028e-06,
      "loss": 0.0022,
      "step": 6460
    },
    {
      "epoch": 28.977202364199268,
      "grad_norm": 2.8174943508929573e-05,
      "learning_rate": 2.4389160546486875e-06,
      "loss": 0.0021,
      "step": 6461
    },
    {
      "epoch": 28.981705600900646,
      "grad_norm": 8.352442819159478e-05,
      "learning_rate": 2.4144856200321587e-06,
      "loss": 0.0022,
      "step": 6462
    },
    {
      "epoch": 28.986208837602028,
      "grad_norm": 9.546952787786722e-05,
      "learning_rate": 2.3901778648589555e-06,
      "loss": 0.0022,
      "step": 6463
    },
    {
      "epoch": 28.990712074303406,
      "grad_norm": 3.4534816222731024e-05,
      "learning_rate": 2.365992795122007e-06,
      "loss": 0.0022,
      "step": 6464
    },
    {
      "epoch": 28.995215311004785,
      "grad_norm": 8.976539538707584e-05,
      "learning_rate": 2.3419304167842104e-06,
      "loss": 0.0022,
      "step": 6465
    },
    {
      "epoch": 28.999718547706163,
      "grad_norm": 0.0001932313316501677,
      "learning_rate": 2.3179907357780417e-06,
      "loss": 0.0021,
      "step": 6466
    },
    {
      "epoch": 29.0,
      "grad_norm": 0.0001932313316501677,
      "learning_rate": 2.294173758005891e-06,
      "loss": 0.0001,
      "step": 6467
    },
    {
      "epoch": 29.0,
      "eval_f1": 0.9866933466733366,
      "eval_loss": 0.04113289713859558,
      "eval_runtime": 27.1995,
      "eval_samples_per_second": 183.753,
      "eval_steps_per_second": 5.772,
      "step": 6467
    },
    {
      "epoch": 29.004503236701378,
      "grad_norm": 3.9631850086152554e-05,
      "learning_rate": 2.2704794893397828e-06,
      "loss": 0.0021,
      "step": 6468
    },
    {
      "epoch": 29.00900647340276,
      "grad_norm": 6.296087667578831e-05,
      "learning_rate": 2.246907935621545e-06,
      "loss": 0.0022,
      "step": 6469
    },
    {
      "epoch": 29.013509710104138,
      "grad_norm": 0.00012186287494841963,
      "learning_rate": 2.223459102662695e-06,
      "loss": 0.0022,
      "step": 6470
    },
    {
      "epoch": 29.018012946805516,
      "grad_norm": 0.00010123286483576521,
      "learning_rate": 2.200132996244608e-06,
      "loss": 0.0022,
      "step": 6471
    },
    {
      "epoch": 29.022516183506895,
      "grad_norm": 2.6716801585280336e-05,
      "learning_rate": 2.1769296221182953e-06,
      "loss": 0.0023,
      "step": 6472
    },
    {
      "epoch": 29.027019420208276,
      "grad_norm": 0.0002789823629427701,
      "learning_rate": 2.1538489860044584e-06,
      "loss": 0.0022,
      "step": 6473
    },
    {
      "epoch": 29.031522656909655,
      "grad_norm": 0.00011979160626651719,
      "learning_rate": 2.130891093593712e-06,
      "loss": 0.0022,
      "step": 6474
    },
    {
      "epoch": 29.036025893611033,
      "grad_norm": 9.38235389185138e-05,
      "learning_rate": 2.1080559505462506e-06,
      "loss": 0.0022,
      "step": 6475
    },
    {
      "epoch": 29.04052913031241,
      "grad_norm": 1.8074200852424838e-05,
      "learning_rate": 2.0853435624921257e-06,
      "loss": 0.0022,
      "step": 6476
    },
    {
      "epoch": 29.045032367013793,
      "grad_norm": 2.2147612980916165e-05,
      "learning_rate": 2.06275393503097e-06,
      "loss": 0.0021,
      "step": 6477
    },
    {
      "epoch": 29.04953560371517,
      "grad_norm": 2.812670027196873e-05,
      "learning_rate": 2.040287073732383e-06,
      "loss": 0.0022,
      "step": 6478
    },
    {
      "epoch": 29.05403884041655,
      "grad_norm": 3.571463457774371e-05,
      "learning_rate": 2.0179429841354345e-06,
      "loss": 0.0021,
      "step": 6479
    },
    {
      "epoch": 29.058542077117927,
      "grad_norm": 9.559596219332889e-05,
      "learning_rate": 1.9957216717491068e-06,
      "loss": 0.0024,
      "step": 6480
    },
    {
      "epoch": 29.06304531381931,
      "grad_norm": 0.00026369927218183875,
      "learning_rate": 1.9736231420520166e-06,
      "loss": 0.0022,
      "step": 6481
    },
    {
      "epoch": 29.067548550520687,
      "grad_norm": 0.00010372910764999688,
      "learning_rate": 1.95164740049264e-06,
      "loss": 0.0022,
      "step": 6482
    },
    {
      "epoch": 29.072051787222065,
      "grad_norm": 3.210308204870671e-05,
      "learning_rate": 1.92979445248892e-06,
      "loss": 0.0022,
      "step": 6483
    },
    {
      "epoch": 29.076555023923444,
      "grad_norm": 6.380979903042316e-05,
      "learning_rate": 1.9080643034288246e-06,
      "loss": 0.0021,
      "step": 6484
    },
    {
      "epoch": 29.081058260624825,
      "grad_norm": 2.7371032047085464e-05,
      "learning_rate": 1.8864569586698466e-06,
      "loss": 0.0022,
      "step": 6485
    },
    {
      "epoch": 29.085561497326204,
      "grad_norm": 0.00010887463577091694,
      "learning_rate": 1.864972423539335e-06,
      "loss": 0.0024,
      "step": 6486
    },
    {
      "epoch": 29.09006473402758,
      "grad_norm": 0.00021063402527943254,
      "learning_rate": 1.8436107033341642e-06,
      "loss": 0.0024,
      "step": 6487
    },
    {
      "epoch": 29.09456797072896,
      "grad_norm": 0.00014724406355526298,
      "learning_rate": 1.8223718033211767e-06,
      "loss": 0.0022,
      "step": 6488
    },
    {
      "epoch": 29.09907120743034,
      "grad_norm": 3.557808304321952e-05,
      "learning_rate": 1.8012557287367392e-06,
      "loss": 0.0022,
      "step": 6489
    },
    {
      "epoch": 29.10357444413172,
      "grad_norm": 9.991612751036882e-05,
      "learning_rate": 1.7802624847870763e-06,
      "loss": 0.0023,
      "step": 6490
    },
    {
      "epoch": 29.108077680833098,
      "grad_norm": 2.8129943530075252e-05,
      "learning_rate": 1.7593920766479922e-06,
      "loss": 0.0021,
      "step": 6491
    },
    {
      "epoch": 29.112580917534476,
      "grad_norm": 2.9937491490272805e-05,
      "learning_rate": 1.7386445094650926e-06,
      "loss": 0.0023,
      "step": 6492
    },
    {
      "epoch": 29.117084154235858,
      "grad_norm": 2.7485855753184296e-05,
      "learning_rate": 1.7180197883537308e-06,
      "loss": 0.0022,
      "step": 6493
    },
    {
      "epoch": 29.121587390937236,
      "grad_norm": 6.099062375142239e-05,
      "learning_rate": 1.6975179183988386e-06,
      "loss": 0.0022,
      "step": 6494
    },
    {
      "epoch": 29.126090627638614,
      "grad_norm": 6.048534487490542e-05,
      "learning_rate": 1.6771389046552066e-06,
      "loss": 0.0021,
      "step": 6495
    },
    {
      "epoch": 29.130593864339993,
      "grad_norm": 4.258438275428489e-05,
      "learning_rate": 1.656882752147204e-06,
      "loss": 0.0022,
      "step": 6496
    },
    {
      "epoch": 29.135097101041374,
      "grad_norm": 5.588876592810266e-05,
      "learning_rate": 1.6367494658690585e-06,
      "loss": 0.0021,
      "step": 6497
    },
    {
      "epoch": 29.139600337742753,
      "grad_norm": 5.00728128827177e-05,
      "learning_rate": 1.6167390507845769e-06,
      "loss": 0.0022,
      "step": 6498
    },
    {
      "epoch": 29.14410357444413,
      "grad_norm": 8.552666258765385e-05,
      "learning_rate": 1.596851511827313e-06,
      "loss": 0.0023,
      "step": 6499
    },
    {
      "epoch": 29.148606811145513,
      "grad_norm": 0.0001199648977490142,
      "learning_rate": 1.5770868539005112e-06,
      "loss": 0.0021,
      "step": 6500
    },
    {
      "epoch": 29.15311004784689,
      "grad_norm": 2.6079553208546713e-05,
      "learning_rate": 1.5574450818771624e-06,
      "loss": 0.0022,
      "step": 6501
    },
    {
      "epoch": 29.15761328454827,
      "grad_norm": 0.0001957245112862438,
      "learning_rate": 1.5379262005999484e-06,
      "loss": 0.0021,
      "step": 6502
    },
    {
      "epoch": 29.162116521249647,
      "grad_norm": 2.379473517066799e-05,
      "learning_rate": 1.518530214881242e-06,
      "loss": 0.0022,
      "step": 6503
    },
    {
      "epoch": 29.16661975795103,
      "grad_norm": 7.03916375641711e-05,
      "learning_rate": 1.499257129503051e-06,
      "loss": 0.0021,
      "step": 6504
    },
    {
      "epoch": 29.171122994652407,
      "grad_norm": 5.196856363909319e-05,
      "learning_rate": 1.4801069492172414e-06,
      "loss": 0.0021,
      "step": 6505
    },
    {
      "epoch": 29.175626231353785,
      "grad_norm": 6.541625043610111e-05,
      "learning_rate": 1.4610796787451474e-06,
      "loss": 0.0021,
      "step": 6506
    },
    {
      "epoch": 29.180129468055163,
      "grad_norm": 4.257189721101895e-05,
      "learning_rate": 1.4421753227780722e-06,
      "loss": 0.0022,
      "step": 6507
    },
    {
      "epoch": 29.184632704756545,
      "grad_norm": 0.00016563844110351056,
      "learning_rate": 1.423393885976787e-06,
      "loss": 0.0022,
      "step": 6508
    },
    {
      "epoch": 29.189135941457923,
      "grad_norm": 3.092739643761888e-05,
      "learning_rate": 1.4047353729719215e-06,
      "loss": 0.0022,
      "step": 6509
    },
    {
      "epoch": 29.1936391781593,
      "grad_norm": 7.195866055553779e-05,
      "learning_rate": 1.386199788363629e-06,
      "loss": 0.0022,
      "step": 6510
    },
    {
      "epoch": 29.19814241486068,
      "grad_norm": 5.26864969287999e-05,
      "learning_rate": 1.3677871367218652e-06,
      "loss": 0.0021,
      "step": 6511
    },
    {
      "epoch": 29.20264565156206,
      "grad_norm": 6.490917439805344e-05,
      "learning_rate": 1.3494974225863322e-06,
      "loss": 0.0021,
      "step": 6512
    },
    {
      "epoch": 29.20714888826344,
      "grad_norm": 2.7567846700549126e-05,
      "learning_rate": 1.3313306504663114e-06,
      "loss": 0.0022,
      "step": 6513
    },
    {
      "epoch": 29.211652124964818,
      "grad_norm": 0.00011657384311547503,
      "learning_rate": 1.313286824840776e-06,
      "loss": 0.0021,
      "step": 6514
    },
    {
      "epoch": 29.216155361666196,
      "grad_norm": 0.0002454379864502698,
      "learning_rate": 1.2953659501583893e-06,
      "loss": 0.0022,
      "step": 6515
    },
    {
      "epoch": 29.220658598367578,
      "grad_norm": 0.00011563759471755475,
      "learning_rate": 1.2775680308376725e-06,
      "loss": 0.0022,
      "step": 6516
    },
    {
      "epoch": 29.225161835068956,
      "grad_norm": 7.498503691749647e-05,
      "learning_rate": 1.2598930712665602e-06,
      "loss": 0.0022,
      "step": 6517
    },
    {
      "epoch": 29.229665071770334,
      "grad_norm": 3.318225935800001e-05,
      "learning_rate": 1.2423410758028998e-06,
      "loss": 0.0022,
      "step": 6518
    },
    {
      "epoch": 29.234168308471713,
      "grad_norm": 0.00017071893671527505,
      "learning_rate": 1.2249120487740627e-06,
      "loss": 0.0022,
      "step": 6519
    },
    {
      "epoch": 29.238671545173094,
      "grad_norm": 7.188085146481171e-05,
      "learning_rate": 1.2076059944772233e-06,
      "loss": 0.0022,
      "step": 6520
    },
    {
      "epoch": 29.243174781874473,
      "grad_norm": 9.382801363244653e-05,
      "learning_rate": 1.1904229171790792e-06,
      "loss": 0.0022,
      "step": 6521
    },
    {
      "epoch": 29.24767801857585,
      "grad_norm": 6.027324343449436e-05,
      "learning_rate": 1.1733628211162417e-06,
      "loss": 0.0022,
      "step": 6522
    },
    {
      "epoch": 29.25218125527723,
      "grad_norm": 0.00012891138612758368,
      "learning_rate": 1.1564257104947352e-06,
      "loss": 0.0022,
      "step": 6523
    },
    {
      "epoch": 29.25668449197861,
      "grad_norm": 0.00010220091644441709,
      "learning_rate": 1.1396115894904967e-06,
      "loss": 0.0022,
      "step": 6524
    },
    {
      "epoch": 29.26118772867999,
      "grad_norm": 7.103024836396798e-05,
      "learning_rate": 1.1229204622489885e-06,
      "loss": 0.0022,
      "step": 6525
    },
    {
      "epoch": 29.265690965381367,
      "grad_norm": 7.990760786924511e-05,
      "learning_rate": 1.1063523328854186e-06,
      "loss": 0.0023,
      "step": 6526
    },
    {
      "epoch": 29.270194202082745,
      "grad_norm": 0.00010875410225708038,
      "learning_rate": 1.0899072054846305e-06,
      "loss": 0.0022,
      "step": 6527
    },
    {
      "epoch": 29.274697438784127,
      "grad_norm": 3.0329576475196518e-05,
      "learning_rate": 1.073585084101214e-06,
      "loss": 0.0022,
      "step": 6528
    },
    {
      "epoch": 29.279200675485505,
      "grad_norm": 7.037691102596e-05,
      "learning_rate": 1.057385972759284e-06,
      "loss": 0.0022,
      "step": 6529
    },
    {
      "epoch": 29.283703912186883,
      "grad_norm": 2.3453998437616974e-05,
      "learning_rate": 1.0413098754528116e-06,
      "loss": 0.0021,
      "step": 6530
    },
    {
      "epoch": 29.288207148888265,
      "grad_norm": 5.8177578466711566e-05,
      "learning_rate": 1.025356796145349e-06,
      "loss": 0.0024,
      "step": 6531
    },
    {
      "epoch": 29.292710385589643,
      "grad_norm": 0.0005169969517737627,
      "learning_rate": 1.009526738770028e-06,
      "loss": 0.0022,
      "step": 6532
    },
    {
      "epoch": 29.29721362229102,
      "grad_norm": 2.276076702401042e-05,
      "learning_rate": 9.938197072298372e-07,
      "loss": 0.0023,
      "step": 6533
    },
    {
      "epoch": 29.3017168589924,
      "grad_norm": 0.00011492526391521096,
      "learning_rate": 9.7823570539729e-07,
      "loss": 0.0022,
      "step": 6534
    },
    {
      "epoch": 29.30622009569378,
      "grad_norm": 2.9767681553494185e-05,
      "learning_rate": 9.627747371146466e-07,
      "loss": 0.0022,
      "step": 6535
    },
    {
      "epoch": 29.31072333239516,
      "grad_norm": 9.35243588173762e-05,
      "learning_rate": 9.474368061937466e-07,
      "loss": 0.0022,
      "step": 6536
    },
    {
      "epoch": 29.315226569096538,
      "grad_norm": 0.00010880144691327587,
      "learning_rate": 9.32221916416176e-07,
      "loss": 0.0022,
      "step": 6537
    },
    {
      "epoch": 29.319729805797916,
      "grad_norm": 6.698549987049773e-05,
      "learning_rate": 9.171300715331565e-07,
      "loss": 0.0022,
      "step": 6538
    },
    {
      "epoch": 29.324233042499298,
      "grad_norm": 6.100075916037895e-05,
      "learning_rate": 9.021612752656006e-07,
      "loss": 0.0022,
      "step": 6539
    },
    {
      "epoch": 29.328736279200676,
      "grad_norm": 8.067875751294196e-05,
      "learning_rate": 8.87315531304056e-07,
      "loss": 0.0022,
      "step": 6540
    },
    {
      "epoch": 29.333239515902054,
      "grad_norm": 4.7702058509457856e-05,
      "learning_rate": 8.72592843308706e-07,
      "loss": 0.0021,
      "step": 6541
    },
    {
      "epoch": 29.337742752603432,
      "grad_norm": 2.7573210900300182e-05,
      "learning_rate": 8.579932149094249e-07,
      "loss": 0.0022,
      "step": 6542
    },
    {
      "epoch": 29.342245989304814,
      "grad_norm": 5.938380490988493e-05,
      "learning_rate": 8.435166497057223e-07,
      "loss": 0.0022,
      "step": 6543
    },
    {
      "epoch": 29.346749226006192,
      "grad_norm": 9.976707224268466e-05,
      "learning_rate": 8.291631512667985e-07,
      "loss": 0.0022,
      "step": 6544
    },
    {
      "epoch": 29.35125246270757,
      "grad_norm": 0.00010997755452990532,
      "learning_rate": 8.149327231315451e-07,
      "loss": 0.0022,
      "step": 6545
    },
    {
      "epoch": 29.35575569940895,
      "grad_norm": 3.193980592186563e-05,
      "learning_rate": 8.008253688084888e-07,
      "loss": 0.0022,
      "step": 6546
    },
    {
      "epoch": 29.36025893611033,
      "grad_norm": 2.931824383267667e-05,
      "learning_rate": 7.868410917756807e-07,
      "loss": 0.0022,
      "step": 6547
    },
    {
      "epoch": 29.36476217281171,
      "grad_norm": 2.5152417947538197e-05,
      "learning_rate": 7.729798954809742e-07,
      "loss": 0.0022,
      "step": 6548
    },
    {
      "epoch": 29.369265409513087,
      "grad_norm": 0.00010593779006740078,
      "learning_rate": 7.592417833419129e-07,
      "loss": 0.0022,
      "step": 6549
    },
    {
      "epoch": 29.373768646214465,
      "grad_norm": 0.00011022846592823043,
      "learning_rate": 7.456267587455101e-07,
      "loss": 0.0021,
      "step": 6550
    },
    {
      "epoch": 29.378271882915847,
      "grad_norm": 1.896727189887315e-05,
      "learning_rate": 7.32134825048636e-07,
      "loss": 0.0021,
      "step": 6551
    },
    {
      "epoch": 29.382775119617225,
      "grad_norm": 2.4430453777313232e-05,
      "learning_rate": 7.187659855776851e-07,
      "loss": 0.0022,
      "step": 6552
    },
    {
      "epoch": 29.387278356318603,
      "grad_norm": 3.1267762096831575e-05,
      "learning_rate": 7.055202436287434e-07,
      "loss": 0.0022,
      "step": 6553
    },
    {
      "epoch": 29.39178159301998,
      "grad_norm": 0.00013219185348134488,
      "learning_rate": 6.923976024675316e-07,
      "loss": 0.0022,
      "step": 6554
    },
    {
      "epoch": 29.396284829721363,
      "grad_norm": 1.2249380233697593e-05,
      "learning_rate": 6.793980653294063e-07,
      "loss": 0.0023,
      "step": 6555
    },
    {
      "epoch": 29.40078806642274,
      "grad_norm": 0.00021900024148635566,
      "learning_rate": 6.665216354194148e-07,
      "loss": 0.0023,
      "step": 6556
    },
    {
      "epoch": 29.40529130312412,
      "grad_norm": 0.00010051738354377449,
      "learning_rate": 6.537683159122954e-07,
      "loss": 0.0022,
      "step": 6557
    },
    {
      "epoch": 29.409794539825498,
      "grad_norm": 7.790523522999138e-05,
      "learning_rate": 6.411381099523106e-07,
      "loss": 0.0022,
      "step": 6558
    },
    {
      "epoch": 29.41429777652688,
      "grad_norm": 0.00010327451309422031,
      "learning_rate": 6.28631020653414e-07,
      "loss": 0.0022,
      "step": 6559
    },
    {
      "epoch": 29.418801013228258,
      "grad_norm": 2.8814853067160584e-05,
      "learning_rate": 6.162470510992502e-07,
      "loss": 0.0022,
      "step": 6560
    },
    {
      "epoch": 29.423304249929636,
      "grad_norm": 8.619180880486965e-05,
      "learning_rate": 6.039862043430988e-07,
      "loss": 0.0022,
      "step": 6561
    },
    {
      "epoch": 29.427807486631018,
      "grad_norm": 2.75460824923357e-05,
      "learning_rate": 5.918484834078197e-07,
      "loss": 0.0022,
      "step": 6562
    },
    {
      "epoch": 29.432310723332396,
      "grad_norm": 8.145755418809131e-05,
      "learning_rate": 5.798338912859636e-07,
      "loss": 0.0022,
      "step": 6563
    },
    {
      "epoch": 29.436813960033774,
      "grad_norm": 2.7560226953937672e-05,
      "learning_rate": 5.679424309398274e-07,
      "loss": 0.0022,
      "step": 6564
    },
    {
      "epoch": 29.441317196735152,
      "grad_norm": 0.00010372060933150351,
      "learning_rate": 5.561741053010661e-07,
      "loss": 0.0022,
      "step": 6565
    },
    {
      "epoch": 29.445820433436534,
      "grad_norm": 8.413064642809331e-05,
      "learning_rate": 5.445289172713031e-07,
      "loss": 0.0022,
      "step": 6566
    },
    {
      "epoch": 29.450323670137912,
      "grad_norm": 5.764745219494216e-05,
      "learning_rate": 5.33006869721575e-07,
      "loss": 0.0022,
      "step": 6567
    },
    {
      "epoch": 29.45482690683929,
      "grad_norm": 3.91036483051721e-05,
      "learning_rate": 5.216079654926653e-07,
      "loss": 0.0022,
      "step": 6568
    },
    {
      "epoch": 29.45933014354067,
      "grad_norm": 0.00016321298608090729,
      "learning_rate": 5.103322073949923e-07,
      "loss": 0.0024,
      "step": 6569
    },
    {
      "epoch": 29.46383338024205,
      "grad_norm": 0.0003228741989005357,
      "learning_rate": 4.991795982085546e-07,
      "loss": 0.0021,
      "step": 6570
    },
    {
      "epoch": 29.46833661694343,
      "grad_norm": 6.789406324969605e-05,
      "learning_rate": 4.881501406829858e-07,
      "loss": 0.0022,
      "step": 6571
    },
    {
      "epoch": 29.472839853644807,
      "grad_norm": 7.675847155041993e-05,
      "learning_rate": 4.772438375376664e-07,
      "loss": 0.0022,
      "step": 6572
    },
    {
      "epoch": 29.477343090346185,
      "grad_norm": 2.8811946322093718e-05,
      "learning_rate": 4.6646069146150106e-07,
      "loss": 0.0023,
      "step": 6573
    },
    {
      "epoch": 29.481846327047567,
      "grad_norm": 0.0001501487713539973,
      "learning_rate": 4.5580070511308526e-07,
      "loss": 0.0022,
      "step": 6574
    },
    {
      "epoch": 29.486349563748945,
      "grad_norm": 2.4462033252348192e-05,
      "learning_rate": 4.4526388112059446e-07,
      "loss": 0.0022,
      "step": 6575
    },
    {
      "epoch": 29.490852800450323,
      "grad_norm": 8.337506733369082e-05,
      "learning_rate": 4.348502220818951e-07,
      "loss": 0.0022,
      "step": 6576
    },
    {
      "epoch": 29.4953560371517,
      "grad_norm": 0.000173826192622073,
      "learning_rate": 4.2455973056454435e-07,
      "loss": 0.0022,
      "step": 6577
    },
    {
      "epoch": 29.499859273853083,
      "grad_norm": 6.102036786614917e-05,
      "learning_rate": 4.143924091055129e-07,
      "loss": 0.0022,
      "step": 6578
    },
    {
      "epoch": 29.50436251055446,
      "grad_norm": 0.00011884466221090406,
      "learning_rate": 4.0434826021168437e-07,
      "loss": 0.0022,
      "step": 6579
    },
    {
      "epoch": 29.50886574725584,
      "grad_norm": 9.624510130379349e-05,
      "learning_rate": 3.9442728635935565e-07,
      "loss": 0.0022,
      "step": 6580
    },
    {
      "epoch": 29.513368983957218,
      "grad_norm": 3.172445576637983e-05,
      "learning_rate": 3.846294899945701e-07,
      "loss": 0.0022,
      "step": 6581
    },
    {
      "epoch": 29.5178722206586,
      "grad_norm": 9.265319386031479e-05,
      "learning_rate": 3.749548735329511e-07,
      "loss": 0.0021,
      "step": 6582
    },
    {
      "epoch": 29.522375457359978,
      "grad_norm": 2.5030652977875434e-05,
      "learning_rate": 3.6540343935981267e-07,
      "loss": 0.0022,
      "step": 6583
    },
    {
      "epoch": 29.526878694061356,
      "grad_norm": 0.00019911715935450047,
      "learning_rate": 3.5597518982999346e-07,
      "loss": 0.0022,
      "step": 6584
    },
    {
      "epoch": 29.531381930762734,
      "grad_norm": 9.939631127053872e-05,
      "learning_rate": 3.4667012726802283e-07,
      "loss": 0.0021,
      "step": 6585
    },
    {
      "epoch": 29.535885167464116,
      "grad_norm": 2.01303992071189e-05,
      "learning_rate": 3.374882539681767e-07,
      "loss": 0.0021,
      "step": 6586
    },
    {
      "epoch": 29.540388404165494,
      "grad_norm": 0.0001045637545757927,
      "learning_rate": 3.284295721940889e-07,
      "loss": 0.0022,
      "step": 6587
    },
    {
      "epoch": 29.544891640866872,
      "grad_norm": 4.338076541898772e-05,
      "learning_rate": 3.194940841792504e-07,
      "loss": 0.0022,
      "step": 6588
    },
    {
      "epoch": 29.549394877568254,
      "grad_norm": 7.525023829657584e-05,
      "learning_rate": 3.106817921266769e-07,
      "loss": 0.0022,
      "step": 6589
    },
    {
      "epoch": 29.553898114269632,
      "grad_norm": 8.373793389182538e-05,
      "learning_rate": 3.0199269820907485e-07,
      "loss": 0.0023,
      "step": 6590
    },
    {
      "epoch": 29.55840135097101,
      "grad_norm": 0.0001115494524128735,
      "learning_rate": 2.93426804568675e-07,
      "loss": 0.0022,
      "step": 6591
    },
    {
      "epoch": 29.56290458767239,
      "grad_norm": 8.409715519519523e-05,
      "learning_rate": 2.8498411331745465e-07,
      "loss": 0.0022,
      "step": 6592
    },
    {
      "epoch": 29.56740782437377,
      "grad_norm": 6.303613918134943e-05,
      "learning_rate": 2.766646265369155e-07,
      "loss": 0.0022,
      "step": 6593
    },
    {
      "epoch": 29.57191106107515,
      "grad_norm": 7.083467789925635e-05,
      "learning_rate": 2.6846834627825e-07,
      "loss": 0.0021,
      "step": 6594
    },
    {
      "epoch": 29.576414297776527,
      "grad_norm": 7.760358857922256e-05,
      "learning_rate": 2.6039527456223065e-07,
      "loss": 0.0022,
      "step": 6595
    },
    {
      "epoch": 29.580917534477905,
      "grad_norm": 0.00014400093641597778,
      "learning_rate": 2.524454133792653e-07,
      "loss": 0.0022,
      "step": 6596
    },
    {
      "epoch": 29.585420771179287,
      "grad_norm": 8.679222082719207e-05,
      "learning_rate": 2.446187646893416e-07,
      "loss": 0.0022,
      "step": 6597
    },
    {
      "epoch": 29.589924007880665,
      "grad_norm": 3.566065788618289e-05,
      "learning_rate": 2.3691533042224932e-07,
      "loss": 0.0022,
      "step": 6598
    },
    {
      "epoch": 29.594427244582043,
      "grad_norm": 1.3914013834437355e-05,
      "learning_rate": 2.293351124771359e-07,
      "loss": 0.0021,
      "step": 6599
    },
    {
      "epoch": 29.59893048128342,
      "grad_norm": 9.875032992567867e-05,
      "learning_rate": 2.2187811272289527e-07,
      "loss": 0.0022,
      "step": 6600
    },
    {
      "epoch": 29.603433717984803,
      "grad_norm": 2.534707891754806e-05,
      "learning_rate": 2.1454433299816777e-07,
      "loss": 0.0023,
      "step": 6601
    },
    {
      "epoch": 29.60793695468618,
      "grad_norm": 0.00018278165953233838,
      "learning_rate": 2.0733377511100716e-07,
      "loss": 0.0022,
      "step": 6602
    },
    {
      "epoch": 29.61244019138756,
      "grad_norm": 2.9910457669757307e-05,
      "learning_rate": 2.002464408392135e-07,
      "loss": 0.0022,
      "step": 6603
    },
    {
      "epoch": 29.616943428088938,
      "grad_norm": 8.974869706435129e-05,
      "learning_rate": 1.9328233193011135e-07,
      "loss": 0.0023,
      "step": 6604
    },
    {
      "epoch": 29.62144666479032,
      "grad_norm": 0.00010055530583485961,
      "learning_rate": 1.8644145010071612e-07,
      "loss": 0.0022,
      "step": 6605
    },
    {
      "epoch": 29.625949901491698,
      "grad_norm": 0.00012590795813594013,
      "learning_rate": 1.797237970376231e-07,
      "loss": 0.0022,
      "step": 6606
    },
    {
      "epoch": 29.630453138193076,
      "grad_norm": 8.860898378770798e-05,
      "learning_rate": 1.7312937439717403e-07,
      "loss": 0.0022,
      "step": 6607
    },
    {
      "epoch": 29.634956374894454,
      "grad_norm": 0.00012386892922222614,
      "learning_rate": 1.6665818380506848e-07,
      "loss": 0.0022,
      "step": 6608
    },
    {
      "epoch": 29.639459611595836,
      "grad_norm": 0.00015411626372952014,
      "learning_rate": 1.60310226856919e-07,
      "loss": 0.0022,
      "step": 6609
    },
    {
      "epoch": 29.643962848297214,
      "grad_norm": 7.884842489147559e-05,
      "learning_rate": 1.5408550511769591e-07,
      "loss": 0.0022,
      "step": 6610
    },
    {
      "epoch": 29.648466084998592,
      "grad_norm": 3.6997600545873865e-05,
      "learning_rate": 1.4798402012217162e-07,
      "loss": 0.0023,
      "step": 6611
    },
    {
      "epoch": 29.65296932169997,
      "grad_norm": 0.00011074442591052502,
      "learning_rate": 1.420057733746427e-07,
      "loss": 0.0022,
      "step": 6612
    },
    {
      "epoch": 29.657472558401352,
      "grad_norm": 0.0001820136676542461,
      "learning_rate": 1.3615076634898582e-07,
      "loss": 0.0021,
      "step": 6613
    },
    {
      "epoch": 29.66197579510273,
      "grad_norm": 6.979729369049892e-05,
      "learning_rate": 1.3041900048887944e-07,
      "loss": 0.0022,
      "step": 6614
    },
    {
      "epoch": 29.66647903180411,
      "grad_norm": 0.00016674546350259334,
      "learning_rate": 1.2481047720735994e-07,
      "loss": 0.0022,
      "step": 6615
    },
    {
      "epoch": 29.670982268505487,
      "grad_norm": 0.00010612720507197082,
      "learning_rate": 1.193251978872656e-07,
      "loss": 0.0021,
      "step": 6616
    },
    {
      "epoch": 29.67548550520687,
      "grad_norm": 2.051512274192646e-05,
      "learning_rate": 1.1396316388101458e-07,
      "loss": 0.0022,
      "step": 6617
    },
    {
      "epoch": 29.679988741908247,
      "grad_norm": 9.629121632315218e-05,
      "learning_rate": 1.0872437651054946e-07,
      "loss": 0.0021,
      "step": 6618
    },
    {
      "epoch": 29.684491978609625,
      "grad_norm": 6.981081241974607e-05,
      "learning_rate": 1.0360883706750368e-07,
      "loss": 0.0021,
      "step": 6619
    },
    {
      "epoch": 29.688995215311003,
      "grad_norm": 6.621499778702855e-05,
      "learning_rate": 9.861654681314613e-08,
      "loss": 0.0023,
      "step": 6620
    },
    {
      "epoch": 29.693498452012385,
      "grad_norm": 0.0001488194684498012,
      "learning_rate": 9.374750697832556e-08,
      "loss": 0.0022,
      "step": 6621
    },
    {
      "epoch": 29.698001688713763,
      "grad_norm": 0.00012457456614356488,
      "learning_rate": 8.900171876341511e-08,
      "loss": 0.0022,
      "step": 6622
    },
    {
      "epoch": 29.70250492541514,
      "grad_norm": 5.5812288337619975e-05,
      "learning_rate": 8.437918333864537e-08,
      "loss": 0.0022,
      "step": 6623
    },
    {
      "epoch": 29.707008162116523,
      "grad_norm": 0.00012077356950612739,
      "learning_rate": 7.98799018435492e-08,
      "loss": 0.0024,
      "step": 6624
    },
    {
      "epoch": 29.7115113988179,
      "grad_norm": 0.0002668149536475539,
      "learning_rate": 7.55038753874615e-08,
      "loss": 0.0022,
      "step": 6625
    },
    {
      "epoch": 29.71601463551928,
      "grad_norm": 5.832700480823405e-05,
      "learning_rate": 7.125110504935251e-08,
      "loss": 0.0022,
      "step": 6626
    },
    {
      "epoch": 29.720517872220658,
      "grad_norm": 6.642799417022616e-05,
      "learning_rate": 6.712159187766131e-08,
      "loss": 0.0021,
      "step": 6627
    },
    {
      "epoch": 29.72502110892204,
      "grad_norm": 2.019223575189244e-05,
      "learning_rate": 6.311533689057347e-08,
      "loss": 0.0023,
      "step": 6628
    },
    {
      "epoch": 29.729524345623418,
      "grad_norm": 7.420987822115421e-05,
      "learning_rate": 5.923234107579889e-08,
      "loss": 0.0022,
      "step": 6629
    },
    {
      "epoch": 29.734027582324796,
      "grad_norm": 9.722325921757147e-05,
      "learning_rate": 5.547260539068288e-08,
      "loss": 0.0022,
      "step": 6630
    },
    {
      "epoch": 29.738530819026174,
      "grad_norm": 9.326254803454503e-05,
      "learning_rate": 5.183613076220617e-08,
      "loss": 0.0022,
      "step": 6631
    },
    {
      "epoch": 29.743034055727556,
      "grad_norm": 7.154535705922171e-05,
      "learning_rate": 4.8322918086929346e-08,
      "loss": 0.0022,
      "step": 6632
    },
    {
      "epoch": 29.747537292428934,
      "grad_norm": 2.916670018748846e-05,
      "learning_rate": 4.493296823104842e-08,
      "loss": 0.0023,
      "step": 6633
    },
    {
      "epoch": 29.752040529130312,
      "grad_norm": 0.00011617870768532157,
      "learning_rate": 4.1666282030339285e-08,
      "loss": 0.0022,
      "step": 6634
    },
    {
      "epoch": 29.75654376583169,
      "grad_norm": 4.848737808060832e-05,
      "learning_rate": 3.8522860290213236e-08,
      "loss": 0.0021,
      "step": 6635
    },
    {
      "epoch": 29.761047002533072,
      "grad_norm": 6.306167779257521e-05,
      "learning_rate": 3.550270378560594e-08,
      "loss": 0.0023,
      "step": 6636
    },
    {
      "epoch": 29.76555023923445,
      "grad_norm": 0.0001951760204974562,
      "learning_rate": 3.2605813261255e-08,
      "loss": 0.0022,
      "step": 6637
    },
    {
      "epoch": 29.77005347593583,
      "grad_norm": 2.78046809398802e-05,
      "learning_rate": 2.98321894313669e-08,
      "loss": 0.0022,
      "step": 6638
    },
    {
      "epoch": 29.774556712637207,
      "grad_norm": 6.467171624535695e-05,
      "learning_rate": 2.718183297967247e-08,
      "loss": 0.0022,
      "step": 6639
    },
    {
      "epoch": 29.77905994933859,
      "grad_norm": 0.00012049457291141152,
      "learning_rate": 2.465474455970451e-08,
      "loss": 0.0022,
      "step": 6640
    },
    {
      "epoch": 29.783563186039967,
      "grad_norm": 2.2418005755753256e-05,
      "learning_rate": 2.2250924794520178e-08,
      "loss": 0.0021,
      "step": 6641
    },
    {
      "epoch": 29.788066422741345,
      "grad_norm": 3.6064393498236313e-05,
      "learning_rate": 1.997037427675652e-08,
      "loss": 0.0023,
      "step": 6642
    },
    {
      "epoch": 29.792569659442723,
      "grad_norm": 0.00013385283818934113,
      "learning_rate": 1.7813093568630478e-08,
      "loss": 0.0022,
      "step": 6643
    },
    {
      "epoch": 29.797072896144105,
      "grad_norm": 2.216328721260652e-05,
      "learning_rate": 1.5779083202105415e-08,
      "loss": 0.0022,
      "step": 6644
    },
    {
      "epoch": 29.801576132845483,
      "grad_norm": 0.00014087495219428092,
      "learning_rate": 1.386834367861356e-08,
      "loss": 0.0023,
      "step": 6645
    },
    {
      "epoch": 29.80607936954686,
      "grad_norm": 0.00010212386405328289,
      "learning_rate": 1.2080875469278051e-08,
      "loss": 0.0023,
      "step": 6646
    },
    {
      "epoch": 29.81058260624824,
      "grad_norm": 6.313216726994142e-05,
      "learning_rate": 1.0416679014801922e-08,
      "loss": 0.0023,
      "step": 6647
    },
    {
      "epoch": 29.81508584294962,
      "grad_norm": 8.314530714415014e-05,
      "learning_rate": 8.875754725412577e-09,
      "loss": 0.0022,
      "step": 6648
    },
    {
      "epoch": 29.819589079651,
      "grad_norm": 0.0001355277927359566,
      "learning_rate": 7.458102981139358e-09,
      "loss": 0.0022,
      "step": 6649
    },
    {
      "epoch": 29.824092316352377,
      "grad_norm": 6.680630031041801e-05,
      "learning_rate": 6.163724131424964e-09,
      "loss": 0.0022,
      "step": 6650
    },
    {
      "epoch": 29.82859555305376,
      "grad_norm": 2.3835780666559003e-05,
      "learning_rate": 4.9926184954030004e-09,
      "loss": 0.0022,
      "step": 6651
    },
    {
      "epoch": 29.833098789755137,
      "grad_norm": 0.0001293312816414982,
      "learning_rate": 3.944786361842478e-09,
      "loss": 0.0023,
      "step": 6652
    },
    {
      "epoch": 29.837602026456516,
      "grad_norm": 7.158390508266166e-05,
      "learning_rate": 3.0202279890922946e-09,
      "loss": 0.0022,
      "step": 6653
    },
    {
      "epoch": 29.842105263157894,
      "grad_norm": 1.970880839508027e-05,
      "learning_rate": 2.218943605081236e-09,
      "loss": 0.0022,
      "step": 6654
    },
    {
      "epoch": 29.846608499859276,
      "grad_norm": 0.00011115320376120508,
      "learning_rate": 1.5409334073179792e-09,
      "loss": 0.0022,
      "step": 6655
    },
    {
      "epoch": 29.851111736560654,
      "grad_norm": 8.730151603231207e-05,
      "learning_rate": 9.861975630576225e-10,
      "loss": 0.0022,
      "step": 6656
    },
    {
      "epoch": 29.855614973262032,
      "grad_norm": 8.672582043800503e-05,
      "learning_rate": 5.547362090241315e-10,
      "loss": 0.0022,
      "step": 6657
    },
    {
      "epoch": 29.86011820996341,
      "grad_norm": 2.4339235096704215e-05,
      "learning_rate": 2.465494515768718e-10,
      "loss": 0.0021,
      "step": 6658
    },
    {
      "epoch": 29.864621446664792,
      "grad_norm": 7.564695260953158e-05,
      "learning_rate": 6.16373667106096e-11,
      "loss": 0.0023,
      "step": 6659
    },
    {
      "epoch": 29.86912468336617,
      "grad_norm": 0.00014020972594153136,
      "learning_rate": 0.0,
      "loss": 0.0023,
      "step": 6660
    },
    {
      "epoch": 29.86912468336617,
      "eval_f1": 0.9866933466733366,
      "eval_loss": 0.04116480425000191,
      "eval_runtime": 27.0219,
      "eval_samples_per_second": 184.961,
      "eval_steps_per_second": 5.81,
      "step": 6660
    },
    {
      "epoch": 29.86912468336617,
      "step": 6660,
      "total_flos": 6.416188329447916e+18,
      "train_loss": 0.47501611844734387,
      "train_runtime": 78338.6368,
      "train_samples_per_second": 87.08,
      "train_steps_per_second": 0.085
    }
  ],
  "logging_steps": 1,
  "max_steps": 6660,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 30,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.416188329447916e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}