{
  "best_metric": 12.307980517047582,
  "best_model_checkpoint": "./checkpoint-10000",
  "epoch": 1.0,
  "eval_steps": 1000,
  "global_step": 10000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0025,
      "grad_norm": 20.66425132751465,
      "learning_rate": 1.1e-06,
      "loss": 3.1217,
      "step": 25
    },
    {
      "epoch": 0.005,
      "grad_norm": 10.962828636169434,
      "learning_rate": 2.35e-06,
      "loss": 2.3804,
      "step": 50
    },
    {
      "epoch": 0.0075,
      "grad_norm": 9.967100143432617,
      "learning_rate": 3.6e-06,
      "loss": 1.546,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.833068370819092,
      "learning_rate": 4.85e-06,
      "loss": 1.1938,
      "step": 100
    },
    {
      "epoch": 0.0125,
      "grad_norm": 6.779320240020752,
      "learning_rate": 6.1e-06,
      "loss": 0.9869,
      "step": 125
    },
    {
      "epoch": 0.015,
      "grad_norm": 6.599488735198975,
      "learning_rate": 7.35e-06,
      "loss": 0.8336,
      "step": 150
    },
    {
      "epoch": 0.0175,
      "grad_norm": 6.097827911376953,
      "learning_rate": 8.599999999999999e-06,
      "loss": 0.7657,
      "step": 175
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.401536464691162,
      "learning_rate": 9.85e-06,
      "loss": 0.7115,
      "step": 200
    },
    {
      "epoch": 0.0225,
      "grad_norm": 4.918787479400635,
      "learning_rate": 1.11e-05,
      "loss": 0.6108,
      "step": 225
    },
    {
      "epoch": 0.025,
      "grad_norm": 7.6149492263793945,
      "learning_rate": 1.235e-05,
      "loss": 0.6382,
      "step": 250
    },
    {
      "epoch": 0.0275,
      "grad_norm": 6.412052631378174,
      "learning_rate": 1.3600000000000002e-05,
      "loss": 0.6505,
      "step": 275
    },
    {
      "epoch": 0.03,
      "grad_norm": 6.510907173156738,
      "learning_rate": 1.485e-05,
      "loss": 0.6308,
      "step": 300
    },
    {
      "epoch": 0.0325,
      "grad_norm": 5.585999965667725,
      "learning_rate": 1.6100000000000002e-05,
      "loss": 0.5634,
      "step": 325
    },
    {
      "epoch": 0.035,
      "grad_norm": 5.468475341796875,
      "learning_rate": 1.7349999999999998e-05,
      "loss": 0.488,
      "step": 350
    },
    {
      "epoch": 0.0375,
      "grad_norm": 5.375606536865234,
      "learning_rate": 1.86e-05,
      "loss": 0.4121,
      "step": 375
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.386756896972656,
      "learning_rate": 1.985e-05,
      "loss": 0.4017,
      "step": 400
    },
    {
      "epoch": 0.0425,
      "grad_norm": 4.322641372680664,
      "learning_rate": 2.11e-05,
      "loss": 0.3617,
      "step": 425
    },
    {
      "epoch": 0.045,
      "grad_norm": 4.434195041656494,
      "learning_rate": 2.235e-05,
      "loss": 0.3469,
      "step": 450
    },
    {
      "epoch": 0.0475,
      "grad_norm": 4.9860920906066895,
      "learning_rate": 2.36e-05,
      "loss": 0.331,
      "step": 475
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.9041032791137695,
      "learning_rate": 2.485e-05,
      "loss": 0.3101,
      "step": 500
    },
    {
      "epoch": 0.0525,
      "grad_norm": 5.439699649810791,
      "learning_rate": 2.4942105263157897e-05,
      "loss": 0.2881,
      "step": 525
    },
    {
      "epoch": 0.055,
      "grad_norm": 3.6921448707580566,
      "learning_rate": 2.4876315789473686e-05,
      "loss": 0.2906,
      "step": 550
    },
    {
      "epoch": 0.0575,
      "grad_norm": 4.33128547668457,
      "learning_rate": 2.4810526315789475e-05,
      "loss": 0.2762,
      "step": 575
    },
    {
      "epoch": 0.06,
      "grad_norm": 5.252212047576904,
      "learning_rate": 2.4744736842105264e-05,
      "loss": 0.2692,
      "step": 600
    },
    {
      "epoch": 0.0625,
      "grad_norm": 4.352893829345703,
      "learning_rate": 2.4678947368421053e-05,
      "loss": 0.2429,
      "step": 625
    },
    {
      "epoch": 0.065,
      "grad_norm": 3.3367650508880615,
      "learning_rate": 2.4613157894736842e-05,
      "loss": 0.2587,
      "step": 650
    },
    {
      "epoch": 0.0675,
      "grad_norm": 3.517099618911743,
      "learning_rate": 2.454736842105263e-05,
      "loss": 0.2484,
      "step": 675
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.486610412597656,
      "learning_rate": 2.448157894736842e-05,
      "loss": 0.2544,
      "step": 700
    },
    {
      "epoch": 0.0725,
      "grad_norm": 6.344348430633545,
      "learning_rate": 2.441578947368421e-05,
      "loss": 0.2895,
      "step": 725
    },
    {
      "epoch": 0.075,
      "grad_norm": 5.6651530265808105,
      "learning_rate": 2.435e-05,
      "loss": 0.4015,
      "step": 750
    },
    {
      "epoch": 0.0775,
      "grad_norm": 5.023654937744141,
      "learning_rate": 2.428421052631579e-05,
      "loss": 0.3926,
      "step": 775
    },
    {
      "epoch": 0.08,
      "grad_norm": 5.747288703918457,
      "learning_rate": 2.421842105263158e-05,
      "loss": 0.4282,
      "step": 800
    },
    {
      "epoch": 0.0825,
      "grad_norm": 3.902658700942993,
      "learning_rate": 2.415263157894737e-05,
      "loss": 0.2929,
      "step": 825
    },
    {
      "epoch": 0.085,
      "grad_norm": 3.1161112785339355,
      "learning_rate": 2.408684210526316e-05,
      "loss": 0.2316,
      "step": 850
    },
    {
      "epoch": 0.0875,
      "grad_norm": 3.6460275650024414,
      "learning_rate": 2.402105263157895e-05,
      "loss": 0.2167,
      "step": 875
    },
    {
      "epoch": 0.09,
      "grad_norm": 5.112854480743408,
      "learning_rate": 2.395526315789474e-05,
      "loss": 0.3073,
      "step": 900
    },
    {
      "epoch": 0.0925,
      "grad_norm": 5.572996139526367,
      "learning_rate": 2.388947368421053e-05,
      "loss": 0.3637,
      "step": 925
    },
    {
      "epoch": 0.095,
      "grad_norm": 5.3848490715026855,
      "learning_rate": 2.382368421052632e-05,
      "loss": 0.3493,
      "step": 950
    },
    {
      "epoch": 0.0975,
      "grad_norm": 6.014389991760254,
      "learning_rate": 2.3757894736842108e-05,
      "loss": 0.5539,
      "step": 975
    },
    {
      "epoch": 0.1,
      "grad_norm": 6.122930526733398,
      "learning_rate": 2.3692105263157897e-05,
      "loss": 0.4816,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.513611376285553,
      "eval_runtime": 50.853,
      "eval_samples_per_second": 33.253,
      "eval_steps_per_second": 2.084,
      "eval_wer": 25.752466591732237,
      "step": 1000
    },
    {
      "epoch": 0.1025,
      "grad_norm": 5.829473495483398,
      "learning_rate": 2.3626315789473686e-05,
      "loss": 0.3987,
      "step": 1025
    },
    {
      "epoch": 0.105,
      "grad_norm": 4.1634039878845215,
      "learning_rate": 2.3560526315789475e-05,
      "loss": 0.3008,
      "step": 1050
    },
    {
      "epoch": 0.1075,
      "grad_norm": 3.4256279468536377,
      "learning_rate": 2.3494736842105264e-05,
      "loss": 0.2114,
      "step": 1075
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.1974499225616455,
      "learning_rate": 2.3428947368421053e-05,
      "loss": 0.1819,
      "step": 1100
    },
    {
      "epoch": 0.1125,
      "grad_norm": 3.0676839351654053,
      "learning_rate": 2.3363157894736843e-05,
      "loss": 0.1678,
      "step": 1125
    },
    {
      "epoch": 0.115,
      "grad_norm": 3.030893087387085,
      "learning_rate": 2.329736842105263e-05,
      "loss": 0.1886,
      "step": 1150
    },
    {
      "epoch": 0.1175,
      "grad_norm": 3.1832079887390137,
      "learning_rate": 2.323157894736842e-05,
      "loss": 0.1941,
      "step": 1175
    },
    {
      "epoch": 0.12,
      "grad_norm": 4.08896541595459,
      "learning_rate": 2.3165789473684213e-05,
      "loss": 0.1822,
      "step": 1200
    },
    {
      "epoch": 0.1225,
      "grad_norm": 4.830000400543213,
      "learning_rate": 2.3100000000000002e-05,
      "loss": 0.2749,
      "step": 1225
    },
    {
      "epoch": 0.125,
      "grad_norm": 4.692865371704102,
      "learning_rate": 2.303421052631579e-05,
      "loss": 0.2947,
      "step": 1250
    },
    {
      "epoch": 0.1275,
      "grad_norm": 4.8690571784973145,
      "learning_rate": 2.296842105263158e-05,
      "loss": 0.3171,
      "step": 1275
    },
    {
      "epoch": 0.13,
      "grad_norm": 5.469560623168945,
      "learning_rate": 2.290263157894737e-05,
      "loss": 0.3374,
      "step": 1300
    },
    {
      "epoch": 0.1325,
      "grad_norm": 5.263423919677734,
      "learning_rate": 2.283684210526316e-05,
      "loss": 0.2969,
      "step": 1325
    },
    {
      "epoch": 0.135,
      "grad_norm": 4.6988983154296875,
      "learning_rate": 2.2771052631578948e-05,
      "loss": 0.3016,
      "step": 1350
    },
    {
      "epoch": 0.1375,
      "grad_norm": 5.226208209991455,
      "learning_rate": 2.2705263157894737e-05,
      "loss": 0.2781,
      "step": 1375
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.410859107971191,
      "learning_rate": 2.2639473684210526e-05,
      "loss": 0.2711,
      "step": 1400
    },
    {
      "epoch": 0.1425,
      "grad_norm": 4.244476318359375,
      "learning_rate": 2.2573684210526315e-05,
      "loss": 0.2781,
      "step": 1425
    },
    {
      "epoch": 0.145,
      "grad_norm": 3.670611619949341,
      "learning_rate": 2.2507894736842105e-05,
      "loss": 0.2651,
      "step": 1450
    },
    {
      "epoch": 0.1475,
      "grad_norm": 2.861996650695801,
      "learning_rate": 2.2442105263157894e-05,
      "loss": 0.1924,
      "step": 1475
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.5922746658325195,
      "learning_rate": 2.2376315789473683e-05,
      "loss": 0.1704,
      "step": 1500
    },
    {
      "epoch": 0.1525,
      "grad_norm": 2.853532552719116,
      "learning_rate": 2.2310526315789472e-05,
      "loss": 0.1766,
      "step": 1525
    },
    {
      "epoch": 0.155,
      "grad_norm": 4.346705913543701,
      "learning_rate": 2.2244736842105264e-05,
      "loss": 0.1725,
      "step": 1550
    },
    {
      "epoch": 0.1575,
      "grad_norm": 3.504809856414795,
      "learning_rate": 2.2178947368421054e-05,
      "loss": 0.1531,
      "step": 1575
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.0613338947296143,
      "learning_rate": 2.2113157894736843e-05,
      "loss": 0.1583,
      "step": 1600
    },
    {
      "epoch": 0.1625,
      "grad_norm": 3.996514320373535,
      "learning_rate": 2.2047368421052632e-05,
      "loss": 0.2377,
      "step": 1625
    },
    {
      "epoch": 0.165,
      "grad_norm": 4.162107467651367,
      "learning_rate": 2.198157894736842e-05,
      "loss": 0.2492,
      "step": 1650
    },
    {
      "epoch": 0.1675,
      "grad_norm": 5.007922172546387,
      "learning_rate": 2.1915789473684213e-05,
      "loss": 0.2558,
      "step": 1675
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.683666944503784,
      "learning_rate": 2.1850000000000003e-05,
      "loss": 0.2413,
      "step": 1700
    },
    {
      "epoch": 0.1725,
      "grad_norm": 3.344407320022583,
      "learning_rate": 2.178421052631579e-05,
      "loss": 0.1907,
      "step": 1725
    },
    {
      "epoch": 0.175,
      "grad_norm": 4.3516035079956055,
      "learning_rate": 2.171842105263158e-05,
      "loss": 0.1848,
      "step": 1750
    },
    {
      "epoch": 0.1775,
      "grad_norm": 3.406522035598755,
      "learning_rate": 2.165263157894737e-05,
      "loss": 0.1558,
      "step": 1775
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.0335240364074707,
      "learning_rate": 2.158684210526316e-05,
      "loss": 0.1641,
      "step": 1800
    },
    {
      "epoch": 0.1825,
      "grad_norm": 2.9874353408813477,
      "learning_rate": 2.1521052631578948e-05,
      "loss": 0.1537,
      "step": 1825
    },
    {
      "epoch": 0.185,
      "grad_norm": 2.5093448162078857,
      "learning_rate": 2.1455263157894737e-05,
      "loss": 0.149,
      "step": 1850
    },
    {
      "epoch": 0.1875,
      "grad_norm": 3.172337532043457,
      "learning_rate": 2.138947368421053e-05,
      "loss": 0.1456,
      "step": 1875
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.346684455871582,
      "learning_rate": 2.132368421052632e-05,
      "loss": 0.1464,
      "step": 1900
    },
    {
      "epoch": 0.1925,
      "grad_norm": 2.3370494842529297,
      "learning_rate": 2.1257894736842108e-05,
      "loss": 0.1414,
      "step": 1925
    },
    {
      "epoch": 0.195,
      "grad_norm": 4.008378505706787,
      "learning_rate": 2.1192105263157897e-05,
      "loss": 0.1927,
      "step": 1950
    },
    {
      "epoch": 0.1975,
      "grad_norm": 4.25955867767334,
      "learning_rate": 2.1126315789473686e-05,
      "loss": 0.2604,
      "step": 1975
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.2033305168151855,
      "learning_rate": 2.1060526315789475e-05,
      "loss": 0.2515,
      "step": 2000
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.4336438775062561,
      "eval_runtime": 50.4135,
      "eval_samples_per_second": 33.543,
      "eval_steps_per_second": 2.103,
      "eval_wer": 19.99500437117522,
      "step": 2000
    },
    {
      "epoch": 0.2025,
      "grad_norm": 3.966740131378174,
      "learning_rate": 2.0994736842105265e-05,
      "loss": 0.2106,
      "step": 2025
    },
    {
      "epoch": 0.205,
      "grad_norm": 4.607847690582275,
      "learning_rate": 2.0928947368421054e-05,
      "loss": 0.1458,
      "step": 2050
    },
    {
      "epoch": 0.2075,
      "grad_norm": 3.091517925262451,
      "learning_rate": 2.0863157894736843e-05,
      "loss": 0.1402,
      "step": 2075
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.76373028755188,
      "learning_rate": 2.0797368421052632e-05,
      "loss": 0.1436,
      "step": 2100
    },
    {
      "epoch": 0.2125,
      "grad_norm": 3.131234884262085,
      "learning_rate": 2.073157894736842e-05,
      "loss": 0.1245,
      "step": 2125
    },
    {
      "epoch": 0.215,
      "grad_norm": 2.7513225078582764,
      "learning_rate": 2.066578947368421e-05,
      "loss": 0.1235,
      "step": 2150
    },
    {
      "epoch": 0.2175,
      "grad_norm": 3.4547324180603027,
      "learning_rate": 2.06e-05,
      "loss": 0.1264,
      "step": 2175
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.542309522628784,
      "learning_rate": 2.053421052631579e-05,
      "loss": 0.2194,
      "step": 2200
    },
    {
      "epoch": 0.2225,
      "grad_norm": 4.416931629180908,
      "learning_rate": 2.046842105263158e-05,
      "loss": 0.2266,
      "step": 2225
    },
    {
      "epoch": 0.225,
      "grad_norm": 4.454063415527344,
      "learning_rate": 2.040263157894737e-05,
      "loss": 0.2448,
      "step": 2250
    },
    {
      "epoch": 0.2275,
      "grad_norm": 3.1339340209960938,
      "learning_rate": 2.033684210526316e-05,
      "loss": 0.1677,
      "step": 2275
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.6697356700897217,
      "learning_rate": 2.0271052631578948e-05,
      "loss": 0.123,
      "step": 2300
    },
    {
      "epoch": 0.2325,
      "grad_norm": 3.379664182662964,
      "learning_rate": 2.0205263157894737e-05,
      "loss": 0.1138,
      "step": 2325
    },
    {
      "epoch": 0.235,
      "grad_norm": 2.677241325378418,
      "learning_rate": 2.0139473684210527e-05,
      "loss": 0.1169,
      "step": 2350
    },
    {
      "epoch": 0.2375,
      "grad_norm": 2.45304799079895,
      "learning_rate": 2.0073684210526316e-05,
      "loss": 0.1218,
      "step": 2375
    },
    {
      "epoch": 0.24,
      "grad_norm": 5.708258628845215,
      "learning_rate": 2.0007894736842105e-05,
      "loss": 0.1217,
      "step": 2400
    },
    {
      "epoch": 0.2425,
      "grad_norm": 2.341142177581787,
      "learning_rate": 1.9942105263157894e-05,
      "loss": 0.1286,
      "step": 2425
    },
    {
      "epoch": 0.245,
      "grad_norm": 2.293227434158325,
      "learning_rate": 1.9876315789473683e-05,
      "loss": 0.1213,
      "step": 2450
    },
    {
      "epoch": 0.2475,
      "grad_norm": 2.5403645038604736,
      "learning_rate": 1.9810526315789472e-05,
      "loss": 0.1296,
      "step": 2475
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.274874448776245,
      "learning_rate": 1.9744736842105265e-05,
      "loss": 0.1471,
      "step": 2500
    },
    {
      "epoch": 0.2525,
      "grad_norm": 3.9522368907928467,
      "learning_rate": 1.9678947368421054e-05,
      "loss": 0.1988,
      "step": 2525
    },
    {
      "epoch": 0.255,
      "grad_norm": 3.700836658477783,
      "learning_rate": 1.9613157894736843e-05,
      "loss": 0.1886,
      "step": 2550
    },
    {
      "epoch": 0.2575,
      "grad_norm": 3.8419880867004395,
      "learning_rate": 1.9547368421052632e-05,
      "loss": 0.2244,
      "step": 2575
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.85577130317688,
      "learning_rate": 1.9481578947368425e-05,
      "loss": 0.1648,
      "step": 2600
    },
    {
      "epoch": 0.2625,
      "grad_norm": 3.4031693935394287,
      "learning_rate": 1.9415789473684214e-05,
      "loss": 0.1355,
      "step": 2625
    },
    {
      "epoch": 0.265,
      "grad_norm": 2.5746467113494873,
      "learning_rate": 1.9350000000000003e-05,
      "loss": 0.1225,
      "step": 2650
    },
    {
      "epoch": 0.2675,
      "grad_norm": 4.394095420837402,
      "learning_rate": 1.9284210526315792e-05,
      "loss": 0.1159,
      "step": 2675
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.3961875438690186,
      "learning_rate": 1.921842105263158e-05,
      "loss": 0.1191,
      "step": 2700
    },
    {
      "epoch": 0.2725,
      "grad_norm": 3.188430070877075,
      "learning_rate": 1.915263157894737e-05,
      "loss": 0.14,
      "step": 2725
    },
    {
      "epoch": 0.275,
      "grad_norm": 3.4510505199432373,
      "learning_rate": 1.908684210526316e-05,
      "loss": 0.142,
      "step": 2750
    },
    {
      "epoch": 0.2775,
      "grad_norm": 4.626753807067871,
      "learning_rate": 1.902105263157895e-05,
      "loss": 0.2631,
      "step": 2775
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.846059799194336,
      "learning_rate": 1.8955263157894738e-05,
      "loss": 0.2364,
      "step": 2800
    },
    {
      "epoch": 0.2825,
      "grad_norm": 4.325892925262451,
      "learning_rate": 1.8889473684210527e-05,
      "loss": 0.2073,
      "step": 2825
    },
    {
      "epoch": 0.285,
      "grad_norm": 3.4237799644470215,
      "learning_rate": 1.8823684210526316e-05,
      "loss": 0.2088,
      "step": 2850
    },
    {
      "epoch": 0.2875,
      "grad_norm": 3.6403746604919434,
      "learning_rate": 1.8757894736842105e-05,
      "loss": 0.2092,
      "step": 2875
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.4176881313323975,
      "learning_rate": 1.8692105263157897e-05,
      "loss": 0.1984,
      "step": 2900
    },
    {
      "epoch": 0.2925,
      "grad_norm": 2.5348989963531494,
      "learning_rate": 1.8626315789473687e-05,
      "loss": 0.1549,
      "step": 2925
    },
    {
      "epoch": 0.295,
      "grad_norm": 2.551673173904419,
      "learning_rate": 1.8560526315789476e-05,
      "loss": 0.1225,
      "step": 2950
    },
    {
      "epoch": 0.2975,
      "grad_norm": 2.939521074295044,
      "learning_rate": 1.8494736842105265e-05,
      "loss": 0.1277,
      "step": 2975
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.426952600479126,
      "learning_rate": 1.8428947368421054e-05,
      "loss": 0.1792,
      "step": 3000
    },
    {
      "epoch": 0.3,
      "eval_loss": 0.405368447303772,
      "eval_runtime": 50.9273,
      "eval_samples_per_second": 33.204,
      "eval_steps_per_second": 2.081,
      "eval_wer": 17.640814287498436,
      "step": 3000
    },
    {
      "epoch": 0.3025,
      "grad_norm": 4.513154983520508,
      "learning_rate": 1.8363157894736843e-05,
      "loss": 0.2199,
      "step": 3025
    },
    {
      "epoch": 0.305,
      "grad_norm": 4.8893208503723145,
      "learning_rate": 1.8297368421052632e-05,
      "loss": 0.2479,
      "step": 3050
    },
    {
      "epoch": 0.3075,
      "grad_norm": 3.0891120433807373,
      "learning_rate": 1.823157894736842e-05,
      "loss": 0.1728,
      "step": 3075
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.2200894355773926,
      "learning_rate": 1.816578947368421e-05,
      "loss": 0.1299,
      "step": 3100
    },
    {
      "epoch": 0.3125,
      "grad_norm": 2.606245517730713,
      "learning_rate": 1.81e-05,
      "loss": 0.1181,
      "step": 3125
    },
    {
      "epoch": 0.315,
      "grad_norm": 3.5022218227386475,
      "learning_rate": 1.803421052631579e-05,
      "loss": 0.1426,
      "step": 3150
    },
    {
      "epoch": 0.3175,
      "grad_norm": 3.6949498653411865,
      "learning_rate": 1.7968421052631578e-05,
      "loss": 0.2194,
      "step": 3175
    },
    {
      "epoch": 0.32,
      "grad_norm": 4.26692533493042,
      "learning_rate": 1.7902631578947367e-05,
      "loss": 0.1984,
      "step": 3200
    },
    {
      "epoch": 0.3225,
      "grad_norm": 4.208311080932617,
      "learning_rate": 1.783684210526316e-05,
      "loss": 0.2165,
      "step": 3225
    },
    {
      "epoch": 0.325,
      "grad_norm": 3.339872360229492,
      "learning_rate": 1.777105263157895e-05,
      "loss": 0.1719,
      "step": 3250
    },
    {
      "epoch": 0.3275,
      "grad_norm": 4.028900623321533,
      "learning_rate": 1.7705263157894738e-05,
      "loss": 0.1824,
      "step": 3275
    },
    {
      "epoch": 0.33,
      "grad_norm": 2.662748098373413,
      "learning_rate": 1.7639473684210527e-05,
      "loss": 0.198,
      "step": 3300
    },
    {
      "epoch": 0.3325,
      "grad_norm": 3.946589231491089,
      "learning_rate": 1.7573684210526316e-05,
      "loss": 0.1525,
      "step": 3325
    },
    {
      "epoch": 0.335,
      "grad_norm": 2.9382238388061523,
      "learning_rate": 1.7507894736842105e-05,
      "loss": 0.1176,
      "step": 3350
    },
    {
      "epoch": 0.3375,
      "grad_norm": 2.6483423709869385,
      "learning_rate": 1.7442105263157894e-05,
      "loss": 0.1067,
      "step": 3375
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.244067907333374,
      "learning_rate": 1.7376315789473687e-05,
      "loss": 0.1166,
      "step": 3400
    },
    {
      "epoch": 0.3425,
      "grad_norm": 3.1684019565582275,
      "learning_rate": 1.7310526315789476e-05,
      "loss": 0.118,
      "step": 3425
    },
    {
      "epoch": 0.345,
      "grad_norm": 1.9989653825759888,
      "learning_rate": 1.7244736842105265e-05,
      "loss": 0.1111,
      "step": 3450
    },
    {
      "epoch": 0.3475,
      "grad_norm": 2.656865119934082,
      "learning_rate": 1.7178947368421054e-05,
      "loss": 0.1,
      "step": 3475
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.111891269683838,
      "learning_rate": 1.7113157894736843e-05,
      "loss": 0.1265,
      "step": 3500
    },
    {
      "epoch": 0.3525,
      "grad_norm": 2.762462615966797,
      "learning_rate": 1.7047368421052632e-05,
      "loss": 0.1153,
      "step": 3525
    },
    {
      "epoch": 0.355,
      "grad_norm": 3.240023612976074,
      "learning_rate": 1.698157894736842e-05,
      "loss": 0.1182,
      "step": 3550
    },
    {
      "epoch": 0.3575,
      "grad_norm": 3.96018648147583,
      "learning_rate": 1.6915789473684214e-05,
      "loss": 0.1821,
      "step": 3575
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.344484567642212,
      "learning_rate": 1.6850000000000003e-05,
      "loss": 0.2111,
      "step": 3600
    },
    {
      "epoch": 0.3625,
      "grad_norm": 3.38057804107666,
      "learning_rate": 1.6784210526315792e-05,
      "loss": 0.2019,
      "step": 3625
    },
    {
      "epoch": 0.365,
      "grad_norm": 2.275235652923584,
      "learning_rate": 1.671842105263158e-05,
      "loss": 0.1221,
      "step": 3650
    },
    {
      "epoch": 0.3675,
      "grad_norm": 4.385953903198242,
      "learning_rate": 1.665263157894737e-05,
      "loss": 0.1028,
      "step": 3675
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.773892641067505,
      "learning_rate": 1.658684210526316e-05,
      "loss": 0.1061,
      "step": 3700
    },
    {
      "epoch": 0.3725,
      "grad_norm": 2.516683578491211,
      "learning_rate": 1.652105263157895e-05,
      "loss": 0.1309,
      "step": 3725
    },
    {
      "epoch": 0.375,
      "grad_norm": 3.5930490493774414,
      "learning_rate": 1.6455263157894738e-05,
      "loss": 0.1644,
      "step": 3750
    },
    {
      "epoch": 0.3775,
      "grad_norm": 3.509566068649292,
      "learning_rate": 1.6389473684210527e-05,
      "loss": 0.203,
      "step": 3775
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.856156826019287,
      "learning_rate": 1.6323684210526316e-05,
      "loss": 0.2105,
      "step": 3800
    },
    {
      "epoch": 0.3825,
      "grad_norm": 3.885843515396118,
      "learning_rate": 1.6257894736842105e-05,
      "loss": 0.1998,
      "step": 3825
    },
    {
      "epoch": 0.385,
      "grad_norm": 4.575178146362305,
      "learning_rate": 1.6192105263157894e-05,
      "loss": 0.2117,
      "step": 3850
    },
    {
      "epoch": 0.3875,
      "grad_norm": 3.0911362171173096,
      "learning_rate": 1.6126315789473683e-05,
      "loss": 0.1898,
      "step": 3875
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.5276999473571777,
      "learning_rate": 1.6060526315789472e-05,
      "loss": 0.1361,
      "step": 3900
    },
    {
      "epoch": 0.3925,
      "grad_norm": 2.737013339996338,
      "learning_rate": 1.5994736842105265e-05,
      "loss": 0.1152,
      "step": 3925
    },
    {
      "epoch": 0.395,
      "grad_norm": 2.925593852996826,
      "learning_rate": 1.5928947368421054e-05,
      "loss": 0.1125,
      "step": 3950
    },
    {
      "epoch": 0.3975,
      "grad_norm": 5.276342868804932,
      "learning_rate": 1.5863157894736843e-05,
      "loss": 0.1966,
      "step": 3975
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.9677958488464355,
      "learning_rate": 1.5797368421052632e-05,
      "loss": 0.2485,
      "step": 4000
    },
    {
      "epoch": 0.4,
      "eval_loss": 0.3804095387458801,
      "eval_runtime": 51.2349,
      "eval_samples_per_second": 33.005,
      "eval_steps_per_second": 2.069,
      "eval_wer": 16.379418009241913,
      "step": 4000
    },
    {
      "epoch": 0.4025,
      "grad_norm": 2.8115105628967285,
      "learning_rate": 1.573157894736842e-05,
      "loss": 0.1848,
      "step": 4025
    },
    {
      "epoch": 0.405,
      "grad_norm": 4.65349006652832,
      "learning_rate": 1.566578947368421e-05,
      "loss": 0.2436,
      "step": 4050
    },
    {
      "epoch": 0.4075,
      "grad_norm": 5.190550327301025,
      "learning_rate": 1.56e-05,
      "loss": 0.1812,
      "step": 4075
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.84175181388855,
      "learning_rate": 1.553421052631579e-05,
      "loss": 0.1656,
      "step": 4100
    },
    {
      "epoch": 0.4125,
      "grad_norm": 2.3396739959716797,
      "learning_rate": 1.5468421052631578e-05,
      "loss": 0.1201,
      "step": 4125
    },
    {
      "epoch": 0.415,
      "grad_norm": 2.581535816192627,
      "learning_rate": 1.5402631578947367e-05,
      "loss": 0.1069,
      "step": 4150
    },
    {
      "epoch": 0.4175,
      "grad_norm": 2.381739616394043,
      "learning_rate": 1.5336842105263156e-05,
      "loss": 0.1083,
      "step": 4175
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.072289228439331,
      "learning_rate": 1.527105263157895e-05,
      "loss": 0.1015,
      "step": 4200
    },
    {
      "epoch": 0.4225,
      "grad_norm": 2.175671339035034,
      "learning_rate": 1.5205263157894736e-05,
      "loss": 0.108,
      "step": 4225
    },
    {
      "epoch": 0.425,
      "grad_norm": 2.63728666305542,
      "learning_rate": 1.5139473684210529e-05,
      "loss": 0.1096,
      "step": 4250
    },
    {
      "epoch": 0.4275,
      "grad_norm": 3.103864908218384,
      "learning_rate": 1.5073684210526318e-05,
      "loss": 0.1202,
      "step": 4275
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.9897496700286865,
      "learning_rate": 1.5007894736842107e-05,
      "loss": 0.1781,
      "step": 4300
    },
    {
      "epoch": 0.4325,
      "grad_norm": 2.9400570392608643,
      "learning_rate": 1.4942105263157896e-05,
      "loss": 0.1601,
      "step": 4325
    },
    {
      "epoch": 0.435,
      "grad_norm": 3.374852418899536,
      "learning_rate": 1.4876315789473685e-05,
      "loss": 0.1722,
      "step": 4350
    },
    {
      "epoch": 0.4375,
      "grad_norm": 2.0654988288879395,
      "learning_rate": 1.4810526315789474e-05,
      "loss": 0.1003,
      "step": 4375
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.2996861934661865,
      "learning_rate": 1.4744736842105263e-05,
      "loss": 0.0905,
      "step": 4400
    },
    {
      "epoch": 0.4425,
      "grad_norm": 2.3257508277893066,
      "learning_rate": 1.4678947368421053e-05,
      "loss": 0.097,
      "step": 4425
    },
    {
      "epoch": 0.445,
      "grad_norm": 2.8020572662353516,
      "learning_rate": 1.4613157894736843e-05,
      "loss": 0.1142,
      "step": 4450
    },
    {
      "epoch": 0.4475,
      "grad_norm": 2.4309985637664795,
      "learning_rate": 1.4547368421052632e-05,
      "loss": 0.1203,
      "step": 4475
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.849823474884033,
      "learning_rate": 1.4481578947368422e-05,
      "loss": 0.112,
      "step": 4500
    },
    {
      "epoch": 0.4525,
      "grad_norm": 3.266927480697632,
      "learning_rate": 1.441578947368421e-05,
      "loss": 0.1398,
      "step": 4525
    },
    {
      "epoch": 0.455,
      "grad_norm": 3.6707375049591064,
      "learning_rate": 1.435e-05,
      "loss": 0.187,
      "step": 4550
    },
    {
      "epoch": 0.4575,
      "grad_norm": 3.624910593032837,
      "learning_rate": 1.4284210526315789e-05,
      "loss": 0.1804,
      "step": 4575
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.9688940048217773,
      "learning_rate": 1.4218421052631581e-05,
      "loss": 0.191,
      "step": 4600
    },
    {
      "epoch": 0.4625,
      "grad_norm": 3.886730909347534,
      "learning_rate": 1.415263157894737e-05,
      "loss": 0.1943,
      "step": 4625
    },
    {
      "epoch": 0.465,
      "grad_norm": 4.5468668937683105,
      "learning_rate": 1.408684210526316e-05,
      "loss": 0.1859,
      "step": 4650
    },
    {
      "epoch": 0.4675,
      "grad_norm": 3.7898447513580322,
      "learning_rate": 1.4021052631578949e-05,
      "loss": 0.1625,
      "step": 4675
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.8314898014068604,
      "learning_rate": 1.3955263157894738e-05,
      "loss": 0.1476,
      "step": 4700
    },
    {
      "epoch": 0.4725,
      "grad_norm": 3.8690438270568848,
      "learning_rate": 1.3889473684210527e-05,
      "loss": 0.1574,
      "step": 4725
    },
    {
      "epoch": 0.475,
      "grad_norm": 2.5614655017852783,
      "learning_rate": 1.3823684210526316e-05,
      "loss": 0.1524,
      "step": 4750
    },
    {
      "epoch": 0.4775,
      "grad_norm": 2.484726667404175,
      "learning_rate": 1.3757894736842105e-05,
      "loss": 0.1123,
      "step": 4775
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.0394532680511475,
      "learning_rate": 1.3692105263157894e-05,
      "loss": 0.1204,
      "step": 4800
    },
    {
      "epoch": 0.4825,
      "grad_norm": 2.798093318939209,
      "learning_rate": 1.3626315789473684e-05,
      "loss": 0.1052,
      "step": 4825
    },
    {
      "epoch": 0.485,
      "grad_norm": 2.972621202468872,
      "learning_rate": 1.3560526315789473e-05,
      "loss": 0.1216,
      "step": 4850
    },
    {
      "epoch": 0.4875,
      "grad_norm": 3.6155519485473633,
      "learning_rate": 1.3494736842105264e-05,
      "loss": 0.1319,
      "step": 4875
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.560375452041626,
      "learning_rate": 1.3428947368421053e-05,
      "loss": 0.1482,
      "step": 4900
    },
    {
      "epoch": 0.4925,
      "grad_norm": 2.468935489654541,
      "learning_rate": 1.3363157894736843e-05,
      "loss": 0.1345,
      "step": 4925
    },
    {
      "epoch": 0.495,
      "grad_norm": 2.6389522552490234,
      "learning_rate": 1.3297368421052633e-05,
      "loss": 0.1115,
      "step": 4950
    },
    {
      "epoch": 0.4975,
      "grad_norm": 4.905831813812256,
      "learning_rate": 1.3231578947368423e-05,
      "loss": 0.103,
      "step": 4975
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.904928207397461,
      "learning_rate": 1.3165789473684213e-05,
      "loss": 0.1007,
      "step": 5000
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.4055747985839844,
      "eval_runtime": 51.151,
      "eval_samples_per_second": 33.059,
      "eval_steps_per_second": 2.072,
      "eval_wer": 15.255401523666793,
      "step": 5000
    },
    {
      "epoch": 0.5025,
      "grad_norm": 2.8446755409240723,
      "learning_rate": 1.3100000000000002e-05,
      "loss": 0.1513,
      "step": 5025
    },
    {
      "epoch": 0.505,
      "grad_norm": 3.151038408279419,
      "learning_rate": 1.303421052631579e-05,
      "loss": 0.1359,
      "step": 5050
    },
    {
      "epoch": 0.5075,
      "grad_norm": 3.524214744567871,
      "learning_rate": 1.296842105263158e-05,
      "loss": 0.2112,
      "step": 5075
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.5379486083984375,
      "learning_rate": 1.2902631578947369e-05,
      "loss": 0.1911,
      "step": 5100
    },
    {
      "epoch": 0.5125,
      "grad_norm": 3.4644596576690674,
      "learning_rate": 1.2836842105263158e-05,
      "loss": 0.1659,
      "step": 5125
    },
    {
      "epoch": 0.515,
      "grad_norm": 4.6146464347839355,
      "learning_rate": 1.2771052631578947e-05,
      "loss": 0.1658,
      "step": 5150
    },
    {
      "epoch": 0.5175,
      "grad_norm": 2.5683515071868896,
      "learning_rate": 1.2705263157894736e-05,
      "loss": 0.1355,
      "step": 5175
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.089280843734741,
      "learning_rate": 1.2639473684210525e-05,
      "loss": 0.0911,
      "step": 5200
    },
    {
      "epoch": 0.5225,
      "grad_norm": 1.9280669689178467,
      "learning_rate": 1.2573684210526315e-05,
      "loss": 0.0963,
      "step": 5225
    },
    {
      "epoch": 0.525,
      "grad_norm": 2.2376904487609863,
      "learning_rate": 1.2507894736842104e-05,
      "loss": 0.0989,
      "step": 5250
    },
    {
      "epoch": 0.5275,
      "grad_norm": 2.2531654834747314,
      "learning_rate": 1.2442105263157895e-05,
      "loss": 0.1003,
      "step": 5275
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.8537986278533936,
      "learning_rate": 1.2376315789473684e-05,
      "loss": 0.1044,
      "step": 5300
    },
    {
      "epoch": 0.5325,
      "grad_norm": 2.8962442874908447,
      "learning_rate": 1.2310526315789474e-05,
      "loss": 0.1009,
      "step": 5325
    },
    {
      "epoch": 0.535,
      "grad_norm": 4.504721641540527,
      "learning_rate": 1.2244736842105264e-05,
      "loss": 0.1372,
      "step": 5350
    },
    {
      "epoch": 0.5375,
      "grad_norm": 3.3476779460906982,
      "learning_rate": 1.2178947368421054e-05,
      "loss": 0.166,
      "step": 5375
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.1945645809173584,
      "learning_rate": 1.2113157894736844e-05,
      "loss": 0.1565,
      "step": 5400
    },
    {
      "epoch": 0.5425,
      "grad_norm": 3.339404344558716,
      "learning_rate": 1.2047368421052633e-05,
      "loss": 0.1515,
      "step": 5425
    },
    {
      "epoch": 0.545,
      "grad_norm": 3.698160409927368,
      "learning_rate": 1.1981578947368422e-05,
      "loss": 0.1367,
      "step": 5450
    },
    {
      "epoch": 0.5475,
      "grad_norm": 2.921149730682373,
      "learning_rate": 1.1915789473684211e-05,
      "loss": 0.1084,
      "step": 5475
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.548079013824463,
      "learning_rate": 1.185e-05,
      "loss": 0.1104,
      "step": 5500
    },
    {
      "epoch": 0.5525,
      "grad_norm": 4.426082134246826,
      "learning_rate": 1.1784210526315791e-05,
      "loss": 0.1455,
      "step": 5525
    },
    {
      "epoch": 0.555,
      "grad_norm": 3.9994497299194336,
      "learning_rate": 1.171842105263158e-05,
      "loss": 0.1679,
      "step": 5550
    },
    {
      "epoch": 0.5575,
      "grad_norm": 2.904689073562622,
      "learning_rate": 1.1652631578947369e-05,
      "loss": 0.1271,
      "step": 5575
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.0764057636260986,
      "learning_rate": 1.1586842105263158e-05,
      "loss": 0.0852,
      "step": 5600
    },
    {
      "epoch": 0.5625,
      "grad_norm": 2.4948599338531494,
      "learning_rate": 1.1521052631578947e-05,
      "loss": 0.0706,
      "step": 5625
    },
    {
      "epoch": 0.565,
      "grad_norm": 2.049166440963745,
      "learning_rate": 1.1455263157894736e-05,
      "loss": 0.0725,
      "step": 5650
    },
    {
      "epoch": 0.5675,
      "grad_norm": 1.8661171197891235,
      "learning_rate": 1.1389473684210526e-05,
      "loss": 0.0896,
      "step": 5675
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.9094321727752686,
      "learning_rate": 1.1323684210526316e-05,
      "loss": 0.0965,
      "step": 5700
    },
    {
      "epoch": 0.5725,
      "grad_norm": 2.1191153526306152,
      "learning_rate": 1.1257894736842106e-05,
      "loss": 0.0959,
      "step": 5725
    },
    {
      "epoch": 0.575,
      "grad_norm": 2.010484218597412,
      "learning_rate": 1.1192105263157895e-05,
      "loss": 0.0948,
      "step": 5750
    },
    {
      "epoch": 0.5775,
      "grad_norm": 2.4947898387908936,
      "learning_rate": 1.1126315789473685e-05,
      "loss": 0.0912,
      "step": 5775
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.372864246368408,
      "learning_rate": 1.1060526315789475e-05,
      "loss": 0.0858,
      "step": 5800
    },
    {
      "epoch": 0.5825,
      "grad_norm": 2.256497383117676,
      "learning_rate": 1.0994736842105264e-05,
      "loss": 0.0769,
      "step": 5825
    },
    {
      "epoch": 0.585,
      "grad_norm": 2.3207082748413086,
      "learning_rate": 1.0928947368421053e-05,
      "loss": 0.0819,
      "step": 5850
    },
    {
      "epoch": 0.5875,
      "grad_norm": 2.424302339553833,
      "learning_rate": 1.0863157894736844e-05,
      "loss": 0.0881,
      "step": 5875
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.049173355102539,
      "learning_rate": 1.0797368421052633e-05,
      "loss": 0.1156,
      "step": 5900
    },
    {
      "epoch": 0.5925,
      "grad_norm": 4.130237579345703,
      "learning_rate": 1.0731578947368422e-05,
      "loss": 0.1675,
      "step": 5925
    },
    {
      "epoch": 0.595,
      "grad_norm": 3.366295337677002,
      "learning_rate": 1.0665789473684211e-05,
      "loss": 0.1566,
      "step": 5950
    },
    {
      "epoch": 0.5975,
      "grad_norm": 3.341735601425171,
      "learning_rate": 1.06e-05,
      "loss": 0.1339,
      "step": 5975
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.5875508785247803,
      "learning_rate": 1.053421052631579e-05,
      "loss": 0.1296,
      "step": 6000
    },
    {
      "epoch": 0.6,
      "eval_loss": 0.373067170381546,
      "eval_runtime": 50.8444,
      "eval_samples_per_second": 33.258,
      "eval_steps_per_second": 2.085,
      "eval_wer": 15.324091420007493,
      "step": 6000
    },
    {
      "epoch": 0.6025,
      "grad_norm": 3.2236549854278564,
      "learning_rate": 1.046842105263158e-05,
      "loss": 0.1232,
      "step": 6025
    },
    {
      "epoch": 0.605,
      "grad_norm": 2.3574883937835693,
      "learning_rate": 1.040263157894737e-05,
      "loss": 0.1062,
      "step": 6050
    },
    {
      "epoch": 0.6075,
      "grad_norm": 2.152470350265503,
      "learning_rate": 1.0336842105263158e-05,
      "loss": 0.0983,
      "step": 6075
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.31156849861145,
      "learning_rate": 1.0271052631578947e-05,
      "loss": 0.0896,
      "step": 6100
    },
    {
      "epoch": 0.6125,
      "grad_norm": 3.150630474090576,
      "learning_rate": 1.0205263157894737e-05,
      "loss": 0.0922,
      "step": 6125
    },
    {
      "epoch": 0.615,
      "grad_norm": 3.061333656311035,
      "learning_rate": 1.0139473684210526e-05,
      "loss": 0.1011,
      "step": 6150
    },
    {
      "epoch": 0.6175,
      "grad_norm": 2.7992866039276123,
      "learning_rate": 1.0073684210526317e-05,
      "loss": 0.1027,
      "step": 6175
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.506035089492798,
      "learning_rate": 1.0007894736842106e-05,
      "loss": 0.0981,
      "step": 6200
    },
    {
      "epoch": 0.6225,
      "grad_norm": 2.611304998397827,
      "learning_rate": 9.942105263157896e-06,
      "loss": 0.0994,
      "step": 6225
    },
    {
      "epoch": 0.625,
      "grad_norm": 3.2212979793548584,
      "learning_rate": 9.876315789473686e-06,
      "loss": 0.0942,
      "step": 6250
    },
    {
      "epoch": 0.6275,
      "grad_norm": 2.89421010017395,
      "learning_rate": 9.810526315789475e-06,
      "loss": 0.1061,
      "step": 6275
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.2011821269989014,
      "learning_rate": 9.744736842105264e-06,
      "loss": 0.1173,
      "step": 6300
    },
    {
      "epoch": 0.6325,
      "grad_norm": 2.451089859008789,
      "learning_rate": 9.678947368421053e-06,
      "loss": 0.1572,
      "step": 6325
    },
    {
      "epoch": 0.635,
      "grad_norm": 3.488110303878784,
      "learning_rate": 9.613157894736842e-06,
      "loss": 0.1406,
      "step": 6350
    },
    {
      "epoch": 0.6375,
      "grad_norm": 2.5751559734344482,
      "learning_rate": 9.55e-06,
      "loss": 0.1297,
      "step": 6375
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.2660510540008545,
      "learning_rate": 9.48421052631579e-06,
      "loss": 0.1049,
      "step": 6400
    },
    {
      "epoch": 0.6425,
      "grad_norm": 2.2303407192230225,
      "learning_rate": 9.41842105263158e-06,
      "loss": 0.0953,
      "step": 6425
    },
    {
      "epoch": 0.645,
      "grad_norm": 2.3398027420043945,
      "learning_rate": 9.352631578947369e-06,
      "loss": 0.0856,
      "step": 6450
    },
    {
      "epoch": 0.6475,
      "grad_norm": 3.764880657196045,
      "learning_rate": 9.286842105263158e-06,
      "loss": 0.1303,
      "step": 6475
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.613056182861328,
      "learning_rate": 9.221052631578949e-06,
      "loss": 0.1217,
      "step": 6500
    },
    {
      "epoch": 0.6525,
      "grad_norm": 4.344733715057373,
      "learning_rate": 9.155263157894738e-06,
      "loss": 0.1597,
      "step": 6525
    },
    {
      "epoch": 0.655,
      "grad_norm": 3.09989070892334,
      "learning_rate": 9.089473684210527e-06,
      "loss": 0.1456,
      "step": 6550
    },
    {
      "epoch": 0.6575,
      "grad_norm": 3.1914069652557373,
      "learning_rate": 9.023684210526316e-06,
      "loss": 0.1458,
      "step": 6575
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.7979540824890137,
      "learning_rate": 8.957894736842106e-06,
      "loss": 0.1327,
      "step": 6600
    },
    {
      "epoch": 0.6625,
      "grad_norm": 3.4529471397399902,
      "learning_rate": 8.892105263157895e-06,
      "loss": 0.139,
      "step": 6625
    },
    {
      "epoch": 0.665,
      "grad_norm": 3.158491849899292,
      "learning_rate": 8.826315789473685e-06,
      "loss": 0.1613,
      "step": 6650
    },
    {
      "epoch": 0.6675,
      "grad_norm": 3.1579043865203857,
      "learning_rate": 8.760526315789475e-06,
      "loss": 0.1309,
      "step": 6675
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.4636425971984863,
      "learning_rate": 8.694736842105264e-06,
      "loss": 0.1327,
      "step": 6700
    },
    {
      "epoch": 0.6725,
      "grad_norm": 1.9120688438415527,
      "learning_rate": 8.628947368421053e-06,
      "loss": 0.0921,
      "step": 6725
    },
    {
      "epoch": 0.675,
      "grad_norm": 2.430513858795166,
      "learning_rate": 8.563157894736842e-06,
      "loss": 0.0828,
      "step": 6750
    },
    {
      "epoch": 0.6775,
      "grad_norm": 3.101741075515747,
      "learning_rate": 8.497368421052631e-06,
      "loss": 0.102,
      "step": 6775
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.2060201168060303,
      "learning_rate": 8.43157894736842e-06,
      "loss": 0.1793,
      "step": 6800
    },
    {
      "epoch": 0.6825,
      "grad_norm": 4.750592231750488,
      "learning_rate": 8.365789473684211e-06,
      "loss": 0.1581,
      "step": 6825
    },
    {
      "epoch": 0.685,
      "grad_norm": 3.6782851219177246,
      "learning_rate": 8.3e-06,
      "loss": 0.1657,
      "step": 6850
    },
    {
      "epoch": 0.6875,
      "grad_norm": 3.261650323867798,
      "learning_rate": 8.23421052631579e-06,
      "loss": 0.1562,
      "step": 6875
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.4499616622924805,
      "learning_rate": 8.16842105263158e-06,
      "loss": 0.1489,
      "step": 6900
    },
    {
      "epoch": 0.6925,
      "grad_norm": 3.001925230026245,
      "learning_rate": 8.10263157894737e-06,
      "loss": 0.1398,
      "step": 6925
    },
    {
      "epoch": 0.695,
      "grad_norm": 3.033891201019287,
      "learning_rate": 8.036842105263158e-06,
      "loss": 0.1354,
      "step": 6950
    },
    {
      "epoch": 0.6975,
      "grad_norm": 3.6877501010894775,
      "learning_rate": 7.971052631578947e-06,
      "loss": 0.1591,
      "step": 6975
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.818603754043579,
      "learning_rate": 7.905263157894738e-06,
      "loss": 0.1555,
      "step": 7000
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.37644582986831665,
      "eval_runtime": 50.6902,
      "eval_samples_per_second": 33.359,
      "eval_steps_per_second": 2.091,
      "eval_wer": 13.38204071437492,
      "step": 7000
    },
    {
      "epoch": 0.7025,
      "grad_norm": 6.232231616973877,
      "learning_rate": 7.842105263157895e-06,
      "loss": 0.2913,
      "step": 7025
    },
    {
      "epoch": 0.705,
      "grad_norm": 7.377111434936523,
      "learning_rate": 7.776315789473684e-06,
      "loss": 0.4907,
      "step": 7050
    },
    {
      "epoch": 0.7075,
      "grad_norm": 4.876298904418945,
      "learning_rate": 7.710526315789473e-06,
      "loss": 0.4457,
      "step": 7075
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.359467029571533,
      "learning_rate": 7.644736842105264e-06,
      "loss": 0.3599,
      "step": 7100
    },
    {
      "epoch": 0.7125,
      "grad_norm": 3.525312900543213,
      "learning_rate": 7.578947368421054e-06,
      "loss": 0.2052,
      "step": 7125
    },
    {
      "epoch": 0.715,
      "grad_norm": 4.211317539215088,
      "learning_rate": 7.513157894736843e-06,
      "loss": 0.1551,
      "step": 7150
    },
    {
      "epoch": 0.7175,
      "grad_norm": 2.786363124847412,
      "learning_rate": 7.447368421052632e-06,
      "loss": 0.1428,
      "step": 7175
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.948626756668091,
      "learning_rate": 7.381578947368421e-06,
      "loss": 0.1128,
      "step": 7200
    },
    {
      "epoch": 0.7225,
      "grad_norm": 2.9625308513641357,
      "learning_rate": 7.315789473684211e-06,
      "loss": 0.1081,
      "step": 7225
    },
    {
      "epoch": 0.725,
      "grad_norm": 2.201939821243286,
      "learning_rate": 7.25e-06,
      "loss": 0.1114,
      "step": 7250
    },
    {
      "epoch": 0.7275,
      "grad_norm": 2.0348243713378906,
      "learning_rate": 7.184210526315791e-06,
      "loss": 0.0882,
      "step": 7275
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.9231960773468018,
      "learning_rate": 7.11842105263158e-06,
      "loss": 0.0733,
      "step": 7300
    },
    {
      "epoch": 0.7325,
      "grad_norm": 2.2595067024230957,
      "learning_rate": 7.052631578947369e-06,
      "loss": 0.0793,
      "step": 7325
    },
    {
      "epoch": 0.735,
      "grad_norm": 3.1157546043395996,
      "learning_rate": 6.986842105263158e-06,
      "loss": 0.106,
      "step": 7350
    },
    {
      "epoch": 0.7375,
      "grad_norm": 2.9897453784942627,
      "learning_rate": 6.921052631578947e-06,
      "loss": 0.1448,
      "step": 7375
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.1483774185180664,
      "learning_rate": 6.8552631578947365e-06,
      "loss": 0.1132,
      "step": 7400
    },
    {
      "epoch": 0.7425,
      "grad_norm": 2.285529136657715,
      "learning_rate": 6.7894736842105264e-06,
      "loss": 0.1292,
      "step": 7425
    },
    {
      "epoch": 0.745,
      "grad_norm": 2.1281116008758545,
      "learning_rate": 6.723684210526316e-06,
      "loss": 0.0942,
      "step": 7450
    },
    {
      "epoch": 0.7475,
      "grad_norm": 2.2459075450897217,
      "learning_rate": 6.657894736842106e-06,
      "loss": 0.0887,
      "step": 7475
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.9605884552001953,
      "learning_rate": 6.5921052631578955e-06,
      "loss": 0.0824,
      "step": 7500
    },
    {
      "epoch": 0.7525,
      "grad_norm": 3.7873899936676025,
      "learning_rate": 6.526315789473685e-06,
      "loss": 0.1646,
      "step": 7525
    },
    {
      "epoch": 0.755,
      "grad_norm": 4.234455585479736,
      "learning_rate": 6.460526315789474e-06,
      "loss": 0.2172,
      "step": 7550
    },
    {
      "epoch": 0.7575,
      "grad_norm": 4.279770374298096,
      "learning_rate": 6.394736842105263e-06,
      "loss": 0.2445,
      "step": 7575
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.964227557182312,
      "learning_rate": 6.328947368421052e-06,
      "loss": 0.1534,
      "step": 7600
    },
    {
      "epoch": 0.7625,
      "grad_norm": 2.5846900939941406,
      "learning_rate": 6.263157894736843e-06,
      "loss": 0.1069,
      "step": 7625
    },
    {
      "epoch": 0.765,
      "grad_norm": 2.0265769958496094,
      "learning_rate": 6.197368421052632e-06,
      "loss": 0.0853,
      "step": 7650
    },
    {
      "epoch": 0.7675,
      "grad_norm": 4.039712905883789,
      "learning_rate": 6.131578947368422e-06,
      "loss": 0.1171,
      "step": 7675
    },
    {
      "epoch": 0.77,
      "grad_norm": 5.171535015106201,
      "learning_rate": 6.065789473684211e-06,
      "loss": 0.1451,
      "step": 7700
    },
    {
      "epoch": 0.7725,
      "grad_norm": 3.3763575553894043,
      "learning_rate": 6e-06,
      "loss": 0.1522,
      "step": 7725
    },
    {
      "epoch": 0.775,
      "grad_norm": 2.777357578277588,
      "learning_rate": 5.93421052631579e-06,
      "loss": 0.1395,
      "step": 7750
    },
    {
      "epoch": 0.7775,
      "grad_norm": 3.0905845165252686,
      "learning_rate": 5.868421052631579e-06,
      "loss": 0.098,
      "step": 7775
    },
    {
      "epoch": 0.78,
      "grad_norm": 4.638239860534668,
      "learning_rate": 5.802631578947368e-06,
      "loss": 0.1158,
      "step": 7800
    },
    {
      "epoch": 0.7825,
      "grad_norm": 3.2748498916625977,
      "learning_rate": 5.739473684210526e-06,
      "loss": 0.2657,
      "step": 7825
    },
    {
      "epoch": 0.785,
      "grad_norm": 2.237273931503296,
      "learning_rate": 5.6736842105263155e-06,
      "loss": 0.1286,
      "step": 7850
    },
    {
      "epoch": 0.7875,
      "grad_norm": 1.864817500114441,
      "learning_rate": 5.6078947368421054e-06,
      "loss": 0.0943,
      "step": 7875
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.4019246101379395,
      "learning_rate": 5.542105263157895e-06,
      "loss": 0.0889,
      "step": 7900
    },
    {
      "epoch": 0.7925,
      "grad_norm": 2.1701340675354004,
      "learning_rate": 5.4763157894736845e-06,
      "loss": 0.093,
      "step": 7925
    },
    {
      "epoch": 0.795,
      "grad_norm": 2.0279428958892822,
      "learning_rate": 5.4105263157894745e-06,
      "loss": 0.0839,
      "step": 7950
    },
    {
      "epoch": 0.7975,
      "grad_norm": 2.8084793090820312,
      "learning_rate": 5.344736842105264e-06,
      "loss": 0.0906,
      "step": 7975
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.640064001083374,
      "learning_rate": 5.278947368421053e-06,
      "loss": 0.114,
      "step": 8000
    },
    {
      "epoch": 0.8,
      "eval_loss": 0.3096904158592224,
      "eval_runtime": 50.4876,
      "eval_samples_per_second": 33.493,
      "eval_steps_per_second": 2.1,
      "eval_wer": 12.75134257524666,
      "step": 8000
    },
    {
      "epoch": 0.8025,
      "grad_norm": 3.118774652481079,
      "learning_rate": 5.213157894736842e-06,
      "loss": 0.1362,
      "step": 8025
    },
    {
      "epoch": 0.805,
      "grad_norm": 3.070131778717041,
      "learning_rate": 5.147368421052632e-06,
      "loss": 0.1416,
      "step": 8050
    },
    {
      "epoch": 0.8075,
      "grad_norm": 2.8992044925689697,
      "learning_rate": 5.081578947368421e-06,
      "loss": 0.1097,
      "step": 8075
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.2826101779937744,
      "learning_rate": 5.015789473684211e-06,
      "loss": 0.0972,
      "step": 8100
    },
    {
      "epoch": 0.8125,
      "grad_norm": 2.396894693374634,
      "learning_rate": 4.950000000000001e-06,
      "loss": 0.0823,
      "step": 8125
    },
    {
      "epoch": 0.815,
      "grad_norm": 3.337656259536743,
      "learning_rate": 4.88421052631579e-06,
      "loss": 0.0834,
      "step": 8150
    },
    {
      "epoch": 0.8175,
      "grad_norm": 1.498647689819336,
      "learning_rate": 4.818421052631579e-06,
      "loss": 0.0732,
      "step": 8175
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.0886967182159424,
      "learning_rate": 4.752631578947369e-06,
      "loss": 0.0632,
      "step": 8200
    },
    {
      "epoch": 0.8225,
      "grad_norm": 1.7843704223632812,
      "learning_rate": 4.686842105263158e-06,
      "loss": 0.0767,
      "step": 8225
    },
    {
      "epoch": 0.825,
      "grad_norm": 2.3446483612060547,
      "learning_rate": 4.621052631578947e-06,
      "loss": 0.0718,
      "step": 8250
    },
    {
      "epoch": 0.8275,
      "grad_norm": 2.0303142070770264,
      "learning_rate": 4.5552631578947365e-06,
      "loss": 0.0733,
      "step": 8275
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4907219409942627,
      "learning_rate": 4.4894736842105264e-06,
      "loss": 0.0751,
      "step": 8300
    },
    {
      "epoch": 0.8325,
      "grad_norm": 3.2890570163726807,
      "learning_rate": 4.4236842105263156e-06,
      "loss": 0.1089,
      "step": 8325
    },
    {
      "epoch": 0.835,
      "grad_norm": 3.4118282794952393,
      "learning_rate": 4.3578947368421055e-06,
      "loss": 0.1413,
      "step": 8350
    },
    {
      "epoch": 0.8375,
      "grad_norm": 4.141169548034668,
      "learning_rate": 4.2921052631578955e-06,
      "loss": 0.1615,
      "step": 8375
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5593221187591553,
      "learning_rate": 4.226315789473685e-06,
      "loss": 0.1325,
      "step": 8400
    },
    {
      "epoch": 0.8425,
      "grad_norm": 2.8442673683166504,
      "learning_rate": 4.160526315789474e-06,
      "loss": 0.0894,
      "step": 8425
    },
    {
      "epoch": 0.845,
      "grad_norm": 2.300579786300659,
      "learning_rate": 4.094736842105263e-06,
      "loss": 0.0857,
      "step": 8450
    },
    {
      "epoch": 0.8475,
      "grad_norm": 2.8144922256469727,
      "learning_rate": 4.028947368421053e-06,
      "loss": 0.0977,
      "step": 8475
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.6928155422210693,
      "learning_rate": 3.963157894736842e-06,
      "loss": 0.1106,
      "step": 8500
    },
    {
      "epoch": 0.8525,
      "grad_norm": 2.9384024143218994,
      "learning_rate": 3.897368421052631e-06,
      "loss": 0.1139,
      "step": 8525
    },
    {
      "epoch": 0.855,
      "grad_norm": 4.728883266448975,
      "learning_rate": 3.831578947368421e-06,
      "loss": 0.1597,
      "step": 8550
    },
    {
      "epoch": 0.8575,
      "grad_norm": 4.498551845550537,
      "learning_rate": 3.7657894736842106e-06,
      "loss": 0.2747,
      "step": 8575
    },
    {
      "epoch": 0.86,
      "grad_norm": 6.742629528045654,
      "learning_rate": 3.7e-06,
      "loss": 0.3854,
      "step": 8600
    },
    {
      "epoch": 0.8625,
      "grad_norm": 6.729153633117676,
      "learning_rate": 3.63421052631579e-06,
      "loss": 0.456,
      "step": 8625
    },
    {
      "epoch": 0.865,
      "grad_norm": 2.6989076137542725,
      "learning_rate": 3.5684210526315792e-06,
      "loss": 0.2648,
      "step": 8650
    },
    {
      "epoch": 0.8675,
      "grad_norm": 4.221801280975342,
      "learning_rate": 3.5026315789473684e-06,
      "loss": 0.1734,
      "step": 8675
    },
    {
      "epoch": 0.87,
      "grad_norm": 9.831379890441895,
      "learning_rate": 3.436842105263158e-06,
      "loss": 0.1989,
      "step": 8700
    },
    {
      "epoch": 0.8725,
      "grad_norm": 2.7033917903900146,
      "learning_rate": 3.371052631578948e-06,
      "loss": 0.1374,
      "step": 8725
    },
    {
      "epoch": 0.875,
      "grad_norm": 2.1275370121002197,
      "learning_rate": 3.305263157894737e-06,
      "loss": 0.0852,
      "step": 8750
    },
    {
      "epoch": 0.8775,
      "grad_norm": 2.1816318035125732,
      "learning_rate": 3.239473684210526e-06,
      "loss": 0.0907,
      "step": 8775
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.410520553588867,
      "learning_rate": 3.173684210526316e-06,
      "loss": 0.1015,
      "step": 8800
    },
    {
      "epoch": 0.8825,
      "grad_norm": 3.198993444442749,
      "learning_rate": 3.1078947368421056e-06,
      "loss": 0.1253,
      "step": 8825
    },
    {
      "epoch": 0.885,
      "grad_norm": 3.826889753341675,
      "learning_rate": 3.0421052631578948e-06,
      "loss": 0.123,
      "step": 8850
    },
    {
      "epoch": 0.8875,
      "grad_norm": 2.976738929748535,
      "learning_rate": 2.9763157894736843e-06,
      "loss": 0.1254,
      "step": 8875
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.686645746231079,
      "learning_rate": 2.910526315789474e-06,
      "loss": 0.0858,
      "step": 8900
    },
    {
      "epoch": 0.8925,
      "grad_norm": 2.974180221557617,
      "learning_rate": 2.8447368421052634e-06,
      "loss": 0.0841,
      "step": 8925
    },
    {
      "epoch": 0.895,
      "grad_norm": 2.810300827026367,
      "learning_rate": 2.778947368421053e-06,
      "loss": 0.0906,
      "step": 8950
    },
    {
      "epoch": 0.8975,
      "grad_norm": 2.3508145809173584,
      "learning_rate": 2.713157894736842e-06,
      "loss": 0.0739,
      "step": 8975
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.418074369430542,
      "learning_rate": 2.6473684210526316e-06,
      "loss": 0.0775,
      "step": 9000
    },
    {
      "epoch": 0.9,
      "eval_loss": 0.31704333424568176,
      "eval_runtime": 50.8782,
      "eval_samples_per_second": 33.236,
      "eval_steps_per_second": 2.083,
      "eval_wer": 12.457849381790934,
      "step": 9000
    },
    {
      "epoch": 0.9025,
      "grad_norm": 2.4813151359558105,
      "learning_rate": 2.581578947368421e-06,
      "loss": 0.0898,
      "step": 9025
    },
    {
      "epoch": 0.905,
      "grad_norm": 3.3182260990142822,
      "learning_rate": 2.5157894736842107e-06,
      "loss": 0.1079,
      "step": 9050
    },
    {
      "epoch": 0.9075,
      "grad_norm": 4.108717441558838,
      "learning_rate": 2.4500000000000003e-06,
      "loss": 0.1409,
      "step": 9075
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.0588371753692627,
      "learning_rate": 2.3842105263157894e-06,
      "loss": 0.1391,
      "step": 9100
    },
    {
      "epoch": 0.9125,
      "grad_norm": 2.8071908950805664,
      "learning_rate": 2.318421052631579e-06,
      "loss": 0.1108,
      "step": 9125
    },
    {
      "epoch": 0.915,
      "grad_norm": 2.184046506881714,
      "learning_rate": 2.2526315789473685e-06,
      "loss": 0.1049,
      "step": 9150
    },
    {
      "epoch": 0.9175,
      "grad_norm": 2.5016894340515137,
      "learning_rate": 2.186842105263158e-06,
      "loss": 0.1009,
      "step": 9175
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.4719274044036865,
      "learning_rate": 2.1210526315789476e-06,
      "loss": 0.105,
      "step": 9200
    },
    {
      "epoch": 0.9225,
      "grad_norm": 3.3513808250427246,
      "learning_rate": 2.0552631578947367e-06,
      "loss": 0.1261,
      "step": 9225
    },
    {
      "epoch": 0.925,
      "grad_norm": 4.014399528503418,
      "learning_rate": 1.9894736842105267e-06,
      "loss": 0.138,
      "step": 9250
    },
    {
      "epoch": 0.9275,
      "grad_norm": 2.7651119232177734,
      "learning_rate": 1.9236842105263158e-06,
      "loss": 0.1542,
      "step": 9275
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8056927919387817,
      "learning_rate": 1.8578947368421053e-06,
      "loss": 0.096,
      "step": 9300
    },
    {
      "epoch": 0.9325,
      "grad_norm": 2.349053144454956,
      "learning_rate": 1.7921052631578949e-06,
      "loss": 0.0983,
      "step": 9325
    },
    {
      "epoch": 0.935,
      "grad_norm": 1.9038828611373901,
      "learning_rate": 1.7263157894736842e-06,
      "loss": 0.0809,
      "step": 9350
    },
    {
      "epoch": 0.9375,
      "grad_norm": 2.875915288925171,
      "learning_rate": 1.6605263157894738e-06,
      "loss": 0.0976,
      "step": 9375
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.029100179672241,
      "learning_rate": 1.594736842105263e-06,
      "loss": 0.1235,
      "step": 9400
    },
    {
      "epoch": 0.9425,
      "grad_norm": 2.9959537982940674,
      "learning_rate": 1.5289473684210526e-06,
      "loss": 0.1426,
      "step": 9425
    },
    {
      "epoch": 0.945,
      "grad_norm": 2.2764275074005127,
      "learning_rate": 1.4631578947368422e-06,
      "loss": 0.2688,
      "step": 9450
    },
    {
      "epoch": 0.9475,
      "grad_norm": 2.720301389694214,
      "learning_rate": 1.3973684210526315e-06,
      "loss": 0.1352,
      "step": 9475
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.853646993637085,
      "learning_rate": 1.331578947368421e-06,
      "loss": 0.1102,
      "step": 9500
    },
    {
      "epoch": 0.9525,
      "grad_norm": 3.4527268409729004,
      "learning_rate": 1.2657894736842106e-06,
      "loss": 0.1336,
      "step": 9525
    },
    {
      "epoch": 0.955,
      "grad_norm": 3.289494514465332,
      "learning_rate": 1.2000000000000002e-06,
      "loss": 0.141,
      "step": 9550
    },
    {
      "epoch": 0.9575,
      "grad_norm": 3.2890825271606445,
      "learning_rate": 1.1342105263157895e-06,
      "loss": 0.1591,
      "step": 9575
    },
    {
      "epoch": 0.96,
      "grad_norm": 2.4674901962280273,
      "learning_rate": 1.068421052631579e-06,
      "loss": 0.123,
      "step": 9600
    },
    {
      "epoch": 0.9625,
      "grad_norm": 2.3272643089294434,
      "learning_rate": 1.0026315789473684e-06,
      "loss": 0.0979,
      "step": 9625
    },
    {
      "epoch": 0.965,
      "grad_norm": 2.303502321243286,
      "learning_rate": 9.36842105263158e-07,
      "loss": 0.0761,
      "step": 9650
    },
    {
      "epoch": 0.9675,
      "grad_norm": 2.0139310359954834,
      "learning_rate": 8.710526315789475e-07,
      "loss": 0.0765,
      "step": 9675
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.459679126739502,
      "learning_rate": 8.052631578947369e-07,
      "loss": 0.078,
      "step": 9700
    },
    {
      "epoch": 0.9725,
      "grad_norm": 2.502119541168213,
      "learning_rate": 7.394736842105263e-07,
      "loss": 0.0764,
      "step": 9725
    },
    {
      "epoch": 0.975,
      "grad_norm": 3.774677038192749,
      "learning_rate": 6.736842105263159e-07,
      "loss": 0.0822,
      "step": 9750
    },
    {
      "epoch": 0.9775,
      "grad_norm": 2.353592872619629,
      "learning_rate": 6.078947368421053e-07,
      "loss": 0.093,
      "step": 9775
    },
    {
      "epoch": 0.98,
      "grad_norm": 2.306469202041626,
      "learning_rate": 5.421052631578948e-07,
      "loss": 0.1237,
      "step": 9800
    },
    {
      "epoch": 0.9825,
      "grad_norm": 3.7858200073242188,
      "learning_rate": 4.7631578947368427e-07,
      "loss": 0.1381,
      "step": 9825
    },
    {
      "epoch": 0.985,
      "grad_norm": 2.6253809928894043,
      "learning_rate": 4.105263157894737e-07,
      "loss": 0.117,
      "step": 9850
    },
    {
      "epoch": 0.9875,
      "grad_norm": 2.679793119430542,
      "learning_rate": 3.447368421052632e-07,
      "loss": 0.1253,
      "step": 9875
    },
    {
      "epoch": 0.99,
      "grad_norm": 5.4605584144592285,
      "learning_rate": 2.7894736842105264e-07,
      "loss": 0.1865,
      "step": 9900
    },
    {
      "epoch": 0.9925,
      "grad_norm": 1.9926120042800903,
      "learning_rate": 2.131578947368421e-07,
      "loss": 0.1615,
      "step": 9925
    },
    {
      "epoch": 0.995,
      "grad_norm": 2.260565757751465,
      "learning_rate": 1.473684210526316e-07,
      "loss": 0.0843,
      "step": 9950
    },
    {
      "epoch": 0.9975,
      "grad_norm": 2.2065985202789307,
      "learning_rate": 8.157894736842106e-08,
      "loss": 0.0841,
      "step": 9975
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.219501256942749,
      "learning_rate": 1.578947368421053e-08,
      "loss": 0.0836,
      "step": 10000
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.3182850182056427,
      "eval_runtime": 51.7745,
      "eval_samples_per_second": 32.661,
      "eval_steps_per_second": 2.047,
      "eval_wer": 12.307980517047582,
      "step": 10000
    },
    {
      "epoch": 1.0,
      "step": 10000,
      "total_flos": 2.07551987712e+19,
      "train_loss": 0.1926619317293167,
      "train_runtime": 5040.4481,
      "train_samples_per_second": 63.486,
      "train_steps_per_second": 1.984
    }
  ],
  "logging_steps": 25,
  "max_steps": 10000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 1000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.07551987712e+19,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}