{
  "best_metric": 1.1347278356552124,
  "best_model_checkpoint": "miner_id_24/checkpoint-50",
  "epoch": 3.004016064257028,
  "eval_steps": 50,
  "global_step": 187,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01606425702811245,
      "grad_norm": 8.348112106323242,
      "learning_rate": 1e-05,
      "loss": 10.6499,
      "step": 1
    },
    {
      "epoch": 0.01606425702811245,
      "eval_loss": 2.549973487854004,
      "eval_runtime": 5.0211,
      "eval_samples_per_second": 20.912,
      "eval_steps_per_second": 5.377,
      "step": 1
    },
    {
      "epoch": 0.0321285140562249,
      "grad_norm": 8.505813598632812,
      "learning_rate": 2e-05,
      "loss": 10.1041,
      "step": 2
    },
    {
      "epoch": 0.04819277108433735,
      "grad_norm": 7.6875176429748535,
      "learning_rate": 3e-05,
      "loss": 9.1633,
      "step": 3
    },
    {
      "epoch": 0.0642570281124498,
      "grad_norm": 8.761536598205566,
      "learning_rate": 4e-05,
      "loss": 10.3247,
      "step": 4
    },
    {
      "epoch": 0.08032128514056225,
      "grad_norm": 8.130756378173828,
      "learning_rate": 5e-05,
      "loss": 8.9264,
      "step": 5
    },
    {
      "epoch": 0.0963855421686747,
      "grad_norm": 9.38547134399414,
      "learning_rate": 6e-05,
      "loss": 9.0285,
      "step": 6
    },
    {
      "epoch": 0.11244979919678715,
      "grad_norm": 8.838536262512207,
      "learning_rate": 7e-05,
      "loss": 9.5249,
      "step": 7
    },
    {
      "epoch": 0.1285140562248996,
      "grad_norm": 7.797281742095947,
      "learning_rate": 8e-05,
      "loss": 7.2584,
      "step": 8
    },
    {
      "epoch": 0.14457831325301204,
      "grad_norm": 5.664076805114746,
      "learning_rate": 9e-05,
      "loss": 6.985,
      "step": 9
    },
    {
      "epoch": 0.1606425702811245,
      "grad_norm": 4.536204814910889,
      "learning_rate": 0.0001,
      "loss": 6.1874,
      "step": 10
    },
    {
      "epoch": 0.17670682730923695,
      "grad_norm": 4.574866771697998,
      "learning_rate": 9.99921244331919e-05,
      "loss": 5.6251,
      "step": 11
    },
    {
      "epoch": 0.1927710843373494,
      "grad_norm": 4.281232833862305,
      "learning_rate": 9.996850021374968e-05,
      "loss": 5.8975,
      "step": 12
    },
    {
      "epoch": 0.20883534136546184,
      "grad_norm": 5.436431884765625,
      "learning_rate": 9.99291347838381e-05,
      "loss": 6.4265,
      "step": 13
    },
    {
      "epoch": 0.2248995983935743,
      "grad_norm": 6.411371231079102,
      "learning_rate": 9.987404054446008e-05,
      "loss": 5.2628,
      "step": 14
    },
    {
      "epoch": 0.24096385542168675,
      "grad_norm": 4.600345611572266,
      "learning_rate": 9.980323485155013e-05,
      "loss": 3.8445,
      "step": 15
    },
    {
      "epoch": 0.2570281124497992,
      "grad_norm": 4.82535457611084,
      "learning_rate": 9.971674001050686e-05,
      "loss": 6.0218,
      "step": 16
    },
    {
      "epoch": 0.27309236947791166,
      "grad_norm": 3.9760053157806396,
      "learning_rate": 9.961458326916624e-05,
      "loss": 5.6015,
      "step": 17
    },
    {
      "epoch": 0.2891566265060241,
      "grad_norm": 4.333542346954346,
      "learning_rate": 9.94967968092179e-05,
      "loss": 5.2857,
      "step": 18
    },
    {
      "epoch": 0.30522088353413657,
      "grad_norm": 3.8680474758148193,
      "learning_rate": 9.936341773606723e-05,
      "loss": 5.9985,
      "step": 19
    },
    {
      "epoch": 0.321285140562249,
      "grad_norm": 3.7191972732543945,
      "learning_rate": 9.921448806714631e-05,
      "loss": 5.6241,
      "step": 20
    },
    {
      "epoch": 0.3373493975903614,
      "grad_norm": 3.321315288543701,
      "learning_rate": 9.905005471867739e-05,
      "loss": 4.8303,
      "step": 21
    },
    {
      "epoch": 0.3534136546184739,
      "grad_norm": 3.3438949584960938,
      "learning_rate": 9.887016949089333e-05,
      "loss": 4.6193,
      "step": 22
    },
    {
      "epoch": 0.36947791164658633,
      "grad_norm": 3.487133741378784,
      "learning_rate": 9.867488905171933e-05,
      "loss": 4.819,
      "step": 23
    },
    {
      "epoch": 0.3855421686746988,
      "grad_norm": 3.654869794845581,
      "learning_rate": 9.846427491892118e-05,
      "loss": 4.9905,
      "step": 24
    },
    {
      "epoch": 0.40160642570281124,
      "grad_norm": 3.4696578979492188,
      "learning_rate": 9.82383934407258e-05,
      "loss": 4.8166,
      "step": 25
    },
    {
      "epoch": 0.41767068273092367,
      "grad_norm": 3.474202871322632,
      "learning_rate": 9.79973157749201e-05,
      "loss": 4.9082,
      "step": 26
    },
    {
      "epoch": 0.43373493975903615,
      "grad_norm": 3.488612413406372,
      "learning_rate": 9.77411178664346e-05,
      "loss": 4.5234,
      "step": 27
    },
    {
      "epoch": 0.4497991967871486,
      "grad_norm": 3.534381628036499,
      "learning_rate": 9.746988042341906e-05,
      "loss": 4.7643,
      "step": 28
    },
    {
      "epoch": 0.46586345381526106,
      "grad_norm": 3.3849661350250244,
      "learning_rate": 9.718368889181764e-05,
      "loss": 4.322,
      "step": 29
    },
    {
      "epoch": 0.4819277108433735,
      "grad_norm": 3.5618832111358643,
      "learning_rate": 9.68826334284514e-05,
      "loss": 3.7775,
      "step": 30
    },
    {
      "epoch": 0.4979919678714859,
      "grad_norm": 3.4795641899108887,
      "learning_rate": 9.656680887261693e-05,
      "loss": 5.1616,
      "step": 31
    },
    {
      "epoch": 0.5140562248995983,
      "grad_norm": 3.250872850418091,
      "learning_rate": 9.62363147162098e-05,
      "loss": 4.8948,
      "step": 32
    },
    {
      "epoch": 0.5301204819277109,
      "grad_norm": 3.117263078689575,
      "learning_rate": 9.589125507238233e-05,
      "loss": 4.819,
      "step": 33
    },
    {
      "epoch": 0.5461847389558233,
      "grad_norm": 3.6620872020721436,
      "learning_rate": 9.553173864274567e-05,
      "loss": 5.1396,
      "step": 34
    },
    {
      "epoch": 0.5622489959839357,
      "grad_norm": 3.448711633682251,
      "learning_rate": 9.515787868312619e-05,
      "loss": 4.7319,
      "step": 35
    },
    {
      "epoch": 0.5783132530120482,
      "grad_norm": 3.2170932292938232,
      "learning_rate": 9.476979296788747e-05,
      "loss": 4.7958,
      "step": 36
    },
    {
      "epoch": 0.5943775100401606,
      "grad_norm": 3.4361329078674316,
      "learning_rate": 9.436760375282859e-05,
      "loss": 4.3979,
      "step": 37
    },
    {
      "epoch": 0.6104417670682731,
      "grad_norm": 2.9527618885040283,
      "learning_rate": 9.395143773667088e-05,
      "loss": 5.6183,
      "step": 38
    },
    {
      "epoch": 0.6265060240963856,
      "grad_norm": 3.67106032371521,
      "learning_rate": 9.352142602114486e-05,
      "loss": 4.9651,
      "step": 39
    },
    {
      "epoch": 0.642570281124498,
      "grad_norm": 2.906991720199585,
      "learning_rate": 9.30777040696903e-05,
      "loss": 4.5743,
      "step": 40
    },
    {
      "epoch": 0.6586345381526104,
      "grad_norm": 3.379622459411621,
      "learning_rate": 9.262041166478214e-05,
      "loss": 4.6746,
      "step": 41
    },
    {
      "epoch": 0.6746987951807228,
      "grad_norm": 2.867352247238159,
      "learning_rate": 9.214969286389576e-05,
      "loss": 3.8388,
      "step": 42
    },
    {
      "epoch": 0.6907630522088354,
      "grad_norm": 2.752108573913574,
      "learning_rate": 9.166569595412575e-05,
      "loss": 3.7568,
      "step": 43
    },
    {
      "epoch": 0.7068273092369478,
      "grad_norm": 3.158918619155884,
      "learning_rate": 9.116857340547202e-05,
      "loss": 4.5469,
      "step": 44
    },
    {
      "epoch": 0.7228915662650602,
      "grad_norm": 3.309577465057373,
      "learning_rate": 9.065848182280833e-05,
      "loss": 3.4427,
      "step": 45
    },
    {
      "epoch": 0.7389558232931727,
      "grad_norm": 3.1869406700134277,
      "learning_rate": 9.013558189654819e-05,
      "loss": 4.5306,
      "step": 46
    },
    {
      "epoch": 0.7550200803212851,
      "grad_norm": 3.6957387924194336,
      "learning_rate": 8.96000383520237e-05,
      "loss": 4.9486,
      "step": 47
    },
    {
      "epoch": 0.7710843373493976,
      "grad_norm": 2.9926798343658447,
      "learning_rate": 8.905201989759341e-05,
      "loss": 4.9435,
      "step": 48
    },
    {
      "epoch": 0.7871485943775101,
      "grad_norm": 2.7301948070526123,
      "learning_rate": 8.849169917149531e-05,
      "loss": 4.0732,
      "step": 49
    },
    {
      "epoch": 0.8032128514056225,
      "grad_norm": 2.9919705390930176,
      "learning_rate": 8.791925268746193e-05,
      "loss": 4.4262,
      "step": 50
    },
    {
      "epoch": 0.8032128514056225,
      "eval_loss": 1.1347278356552124,
      "eval_runtime": 5.1108,
      "eval_samples_per_second": 20.545,
      "eval_steps_per_second": 5.283,
      "step": 50
    },
    {
      "epoch": 0.8192771084337349,
      "grad_norm": 2.951664686203003,
      "learning_rate": 8.73348607791144e-05,
      "loss": 4.671,
      "step": 51
    },
    {
      "epoch": 0.8353413654618473,
      "grad_norm": 2.9890129566192627,
      "learning_rate": 8.673870754315336e-05,
      "loss": 4.2895,
      "step": 52
    },
    {
      "epoch": 0.8514056224899599,
      "grad_norm": 3.108464479446411,
      "learning_rate": 8.613098078136437e-05,
      "loss": 4.8594,
      "step": 53
    },
    {
      "epoch": 0.8674698795180723,
      "grad_norm": 3.7135279178619385,
      "learning_rate": 8.551187194145592e-05,
      "loss": 4.0297,
      "step": 54
    },
    {
      "epoch": 0.8835341365461847,
      "grad_norm": 2.929551362991333,
      "learning_rate": 8.488157605674925e-05,
      "loss": 4.0743,
      "step": 55
    },
    {
      "epoch": 0.8995983935742972,
      "grad_norm": 2.7986578941345215,
      "learning_rate": 8.424029168473829e-05,
      "loss": 4.6509,
      "step": 56
    },
    {
      "epoch": 0.9156626506024096,
      "grad_norm": 2.938271999359131,
      "learning_rate": 8.358822084453965e-05,
      "loss": 3.9441,
      "step": 57
    },
    {
      "epoch": 0.9317269076305221,
      "grad_norm": 2.7540037631988525,
      "learning_rate": 8.292556895325194e-05,
      "loss": 4.2585,
      "step": 58
    },
    {
      "epoch": 0.9477911646586346,
      "grad_norm": 3.5935003757476807,
      "learning_rate": 8.225254476124478e-05,
      "loss": 4.1995,
      "step": 59
    },
    {
      "epoch": 0.963855421686747,
      "grad_norm": 3.4929046630859375,
      "learning_rate": 8.156936028639767e-05,
      "loss": 3.96,
      "step": 60
    },
    {
      "epoch": 0.9799196787148594,
      "grad_norm": 3.1392922401428223,
      "learning_rate": 8.08762307473096e-05,
      "loss": 4.7256,
      "step": 61
    },
    {
      "epoch": 0.9959839357429718,
      "grad_norm": 3.1000006198883057,
      "learning_rate": 8.01733744955002e-05,
      "loss": 4.2001,
      "step": 62
    },
    {
      "epoch": 1.0120481927710843,
      "grad_norm": 5.490261077880859,
      "learning_rate": 7.946101294662418e-05,
      "loss": 5.2047,
      "step": 63
    },
    {
      "epoch": 1.0281124497991967,
      "grad_norm": 2.785578489303589,
      "learning_rate": 7.873937051072035e-05,
      "loss": 4.2834,
      "step": 64
    },
    {
      "epoch": 1.0441767068273093,
      "grad_norm": 2.4214975833892822,
      "learning_rate": 7.80086745215173e-05,
      "loss": 3.718,
      "step": 65
    },
    {
      "epoch": 1.0602409638554218,
      "grad_norm": 2.7528810501098633,
      "learning_rate": 7.726915516481824e-05,
      "loss": 4.2504,
      "step": 66
    },
    {
      "epoch": 1.0763052208835342,
      "grad_norm": 2.5488338470458984,
      "learning_rate": 7.652104540598712e-05,
      "loss": 3.3776,
      "step": 67
    },
    {
      "epoch": 1.0923694779116466,
      "grad_norm": 2.5400102138519287,
      "learning_rate": 7.57645809165594e-05,
      "loss": 4.243,
      "step": 68
    },
    {
      "epoch": 1.108433734939759,
      "grad_norm": 2.9564690589904785,
      "learning_rate": 7.500000000000001e-05,
      "loss": 4.9177,
      "step": 69
    },
    {
      "epoch": 1.1244979919678715,
      "grad_norm": 2.5128743648529053,
      "learning_rate": 7.422754351663252e-05,
      "loss": 3.8434,
      "step": 70
    },
    {
      "epoch": 1.140562248995984,
      "grad_norm": 2.5518949031829834,
      "learning_rate": 7.344745480776257e-05,
      "loss": 3.8326,
      "step": 71
    },
    {
      "epoch": 1.1566265060240963,
      "grad_norm": 2.5516374111175537,
      "learning_rate": 7.265997961901987e-05,
      "loss": 3.5143,
      "step": 72
    },
    {
      "epoch": 1.1726907630522088,
      "grad_norm": 2.6582977771759033,
      "learning_rate": 7.186536602294278e-05,
      "loss": 3.6269,
      "step": 73
    },
    {
      "epoch": 1.1887550200803212,
      "grad_norm": 2.7133898735046387,
      "learning_rate": 7.106386434082979e-05,
      "loss": 3.58,
      "step": 74
    },
    {
      "epoch": 1.2048192771084336,
      "grad_norm": 2.691269636154175,
      "learning_rate": 7.025572706388268e-05,
      "loss": 3.445,
      "step": 75
    },
    {
      "epoch": 1.2208835341365463,
      "grad_norm": 3.3580703735351562,
      "learning_rate": 6.944120877366604e-05,
      "loss": 3.5146,
      "step": 76
    },
    {
      "epoch": 1.2369477911646587,
      "grad_norm": 2.86824631690979,
      "learning_rate": 6.86205660619083e-05,
      "loss": 2.6157,
      "step": 77
    },
    {
      "epoch": 1.2530120481927711,
      "grad_norm": 3.388530969619751,
      "learning_rate": 6.779405744966954e-05,
      "loss": 3.6729,
      "step": 78
    },
    {
      "epoch": 1.2690763052208835,
      "grad_norm": 3.5173559188842773,
      "learning_rate": 6.696194330590151e-05,
      "loss": 3.9842,
      "step": 79
    },
    {
      "epoch": 1.285140562248996,
      "grad_norm": 2.7931549549102783,
      "learning_rate": 6.612448576542545e-05,
      "loss": 3.0825,
      "step": 80
    },
    {
      "epoch": 1.3012048192771084,
      "grad_norm": 3.339315414428711,
      "learning_rate": 6.528194864635369e-05,
      "loss": 3.6041,
      "step": 81
    },
    {
      "epoch": 1.3172690763052208,
      "grad_norm": 3.117481231689453,
      "learning_rate": 6.443459736698105e-05,
      "loss": 3.9031,
      "step": 82
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 3.688598394393921,
      "learning_rate": 6.358269886217194e-05,
      "loss": 3.7723,
      "step": 83
    },
    {
      "epoch": 1.3493975903614457,
      "grad_norm": 3.139585018157959,
      "learning_rate": 6.272652149926988e-05,
      "loss": 3.1741,
      "step": 84
    },
    {
      "epoch": 1.3654618473895583,
      "grad_norm": 3.0943682193756104,
      "learning_rate": 6.186633499355576e-05,
      "loss": 3.2471,
      "step": 85
    },
    {
      "epoch": 1.3815261044176708,
      "grad_norm": 3.326190233230591,
      "learning_rate": 6.100241032328124e-05,
      "loss": 3.4102,
      "step": 86
    },
    {
      "epoch": 1.3975903614457832,
      "grad_norm": 3.5069797039031982,
      "learning_rate": 6.013501964430468e-05,
      "loss": 3.4508,
      "step": 87
    },
    {
      "epoch": 1.4136546184738956,
      "grad_norm": 3.5622382164001465,
      "learning_rate": 5.9264436204355724e-05,
      "loss": 3.6425,
      "step": 88
    },
    {
      "epoch": 1.429718875502008,
      "grad_norm": 3.414167642593384,
      "learning_rate": 5.839093425695609e-05,
      "loss": 3.1401,
      "step": 89
    },
    {
      "epoch": 1.4457831325301205,
      "grad_norm": 4.011873722076416,
      "learning_rate": 5.751478897502352e-05,
      "loss": 3.5314,
      "step": 90
    },
    {
      "epoch": 1.461847389558233,
      "grad_norm": 3.9816694259643555,
      "learning_rate": 5.6636276364186105e-05,
      "loss": 3.0067,
      "step": 91
    },
    {
      "epoch": 1.4779116465863453,
      "grad_norm": 4.07311487197876,
      "learning_rate": 5.5755673175834145e-05,
      "loss": 3.154,
      "step": 92
    },
    {
      "epoch": 1.4939759036144578,
      "grad_norm": 5.1224493980407715,
      "learning_rate": 5.487325681993733e-05,
      "loss": 3.4786,
      "step": 93
    },
    {
      "epoch": 1.5100401606425704,
      "grad_norm": 4.415732383728027,
      "learning_rate": 5.3989305277654156e-05,
      "loss": 3.96,
      "step": 94
    },
    {
      "epoch": 1.5261044176706826,
      "grad_norm": 3.994023561477661,
      "learning_rate": 5.31040970137617e-05,
      "loss": 3.3493,
      "step": 95
    },
    {
      "epoch": 1.5421686746987953,
      "grad_norm": 4.437527656555176,
      "learning_rate": 5.221791088893282e-05,
      "loss": 4.7828,
      "step": 96
    },
    {
      "epoch": 1.5582329317269075,
      "grad_norm": 4.021539211273193,
      "learning_rate": 5.133102607188874e-05,
      "loss": 3.9297,
      "step": 97
    },
    {
      "epoch": 1.5742971887550201,
      "grad_norm": 3.9039905071258545,
      "learning_rate": 5.044372195145455e-05,
      "loss": 3.4016,
      "step": 98
    },
    {
      "epoch": 1.5903614457831325,
      "grad_norm": 3.7702994346618652,
      "learning_rate": 4.955627804854545e-05,
      "loss": 3.7453,
      "step": 99
    },
    {
      "epoch": 1.606425702811245,
      "grad_norm": 3.9021224975585938,
      "learning_rate": 4.866897392811126e-05,
      "loss": 4.1127,
      "step": 100
    },
    {
      "epoch": 1.606425702811245,
      "eval_loss": 1.151397466659546,
      "eval_runtime": 5.1374,
      "eval_samples_per_second": 20.438,
      "eval_steps_per_second": 5.256,
      "step": 100
    },
    {
      "epoch": 1.6224899598393574,
      "grad_norm": 3.995490074157715,
      "learning_rate": 4.7782089111067176e-05,
      "loss": 3.717,
      "step": 101
    },
    {
      "epoch": 1.6385542168674698,
      "grad_norm": 3.644481897354126,
      "learning_rate": 4.6895902986238304e-05,
      "loss": 3.7711,
      "step": 102
    },
    {
      "epoch": 1.6546184738955825,
      "grad_norm": 3.434148073196411,
      "learning_rate": 4.601069472234584e-05,
      "loss": 2.991,
      "step": 103
    },
    {
      "epoch": 1.6706827309236947,
      "grad_norm": 3.6170947551727295,
      "learning_rate": 4.512674318006268e-05,
      "loss": 2.9322,
      "step": 104
    },
    {
      "epoch": 1.6867469879518073,
      "grad_norm": 3.4415011405944824,
      "learning_rate": 4.424432682416585e-05,
      "loss": 3.0461,
      "step": 105
    },
    {
      "epoch": 1.7028112449799195,
      "grad_norm": 3.642404317855835,
      "learning_rate": 4.336372363581391e-05,
      "loss": 2.8494,
      "step": 106
    },
    {
      "epoch": 1.7188755020080322,
      "grad_norm": 3.682032346725464,
      "learning_rate": 4.2485211024976496e-05,
      "loss": 2.5591,
      "step": 107
    },
    {
      "epoch": 1.7349397590361446,
      "grad_norm": 3.749718189239502,
      "learning_rate": 4.160906574304392e-05,
      "loss": 3.4887,
      "step": 108
    },
    {
      "epoch": 1.751004016064257,
      "grad_norm": 3.8128294944763184,
      "learning_rate": 4.0735563795644294e-05,
      "loss": 3.8112,
      "step": 109
    },
    {
      "epoch": 1.7670682730923695,
      "grad_norm": 4.078059196472168,
      "learning_rate": 3.986498035569532e-05,
      "loss": 4.2244,
      "step": 110
    },
    {
      "epoch": 1.783132530120482,
      "grad_norm": 3.796144962310791,
      "learning_rate": 3.899758967671878e-05,
      "loss": 3.2976,
      "step": 111
    },
    {
      "epoch": 1.7991967871485943,
      "grad_norm": 3.6536436080932617,
      "learning_rate": 3.8133665006444255e-05,
      "loss": 3.4337,
      "step": 112
    },
    {
      "epoch": 1.8152610441767068,
      "grad_norm": 3.750316619873047,
      "learning_rate": 3.727347850073012e-05,
      "loss": 3.0045,
      "step": 113
    },
    {
      "epoch": 1.8313253012048194,
      "grad_norm": 4.556751251220703,
      "learning_rate": 3.641730113782807e-05,
      "loss": 3.6421,
      "step": 114
    },
    {
      "epoch": 1.8473895582329316,
      "grad_norm": 3.9478201866149902,
      "learning_rate": 3.556540263301896e-05,
      "loss": 3.6146,
      "step": 115
    },
    {
      "epoch": 1.8634538152610443,
      "grad_norm": 4.054509162902832,
      "learning_rate": 3.47180513536463e-05,
      "loss": 3.4037,
      "step": 116
    },
    {
      "epoch": 1.8795180722891565,
      "grad_norm": 4.007964611053467,
      "learning_rate": 3.3875514234574556e-05,
      "loss": 3.524,
      "step": 117
    },
    {
      "epoch": 1.895582329317269,
      "grad_norm": 3.654676914215088,
      "learning_rate": 3.303805669409848e-05,
      "loss": 3.191,
      "step": 118
    },
    {
      "epoch": 1.9116465863453815,
      "grad_norm": 3.921443223953247,
      "learning_rate": 3.2205942550330456e-05,
      "loss": 3.3497,
      "step": 119
    },
    {
      "epoch": 1.927710843373494,
      "grad_norm": 3.851763963699341,
      "learning_rate": 3.1379433938091696e-05,
      "loss": 3.3596,
      "step": 120
    },
    {
      "epoch": 1.9437751004016064,
      "grad_norm": 3.6037046909332275,
      "learning_rate": 3.055879122633397e-05,
      "loss": 2.7789,
      "step": 121
    },
    {
      "epoch": 1.9598393574297188,
      "grad_norm": 4.044558525085449,
      "learning_rate": 2.9744272936117323e-05,
      "loss": 2.9015,
      "step": 122
    },
    {
      "epoch": 1.9759036144578315,
      "grad_norm": 4.123264312744141,
      "learning_rate": 2.8936135659170216e-05,
      "loss": 3.212,
      "step": 123
    },
    {
      "epoch": 1.9919678714859437,
      "grad_norm": 3.922659397125244,
      "learning_rate": 2.8134633977057235e-05,
      "loss": 3.0483,
      "step": 124
    },
    {
      "epoch": 2.0080321285140563,
      "grad_norm": 6.641228199005127,
      "learning_rate": 2.7340020380980146e-05,
      "loss": 2.6989,
      "step": 125
    },
    {
      "epoch": 2.0240963855421685,
      "grad_norm": 3.668055295944214,
      "learning_rate": 2.655254519223746e-05,
      "loss": 3.1804,
      "step": 126
    },
    {
      "epoch": 2.040160642570281,
      "grad_norm": 3.3010871410369873,
      "learning_rate": 2.5772456483367497e-05,
      "loss": 2.7665,
      "step": 127
    },
    {
      "epoch": 2.0562248995983934,
      "grad_norm": 3.531085968017578,
      "learning_rate": 2.500000000000001e-05,
      "loss": 2.8618,
      "step": 128
    },
    {
      "epoch": 2.072289156626506,
      "grad_norm": 3.388322353363037,
      "learning_rate": 2.4235419083440613e-05,
      "loss": 2.5531,
      "step": 129
    },
    {
      "epoch": 2.0883534136546187,
      "grad_norm": 3.2638051509857178,
      "learning_rate": 2.347895459401288e-05,
      "loss": 2.2715,
      "step": 130
    },
    {
      "epoch": 2.104417670682731,
      "grad_norm": 4.149755954742432,
      "learning_rate": 2.2730844835181757e-05,
      "loss": 2.9905,
      "step": 131
    },
    {
      "epoch": 2.1204819277108435,
      "grad_norm": 3.7817494869232178,
      "learning_rate": 2.1991325478482694e-05,
      "loss": 2.736,
      "step": 132
    },
    {
      "epoch": 2.1365461847389557,
      "grad_norm": 3.355639934539795,
      "learning_rate": 2.126062948927966e-05,
      "loss": 2.388,
      "step": 133
    },
    {
      "epoch": 2.1526104417670684,
      "grad_norm": 4.048093318939209,
      "learning_rate": 2.053898705337583e-05,
      "loss": 2.8191,
      "step": 134
    },
    {
      "epoch": 2.1686746987951806,
      "grad_norm": 3.838303804397583,
      "learning_rate": 1.9826625504499806e-05,
      "loss": 2.7878,
      "step": 135
    },
    {
      "epoch": 2.1847389558232932,
      "grad_norm": 3.8488473892211914,
      "learning_rate": 1.912376925269041e-05,
      "loss": 1.9308,
      "step": 136
    },
    {
      "epoch": 2.2008032128514055,
      "grad_norm": 3.577918767929077,
      "learning_rate": 1.8430639713602316e-05,
      "loss": 1.9279,
      "step": 137
    },
    {
      "epoch": 2.216867469879518,
      "grad_norm": 4.232691287994385,
      "learning_rate": 1.7747455238755223e-05,
      "loss": 2.8327,
      "step": 138
    },
    {
      "epoch": 2.2329317269076308,
      "grad_norm": 3.9318931102752686,
      "learning_rate": 1.7074431046748075e-05,
      "loss": 1.739,
      "step": 139
    },
    {
      "epoch": 2.248995983935743,
      "grad_norm": 4.321664333343506,
      "learning_rate": 1.641177915546036e-05,
      "loss": 2.4018,
      "step": 140
    },
    {
      "epoch": 2.2650602409638556,
      "grad_norm": 4.394686222076416,
      "learning_rate": 1.5759708315261722e-05,
      "loss": 2.4884,
      "step": 141
    },
    {
      "epoch": 2.281124497991968,
      "grad_norm": 4.473072052001953,
      "learning_rate": 1.5118423943250771e-05,
      "loss": 2.4596,
      "step": 142
    },
    {
      "epoch": 2.2971887550200805,
      "grad_norm": 4.424641132354736,
      "learning_rate": 1.4488128058544098e-05,
      "loss": 2.498,
      "step": 143
    },
    {
      "epoch": 2.3132530120481927,
      "grad_norm": 5.027149677276611,
      "learning_rate": 1.3869019218635642e-05,
      "loss": 3.0215,
      "step": 144
    },
    {
      "epoch": 2.3293172690763053,
      "grad_norm": 5.130609035491943,
      "learning_rate": 1.3261292456846647e-05,
      "loss": 2.6401,
      "step": 145
    },
    {
      "epoch": 2.3453815261044175,
      "grad_norm": 4.814692974090576,
      "learning_rate": 1.2665139220885613e-05,
      "loss": 2.6757,
      "step": 146
    },
    {
      "epoch": 2.36144578313253,
      "grad_norm": 5.173750400543213,
      "learning_rate": 1.2080747312538083e-05,
      "loss": 2.6451,
      "step": 147
    },
    {
      "epoch": 2.3775100401606424,
      "grad_norm": 5.4804487228393555,
      "learning_rate": 1.150830082850468e-05,
      "loss": 2.6194,
      "step": 148
    },
    {
      "epoch": 2.393574297188755,
      "grad_norm": 4.958381652832031,
      "learning_rate": 1.0947980102406596e-05,
      "loss": 2.1154,
      "step": 149
    },
    {
      "epoch": 2.4096385542168672,
      "grad_norm": 5.195164203643799,
      "learning_rate": 1.0399961647976314e-05,
      "loss": 2.4471,
      "step": 150
    },
    {
      "epoch": 2.4096385542168672,
      "eval_loss": 1.3369210958480835,
      "eval_runtime": 5.1256,
      "eval_samples_per_second": 20.485,
      "eval_steps_per_second": 5.268,
      "step": 150
    },
    {
      "epoch": 2.42570281124498,
      "grad_norm": 5.330728054046631,
      "learning_rate": 9.864418103451828e-06,
      "loss": 2.2076,
      "step": 151
    },
    {
      "epoch": 2.4417670682730925,
      "grad_norm": 4.581171989440918,
      "learning_rate": 9.34151817719166e-06,
      "loss": 1.6987,
      "step": 152
    },
    {
      "epoch": 2.4578313253012047,
      "grad_norm": 5.073155879974365,
      "learning_rate": 8.831426594527975e-06,
      "loss": 1.7193,
      "step": 153
    },
    {
      "epoch": 2.4738955823293174,
      "grad_norm": 5.264266490936279,
      "learning_rate": 8.334304045874247e-06,
      "loss": 1.5057,
      "step": 154
    },
    {
      "epoch": 2.4899598393574296,
      "grad_norm": 5.584808826446533,
      "learning_rate": 7.850307136104247e-06,
      "loss": 2.1279,
      "step": 155
    },
    {
      "epoch": 2.5060240963855422,
      "grad_norm": 5.895335674285889,
      "learning_rate": 7.379588335217874e-06,
      "loss": 3.0266,
      "step": 156
    },
    {
      "epoch": 2.522088353413655,
      "grad_norm": 5.532739162445068,
      "learning_rate": 6.922295930309691e-06,
      "loss": 2.6393,
      "step": 157
    },
    {
      "epoch": 2.538152610441767,
      "grad_norm": 6.34697961807251,
      "learning_rate": 6.478573978855146e-06,
      "loss": 2.8296,
      "step": 158
    },
    {
      "epoch": 2.5542168674698793,
      "grad_norm": 4.648488998413086,
      "learning_rate": 6.048562263329138e-06,
      "loss": 2.0262,
      "step": 159
    },
    {
      "epoch": 2.570281124497992,
      "grad_norm": 5.55854606628418,
      "learning_rate": 5.6323962471714286e-06,
      "loss": 2.706,
      "step": 160
    },
    {
      "epoch": 2.5863453815261046,
      "grad_norm": 5.890481472015381,
      "learning_rate": 5.23020703211255e-06,
      "loss": 2.4141,
      "step": 161
    },
    {
      "epoch": 2.602409638554217,
      "grad_norm": 4.964902877807617,
      "learning_rate": 4.842121316873821e-06,
      "loss": 2.2678,
      "step": 162
    },
    {
      "epoch": 2.6184738955823295,
      "grad_norm": 5.809137344360352,
      "learning_rate": 4.468261357254339e-06,
      "loss": 2.732,
      "step": 163
    },
    {
      "epoch": 2.6345381526104417,
      "grad_norm": 5.790419101715088,
      "learning_rate": 4.108744927617669e-06,
      "loss": 2.2561,
      "step": 164
    },
    {
      "epoch": 2.6506024096385543,
      "grad_norm": 4.779477596282959,
      "learning_rate": 3.763685283790208e-06,
      "loss": 2.0864,
      "step": 165
    },
    {
      "epoch": 2.6666666666666665,
      "grad_norm": 4.552245140075684,
      "learning_rate": 3.4331911273830784e-06,
      "loss": 2.0216,
      "step": 166
    },
    {
      "epoch": 2.682730923694779,
      "grad_norm": 7.755861282348633,
      "learning_rate": 3.117366571548608e-06,
      "loss": 2.4933,
      "step": 167
    },
    {
      "epoch": 2.6987951807228914,
      "grad_norm": 5.822749614715576,
      "learning_rate": 2.816311108182368e-06,
      "loss": 1.9442,
      "step": 168
    },
    {
      "epoch": 2.714859437751004,
      "grad_norm": 5.858341217041016,
      "learning_rate": 2.530119576580936e-06,
      "loss": 2.1095,
      "step": 169
    },
    {
      "epoch": 2.7309236947791167,
      "grad_norm": 5.097665786743164,
      "learning_rate": 2.258882133565404e-06,
      "loss": 2.0229,
      "step": 170
    },
    {
      "epoch": 2.746987951807229,
      "grad_norm": 6.067201137542725,
      "learning_rate": 2.0026842250799038e-06,
      "loss": 3.026,
      "step": 171
    },
    {
      "epoch": 2.7630522088353415,
      "grad_norm": 5.343596935272217,
      "learning_rate": 1.7616065592742038e-06,
      "loss": 2.7176,
      "step": 172
    },
    {
      "epoch": 2.7791164658634537,
      "grad_norm": 4.955507278442383,
      "learning_rate": 1.5357250810788314e-06,
      "loss": 2.3381,
      "step": 173
    },
    {
      "epoch": 2.7951807228915664,
      "grad_norm": 5.314153671264648,
      "learning_rate": 1.3251109482806666e-06,
      "loss": 2.8097,
      "step": 174
    },
    {
      "epoch": 2.8112449799196786,
      "grad_norm": 5.270861625671387,
      "learning_rate": 1.1298305091066664e-06,
      "loss": 2.5298,
      "step": 175
    },
    {
      "epoch": 2.8273092369477912,
      "grad_norm": 4.830763816833496,
      "learning_rate": 9.499452813226284e-07,
      "loss": 2.272,
      "step": 176
    },
    {
      "epoch": 2.8433734939759034,
      "grad_norm": 4.925755023956299,
      "learning_rate": 7.855119328537109e-07,
      "loss": 2.1159,
      "step": 177
    },
    {
      "epoch": 2.859437751004016,
      "grad_norm": 5.482738018035889,
      "learning_rate": 6.365822639327723e-07,
      "loss": 2.1823,
      "step": 178
    },
    {
      "epoch": 2.8755020080321287,
      "grad_norm": 4.609542369842529,
      "learning_rate": 5.032031907821089e-07,
      "loss": 2.1838,
      "step": 179
    },
    {
      "epoch": 2.891566265060241,
      "grad_norm": 5.285520076751709,
      "learning_rate": 3.854167308337708e-07,
      "loss": 2.1623,
      "step": 180
    },
    {
      "epoch": 2.907630522088353,
      "grad_norm": 5.1235785484313965,
      "learning_rate": 2.8325998949314536e-07,
      "loss": 2.1058,
      "step": 181
    },
    {
      "epoch": 2.923694779116466,
      "grad_norm": 4.607071399688721,
      "learning_rate": 1.9676514844987337e-07,
      "loss": 2.0016,
      "step": 182
    },
    {
      "epoch": 2.9397590361445785,
      "grad_norm": 5.898435115814209,
      "learning_rate": 1.2595945553992573e-07,
      "loss": 2.0576,
      "step": 183
    },
    {
      "epoch": 2.9558232931726907,
      "grad_norm": 4.978879928588867,
      "learning_rate": 7.086521616190279e-08,
      "loss": 1.9361,
      "step": 184
    },
    {
      "epoch": 2.9718875502008033,
      "grad_norm": 4.865438461303711,
      "learning_rate": 3.149978625032191e-08,
      "loss": 1.6334,
      "step": 185
    },
    {
      "epoch": 2.9879518072289155,
      "grad_norm": 5.637676239013672,
      "learning_rate": 7.875566808107637e-09,
      "loss": 2.8046,
      "step": 186
    },
    {
      "epoch": 3.004016064257028,
      "grad_norm": 5.7447896003723145,
      "learning_rate": 0.0,
      "loss": 1.8542,
      "step": 187
    }
  ],
  "logging_steps": 1,
  "max_steps": 187,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 2
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4076236595304858e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}