{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 625,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 0.00010526315789473683,
      "loss": 5.4515,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.00021052631578947367,
      "loss": 6.0215,
      "step": 2
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.00031578947368421053,
      "loss": 6.2311,
      "step": 3
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00042105263157894734,
      "loss": 5.2113,
      "step": 4
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0005263157894736842,
      "loss": 5.0409,
      "step": 5
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0006315789473684211,
      "loss": 5.3516,
      "step": 6
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0007368421052631579,
      "loss": 5.2804,
      "step": 7
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0008421052631578947,
      "loss": 4.9678,
      "step": 8
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0009473684210526315,
      "loss": 4.9647,
      "step": 9
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0010526315789473684,
      "loss": 5.0402,
      "step": 10
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0011578947368421054,
      "loss": 4.7197,
      "step": 11
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0012631578947368421,
      "loss": 5.1738,
      "step": 12
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.001368421052631579,
      "loss": 5.2133,
      "step": 13
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0014736842105263158,
      "loss": 4.9841,
      "step": 14
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0015789473684210526,
      "loss": 4.4644,
      "step": 15
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0016842105263157893,
      "loss": 4.412,
      "step": 16
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0017894736842105263,
      "loss": 4.478,
      "step": 17
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.001894736842105263,
      "loss": 4.2513,
      "step": 18
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.002,
      "loss": 4.6071,
      "step": 19
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.001999986562343701,
      "loss": 4.3444,
      "step": 20
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0019999462497359466,
      "loss": 4.3923,
      "step": 21
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0019998790632601497,
      "loss": 4.4753,
      "step": 22
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.001999785004721968,
      "loss": 4.5168,
      "step": 23
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.001999664076649254,
      "loss": 4.5299,
      "step": 24
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.001999516282291988,
      "loss": 4.7895,
      "step": 25
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0019993416256221894,
      "loss": 4.3059,
      "step": 26
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00199914011133381,
      "loss": 3.8721,
      "step": 27
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0019989117448426107,
      "loss": 4.1483,
      "step": 28
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0019986565322860114,
      "loss": 3.9059,
      "step": 29
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0019983744805229294,
      "loss": 4.0775,
      "step": 30
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0019980655971335946,
      "loss": 3.9751,
      "step": 31
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.001997729890419344,
      "loss": 4.1837,
      "step": 32
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0019973673694024,
      "loss": 4.3396,
      "step": 33
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0019969780438256293,
      "loss": 4.2908,
      "step": 34
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.001996561924152278,
      "loss": 4.3025,
      "step": 35
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.001996119021565693,
      "loss": 4.2087,
      "step": 36
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0019956493479690186,
      "loss": 4.2744,
      "step": 37
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0019951529159848804,
      "loss": 3.9765,
      "step": 38
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0019946297389550434,
      "loss": 3.7708,
      "step": 39
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0019940798309400526,
      "loss": 4.2166,
      "step": 40
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.001993503206718859,
      "loss": 3.9336,
      "step": 41
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.001992899881788418,
      "loss": 4.144,
      "step": 42
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0019922698723632767,
      "loss": 4.4668,
      "step": 43
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.001991613195375134,
      "loss": 4.1637,
      "step": 44
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0019909298684723906,
      "loss": 3.8325,
      "step": 45
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0019902199100196695,
      "loss": 3.7836,
      "step": 46
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0019894833390973264,
      "loss": 4.7754,
      "step": 47
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0019887201755009356,
      "loss": 4.225,
      "step": 48
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0019879304397407566,
      "loss": 3.9848,
      "step": 49
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0019871141530411855,
      "loss": 4.188,
      "step": 50
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.001986271337340182,
      "loss": 4.4098,
      "step": 51
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.001985402015288681,
      "loss": 4.4316,
      "step": 52
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.001984506210249986,
      "loss": 3.7578,
      "step": 53
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.001983583946299136,
      "loss": 3.9527,
      "step": 54
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.001982635248222264,
      "loss": 4.1557,
      "step": 55
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0019816601415159263,
      "loss": 3.9226,
      "step": 56
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.001980658652386421,
      "loss": 3.9957,
      "step": 57
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0019796308077490816,
      "loss": 3.8381,
      "step": 58
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.001978576635227554,
      "loss": 4.001,
      "step": 59
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0019774961631530545,
      "loss": 4.1027,
      "step": 60
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.001976389420563607,
      "loss": 4.0129,
      "step": 61
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0019752564372032657,
      "loss": 3.9004,
      "step": 62
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0019740972435213114,
      "loss": 4.1503,
      "step": 63
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0019729118706714377,
      "loss": 4.3853,
      "step": 64
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0019717003505109096,
      "loss": 3.9081,
      "step": 65
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0019704627155997106,
      "loss": 3.8926,
      "step": 66
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0019691989991996663,
      "loss": 2.8879,
      "step": 67
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0019679092352735492,
      "loss": 1.7079,
      "step": 68
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.001966593458484168,
      "loss": 11.3821,
      "step": 69
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0019652517041934357,
      "loss": 3.9921,
      "step": 70
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.001963884008461418,
      "loss": 4.1075,
      "step": 71
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.001962490408045365,
      "loss": 4.4107,
      "step": 72
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0019610709403987247,
      "loss": 4.311,
      "step": 73
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0019596256436701324,
      "loss": 4.2788,
      "step": 74
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00195815455670239,
      "loss": 4.0285,
      "step": 75
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0019566577190314196,
      "loss": 3.9091,
      "step": 76
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.001955135170885202,
      "loss": 4.0886,
      "step": 77
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0019535869531826936,
      "loss": 4.188,
      "step": 78
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00195201310753273,
      "loss": 3.8323,
      "step": 79
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0019504136762329045,
      "loss": 3.6808,
      "step": 80
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0019487887022684336,
      "loss": 4.0087,
      "step": 81
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0019471382293110003,
      "loss": 3.9882,
      "step": 82
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0019454623017175813,
      "loss": 4.154,
      "step": 83
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0019437609645292547,
      "loss": 4.0551,
      "step": 84
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.001942034263469989,
      "loss": 3.8263,
      "step": 85
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0019402822449454153,
      "loss": 4.1469,
      "step": 86
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0019385049560415792,
      "loss": 3.4656,
      "step": 87
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0019367024445236752,
      "loss": 1.0978,
      "step": 88
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0019348747588347637,
      "loss": 4.3482,
      "step": 89
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0019330219480944693,
      "loss": 3.8379,
      "step": 90
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019311440620976598,
      "loss": 3.9674,
      "step": 91
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019292411513131078,
      "loss": 4.0512,
      "step": 92
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019273132668821363,
      "loss": 4.1261,
      "step": 93
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019253604606172417,
      "loss": 3.9303,
      "step": 94
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019233827850007026,
      "loss": 4.2474,
      "step": 95
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0019213802931831697,
      "loss": 3.9844,
      "step": 96
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0019193530389822362,
      "loss": 4.2638,
      "step": 97
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0019173010768809933,
      "loss": 3.7256,
      "step": 98
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.001915224462026563,
      "loss": 4.1272,
      "step": 99
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.001913123250228619,
      "loss": 3.4689,
      "step": 100
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.001910997497957885,
      "loss": 4.0093,
      "step": 101
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0019088472623446182,
      "loss": 1.4374,
      "step": 102
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0019066726011770726,
      "loss": 4.0466,
      "step": 103
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.001904473572899947,
      "loss": 3.9045,
      "step": 104
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0019022502366128134,
      "loss": 4.0656,
      "step": 105
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00190000265206853,
      "loss": 3.8209,
      "step": 106
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.001897730879671634,
      "loss": 3.9246,
      "step": 107
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0018954349804767184,
      "loss": 1.1478,
      "step": 108
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0018931150161867916,
      "loss": 3.875,
      "step": 109
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0018907710491516197,
      "loss": 3.4427,
      "step": 110
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.001888403142366049,
      "loss": 1.2648,
      "step": 111
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0018860113594683149,
      "loss": 3.9615,
      "step": 112
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0018835957647383302,
      "loss": 4.175,
      "step": 113
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0018811564230959586,
      "loss": 3.9097,
      "step": 114
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.001878693400099269,
      "loss": 3.6198,
      "step": 115
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0018762067619427746,
      "loss": 3.8975,
      "step": 116
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0018736965754556527,
      "loss": 3.8977,
      "step": 117
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0018711629080999503,
      "loss": 3.763,
      "step": 118
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00186860582796877,
      "loss": 3.9701,
      "step": 119
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.001866025403784439,
      "loss": 3.9555,
      "step": 120
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0018634217048966635,
      "loss": 3.7565,
      "step": 121
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018607948012806662,
      "loss": 3.9305,
      "step": 122
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.001858144763535302,
      "loss": 3.8742,
      "step": 123
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018554716628811638,
      "loss": 4.072,
      "step": 124
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018527755711586678,
      "loss": 4.1252,
      "step": 125
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018500565608261215,
      "loss": 4.0305,
      "step": 126
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018473147049577773,
      "loss": 3.8419,
      "step": 127
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0018445500772418695,
      "loss": 4.0377,
      "step": 128
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0018417627519786315,
      "loss": 4.0589,
      "step": 129
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0018389528040783012,
      "loss": 3.66,
      "step": 130
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.001836120309059107,
      "loss": 4.0361,
      "step": 131
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0018332653430452376,
      "loss": 3.7743,
      "step": 132
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0018303879827647977,
      "loss": 3.6057,
      "step": 133
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0018274883055477435,
      "loss": 4.2522,
      "step": 134
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0018245663893238073,
      "loss": 3.9242,
      "step": 135
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0018216223126204009,
      "loss": 3.5405,
      "step": 136
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0018186561545605053,
      "loss": 4.138,
      "step": 137
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0018156679948605468,
      "loss": 3.8028,
      "step": 138
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0018126579138282501,
      "loss": 4.0589,
      "step": 139
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.001809625992360485,
      "loss": 3.4607,
      "step": 140
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0018065723119410884,
      "loss": 3.7326,
      "step": 141
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0018034969546386758,
      "loss": 4.3308,
      "step": 142
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0018004000031044362,
      "loss": 3.6548,
      "step": 143
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0017972815405699104,
      "loss": 3.7109,
      "step": 144
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0017941416508447535,
      "loss": 3.7733,
      "step": 145
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0017909804183144837,
      "loss": 3.5148,
      "step": 146
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017877979279382133,
      "loss": 3.8504,
      "step": 147
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017845942652463661,
      "loss": 3.8135,
      "step": 148
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.001781369516338378,
      "loss": 4.3285,
      "step": 149
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017781237678803844,
      "loss": 4.1764,
      "step": 150
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017748571071028898,
      "loss": 3.8819,
      "step": 151
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017715696217984235,
      "loss": 3.8317,
      "step": 152
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0017682614003191805,
      "loss": 3.5915,
      "step": 153
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0017649325315746479,
      "loss": 4.1536,
      "step": 154
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.001761583105029213,
      "loss": 3.7844,
      "step": 155
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0017582132106997615,
      "loss": 3.91,
      "step": 156
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0017548229391532572,
      "loss": 3.9488,
      "step": 157
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0017514123815043072,
      "loss": 4.308,
      "step": 158
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.001747981629412715,
      "loss": 3.9577,
      "step": 159
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.001744530775081015,
      "loss": 3.7033,
      "step": 160
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.001741059911251997,
      "loss": 3.6316,
      "step": 161
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0017375691312062102,
      "loss": 1.6311,
      "step": 162
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0017340585287594604,
      "loss": 4.0487,
      "step": 163
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.001730528198260285,
      "loss": 3.7739,
      "step": 164
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0017269782345874203,
      "loss": 3.8212,
      "step": 165
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0017234087331472496,
      "loss": 3.615,
      "step": 166
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0017198197898712403,
      "loss": 1.6226,
      "step": 167
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.001716211501213364,
      "loss": 3.8189,
      "step": 168
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0017125839641475072,
      "loss": 3.8534,
      "step": 169
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0017089372761648616,
      "loss": 1.3286,
      "step": 170
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0017052715352713075,
      "loss": 3.5215,
      "step": 171
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0017015868399847768,
      "loss": 3.6761,
      "step": 172
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016978832893326072,
      "loss": 3.8834,
      "step": 173
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016941609828488807,
      "loss": 3.9351,
      "step": 174
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016904200205717468,
      "loss": 3.9422,
      "step": 175
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016866605030407369,
      "loss": 3.7697,
      "step": 176
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016828825312940592,
      "loss": 3.55,
      "step": 177
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0016790862068658862,
      "loss": 3.7282,
      "step": 178
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0016752716317836227,
      "loss": 1.4006,
      "step": 179
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0016714389085651668,
      "loss": 3.8199,
      "step": 180
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0016675881402161536,
      "loss": 3.8684,
      "step": 181
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0016637194302271858,
      "loss": 3.8336,
      "step": 182
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0016598328825710533,
      "loss": 3.8739,
      "step": 183
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00165592860169994,
      "loss": 3.9376,
      "step": 184
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016520066925426145,
      "loss": 4.331,
      "step": 185
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016480672605016112,
      "loss": 3.741,
      "step": 186
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016441104114503977,
      "loss": 3.874,
      "step": 187
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016401362517305296,
      "loss": 3.6882,
      "step": 188
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016361448881487912,
      "loss": 3.9917,
      "step": 189
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0016321364279743265,
      "loss": 3.8689,
      "step": 190
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.001628110978935756,
      "loss": 3.6256,
      "step": 191
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0016240686492182803,
      "loss": 3.688,
      "step": 192
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0016200095474607752,
      "loss": 3.653,
      "step": 193
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0016159337827528683,
      "loss": 3.8863,
      "step": 194
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0016118414646320112,
      "loss": 3.7174,
      "step": 195
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0016077327030805317,
      "loss": 3.8832,
      "step": 196
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0016036076085226814,
      "loss": 3.6604,
      "step": 197
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0015994662918216661,
      "loss": 3.6537,
      "step": 198
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.001595308864276666,
      "loss": 3.7167,
      "step": 199
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0015911354376198469,
      "loss": 3.5623,
      "step": 200
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.001586946124013354,
      "loss": 3.58,
      "step": 201
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.001582741036046301,
      "loss": 3.7644,
      "step": 202
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0015785202867317407,
      "loss": 3.9313,
      "step": 203
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0015742839895036304,
      "loss": 3.4684,
      "step": 204
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0015700322582137827,
      "loss": 3.7704,
      "step": 205
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.001565765207128805,
      "loss": 4.1129,
      "step": 206
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.001561482950927029,
      "loss": 3.8268,
      "step": 207
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0015571856046954285,
      "loss": 3.5591,
      "step": 208
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0015528732839265272,
      "loss": 3.7801,
      "step": 209
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0015485461045152938,
      "loss": 3.8583,
      "step": 210
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0015442041827560273,
      "loss": 3.4326,
      "step": 211
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0015398476353392324,
      "loss": 3.7473,
      "step": 212
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0015354765793484833,
      "loss": 3.531,
      "step": 213
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.001531091132257275,
      "loss": 3.8839,
      "step": 214
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0015266914119258699,
      "loss": 3.4951,
      "step": 215
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.001522277536598127,
      "loss": 3.6591,
      "step": 216
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0015178496248983253,
      "loss": 3.9619,
      "step": 217
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0015134077958279765,
      "loss": 3.6712,
      "step": 218
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0015089521687626241,
      "loss": 3.5387,
      "step": 219
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0015044828634486398,
      "loss": 4.0162,
      "step": 220
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0015,
      "loss": 3.996,
      "step": 221
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014955036988950616,
      "loss": 3.8723,
      "step": 222
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014909940809733223,
      "loss": 3.6757,
      "step": 223
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014864712674321733,
      "loss": 4.1622,
      "step": 224
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014819353798236426,
      "loss": 3.7941,
      "step": 225
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.001477386540051127,
      "loss": 3.9236,
      "step": 226
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014728248703661183,
      "loss": 3.9214,
      "step": 227
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0014682504933649144,
      "loss": 3.4801,
      "step": 228
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0014636635319853273,
      "loss": 4.0145,
      "step": 229
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0014590641095033785,
      "loss": 3.6227,
      "step": 230
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0014544523495299841,
      "loss": 3.8013,
      "step": 231
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.001449828376007636,
      "loss": 3.8496,
      "step": 232
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.001445192313207067,
      "loss": 3.5943,
      "step": 233
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.001440544285723915,
      "loss": 3.6935,
      "step": 234
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0014358844184753712,
      "loss": 3.7205,
      "step": 235
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0014312128366968243,
      "loss": 3.8119,
      "step": 236
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0014265296659384955,
      "loss": 3.7457,
      "step": 237
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0014218350320620624,
      "loss": 3.4936,
      "step": 238
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.001417129061237278,
      "loss": 4.0205,
      "step": 239
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0014124118799385796,
      "loss": 3.9891,
      "step": 240
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0014076836149416888,
      "loss": 3.8868,
      "step": 241
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0014029443933202058,
      "loss": 3.9221,
      "step": 242
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.001398194342442193,
      "loss": 3.6838,
      "step": 243
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0013934335899667524,
      "loss": 3.7234,
      "step": 244
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0013886622638405953,
      "loss": 3.4544,
      "step": 245
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0013838804922946027,
      "loss": 4.0295,
      "step": 246
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013790884038403794,
      "loss": 3.8057,
      "step": 247
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.001374286127266801,
      "loss": 3.807,
      "step": 248
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013694737916365516,
      "loss": 3.5747,
      "step": 249
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013646515262826552,
      "loss": 3.6138,
      "step": 250
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013598194608050009,
      "loss": 3.5898,
      "step": 251
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013549777250668588,
      "loss": 4.0295,
      "step": 252
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0013501264491913908,
      "loss": 3.6804,
      "step": 253
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.001345265763558152,
      "loss": 3.7069,
      "step": 254
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0013403957987995882,
      "loss": 3.6501,
      "step": 255
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.001335516685797525,
      "loss": 3.6399,
      "step": 256
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0013306285556796494,
      "loss": 3.6,
      "step": 257
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0013257315398159863,
      "loss": 3.743,
      "step": 258
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0013208257698153676,
      "loss": 1.1725,
      "step": 259
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0013159113775218962,
      "loss": 3.9001,
      "step": 260
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0013109884950114007,
      "loss": 3.8168,
      "step": 261
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0013060572545878875,
      "loss": 3.912,
      "step": 262
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0013011177887799845,
      "loss": 3.9894,
      "step": 263
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0012961702303373795,
      "loss": 3.7925,
      "step": 264
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0012912147122272522,
      "loss": 4.0637,
      "step": 265
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012862513676307008,
      "loss": 3.9632,
      "step": 266
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012812803299391629,
      "loss": 3.376,
      "step": 267
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012763017327508304,
      "loss": 3.9044,
      "step": 268
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012713157098670589,
      "loss": 3.6145,
      "step": 269
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012663223952887723,
      "loss": 4.087,
      "step": 270
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0012613219232128607,
      "loss": 3.9729,
      "step": 271
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.001256314428028574,
      "loss": 3.6649,
      "step": 272
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0012513000443139112,
      "loss": 3.439,
      "step": 273
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0012462789068320016,
      "loss": 3.7051,
      "step": 274
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0012412511505274844,
      "loss": 3.9721,
      "step": 275
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0012362169105228826,
      "loss": 3.6887,
      "step": 276
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00123117632211497,
      "loss": 4.0732,
      "step": 277
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0012261295207711346,
      "loss": 3.8312,
      "step": 278
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.001221076642125742,
      "loss": 3.5818,
      "step": 279
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0012160178219764836,
      "loss": 4.1222,
      "step": 280
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0012109531962807333,
      "loss": 3.8663,
      "step": 281
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0012058829011518896,
      "loss": 4.185,
      "step": 282
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0012008070728557186,
      "loss": 3.9915,
      "step": 283
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.001195725847806693,
      "loss": 4.0396,
      "step": 284
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011906393625643243,
      "loss": 3.8758,
      "step": 285
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011855477538294935,
      "loss": 3.8459,
      "step": 286
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011804511584407762,
      "loss": 3.5717,
      "step": 287
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011753497133707679,
      "loss": 3.6463,
      "step": 288
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011702435557223987,
      "loss": 3.6229,
      "step": 289
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0011651328227252516,
      "loss": 3.7196,
      "step": 290
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011600176517318741,
      "loss": 3.7248,
      "step": 291
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011548981802140847,
      "loss": 3.6327,
      "step": 292
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011497745457592816,
      "loss": 3.6421,
      "step": 293
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011446468860667421,
      "loss": 3.6629,
      "step": 294
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011395153389439233,
      "loss": 3.9132,
      "step": 295
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0011343800423027582,
      "loss": 3.3667,
      "step": 296
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.001129241134155949,
      "loss": 4.1641,
      "step": 297
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0011240987526132593,
      "loss": 3.5377,
      "step": 298
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0011189530358778003,
      "loss": 4.1335,
      "step": 299
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0011138041222423175,
      "loss": 3.5017,
      "step": 300
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0011086521500854745,
      "loss": 3.9421,
      "step": 301
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0011034972578681337,
      "loss": 3.992,
      "step": 302
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.001098339584129635,
      "loss": 3.9348,
      "step": 303
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0010931792674840717,
      "loss": 3.4803,
      "step": 304
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0010880164466165673,
      "loss": 3.4556,
      "step": 305
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.001082851260279546,
      "loss": 3.7428,
      "step": 306
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0010776838472890064,
      "loss": 3.8734,
      "step": 307
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0010725143465207868,
      "loss": 3.722,
      "step": 308
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0010673428969068363,
      "loss": 3.7025,
      "step": 309
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010621696374314806,
      "loss": 3.7655,
      "step": 310
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010569947071276847,
      "loss": 3.7916,
      "step": 311
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010518182450733186,
      "loss": 3.49,
      "step": 312
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010466403903874176,
      "loss": 3.7669,
      "step": 313
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010414612822264456,
      "loss": 3.2447,
      "step": 314
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0010362810597805525,
      "loss": 3.6931,
      "step": 315
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0010310998622698369,
      "loss": 3.5501,
      "step": 316
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.001025917828940601,
      "loss": 3.874,
      "step": 317
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0010207350990616107,
      "loss": 3.7802,
      "step": 318
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.001015551811920351,
      "loss": 3.4521,
      "step": 319
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0010103681068192845,
      "loss": 3.8069,
      "step": 320
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0010051841230721064,
      "loss": 3.5289,
      "step": 321
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.001,
      "loss": 3.5067,
      "step": 322
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0009948158769278938,
      "loss": 3.8598,
      "step": 323
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0009896318931807155,
      "loss": 3.627,
      "step": 324
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.000984448188079649,
      "loss": 3.6629,
      "step": 325
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0009792649009383897,
      "loss": 3.624,
      "step": 326
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0009740821710593989,
      "loss": 3.9597,
      "step": 327
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0009689001377301633,
      "loss": 3.6626,
      "step": 328
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009637189402194476,
      "loss": 3.5339,
      "step": 329
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009585387177735548,
      "loss": 3.5813,
      "step": 330
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009533596096125825,
      "loss": 3.7224,
      "step": 331
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009481817549266817,
      "loss": 3.6054,
      "step": 332
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009430052928723153,
      "loss": 3.3042,
      "step": 333
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0009378303625685195,
      "loss": 3.6328,
      "step": 334
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0009326571030931636,
      "loss": 3.829,
      "step": 335
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0009274856534792138,
      "loss": 3.3784,
      "step": 336
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0009223161527109937,
      "loss": 3.7312,
      "step": 337
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0009171487397204538,
      "loss": 3.6997,
      "step": 338
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.000911983553383433,
      "loss": 4.0333,
      "step": 339
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0009068207325159285,
      "loss": 3.9297,
      "step": 340
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0009016604158703654,
      "loss": 3.7931,
      "step": 341
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0008965027421318665,
      "loss": 3.385,
      "step": 342
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0008913478499145255,
      "loss": 3.787,
      "step": 343
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0008861958777576826,
      "loss": 3.7098,
      "step": 344
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0008810469641222001,
      "loss": 3.8554,
      "step": 345
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0008759012473867405,
      "loss": 3.7868,
      "step": 346
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008707588658440511,
      "loss": 3.8198,
      "step": 347
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008656199576972423,
      "loss": 3.7444,
      "step": 348
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008604846610560771,
      "loss": 3.9852,
      "step": 349
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008553531139332582,
      "loss": 3.3964,
      "step": 350
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008502254542407186,
      "loss": 3.5045,
      "step": 351
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008451018197859153,
      "loss": 1.0281,
      "step": 352
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0008399823482681261,
      "loss": 3.8997,
      "step": 353
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008348671772747487,
      "loss": 3.8542,
      "step": 354
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008297564442776013,
      "loss": 3.6298,
      "step": 355
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008246502866292324,
      "loss": 3.5069,
      "step": 356
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008195488415592238,
      "loss": 3.6102,
      "step": 357
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008144522461705067,
      "loss": 3.4068,
      "step": 358
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0008093606374356759,
      "loss": 1.2731,
      "step": 359
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0008042741521933071,
      "loss": 4.0248,
      "step": 360
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0007991929271442817,
      "loss": 3.7295,
      "step": 361
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0007941170988481108,
      "loss": 3.779,
      "step": 362
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.000789046803719267,
      "loss": 3.4426,
      "step": 363
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0007839821780235168,
      "loss": 3.631,
      "step": 364
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0007789233578742583,
      "loss": 3.994,
      "step": 365
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0007738704792288654,
      "loss": 3.3613,
      "step": 366
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0007688236778850306,
      "loss": 3.5385,
      "step": 367
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0007637830894771175,
      "loss": 3.6162,
      "step": 368
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0007587488494725156,
      "loss": 3.5582,
      "step": 369
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0007537210931679988,
      "loss": 3.6104,
      "step": 370
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.000748699955686089,
      "loss": 3.325,
      "step": 371
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.000743685571971426,
      "loss": 3.7545,
      "step": 372
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007386780767871396,
      "loss": 3.7875,
      "step": 373
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007336776047112276,
      "loss": 3.5217,
      "step": 374
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007286842901329413,
      "loss": 3.4912,
      "step": 375
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007236982672491699,
      "loss": 3.8963,
      "step": 376
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007187196700608373,
      "loss": 1.6135,
      "step": 377
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0007137486323692994,
      "loss": 3.7996,
      "step": 378
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0007087852877727481,
      "loss": 3.6033,
      "step": 379
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0007038297696626205,
      "loss": 3.7668,
      "step": 380
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0006988822112200156,
      "loss": 4.1006,
      "step": 381
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0006939427454121128,
      "loss": 3.6708,
      "step": 382
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0006890115049885994,
      "loss": 3.816,
      "step": 383
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0006840886224781039,
      "loss": 3.9372,
      "step": 384
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0006791742301846326,
      "loss": 3.841,
      "step": 385
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0006742684601840142,
      "loss": 3.61,
      "step": 386
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0006693714443203507,
      "loss": 3.582,
      "step": 387
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0006644833142024751,
      "loss": 3.7303,
      "step": 388
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.000659604201200412,
      "loss": 3.3549,
      "step": 389
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0006547342364418481,
      "loss": 3.8846,
      "step": 390
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0006498735508086094,
      "loss": 3.5904,
      "step": 391
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0006450222749331413,
      "loss": 3.7521,
      "step": 392
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0006401805391949989,
      "loss": 3.7174,
      "step": 393
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.000635348473717345,
      "loss": 3.7863,
      "step": 394
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0006305262083634487,
      "loss": 3.7128,
      "step": 395
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.000625713872733199,
      "loss": 3.5454,
      "step": 396
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0006209115961596208,
      "loss": 3.2634,
      "step": 397
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0006161195077053976,
      "loss": 3.1795,
      "step": 398
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0006113377361594048,
      "loss": 3.3432,
      "step": 399
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0006065664100332477,
      "loss": 3.5877,
      "step": 400
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0006018056575578074,
      "loss": 3.737,
      "step": 401
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0005970556066797941,
      "loss": 3.753,
      "step": 402
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0005923163850583114,
      "loss": 3.7073,
      "step": 403
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0005875881200614207,
      "loss": 3.0189,
      "step": 404
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0005828709387627218,
      "loss": 3.6717,
      "step": 405
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0005781649679379379,
      "loss": 3.5747,
      "step": 406
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.000573470334061505,
      "loss": 3.5068,
      "step": 407
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0005687871633031754,
      "loss": 3.6673,
      "step": 408
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0005641155815246289,
      "loss": 3.7107,
      "step": 409
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0005594557142760853,
      "loss": 3.7327,
      "step": 410
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.000554807686792933,
      "loss": 3.9147,
      "step": 411
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0005501716239923642,
      "loss": 1.0531,
      "step": 412
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0005455476504700161,
      "loss": 3.7775,
      "step": 413
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0005409358904966217,
      "loss": 3.5121,
      "step": 414
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0005363364680146725,
      "loss": 3.6936,
      "step": 415
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.000531749506635086,
      "loss": 3.4835,
      "step": 416
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0005271751296338822,
      "loss": 3.6268,
      "step": 417
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0005226134599488727,
      "loss": 3.8939,
      "step": 418
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0005180646201763577,
      "loss": 3.8859,
      "step": 419
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0005135287325678271,
      "loss": 3.7231,
      "step": 420
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0005090059190266779,
      "loss": 3.6779,
      "step": 421
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0005044963011049384,
      "loss": 3.7245,
      "step": 422
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0005000000000000002,
      "loss": 3.8012,
      "step": 423
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0004955171365513603,
      "loss": 3.9014,
      "step": 424
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0004910478312373756,
      "loss": 3.7399,
      "step": 425
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0004865922041720239,
      "loss": 3.5203,
      "step": 426
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0004821503751016746,
      "loss": 1.9136,
      "step": 427
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0004777224634018732,
      "loss": 3.6048,
      "step": 428
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004733085880741301,
      "loss": 3.3937,
      "step": 429
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004689088677427249,
      "loss": 3.5847,
      "step": 430
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004645234206515171,
      "loss": 3.6167,
      "step": 431
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004601523646607675,
      "loss": 3.5922,
      "step": 432
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004557958172439726,
      "loss": 3.6815,
      "step": 433
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0004514538954847064,
      "loss": 4.0997,
      "step": 434
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0004471267160734731,
      "loss": 3.6928,
      "step": 435
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00044281439530457166,
      "loss": 3.7416,
      "step": 436
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0004385170490729712,
      "loss": 3.6241,
      "step": 437
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00043423479287119527,
      "loss": 3.752,
      "step": 438
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0004299677417862173,
      "loss": 3.9847,
      "step": 439
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.00042571601049636954,
      "loss": 3.587,
      "step": 440
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0004214797132682596,
      "loss": 3.5443,
      "step": 441
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0004172589639536991,
      "loss": 3.9136,
      "step": 442
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00041305387598664567,
      "loss": 3.6431,
      "step": 443
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00040886456238015334,
      "loss": 2.3225,
      "step": 444
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.00040469113572333426,
      "loss": 3.5364,
      "step": 445
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.000400533708178334,
      "loss": 3.8829,
      "step": 446
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00039639239147731863,
      "loss": 2.2293,
      "step": 447
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00039226729691946863,
      "loss": 3.7015,
      "step": 448
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0003881585353679891,
      "loss": 3.8685,
      "step": 449
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00038406621724713154,
      "loss": 3.699,
      "step": 450
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00037999045253922503,
      "loss": 3.6266,
      "step": 451
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.00037593135078171957,
      "loss": 4.0395,
      "step": 452
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0003718890210642442,
      "loss": 3.2843,
      "step": 453
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.00036786357202567364,
      "loss": 3.9742,
      "step": 454
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0003638551118512089,
      "loss": 3.7354,
      "step": 455
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.00035986374826947067,
      "loss": 3.7586,
      "step": 456
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0003558895885496023,
      "loss": 3.4993,
      "step": 457
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0003519327394983888,
      "loss": 1.1225,
      "step": 458
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0003479933074573858,
      "loss": 1.627,
      "step": 459
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0003440713983000601,
      "loss": 3.4101,
      "step": 460
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0003401671174289469,
      "loss": 3.6403,
      "step": 461
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.00033628056977281454,
      "loss": 3.8653,
      "step": 462
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.00033241185978384635,
      "loss": 4.1749,
      "step": 463
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0003285610914348331,
      "loss": 3.5222,
      "step": 464
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0003247283682163774,
      "loss": 3.3613,
      "step": 465
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0003209137931341143,
      "loss": 3.5609,
      "step": 466
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0003171174687059408,
      "loss": 3.939,
      "step": 467
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0003133394969592632,
      "loss": 3.5709,
      "step": 468
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.00030957997942825333,
      "loss": 3.6074,
      "step": 469
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.00030583901715111963,
      "loss": 3.5742,
      "step": 470
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0003021167106673928,
      "loss": 3.4341,
      "step": 471
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.00029841316001522343,
      "loss": 3.2982,
      "step": 472
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.000294728464728693,
      "loss": 3.5418,
      "step": 473
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.00029106272383513834,
      "loss": 3.5821,
      "step": 474
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0002874160358524931,
      "loss": 3.7582,
      "step": 475
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0002837884987866363,
      "loss": 3.813,
      "step": 476
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0002801802101287599,
      "loss": 3.4851,
      "step": 477
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.00027659126685275026,
      "loss": 4.1582,
      "step": 478
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00027302176541257986,
      "loss": 3.7513,
      "step": 479
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00026947180173971506,
      "loss": 3.6744,
      "step": 480
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0002659414712405398,
      "loss": 4.0247,
      "step": 481
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00026243086879378997,
      "loss": 3.6709,
      "step": 482
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00025894008874800323,
      "loss": 3.4032,
      "step": 483
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.00025546922491898494,
      "loss": 3.8222,
      "step": 484
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00025201837058728505,
      "loss": 3.6383,
      "step": 485
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0002485876184956928,
      "loss": 3.1742,
      "step": 486
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0002451770608467432,
      "loss": 3.5631,
      "step": 487
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00024178678930023869,
      "loss": 3.6435,
      "step": 488
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00023841689497078745,
      "loss": 3.9528,
      "step": 489
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00023506746842535243,
      "loss": 3.7417,
      "step": 490
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00023173859968081946,
      "loss": 3.4688,
      "step": 491
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00022843037820157675,
      "loss": 3.348,
      "step": 492
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0002251428928971102,
      "loss": 3.7078,
      "step": 493
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0002218762321196156,
      "loss": 3.4896,
      "step": 494
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.00021863048366162208,
      "loss": 3.3995,
      "step": 495
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.000215405734753634,
      "loss": 3.5001,
      "step": 496
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0002122020720617869,
      "loss": 3.6616,
      "step": 497
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0002090195816855164,
      "loss": 3.2719,
      "step": 498
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00020585834915524647,
      "loss": 3.6635,
      "step": 499
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00020271845943008982,
      "loss": 3.7948,
      "step": 500
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00019959999689556407,
      "loss": 3.901,
      "step": 501
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00019650304536132423,
      "loss": 3.9056,
      "step": 502
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.00019342768805891174,
      "loss": 3.1826,
      "step": 503
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00019037400763951507,
      "loss": 3.7357,
      "step": 504
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00018734208617174987,
      "loss": 3.6262,
      "step": 505
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00018433200513945337,
      "loss": 3.636,
      "step": 506
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0001813438454394948,
      "loss": 3.8243,
      "step": 507
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00017837768737959936,
      "loss": 3.5867,
      "step": 508
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.00017543361067619268,
      "loss": 3.7388,
      "step": 509
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00017251169445225655,
      "loss": 3.6787,
      "step": 510
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00016961201723520247,
      "loss": 3.5468,
      "step": 511
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0001667346569547623,
      "loss": 3.6274,
      "step": 512
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00016387969094089317,
      "loss": 3.8492,
      "step": 513
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00016104719592169902,
      "loss": 4.0524,
      "step": 514
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.00015823724802136862,
      "loss": 3.8382,
      "step": 515
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00015544992275813053,
      "loss": 3.5185,
      "step": 516
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00015268529504222262,
      "loss": 3.626,
      "step": 517
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00014994343917387854,
      "loss": 3.8842,
      "step": 518
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00014722442884133213,
      "loss": 3.6249,
      "step": 519
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0001445283371188363,
      "loss": 3.7519,
      "step": 520
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.00014185523646469822,
      "loss": 3.6433,
      "step": 521
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00013920519871933425,
      "loss": 3.3474,
      "step": 522
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00013657829510333654,
      "loss": 3.8188,
      "step": 523
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0001339745962155613,
      "loss": 3.9019,
      "step": 524
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00013139417203123028,
      "loss": 3.5149,
      "step": 525
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00012883709190004955,
      "loss": 3.5519,
      "step": 526
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0001263034245443473,
      "loss": 3.6658,
      "step": 527
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.00012379323805722576,
      "loss": 3.7563,
      "step": 528
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00012130659990073145,
      "loss": 3.8424,
      "step": 529
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00011884357690404157,
      "loss": 1.4796,
      "step": 530
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00011640423526166988,
      "loss": 3.6791,
      "step": 531
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00011398864053168534,
      "loss": 0.9623,
      "step": 532
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00011159685763395111,
      "loss": 3.5464,
      "step": 533
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.00010922895084838036,
      "loss": 3.8424,
      "step": 534
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.00010688498381320854,
      "loss": 3.3816,
      "step": 535
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0001045650195232819,
      "loss": 3.859,
      "step": 536
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0001022691203283661,
      "loss": 3.6065,
      "step": 537
    },
    {
      "epoch": 0.86,
      "learning_rate": 9.999734793146997e-05,
      "loss": 4.088,
      "step": 538
    },
    {
      "epoch": 0.86,
      "learning_rate": 9.774976338718677e-05,
      "loss": 3.7818,
      "step": 539
    },
    {
      "epoch": 0.86,
      "learning_rate": 9.552642710005299e-05,
      "loss": 3.5833,
      "step": 540
    },
    {
      "epoch": 0.87,
      "learning_rate": 9.33273988229275e-05,
      "loss": 3.5815,
      "step": 541
    },
    {
      "epoch": 0.87,
      "learning_rate": 9.1152737655382e-05,
      "loss": 3.5383,
      "step": 542
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.900250204211513e-05,
      "loss": 3.6251,
      "step": 543
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.687674977138116e-05,
      "loss": 3.5686,
      "step": 544
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.477553797343728e-05,
      "loss": 3.7219,
      "step": 545
    },
    {
      "epoch": 0.87,
      "learning_rate": 8.269892311900695e-05,
      "loss": 4.0017,
      "step": 546
    },
    {
      "epoch": 0.88,
      "learning_rate": 8.064696101776359e-05,
      "loss": 3.2837,
      "step": 547
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.86197068168305e-05,
      "loss": 3.8604,
      "step": 548
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.661721499929753e-05,
      "loss": 3.3971,
      "step": 549
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.463953938275858e-05,
      "loss": 3.5138,
      "step": 550
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.268673311786378e-05,
      "loss": 3.8874,
      "step": 551
    },
    {
      "epoch": 0.88,
      "learning_rate": 7.07588486868922e-05,
      "loss": 3.5762,
      "step": 552
    },
    {
      "epoch": 0.88,
      "learning_rate": 6.885593790234057e-05,
      "loss": 3.7988,
      "step": 553
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.697805190553085e-05,
      "loss": 3.6264,
      "step": 554
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.512524116523632e-05,
      "loss": 3.8119,
      "step": 555
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.329755547632499e-05,
      "loss": 3.9918,
      "step": 556
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.149504395842087e-05,
      "loss": 3.5748,
      "step": 557
    },
    {
      "epoch": 0.89,
      "learning_rate": 5.971775505458443e-05,
      "loss": 3.3382,
      "step": 558
    },
    {
      "epoch": 0.89,
      "learning_rate": 5.7965736530010916e-05,
      "loss": 3.7502,
      "step": 559
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.623903547074549e-05,
      "loss": 3.9836,
      "step": 560
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.453769828241873e-05,
      "loss": 3.8822,
      "step": 561
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.286177068899989e-05,
      "loss": 3.6873,
      "step": 562
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.121129773156663e-05,
      "loss": 3.5527,
      "step": 563
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.9586323767095595e-05,
      "loss": 3.7644,
      "step": 564
    },
    {
      "epoch": 0.9,
      "learning_rate": 4.798689246727006e-05,
      "loss": 3.4792,
      "step": 565
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.6413046817306404e-05,
      "loss": 3.5972,
      "step": 566
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.4864829114798386e-05,
      "loss": 3.6083,
      "step": 567
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.334228096858028e-05,
      "loss": 3.3835,
      "step": 568
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.184544329761008e-05,
      "loss": 3.5611,
      "step": 569
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.037435632986786e-05,
      "loss": 3.5685,
      "step": 570
    },
    {
      "epoch": 0.91,
      "learning_rate": 3.8929059601275466e-05,
      "loss": 3.6629,
      "step": 571
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.750959195463466e-05,
      "loss": 3.8282,
      "step": 572
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.611599153858214e-05,
      "loss": 3.4119,
      "step": 573
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.4748295806564356e-05,
      "loss": 3.3834,
      "step": 574
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.3406541515832e-05,
      "loss": 3.5095,
      "step": 575
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.2090764726451115e-05,
      "loss": 3.4033,
      "step": 576
    },
    {
      "epoch": 0.92,
      "learning_rate": 3.080100080033388e-05,
      "loss": 3.7813,
      "step": 577
    },
    {
      "epoch": 0.92,
      "learning_rate": 2.9537284400289355e-05,
      "loss": 3.7199,
      "step": 578
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.8299649489090474e-05,
      "loss": 3.875,
      "step": 579
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.7088129328562527e-05,
      "loss": 3.3622,
      "step": 580
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.590275647868867e-05,
      "loss": 3.4627,
      "step": 581
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.474356279673462e-05,
      "loss": 3.2526,
      "step": 582
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.3610579436392997e-05,
      "loss": 3.5812,
      "step": 583
    },
    {
      "epoch": 0.93,
      "learning_rate": 2.2503836846945792e-05,
      "loss": 3.5794,
      "step": 584
    },
    {
      "epoch": 0.94,
      "learning_rate": 2.1423364772445886e-05,
      "loss": 3.9511,
      "step": 585
    },
    {
      "epoch": 0.94,
      "learning_rate": 2.0369192250918267e-05,
      "loss": 3.5189,
      "step": 586
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.9341347613579086e-05,
      "loss": 3.6849,
      "step": 587
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.8339858484073934e-05,
      "loss": 3.4413,
      "step": 588
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.736475177773633e-05,
      "loss": 3.8067,
      "step": 589
    },
    {
      "epoch": 0.94,
      "learning_rate": 1.6416053700863963e-05,
      "loss": 3.7497,
      "step": 590
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.549378975001403e-05,
      "loss": 3.6756,
      "step": 591
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.459798471131868e-05,
      "loss": 3.1901,
      "step": 592
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.3728662659818202e-05,
      "loss": 3.9096,
      "step": 593
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.2885846958814673e-05,
      "loss": 3.6643,
      "step": 594
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.2069560259243328e-05,
      "loss": 3.9065,
      "step": 595
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.1279824499064395e-05,
      "loss": 3.3801,
      "step": 596
    },
    {
      "epoch": 0.96,
      "learning_rate": 1.0516660902673447e-05,
      "loss": 3.5131,
      "step": 597
    },
    {
      "epoch": 0.96,
      "learning_rate": 9.780089980330642e-06,
      "loss": 3.6807,
      "step": 598
    },
    {
      "epoch": 0.96,
      "learning_rate": 9.070131527609604e-06,
      "loss": 3.5336,
      "step": 599
    },
    {
      "epoch": 0.96,
      "learning_rate": 8.386804624865851e-06,
      "loss": 3.7625,
      "step": 600
    },
    {
      "epoch": 0.96,
      "learning_rate": 7.730127636723538e-06,
      "loss": 3.7512,
      "step": 601
    },
    {
      "epoch": 0.96,
      "learning_rate": 7.100118211581852e-06,
      "loss": 3.8097,
      "step": 602
    },
    {
      "epoch": 0.96,
      "learning_rate": 6.496793281141055e-06,
      "loss": 3.5905,
      "step": 603
    },
    {
      "epoch": 0.97,
      "learning_rate": 5.920169059947411e-06,
      "loss": 3.7149,
      "step": 604
    },
    {
      "epoch": 0.97,
      "learning_rate": 5.37026104495697e-06,
      "loss": 3.7178,
      "step": 605
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.847084015119574e-06,
      "loss": 3.8119,
      "step": 606
    },
    {
      "epoch": 0.97,
      "learning_rate": 4.350652030981395e-06,
      "loss": 3.7299,
      "step": 607
    },
    {
      "epoch": 0.97,
      "learning_rate": 3.880978434307236e-06,
      "loss": 3.4398,
      "step": 608
    },
    {
      "epoch": 0.97,
      "learning_rate": 3.4380758477219333e-06,
      "loss": 0.6927,
      "step": 609
    },
    {
      "epoch": 0.98,
      "learning_rate": 3.0219561743707324e-06,
      "loss": 3.5615,
      "step": 610
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.6326305976001054e-06,
      "loss": 3.8821,
      "step": 611
    },
    {
      "epoch": 0.98,
      "learning_rate": 2.270109580656543e-06,
      "loss": 3.8533,
      "step": 612
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.9344028664056713e-06,
      "loss": 3.6666,
      "step": 613
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.6255194770704585e-06,
      "loss": 3.7957,
      "step": 614
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.343467713988522e-06,
      "loss": 3.6175,
      "step": 615
    },
    {
      "epoch": 0.99,
      "learning_rate": 1.0882551573891952e-06,
      "loss": 3.7182,
      "step": 616
    },
    {
      "epoch": 0.99,
      "learning_rate": 8.598886661895789e-07,
      "loss": 1.4882,
      "step": 617
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.583743778106888e-07,
      "loss": 3.2086,
      "step": 618
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.837177080119214e-07,
      "loss": 4.0317,
      "step": 619
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.35923350745948e-07,
      "loss": 3.6958,
      "step": 620
    },
    {
      "epoch": 0.99,
      "learning_rate": 2.1499527803214848e-07,
      "loss": 0.7018,
      "step": 621
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.209367398504746e-07,
      "loss": 0.8659,
      "step": 622
    },
    {
      "epoch": 1.0,
      "learning_rate": 5.3750264053520346e-08,
      "loss": 3.6124,
      "step": 623
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.3437656298687096e-08,
      "loss": 3.505,
      "step": 624
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0,
      "loss": 3.5256,
      "step": 625
    },
    {
      "epoch": 1.0,
      "step": 625,
      "total_flos": 4527029523185664.0,
      "train_loss": 3.7262058422088624,
      "train_runtime": 851.0907,
      "train_samples_per_second": 11.75,
      "train_steps_per_second": 0.734
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 625,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 24000,
  "total_flos": 4527029523185664.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}