{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999952751292253,
  "eval_steps": 500,
  "global_step": 42329,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 0.0005,
      "loss": 7.6591,
      "step": 100
    },
    {
      "epoch": 0.0,
      "learning_rate": 0.001,
      "loss": 6.1509,
      "step": 200
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0015,
      "loss": 5.8193,
      "step": 300
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.002,
      "loss": 5.5775,
      "step": 400
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0025,
      "loss": 5.2983,
      "step": 500
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.003,
      "loss": 5.0932,
      "step": 600
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0034999999999999996,
      "loss": 4.9505,
      "step": 700
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.004,
      "loss": 4.7674,
      "step": 800
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0045000000000000005,
      "loss": 4.5976,
      "step": 900
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.005,
      "loss": 4.4829,
      "step": 1000
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.004987901957463283,
      "loss": 4.4052,
      "step": 1100
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.004975803914926565,
      "loss": 4.3037,
      "step": 1200
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0049637058723898475,
      "loss": 4.2355,
      "step": 1300
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00495160782985313,
      "loss": 4.1736,
      "step": 1400
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0049395097873164125,
      "loss": 4.1327,
      "step": 1500
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.004927411744779695,
      "loss": 4.0723,
      "step": 1600
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0049153137022429775,
      "loss": 4.0309,
      "step": 1700
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.004903215659706259,
      "loss": 4.001,
      "step": 1800
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.004891117617169542,
      "loss": 3.9725,
      "step": 1900
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.004879019574632825,
      "loss": 3.9393,
      "step": 2000
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0048669215320961065,
      "loss": 3.9166,
      "step": 2100
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00485482348955939,
      "loss": 3.8979,
      "step": 2200
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0048427254470226715,
      "loss": 3.8685,
      "step": 2300
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.004830627404485955,
      "loss": 3.8577,
      "step": 2400
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.004818529361949236,
      "loss": 3.8262,
      "step": 2500
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.004806431319412519,
      "loss": 3.8093,
      "step": 2600
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.004794333276875801,
      "loss": 3.795,
      "step": 2700
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.004782235234339084,
      "loss": 3.7849,
      "step": 2800
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.004770137191802366,
      "loss": 3.7615,
      "step": 2900
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.004758039149265649,
      "loss": 3.7479,
      "step": 3000
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.004745941106728931,
      "loss": 3.7388,
      "step": 3100
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.004733843064192214,
      "loss": 3.7278,
      "step": 3200
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.004721745021655496,
      "loss": 3.709,
      "step": 3300
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.004709646979118779,
      "loss": 3.6985,
      "step": 3400
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.004697548936582061,
      "loss": 3.6826,
      "step": 3500
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004685450894045344,
      "loss": 3.6722,
      "step": 3600
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004673352851508626,
      "loss": 3.675,
      "step": 3700
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004661254808971909,
      "loss": 3.6564,
      "step": 3800
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004649156766435191,
      "loss": 3.6555,
      "step": 3900
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.004637058723898474,
      "loss": 3.6559,
      "step": 4000
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.004624960681361755,
      "loss": 3.6355,
      "step": 4100
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.004612862638825039,
      "loss": 3.6401,
      "step": 4200
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00460076459628832,
      "loss": 3.6275,
      "step": 4300
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0045886665537516035,
      "loss": 3.6202,
      "step": 4400
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.004576689491640253,
      "loss": 3.6141,
      "step": 4500
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.004564591449103535,
      "loss": 3.6003,
      "step": 4600
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.004552493406566818,
      "loss": 3.5887,
      "step": 4700
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0045403953640300995,
      "loss": 3.5894,
      "step": 4800
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.004528297321493383,
      "loss": 3.5768,
      "step": 4900
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0045161992789566644,
      "loss": 3.5798,
      "step": 5000
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.004504101236419948,
      "loss": 3.5739,
      "step": 5100
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.004492003193883229,
      "loss": 3.5653,
      "step": 5200
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.004479905151346512,
      "loss": 3.5621,
      "step": 5300
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.004467807108809795,
      "loss": 3.5563,
      "step": 5400
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.004455709066273077,
      "loss": 3.5447,
      "step": 5500
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.004443611023736359,
      "loss": 3.552,
      "step": 5600
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.004431512981199642,
      "loss": 3.5289,
      "step": 5700
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.004419414938662924,
      "loss": 3.5367,
      "step": 5800
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.004407316896126207,
      "loss": 3.5306,
      "step": 5900
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.004395218853589489,
      "loss": 3.5131,
      "step": 6000
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.004383120811052772,
      "loss": 3.517,
      "step": 6100
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.004371022768516054,
      "loss": 3.5221,
      "step": 6200
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.004358924725979337,
      "loss": 3.5066,
      "step": 6300
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.004346826683442619,
      "loss": 3.499,
      "step": 6400
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.004334728640905902,
      "loss": 3.5047,
      "step": 6500
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.004322630598369184,
      "loss": 3.4976,
      "step": 6600
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.004310532555832467,
      "loss": 3.4937,
      "step": 6700
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.004298434513295749,
      "loss": 3.4907,
      "step": 6800
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0042863364707590315,
      "loss": 3.48,
      "step": 6900
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.004274238428222313,
      "loss": 3.4812,
      "step": 7000
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0042621403856855965,
      "loss": 3.4797,
      "step": 7100
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.004250042343148879,
      "loss": 3.4676,
      "step": 7200
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.004237944300612161,
      "loss": 3.4768,
      "step": 7300
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.004225846258075444,
      "loss": 3.46,
      "step": 7400
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.004213869195964093,
      "loss": 3.4663,
      "step": 7500
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.004201771153427376,
      "loss": 3.4708,
      "step": 7600
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.004189673110890657,
      "loss": 3.4602,
      "step": 7700
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.004177575068353941,
      "loss": 3.4522,
      "step": 7800
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.004165477025817223,
      "loss": 3.449,
      "step": 7900
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.004153378983280505,
      "loss": 3.4433,
      "step": 8000
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.004141280940743788,
      "loss": 3.4433,
      "step": 8100
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00412918289820707,
      "loss": 3.4476,
      "step": 8200
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.004117084855670352,
      "loss": 3.4443,
      "step": 8300
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.004104986813133635,
      "loss": 3.4353,
      "step": 8400
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.004092888770596917,
      "loss": 3.4396,
      "step": 8500
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0040807907280602,
      "loss": 3.4208,
      "step": 8600
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.004068692685523482,
      "loss": 3.4279,
      "step": 8700
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.004056594642986765,
      "loss": 3.4234,
      "step": 8800
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.004044496600450047,
      "loss": 3.4313,
      "step": 8900
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00403239855791333,
      "loss": 3.4244,
      "step": 9000
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.004020300515376612,
      "loss": 3.4174,
      "step": 9100
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.004008202472839895,
      "loss": 3.4123,
      "step": 9200
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.003996104430303177,
      "loss": 3.4059,
      "step": 9300
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00398400638776646,
      "loss": 3.4152,
      "step": 9400
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.003971908345229742,
      "loss": 3.4133,
      "step": 9500
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0039599312831183914,
      "loss": 3.3987,
      "step": 9600
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.003947833240581674,
      "loss": 3.4007,
      "step": 9700
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.003935735198044956,
      "loss": 3.4049,
      "step": 9800
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.003923637155508239,
      "loss": 3.394,
      "step": 9900
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.003911539112971521,
      "loss": 3.3902,
      "step": 10000
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.003899441070434804,
      "loss": 3.382,
      "step": 10100
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.003887343027898086,
      "loss": 3.3953,
      "step": 10200
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.003875244985361369,
      "loss": 3.3863,
      "step": 10300
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0038631469428246513,
      "loss": 3.3976,
      "step": 10400
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0038510489002879333,
      "loss": 3.3849,
      "step": 10500
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0038389508577512162,
      "loss": 3.3812,
      "step": 10600
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0038268528152144983,
      "loss": 3.3963,
      "step": 10700
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0038147547726777808,
      "loss": 3.3757,
      "step": 10800
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0038026567301410632,
      "loss": 3.3838,
      "step": 10900
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0037905586876043457,
      "loss": 3.3714,
      "step": 11000
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0037784606450676278,
      "loss": 3.375,
      "step": 11100
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0037663626025309107,
      "loss": 3.3676,
      "step": 11200
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.003754264559994193,
      "loss": 3.3702,
      "step": 11300
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.003742166517457475,
      "loss": 3.3726,
      "step": 11400
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.003730068474920758,
      "loss": 3.3711,
      "step": 11500
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00371797043238404,
      "loss": 3.3817,
      "step": 11600
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.003705872389847323,
      "loss": 3.3572,
      "step": 11700
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.003693774347310605,
      "loss": 3.3625,
      "step": 11800
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0036816763047738876,
      "loss": 3.3575,
      "step": 11900
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0036695782622371696,
      "loss": 3.3596,
      "step": 12000
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0036574802197004526,
      "loss": 3.3543,
      "step": 12100
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.003645382177163735,
      "loss": 3.351,
      "step": 12200
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0036332841346270175,
      "loss": 3.369,
      "step": 12300
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0036211860920903,
      "loss": 3.3473,
      "step": 12400
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.003609088049553582,
      "loss": 3.3637,
      "step": 12500
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.003596990007016865,
      "loss": 3.3469,
      "step": 12600
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.003584891964480147,
      "loss": 3.3582,
      "step": 12700
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0035727939219434295,
      "loss": 3.3473,
      "step": 12800
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.003560695879406712,
      "loss": 3.3546,
      "step": 12900
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0035485978368699944,
      "loss": 3.3317,
      "step": 13000
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0035364997943332773,
      "loss": 3.3353,
      "step": 13100
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0035244017517965594,
      "loss": 3.3422,
      "step": 13200
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.003512303709259842,
      "loss": 3.3396,
      "step": 13300
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.003500205666723124,
      "loss": 3.3398,
      "step": 13400
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.003488107624186407,
      "loss": 3.3361,
      "step": 13500
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.003476009581649689,
      "loss": 3.3306,
      "step": 13600
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.003463911539112972,
      "loss": 3.3315,
      "step": 13700
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.003451813496576254,
      "loss": 3.3367,
      "step": 13800
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0034397154540395363,
      "loss": 3.3311,
      "step": 13900
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0034276174115028192,
      "loss": 3.328,
      "step": 14000
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0034155193689661013,
      "loss": 3.3274,
      "step": 14100
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0034034213264293837,
      "loss": 3.3149,
      "step": 14200
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0033913232838926662,
      "loss": 3.3148,
      "step": 14300
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0033792252413559487,
      "loss": 3.3268,
      "step": 14400
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0033671271988192308,
      "loss": 3.3146,
      "step": 14500
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0033550291562825137,
      "loss": 3.3084,
      "step": 14600
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0033429311137457957,
      "loss": 3.3178,
      "step": 14700
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0033308330712090786,
      "loss": 3.3147,
      "step": 14800
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.003318735028672361,
      "loss": 3.3143,
      "step": 14900
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.003306636986135643,
      "loss": 3.3174,
      "step": 15000
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.003294538943598926,
      "loss": 3.3057,
      "step": 15100
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.003282440901062208,
      "loss": 3.3145,
      "step": 15200
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0032703428585254906,
      "loss": 3.3183,
      "step": 15300
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00325836579641414,
      "loss": 3.3096,
      "step": 15400
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.003246267753877423,
      "loss": 3.3088,
      "step": 15500
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0032341697113407054,
      "loss": 3.3095,
      "step": 15600
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0032220716688039874,
      "loss": 3.3119,
      "step": 15700
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0032099736262672703,
      "loss": 3.2953,
      "step": 15800
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0031978755837305524,
      "loss": 3.2944,
      "step": 15900
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.003185777541193835,
      "loss": 3.3121,
      "step": 16000
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0031736794986571173,
      "loss": 3.293,
      "step": 16100
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0031615814561204,
      "loss": 3.287,
      "step": 16200
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.003149483413583682,
      "loss": 3.2941,
      "step": 16300
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0031373853710469648,
      "loss": 3.2927,
      "step": 16400
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0031252873285102472,
      "loss": 3.2925,
      "step": 16500
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0031131892859735293,
      "loss": 3.2928,
      "step": 16600
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.003101212223862179,
      "loss": 3.2822,
      "step": 16700
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0030891141813254616,
      "loss": 3.2867,
      "step": 16800
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.003077016138788744,
      "loss": 3.2878,
      "step": 16900
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.003064918096252026,
      "loss": 3.2801,
      "step": 17000
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.003052820053715309,
      "loss": 3.2811,
      "step": 17100
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0030407220111785915,
      "loss": 3.2829,
      "step": 17200
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0030286239686418736,
      "loss": 3.2787,
      "step": 17300
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0030165259261051565,
      "loss": 3.2796,
      "step": 17400
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0030044278835684385,
      "loss": 3.2845,
      "step": 17500
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0029923298410317214,
      "loss": 3.2875,
      "step": 17600
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0029802317984950035,
      "loss": 3.2778,
      "step": 17700
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.002968133755958286,
      "loss": 3.2783,
      "step": 17800
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.002956035713421568,
      "loss": 3.2748,
      "step": 17900
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.002943937670884851,
      "loss": 3.2659,
      "step": 18000
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0029318396283481334,
      "loss": 3.2678,
      "step": 18100
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.002919741585811416,
      "loss": 3.2772,
      "step": 18200
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0029076435432746984,
      "loss": 3.2712,
      "step": 18300
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0028955455007379804,
      "loss": 3.2709,
      "step": 18400
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0028834474582012633,
      "loss": 3.2757,
      "step": 18500
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0028713494156645454,
      "loss": 3.2677,
      "step": 18600
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.002859251373127828,
      "loss": 3.2587,
      "step": 18700
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0028471533305911103,
      "loss": 3.2542,
      "step": 18800
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.002835055288054393,
      "loss": 3.2564,
      "step": 18900
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0028229572455176757,
      "loss": 3.2683,
      "step": 19000
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0028108592029809578,
      "loss": 3.2571,
      "step": 19100
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0027987611604442402,
      "loss": 3.2612,
      "step": 19200
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0027866631179075223,
      "loss": 3.2541,
      "step": 19300
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.002774565075370805,
      "loss": 3.2611,
      "step": 19400
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0027624670328340872,
      "loss": 3.2532,
      "step": 19500
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00275036899029737,
      "loss": 3.2521,
      "step": 19600
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.002738270947760652,
      "loss": 3.2602,
      "step": 19700
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0027261729052239347,
      "loss": 3.2592,
      "step": 19800
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0027140748626872176,
      "loss": 3.2505,
      "step": 19900
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0027019768201504996,
      "loss": 3.2593,
      "step": 20000
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.002689878777613782,
      "loss": 3.2425,
      "step": 20100
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0026777807350770646,
      "loss": 3.2474,
      "step": 20200
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.002665682692540347,
      "loss": 3.2563,
      "step": 20300
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.002653584650003629,
      "loss": 3.2469,
      "step": 20400
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.002641486607466912,
      "loss": 3.2411,
      "step": 20500
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0026293885649301945,
      "loss": 3.2496,
      "step": 20600
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0026172905223934765,
      "loss": 3.2325,
      "step": 20700
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0026051924798567595,
      "loss": 3.2353,
      "step": 20800
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0025930944373200415,
      "loss": 3.2492,
      "step": 20900
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0025809963947833244,
      "loss": 3.2201,
      "step": 21000
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0025688983522466065,
      "loss": 3.2509,
      "step": 21100
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.002556800309709889,
      "loss": 3.2408,
      "step": 21200
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0025447022671731714,
      "loss": 3.2345,
      "step": 21300
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.002532725205061821,
      "loss": 3.2383,
      "step": 21400
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0025206271625251037,
      "loss": 3.2401,
      "step": 21500
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0025085291199883858,
      "loss": 3.2321,
      "step": 21600
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0024964310774516683,
      "loss": 3.2291,
      "step": 21700
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0024843330349149507,
      "loss": 3.2328,
      "step": 21800
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.002472234992378233,
      "loss": 3.2369,
      "step": 21900
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0024601369498415157,
      "loss": 3.2346,
      "step": 22000
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.002448038907304798,
      "loss": 3.2254,
      "step": 22100
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0024359408647680806,
      "loss": 3.2122,
      "step": 22200
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.002423842822231363,
      "loss": 3.2236,
      "step": 22300
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0024117447796946456,
      "loss": 3.2237,
      "step": 22400
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0023996467371579277,
      "loss": 3.2329,
      "step": 22500
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00238754869462121,
      "loss": 3.2342,
      "step": 22600
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.002375450652084493,
      "loss": 3.2303,
      "step": 22700
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0023633526095477755,
      "loss": 3.2295,
      "step": 22800
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0023512545670110576,
      "loss": 3.2209,
      "step": 22900
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00233915652447434,
      "loss": 3.2125,
      "step": 23000
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0023270584819376225,
      "loss": 3.2155,
      "step": 23100
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.002314960439400905,
      "loss": 3.2232,
      "step": 23200
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0023028623968641875,
      "loss": 3.2239,
      "step": 23300
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00229076435432747,
      "loss": 3.2178,
      "step": 23400
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.002278666311790752,
      "loss": 3.2195,
      "step": 23500
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.002266568269254035,
      "loss": 3.2182,
      "step": 23600
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0022544702267173174,
      "loss": 3.2175,
      "step": 23700
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0022423721841806,
      "loss": 3.2102,
      "step": 23800
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.002230274141643882,
      "loss": 3.2176,
      "step": 23900
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0022182970795325318,
      "loss": 3.2115,
      "step": 24000
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0022061990369958142,
      "loss": 3.2189,
      "step": 24100
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0021941009944590963,
      "loss": 3.2104,
      "step": 24200
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.002182002951922379,
      "loss": 3.204,
      "step": 24300
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0021699049093856617,
      "loss": 3.2032,
      "step": 24400
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.002157806866848944,
      "loss": 3.2133,
      "step": 24500
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.002145708824312226,
      "loss": 3.2026,
      "step": 24600
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0021336107817755087,
      "loss": 3.2103,
      "step": 24700
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.002121512739238791,
      "loss": 3.1962,
      "step": 24800
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0021094146967020736,
      "loss": 3.1987,
      "step": 24900
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.002097316654165356,
      "loss": 3.1917,
      "step": 25000
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0020852186116286386,
      "loss": 3.1915,
      "step": 25100
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.002073120569091921,
      "loss": 3.2022,
      "step": 25200
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0020610225265552035,
      "loss": 3.205,
      "step": 25300
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.002048924484018486,
      "loss": 3.1892,
      "step": 25400
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0020368264414817685,
      "loss": 3.1959,
      "step": 25500
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0020247283989450506,
      "loss": 3.1987,
      "step": 25600
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.002012630356408333,
      "loss": 3.1991,
      "step": 25700
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0020005323138716155,
      "loss": 3.1801,
      "step": 25800
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.001988434271334898,
      "loss": 3.1911,
      "step": 25900
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.001976457209223548,
      "loss": 3.1912,
      "step": 26000
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0019643591666868303,
      "loss": 3.1772,
      "step": 26100
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0019522611241501126,
      "loss": 3.1922,
      "step": 26200
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.001940163081613395,
      "loss": 3.1845,
      "step": 26300
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.0019280650390766775,
      "loss": 3.1812,
      "step": 26400
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0019159669965399598,
      "loss": 3.1738,
      "step": 26500
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0019038689540032423,
      "loss": 3.1933,
      "step": 26600
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0018917709114665247,
      "loss": 3.182,
      "step": 26700
    },
    {
      "epoch": 0.63,
      "learning_rate": 0.0018796728689298074,
      "loss": 3.1813,
      "step": 26800
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018676958068184568,
      "loss": 3.1887,
      "step": 26900
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018557187447071064,
      "loss": 3.2028,
      "step": 27000
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2467,
      "step": 27100
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2046,
      "step": 27200
    },
    {
      "epoch": 0.64,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2099,
      "step": 27300
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.198,
      "step": 27400
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1909,
      "step": 27500
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2005,
      "step": 27600
    },
    {
      "epoch": 0.65,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1878,
      "step": 27700
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2024,
      "step": 27800
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2018,
      "step": 27900
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2072,
      "step": 28000
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1926,
      "step": 28100
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1881,
      "step": 28200
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2025,
      "step": 28300
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1935,
      "step": 28400
    },
    {
      "epoch": 0.67,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.193,
      "step": 28500
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1918,
      "step": 28600
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1926,
      "step": 28700
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1927,
      "step": 28800
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2063,
      "step": 28900
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2044,
      "step": 29000
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1951,
      "step": 29100
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.188,
      "step": 29200
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1994,
      "step": 29300
    },
    {
      "epoch": 0.69,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2011,
      "step": 29400
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1989,
      "step": 29500
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2042,
      "step": 29600
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2031,
      "step": 29700
    },
    {
      "epoch": 0.7,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1971,
      "step": 29800
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1971,
      "step": 29900
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.197,
      "step": 30000
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1979,
      "step": 30100
    },
    {
      "epoch": 0.71,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1987,
      "step": 30200
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2033,
      "step": 30300
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1917,
      "step": 30400
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2065,
      "step": 30500
    },
    {
      "epoch": 0.72,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2025,
      "step": 30600
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1898,
      "step": 30700
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1956,
      "step": 30800
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1883,
      "step": 30900
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2075,
      "step": 31000
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1963,
      "step": 31100
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2115,
      "step": 31200
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2163,
      "step": 31300
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2006,
      "step": 31400
    },
    {
      "epoch": 0.74,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2042,
      "step": 31500
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2017,
      "step": 31600
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2021,
      "step": 31700
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2015,
      "step": 31800
    },
    {
      "epoch": 0.75,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1794,
      "step": 31900
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2061,
      "step": 32000
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1906,
      "step": 32100
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2088,
      "step": 32200
    },
    {
      "epoch": 0.76,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2002,
      "step": 32300
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1855,
      "step": 32400
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1981,
      "step": 32500
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2026,
      "step": 32600
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1979,
      "step": 32700
    },
    {
      "epoch": 0.77,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2048,
      "step": 32800
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1896,
      "step": 32900
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1909,
      "step": 33000
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2023,
      "step": 33100
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1965,
      "step": 33200
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.204,
      "step": 33300
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1965,
      "step": 33400
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1951,
      "step": 33500
    },
    {
      "epoch": 0.79,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1982,
      "step": 33600
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2056,
      "step": 33700
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2031,
      "step": 33800
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2024,
      "step": 33900
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1976,
      "step": 34000
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1989,
      "step": 34100
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2035,
      "step": 34200
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2073,
      "step": 34300
    },
    {
      "epoch": 0.81,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2056,
      "step": 34400
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2075,
      "step": 34500
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2,
      "step": 34600
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2067,
      "step": 34700
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2012,
      "step": 34800
    },
    {
      "epoch": 0.82,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1994,
      "step": 34900
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2052,
      "step": 35000
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2076,
      "step": 35100
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1962,
      "step": 35200
    },
    {
      "epoch": 0.83,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1927,
      "step": 35300
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1845,
      "step": 35400
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1882,
      "step": 35500
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2006,
      "step": 35600
    },
    {
      "epoch": 0.84,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2003,
      "step": 35700
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2018,
      "step": 35800
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1995,
      "step": 35900
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2148,
      "step": 36000
    },
    {
      "epoch": 0.85,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.191,
      "step": 36100
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2044,
      "step": 36200
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.202,
      "step": 36300
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1965,
      "step": 36400
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1985,
      "step": 36500
    },
    {
      "epoch": 0.86,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2059,
      "step": 36600
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1927,
      "step": 36700
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1973,
      "step": 36800
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2079,
      "step": 36900
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1942,
      "step": 37000
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2096,
      "step": 37100
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1971,
      "step": 37200
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2067,
      "step": 37300
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2049,
      "step": 37400
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2026,
      "step": 37500
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1999,
      "step": 37600
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2035,
      "step": 37700
    },
    {
      "epoch": 0.89,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2038,
      "step": 37800
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.206,
      "step": 37900
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1996,
      "step": 38000
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1974,
      "step": 38100
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2033,
      "step": 38200
    },
    {
      "epoch": 0.9,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2097,
      "step": 38300
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2041,
      "step": 38400
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1974,
      "step": 38500
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2065,
      "step": 38600
    },
    {
      "epoch": 0.91,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1971,
      "step": 38700
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2015,
      "step": 38800
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1981,
      "step": 38900
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2066,
      "step": 39000
    },
    {
      "epoch": 0.92,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.1957,
      "step": 39100
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0018476130562075056,
      "loss": 3.2022,
      "step": 39200
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0018474920757821384,
      "loss": 3.6077,
      "step": 39300
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39400
    },
    {
      "epoch": 0.93,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39500
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39600
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39700
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39800
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 39900
    },
    {
      "epoch": 0.94,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40000
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40100
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40200
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40300
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40400
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40500
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40600
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40700
    },
    {
      "epoch": 0.96,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40800
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 40900
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41000
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41100
    },
    {
      "epoch": 0.97,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41200
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41300
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41400
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41500
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41600
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41700
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41800
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 41900
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 42000
    },
    {
      "epoch": 0.99,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 42100
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 42200
    },
    {
      "epoch": 1.0,
      "learning_rate": 0.0018474920757821384,
      "loss": 0.0,
      "step": 42300
    },
    {
      "epoch": 1.0,
      "step": 42329,
      "total_flos": 1.5484322130228675e+18,
      "train_loss": 3.144445016519361,
      "train_runtime": 99240.2268,
      "train_samples_per_second": 29.857,
      "train_steps_per_second": 0.427
    }
  ],
  "logging_steps": 100,
  "max_steps": 42329,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "total_flos": 1.5484322130228675e+18,
  "train_batch_size": 7,
  "trial_name": null,
  "trial_params": null
}