{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 8.78048780487805,
  "eval_steps": 500,
  "global_step": 90,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1,
      "learning_rate": 0.00019805941782534764,
      "loss": 1.5882,
      "step": 1
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00019605881764529358,
      "loss": 1.6153,
      "step": 2
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00019405821746523957,
      "loss": 1.4696,
      "step": 3
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00019205761728518557,
      "loss": 1.3166,
      "step": 4
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00019005701710513156,
      "loss": 1.2174,
      "step": 5
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00018805641692507753,
      "loss": 1.1412,
      "step": 6
    },
    {
      "epoch": 0.68,
      "learning_rate": 0.00018605581674502352,
      "loss": 1.4033,
      "step": 7
    },
    {
      "epoch": 0.78,
      "learning_rate": 0.00018405521656496952,
      "loss": 1.1618,
      "step": 8
    },
    {
      "epoch": 0.88,
      "learning_rate": 0.00018205461638491548,
      "loss": 1.1545,
      "step": 9
    },
    {
      "epoch": 0.98,
      "learning_rate": 0.00018005401620486148,
      "loss": 1.1393,
      "step": 10
    },
    {
      "epoch": 1.07,
      "learning_rate": 0.00017805341602480744,
      "loss": 0.9037,
      "step": 11
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.00017605281584475344,
      "loss": 0.9019,
      "step": 12
    },
    {
      "epoch": 1.27,
      "learning_rate": 0.00017405221566469943,
      "loss": 0.8741,
      "step": 13
    },
    {
      "epoch": 1.37,
      "learning_rate": 0.00017205161548464542,
      "loss": 1.0578,
      "step": 14
    },
    {
      "epoch": 1.46,
      "learning_rate": 0.00017005101530459136,
      "loss": 0.8038,
      "step": 15
    },
    {
      "epoch": 1.56,
      "learning_rate": 0.00016805041512453736,
      "loss": 0.8145,
      "step": 16
    },
    {
      "epoch": 1.66,
      "learning_rate": 0.00016604981494448335,
      "loss": 0.8621,
      "step": 17
    },
    {
      "epoch": 1.76,
      "learning_rate": 0.00016404921476442935,
      "loss": 0.8065,
      "step": 18
    },
    {
      "epoch": 1.85,
      "learning_rate": 0.0001620486145843753,
      "loss": 0.8888,
      "step": 19
    },
    {
      "epoch": 1.95,
      "learning_rate": 0.0001600480144043213,
      "loss": 1.0663,
      "step": 20
    },
    {
      "epoch": 2.05,
      "learning_rate": 0.0001580474142242673,
      "loss": 0.6937,
      "step": 21
    },
    {
      "epoch": 2.15,
      "learning_rate": 0.00015604681404421327,
      "loss": 0.5404,
      "step": 22
    },
    {
      "epoch": 2.24,
      "learning_rate": 0.00015404621386415926,
      "loss": 0.7935,
      "step": 23
    },
    {
      "epoch": 2.34,
      "learning_rate": 0.00015204561368410523,
      "loss": 0.485,
      "step": 24
    },
    {
      "epoch": 2.44,
      "learning_rate": 0.00015004501350405122,
      "loss": 0.6123,
      "step": 25
    },
    {
      "epoch": 2.54,
      "learning_rate": 0.00014804441332399721,
      "loss": 0.5724,
      "step": 26
    },
    {
      "epoch": 2.63,
      "learning_rate": 0.0001460438131439432,
      "loss": 0.4298,
      "step": 27
    },
    {
      "epoch": 2.73,
      "learning_rate": 0.00014404321296388918,
      "loss": 0.489,
      "step": 28
    },
    {
      "epoch": 2.83,
      "learning_rate": 0.00014204261278383514,
      "loss": 0.5635,
      "step": 29
    },
    {
      "epoch": 2.93,
      "learning_rate": 0.00014004201260378114,
      "loss": 0.5707,
      "step": 30
    },
    {
      "epoch": 3.02,
      "learning_rate": 0.00013804141242372713,
      "loss": 0.5423,
      "step": 31
    },
    {
      "epoch": 3.12,
      "learning_rate": 0.00013604081224367312,
      "loss": 0.3594,
      "step": 32
    },
    {
      "epoch": 3.22,
      "learning_rate": 0.0001340402120636191,
      "loss": 0.2869,
      "step": 33
    },
    {
      "epoch": 3.32,
      "learning_rate": 0.00013203961188356508,
      "loss": 0.2804,
      "step": 34
    },
    {
      "epoch": 3.41,
      "learning_rate": 0.00013003901170351108,
      "loss": 0.1983,
      "step": 35
    },
    {
      "epoch": 3.51,
      "learning_rate": 0.00012803841152345704,
      "loss": 0.3302,
      "step": 36
    },
    {
      "epoch": 3.61,
      "learning_rate": 0.000126037811343403,
      "loss": 0.2126,
      "step": 37
    },
    {
      "epoch": 3.71,
      "learning_rate": 0.000124037211163349,
      "loss": 0.2929,
      "step": 38
    },
    {
      "epoch": 3.8,
      "learning_rate": 0.000122036610983295,
      "loss": 0.2598,
      "step": 39
    },
    {
      "epoch": 3.9,
      "learning_rate": 0.00012003601080324098,
      "loss": 0.3308,
      "step": 40
    },
    {
      "epoch": 4.0,
      "learning_rate": 0.00011803541062318697,
      "loss": 0.3392,
      "step": 41
    },
    {
      "epoch": 4.1,
      "learning_rate": 0.00011603481044313295,
      "loss": 0.1685,
      "step": 42
    },
    {
      "epoch": 4.2,
      "learning_rate": 0.00011403421026307892,
      "loss": 0.0609,
      "step": 43
    },
    {
      "epoch": 4.29,
      "learning_rate": 0.00011203361008302491,
      "loss": 0.1245,
      "step": 44
    },
    {
      "epoch": 4.39,
      "learning_rate": 0.0001100330099029709,
      "loss": 0.1212,
      "step": 45
    },
    {
      "epoch": 4.49,
      "learning_rate": 0.00010803240972291689,
      "loss": 0.0859,
      "step": 46
    },
    {
      "epoch": 4.59,
      "learning_rate": 0.00010603180954286287,
      "loss": 0.095,
      "step": 47
    },
    {
      "epoch": 4.68,
      "learning_rate": 0.00010403120936280886,
      "loss": 0.2122,
      "step": 48
    },
    {
      "epoch": 4.78,
      "learning_rate": 0.00010203060918275482,
      "loss": 0.1394,
      "step": 49
    },
    {
      "epoch": 4.88,
      "learning_rate": 0.00010003000900270081,
      "loss": 0.1041,
      "step": 50
    },
    {
      "epoch": 4.98,
      "learning_rate": 9.802940882264679e-05,
      "loss": 0.1112,
      "step": 51
    },
    {
      "epoch": 5.07,
      "learning_rate": 9.602880864259278e-05,
      "loss": 0.0672,
      "step": 52
    },
    {
      "epoch": 5.17,
      "learning_rate": 9.402820846253876e-05,
      "loss": 0.0485,
      "step": 53
    },
    {
      "epoch": 5.27,
      "learning_rate": 9.202760828248476e-05,
      "loss": 0.0797,
      "step": 54
    },
    {
      "epoch": 5.37,
      "learning_rate": 9.002700810243074e-05,
      "loss": 0.0613,
      "step": 55
    },
    {
      "epoch": 5.46,
      "learning_rate": 8.802640792237672e-05,
      "loss": 0.043,
      "step": 56
    },
    {
      "epoch": 5.56,
      "learning_rate": 8.602580774232271e-05,
      "loss": 0.0752,
      "step": 57
    },
    {
      "epoch": 5.66,
      "learning_rate": 8.402520756226868e-05,
      "loss": 0.0598,
      "step": 58
    },
    {
      "epoch": 5.76,
      "learning_rate": 8.202460738221467e-05,
      "loss": 0.0928,
      "step": 59
    },
    {
      "epoch": 5.85,
      "learning_rate": 8.002400720216065e-05,
      "loss": 0.0539,
      "step": 60
    },
    {
      "epoch": 5.95,
      "learning_rate": 7.802340702210663e-05,
      "loss": 0.035,
      "step": 61
    },
    {
      "epoch": 6.05,
      "learning_rate": 7.602280684205261e-05,
      "loss": 0.03,
      "step": 62
    },
    {
      "epoch": 6.15,
      "learning_rate": 7.402220666199861e-05,
      "loss": 0.0313,
      "step": 63
    },
    {
      "epoch": 6.24,
      "learning_rate": 7.202160648194459e-05,
      "loss": 0.0251,
      "step": 64
    },
    {
      "epoch": 6.34,
      "learning_rate": 7.002100630189057e-05,
      "loss": 0.0417,
      "step": 65
    },
    {
      "epoch": 6.44,
      "learning_rate": 6.802040612183656e-05,
      "loss": 0.034,
      "step": 66
    },
    {
      "epoch": 6.54,
      "learning_rate": 6.601980594178254e-05,
      "loss": 0.0225,
      "step": 67
    },
    {
      "epoch": 6.63,
      "learning_rate": 6.401920576172852e-05,
      "loss": 0.0421,
      "step": 68
    },
    {
      "epoch": 6.73,
      "learning_rate": 6.20186055816745e-05,
      "loss": 0.0271,
      "step": 69
    },
    {
      "epoch": 6.83,
      "learning_rate": 6.001800540162049e-05,
      "loss": 0.0353,
      "step": 70
    },
    {
      "epoch": 6.93,
      "learning_rate": 5.801740522156648e-05,
      "loss": 0.0321,
      "step": 71
    },
    {
      "epoch": 7.02,
      "learning_rate": 5.601680504151246e-05,
      "loss": 0.0251,
      "step": 72
    },
    {
      "epoch": 7.12,
      "learning_rate": 5.4016204861458444e-05,
      "loss": 0.0099,
      "step": 73
    },
    {
      "epoch": 7.22,
      "learning_rate": 5.201560468140443e-05,
      "loss": 0.0158,
      "step": 74
    },
    {
      "epoch": 7.32,
      "learning_rate": 5.0015004501350405e-05,
      "loss": 0.019,
      "step": 75
    },
    {
      "epoch": 7.41,
      "learning_rate": 4.801440432129639e-05,
      "loss": 0.0223,
      "step": 76
    },
    {
      "epoch": 7.51,
      "learning_rate": 4.601380414124238e-05,
      "loss": 0.0239,
      "step": 77
    },
    {
      "epoch": 7.61,
      "learning_rate": 4.401320396118836e-05,
      "loss": 0.0143,
      "step": 78
    },
    {
      "epoch": 7.71,
      "learning_rate": 4.201260378113434e-05,
      "loss": 0.0127,
      "step": 79
    },
    {
      "epoch": 7.8,
      "learning_rate": 4.0012003601080326e-05,
      "loss": 0.0181,
      "step": 80
    },
    {
      "epoch": 7.9,
      "learning_rate": 3.801140342102631e-05,
      "loss": 0.0237,
      "step": 81
    },
    {
      "epoch": 8.0,
      "learning_rate": 3.6010803240972294e-05,
      "loss": 0.0265,
      "step": 82
    },
    {
      "epoch": 8.1,
      "learning_rate": 3.401020306091828e-05,
      "loss": 0.0115,
      "step": 83
    },
    {
      "epoch": 8.2,
      "learning_rate": 3.200960288086426e-05,
      "loss": 0.0175,
      "step": 84
    },
    {
      "epoch": 8.29,
      "learning_rate": 3.0009002700810245e-05,
      "loss": 0.0148,
      "step": 85
    },
    {
      "epoch": 8.39,
      "learning_rate": 2.800840252075623e-05,
      "loss": 0.0082,
      "step": 86
    },
    {
      "epoch": 8.49,
      "learning_rate": 2.6007802340702216e-05,
      "loss": 0.0106,
      "step": 87
    },
    {
      "epoch": 8.59,
      "learning_rate": 2.4007202160648196e-05,
      "loss": 0.0154,
      "step": 88
    },
    {
      "epoch": 8.68,
      "learning_rate": 2.200660198059418e-05,
      "loss": 0.0132,
      "step": 89
    },
    {
      "epoch": 8.78,
      "learning_rate": 2.0006001800540163e-05,
      "loss": 0.0128,
      "step": 90
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 10,
  "total_flos": 1.3384603427119104e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}