{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.1392405063291138,
  "eval_steps": 50,
  "global_step": 45,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.06751054852320675,
      "grad_norm": NaN,
      "learning_rate": 5.000000000000001e-07,
      "loss": 0.0,
      "step": 1
    },
    {
      "epoch": 0.06751054852320675,
      "eval_loss": NaN,
      "eval_runtime": 7.3109,
      "eval_samples_per_second": 13.678,
      "eval_steps_per_second": 1.778,
      "step": 1
    },
    {
      "epoch": 0.1350210970464135,
      "grad_norm": NaN,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.0,
      "step": 2
    },
    {
      "epoch": 0.20253164556962025,
      "grad_norm": NaN,
      "learning_rate": 1.5e-06,
      "loss": 0.0,
      "step": 3
    },
    {
      "epoch": 0.270042194092827,
      "grad_norm": NaN,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.0,
      "step": 4
    },
    {
      "epoch": 0.33755274261603374,
      "grad_norm": NaN,
      "learning_rate": 2.5e-06,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.4050632911392405,
      "grad_norm": NaN,
      "learning_rate": 3e-06,
      "loss": 0.0,
      "step": 6
    },
    {
      "epoch": 0.47257383966244726,
      "grad_norm": NaN,
      "learning_rate": 3.5e-06,
      "loss": 0.0,
      "step": 7
    },
    {
      "epoch": 0.540084388185654,
      "grad_norm": NaN,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0,
      "step": 8
    },
    {
      "epoch": 0.6075949367088608,
      "grad_norm": NaN,
      "learning_rate": 4.5e-06,
      "loss": 0.0,
      "step": 9
    },
    {
      "epoch": 0.6751054852320675,
      "grad_norm": NaN,
      "learning_rate": 5e-06,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.7426160337552743,
      "grad_norm": NaN,
      "learning_rate": 4.989935734988098e-06,
      "loss": 0.0,
      "step": 11
    },
    {
      "epoch": 0.810126582278481,
      "grad_norm": NaN,
      "learning_rate": 4.959823971496575e-06,
      "loss": 0.0,
      "step": 12
    },
    {
      "epoch": 0.8776371308016878,
      "grad_norm": NaN,
      "learning_rate": 4.909907151739634e-06,
      "loss": 0.0,
      "step": 13
    },
    {
      "epoch": 0.9451476793248945,
      "grad_norm": NaN,
      "learning_rate": 4.8405871765993435e-06,
      "loss": 0.0,
      "step": 14
    },
    {
      "epoch": 1.0464135021097047,
      "grad_norm": NaN,
      "learning_rate": 4.752422169756048e-06,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 1.1139240506329113,
      "grad_norm": NaN,
      "learning_rate": 4.646121984004666e-06,
      "loss": 0.0,
      "step": 16
    },
    {
      "epoch": 1.1814345991561181,
      "grad_norm": NaN,
      "learning_rate": 4.522542485937369e-06,
      "loss": 0.0,
      "step": 17
    },
    {
      "epoch": 1.248945147679325,
      "grad_norm": NaN,
      "learning_rate": 4.382678665009028e-06,
      "loss": 0.0,
      "step": 18
    },
    {
      "epoch": 1.3164556962025316,
      "grad_norm": NaN,
      "learning_rate": 4.227656622467162e-06,
      "loss": 0.0,
      "step": 19
    },
    {
      "epoch": 1.3839662447257384,
      "grad_norm": NaN,
      "learning_rate": 4.058724504646834e-06,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 1.4514767932489452,
      "grad_norm": NaN,
      "learning_rate": 3.8772424536302565e-06,
      "loss": 0.0,
      "step": 21
    },
    {
      "epoch": 1.518987341772152,
      "grad_norm": NaN,
      "learning_rate": 3.684671656182497e-06,
      "loss": 0.0,
      "step": 22
    },
    {
      "epoch": 1.5864978902953588,
      "grad_norm": NaN,
      "learning_rate": 3.4825625791348093e-06,
      "loss": 0.0,
      "step": 23
    },
    {
      "epoch": 1.6540084388185654,
      "grad_norm": NaN,
      "learning_rate": 3.272542485937369e-06,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 1.721518987341772,
      "grad_norm": NaN,
      "learning_rate": 3.056302334890786e-06,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 1.7890295358649788,
      "grad_norm": NaN,
      "learning_rate": 2.835583164544139e-06,
      "loss": 0.0,
      "step": 26
    },
    {
      "epoch": 1.8565400843881856,
      "grad_norm": NaN,
      "learning_rate": 2.6121620758762877e-06,
      "loss": 0.0,
      "step": 27
    },
    {
      "epoch": 1.9240506329113924,
      "grad_norm": NaN,
      "learning_rate": 2.3878379241237136e-06,
      "loss": 0.0,
      "step": 28
    },
    {
      "epoch": 2.0253164556962027,
      "grad_norm": NaN,
      "learning_rate": 2.1644168354558623e-06,
      "loss": 0.0,
      "step": 29
    },
    {
      "epoch": 2.0928270042194095,
      "grad_norm": NaN,
      "learning_rate": 1.9436976651092143e-06,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 2.160337552742616,
      "grad_norm": NaN,
      "learning_rate": 1.7274575140626318e-06,
      "loss": 0.0,
      "step": 31
    },
    {
      "epoch": 2.2278481012658227,
      "grad_norm": NaN,
      "learning_rate": 1.5174374208651913e-06,
      "loss": 0.0,
      "step": 32
    },
    {
      "epoch": 2.2953586497890295,
      "grad_norm": NaN,
      "learning_rate": 1.3153283438175036e-06,
      "loss": 0.0,
      "step": 33
    },
    {
      "epoch": 2.3628691983122363,
      "grad_norm": NaN,
      "learning_rate": 1.122757546369744e-06,
      "loss": 0.0,
      "step": 34
    },
    {
      "epoch": 2.430379746835443,
      "grad_norm": NaN,
      "learning_rate": 9.412754953531664e-07,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 2.49789029535865,
      "grad_norm": NaN,
      "learning_rate": 7.723433775328385e-07,
      "loss": 0.0,
      "step": 36
    },
    {
      "epoch": 2.5654008438818563,
      "grad_norm": NaN,
      "learning_rate": 6.17321334990973e-07,
      "loss": 0.0,
      "step": 37
    },
    {
      "epoch": 2.632911392405063,
      "grad_norm": NaN,
      "learning_rate": 4.774575140626317e-07,
      "loss": 0.0,
      "step": 38
    },
    {
      "epoch": 2.70042194092827,
      "grad_norm": NaN,
      "learning_rate": 3.538780159953348e-07,
      "loss": 0.0,
      "step": 39
    },
    {
      "epoch": 2.7679324894514767,
      "grad_norm": NaN,
      "learning_rate": 2.4757783024395244e-07,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 2.8354430379746836,
      "grad_norm": NaN,
      "learning_rate": 1.59412823400657e-07,
      "loss": 0.0,
      "step": 41
    },
    {
      "epoch": 2.9029535864978904,
      "grad_norm": NaN,
      "learning_rate": 9.00928482603669e-08,
      "loss": 0.0,
      "step": 42
    },
    {
      "epoch": 3.0042194092827006,
      "grad_norm": NaN,
      "learning_rate": 4.017602850342584e-08,
      "loss": 0.0,
      "step": 43
    },
    {
      "epoch": 3.071729957805907,
      "grad_norm": NaN,
      "learning_rate": 1.006426501190233e-08,
      "loss": 0.0,
      "step": 44
    },
    {
      "epoch": 3.1392405063291138,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 0.0,
      "step": 45
    }
  ],
  "logging_steps": 1,
  "max_steps": 45,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 50,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 5,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.5312661952528384e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}