{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.1764705882352942,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.011764705882352941,
      "eval_loss": NaN,
      "eval_runtime": 4.7322,
      "eval_samples_per_second": 63.818,
      "eval_steps_per_second": 8.03,
      "step": 1
    },
    {
      "epoch": 0.058823529411764705,
      "grad_norm": NaN,
      "learning_rate": 3.75e-05,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.10588235294117647,
      "eval_loss": NaN,
      "eval_runtime": 4.3407,
      "eval_samples_per_second": 69.573,
      "eval_steps_per_second": 8.754,
      "step": 9
    },
    {
      "epoch": 0.11764705882352941,
      "grad_norm": NaN,
      "learning_rate": 7.5e-05,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.17647058823529413,
      "grad_norm": NaN,
      "learning_rate": 0.0001125,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.21176470588235294,
      "eval_loss": NaN,
      "eval_runtime": 4.3492,
      "eval_samples_per_second": 69.438,
      "eval_steps_per_second": 8.737,
      "step": 18
    },
    {
      "epoch": 0.23529411764705882,
      "grad_norm": NaN,
      "learning_rate": 0.00015,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.29411764705882354,
      "grad_norm": NaN,
      "learning_rate": 0.00014855889603024227,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.3176470588235294,
      "eval_loss": NaN,
      "eval_runtime": 4.339,
      "eval_samples_per_second": 69.601,
      "eval_steps_per_second": 8.758,
      "step": 27
    },
    {
      "epoch": 0.35294117647058826,
      "grad_norm": NaN,
      "learning_rate": 0.0001442909649383465,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.4117647058823529,
      "grad_norm": NaN,
      "learning_rate": 0.0001373602209226909,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.4235294117647059,
      "eval_loss": NaN,
      "eval_runtime": 4.3398,
      "eval_samples_per_second": 69.588,
      "eval_steps_per_second": 8.756,
      "step": 36
    },
    {
      "epoch": 0.47058823529411764,
      "grad_norm": NaN,
      "learning_rate": 0.00012803300858899104,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.5294117647058824,
      "grad_norm": NaN,
      "learning_rate": 0.00011666776747647015,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.5294117647058824,
      "eval_loss": NaN,
      "eval_runtime": 4.338,
      "eval_samples_per_second": 69.617,
      "eval_steps_per_second": 8.76,
      "step": 45
    },
    {
      "epoch": 0.5882352941176471,
      "grad_norm": NaN,
      "learning_rate": 0.00010370125742738173,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.6352941176470588,
      "eval_loss": NaN,
      "eval_runtime": 4.3491,
      "eval_samples_per_second": 69.44,
      "eval_steps_per_second": 8.737,
      "step": 54
    },
    {
      "epoch": 0.6470588235294118,
      "grad_norm": NaN,
      "learning_rate": 8.963177415120962e-05,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.7058823529411765,
      "grad_norm": NaN,
      "learning_rate": 7.5e-05,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.7411764705882353,
      "eval_loss": NaN,
      "eval_runtime": 4.3316,
      "eval_samples_per_second": 69.72,
      "eval_steps_per_second": 8.773,
      "step": 63
    },
    {
      "epoch": 0.7647058823529411,
      "grad_norm": NaN,
      "learning_rate": 6.036822584879038e-05,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.8235294117647058,
      "grad_norm": NaN,
      "learning_rate": 4.6298742572618266e-05,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.8470588235294118,
      "eval_loss": NaN,
      "eval_runtime": 4.3459,
      "eval_samples_per_second": 69.492,
      "eval_steps_per_second": 8.744,
      "step": 72
    },
    {
      "epoch": 0.8823529411764706,
      "grad_norm": NaN,
      "learning_rate": 3.333223252352985e-05,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.9411764705882353,
      "grad_norm": NaN,
      "learning_rate": 2.1966991411008938e-05,
      "loss": 0.0,
      "step": 80
    },
    {
      "epoch": 0.9529411764705882,
      "eval_loss": NaN,
      "eval_runtime": 4.3396,
      "eval_samples_per_second": 69.592,
      "eval_steps_per_second": 8.757,
      "step": 81
    },
    {
      "epoch": 1.0,
      "grad_norm": NaN,
      "learning_rate": 1.2639779077309098e-05,
      "loss": 0.0,
      "step": 85
    },
    {
      "epoch": 1.0588235294117647,
      "grad_norm": NaN,
      "learning_rate": 5.709035061653494e-06,
      "loss": 0.0,
      "step": 90
    },
    {
      "epoch": 1.0588235294117647,
      "eval_loss": NaN,
      "eval_runtime": 4.3385,
      "eval_samples_per_second": 69.61,
      "eval_steps_per_second": 8.759,
      "step": 90
    },
    {
      "epoch": 1.1176470588235294,
      "grad_norm": NaN,
      "learning_rate": 1.4411039697577175e-06,
      "loss": 0.0,
      "step": 95
    },
    {
      "epoch": 1.1647058823529413,
      "eval_loss": NaN,
      "eval_runtime": 4.3544,
      "eval_samples_per_second": 69.355,
      "eval_steps_per_second": 8.727,
      "step": 99
    },
    {
      "epoch": 1.1764705882352942,
      "grad_norm": NaN,
      "learning_rate": 0.0,
      "loss": 0.0,
      "step": 100
    }
  ],
  "logging_steps": 5,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.128481591545037e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}