{
  "best_metric": 1.6027921438217163,
  "best_model_checkpoint": "./outputs/checkpoint-1700",
  "epoch": 1.238615664845173,
  "eval_steps": 100,
  "global_step": 1700,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.2671,
      "step": 100
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.1813676357269287,
      "eval_runtime": 549.6637,
      "eval_samples_per_second": 11.414,
      "eval_steps_per_second": 1.428,
      "step": 100
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002,
      "loss": 2.1547,
      "step": 200
    },
    {
      "epoch": 0.15,
      "eval_loss": 2.131509304046631,
      "eval_runtime": 549.883,
      "eval_samples_per_second": 11.41,
      "eval_steps_per_second": 1.428,
      "step": 200
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002,
      "loss": 2.1088,
      "step": 300
    },
    {
      "epoch": 0.22,
      "eval_loss": 2.0894575119018555,
      "eval_runtime": 550.3941,
      "eval_samples_per_second": 11.399,
      "eval_steps_per_second": 1.426,
      "step": 300
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002,
      "loss": 2.0681,
      "step": 400
    },
    {
      "epoch": 0.29,
      "eval_loss": 2.0435657501220703,
      "eval_runtime": 550.6916,
      "eval_samples_per_second": 11.393,
      "eval_steps_per_second": 1.425,
      "step": 400
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0002,
      "loss": 2.0241,
      "step": 500
    },
    {
      "epoch": 0.36,
      "eval_loss": 2.0031208992004395,
      "eval_runtime": 550.5855,
      "eval_samples_per_second": 11.395,
      "eval_steps_per_second": 1.426,
      "step": 500
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0002,
      "loss": 1.9755,
      "step": 600
    },
    {
      "epoch": 0.44,
      "eval_loss": 1.9635978937149048,
      "eval_runtime": 552.4575,
      "eval_samples_per_second": 11.357,
      "eval_steps_per_second": 1.421,
      "step": 600
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0002,
      "loss": 1.9447,
      "step": 700
    },
    {
      "epoch": 0.51,
      "eval_loss": 1.9280308485031128,
      "eval_runtime": 552.7859,
      "eval_samples_per_second": 11.35,
      "eval_steps_per_second": 1.42,
      "step": 700
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0002,
      "loss": 1.9024,
      "step": 800
    },
    {
      "epoch": 0.58,
      "eval_loss": 1.8917897939682007,
      "eval_runtime": 553.0559,
      "eval_samples_per_second": 11.344,
      "eval_steps_per_second": 1.419,
      "step": 800
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0002,
      "loss": 1.8626,
      "step": 900
    },
    {
      "epoch": 0.66,
      "eval_loss": 1.8584532737731934,
      "eval_runtime": 554.4522,
      "eval_samples_per_second": 11.316,
      "eval_steps_per_second": 1.416,
      "step": 900
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0002,
      "loss": 1.8397,
      "step": 1000
    },
    {
      "epoch": 0.73,
      "eval_loss": 1.8282623291015625,
      "eval_runtime": 554.0635,
      "eval_samples_per_second": 11.324,
      "eval_steps_per_second": 1.417,
      "step": 1000
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0002,
      "loss": 1.8218,
      "step": 1100
    },
    {
      "epoch": 0.8,
      "eval_loss": 1.7944462299346924,
      "eval_runtime": 554.2451,
      "eval_samples_per_second": 11.32,
      "eval_steps_per_second": 1.416,
      "step": 1100
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0002,
      "loss": 1.7698,
      "step": 1200
    },
    {
      "epoch": 0.87,
      "eval_loss": 1.7612203359603882,
      "eval_runtime": 554.1779,
      "eval_samples_per_second": 11.321,
      "eval_steps_per_second": 1.417,
      "step": 1200
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0002,
      "loss": 1.7685,
      "step": 1300
    },
    {
      "epoch": 0.95,
      "eval_loss": 1.730454921722412,
      "eval_runtime": 554.4409,
      "eval_samples_per_second": 11.316,
      "eval_steps_per_second": 1.416,
      "step": 1300
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.0002,
      "loss": 1.6896,
      "step": 1400
    },
    {
      "epoch": 1.02,
      "eval_loss": 1.691584587097168,
      "eval_runtime": 554.1975,
      "eval_samples_per_second": 11.321,
      "eval_steps_per_second": 1.416,
      "step": 1400
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.0002,
      "loss": 1.6213,
      "step": 1500
    },
    {
      "epoch": 1.09,
      "eval_loss": 1.6627237796783447,
      "eval_runtime": 554.2183,
      "eval_samples_per_second": 11.32,
      "eval_steps_per_second": 1.416,
      "step": 1500
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.0002,
      "loss": 1.6016,
      "step": 1600
    },
    {
      "epoch": 1.17,
      "eval_loss": 1.6322499513626099,
      "eval_runtime": 554.3251,
      "eval_samples_per_second": 11.318,
      "eval_steps_per_second": 1.416,
      "step": 1600
    },
    {
      "epoch": 1.24,
      "learning_rate": 0.0002,
      "loss": 1.5939,
      "step": 1700
    },
    {
      "epoch": 1.24,
      "eval_loss": 1.6027921438217163,
      "eval_runtime": 555.8406,
      "eval_samples_per_second": 11.287,
      "eval_steps_per_second": 1.412,
      "step": 1700
    }
  ],
  "logging_steps": 100,
  "max_steps": 4116,
  "num_train_epochs": 3,
  "save_steps": 100,
  "total_flos": 4.434655082491576e+17,
  "trial_name": null,
  "trial_params": null
}