{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 50.0,
  "eval_steps": 500,
  "global_step": 5200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 4.8076923076923075,
      "grad_norm": 1.7345516681671143,
      "learning_rate": 4.519230769230769e-05,
      "loss": 2.5155,
      "step": 500
    },
    {
      "epoch": 9.615384615384615,
      "grad_norm": 2.026956558227539,
      "learning_rate": 4.038461538461539e-05,
      "loss": 1.8965,
      "step": 1000
    },
    {
      "epoch": 14.423076923076923,
      "grad_norm": 2.5122456550598145,
      "learning_rate": 3.557692307692308e-05,
      "loss": 1.3434,
      "step": 1500
    },
    {
      "epoch": 19.23076923076923,
      "grad_norm": 3.1581993103027344,
      "learning_rate": 3.0769230769230774e-05,
      "loss": 0.9183,
      "step": 2000
    },
    {
      "epoch": 24.03846153846154,
      "grad_norm": 3.239306688308716,
      "learning_rate": 2.5961538461538464e-05,
      "loss": 0.6282,
      "step": 2500
    },
    {
      "epoch": 28.846153846153847,
      "grad_norm": 3.0082170963287354,
      "learning_rate": 2.1153846153846154e-05,
      "loss": 0.4492,
      "step": 3000
    },
    {
      "epoch": 33.65384615384615,
      "grad_norm": 1.718727946281433,
      "learning_rate": 1.6346153846153847e-05,
      "loss": 0.3356,
      "step": 3500
    },
    {
      "epoch": 38.46153846153846,
      "grad_norm": 1.2525819540023804,
      "learning_rate": 1.153846153846154e-05,
      "loss": 0.2574,
      "step": 4000
    },
    {
      "epoch": 43.26923076923077,
      "grad_norm": 0.5725437998771667,
      "learning_rate": 6.730769230769231e-06,
      "loss": 0.2151,
      "step": 4500
    },
    {
      "epoch": 48.07692307692308,
      "grad_norm": 7.273406028747559,
      "learning_rate": 1.9230769230769234e-06,
      "loss": 0.1871,
      "step": 5000
    },
    {
      "epoch": 50.0,
      "step": 5200,
      "total_flos": 2.15757062406144e+16,
      "train_loss": 0.8480533966651329,
      "train_runtime": 3860.2683,
      "train_samples_per_second": 5.349,
      "train_steps_per_second": 1.347
    }
  ],
  "logging_steps": 500,
  "max_steps": 5200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 50,
  "save_steps": 500,
  "total_flos": 2.15757062406144e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}