{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 8972,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05572893446277307,
      "grad_norm": 11.987442970275879,
      "learning_rate": 1.947138588830154e-05,
      "loss": 1.9662,
      "step": 500
    },
    {
      "epoch": 0.11145786892554614,
      "grad_norm": 8.44267463684082,
      "learning_rate": 1.8322224775913585e-05,
      "loss": 1.5001,
      "step": 1000
    },
    {
      "epoch": 0.1671868033883192,
      "grad_norm": 9.573556900024414,
      "learning_rate": 1.717306366352563e-05,
      "loss": 1.3814,
      "step": 1500
    },
    {
      "epoch": 0.22291573785109228,
      "grad_norm": 1.6791908740997314,
      "learning_rate": 1.602390255113767e-05,
      "loss": 1.2992,
      "step": 2000
    },
    {
      "epoch": 0.27864467231386536,
      "grad_norm": 19.677921295166016,
      "learning_rate": 1.4874741438749713e-05,
      "loss": 1.3726,
      "step": 2500
    },
    {
      "epoch": 0.3343736067766384,
      "grad_norm": 19.474912643432617,
      "learning_rate": 1.3725580326361755e-05,
      "loss": 1.3539,
      "step": 3000
    },
    {
      "epoch": 0.3901025412394115,
      "grad_norm": 4.039466381072998,
      "learning_rate": 1.2576419213973801e-05,
      "loss": 1.3074,
      "step": 3500
    },
    {
      "epoch": 0.44583147570218457,
      "grad_norm": 19.92972755432129,
      "learning_rate": 1.1427258101585844e-05,
      "loss": 1.268,
      "step": 4000
    },
    {
      "epoch": 0.5015604101649577,
      "grad_norm": 12.247701644897461,
      "learning_rate": 1.0278096989197886e-05,
      "loss": 1.2361,
      "step": 4500
    },
    {
      "epoch": 0.5572893446277307,
      "grad_norm": 20.72216033935547,
      "learning_rate": 9.128935876809929e-06,
      "loss": 1.2746,
      "step": 5000
    },
    {
      "epoch": 0.6130182790905038,
      "grad_norm": 15.891348838806152,
      "learning_rate": 7.979774764421973e-06,
      "loss": 1.2041,
      "step": 5500
    },
    {
      "epoch": 0.6687472135532768,
      "grad_norm": 20.896923065185547,
      "learning_rate": 6.830613652034016e-06,
      "loss": 1.2518,
      "step": 6000
    },
    {
      "epoch": 0.72447614801605,
      "grad_norm": 3.0634005069732666,
      "learning_rate": 5.681452539646059e-06,
      "loss": 1.1643,
      "step": 6500
    },
    {
      "epoch": 0.780205082478823,
      "grad_norm": 3.9543943405151367,
      "learning_rate": 4.532291427258102e-06,
      "loss": 1.2286,
      "step": 7000
    },
    {
      "epoch": 0.8359340169415961,
      "grad_norm": 11.359517097473145,
      "learning_rate": 3.383130314870145e-06,
      "loss": 1.2233,
      "step": 7500
    },
    {
      "epoch": 0.8916629514043691,
      "grad_norm": 12.556636810302734,
      "learning_rate": 2.2339692024821883e-06,
      "loss": 1.1425,
      "step": 8000
    },
    {
      "epoch": 0.9473918858671422,
      "grad_norm": 20.944622039794922,
      "learning_rate": 1.0848080900942315e-06,
      "loss": 1.1409,
      "step": 8500
    },
    {
      "epoch": 1.0,
      "step": 8972,
      "total_flos": 0.0,
      "train_loss": 1.3068735273193686,
      "train_runtime": 61961.1581,
      "train_samples_per_second": 0.579,
      "train_steps_per_second": 0.145
    }
  ],
  "logging_steps": 500,
  "max_steps": 8972,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}