{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.935672514619883,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004678362573099415,
      "eval_loss": 4.016793251037598,
      "eval_runtime": 1.0919,
      "eval_samples_per_second": 82.428,
      "eval_steps_per_second": 41.214,
      "step": 1
    },
    {
      "epoch": 0.04678362573099415,
      "grad_norm": 1.2574878931045532,
      "learning_rate": 0.0002,
      "loss": 3.8311,
      "step": 10
    },
    {
      "epoch": 0.0935672514619883,
      "grad_norm": 1.440278172492981,
      "learning_rate": 0.00019863613034027224,
      "loss": 3.3983,
      "step": 20
    },
    {
      "epoch": 0.14035087719298245,
      "grad_norm": 1.9223074913024902,
      "learning_rate": 0.00019458172417006347,
      "loss": 2.87,
      "step": 30
    },
    {
      "epoch": 0.1871345029239766,
      "grad_norm": 1.7929702997207642,
      "learning_rate": 0.0001879473751206489,
      "loss": 2.4029,
      "step": 40
    },
    {
      "epoch": 0.23391812865497075,
      "grad_norm": 1.6677922010421753,
      "learning_rate": 0.00017891405093963938,
      "loss": 2.208,
      "step": 50
    },
    {
      "epoch": 0.23391812865497075,
      "eval_loss": 2.271854877471924,
      "eval_runtime": 0.7213,
      "eval_samples_per_second": 124.768,
      "eval_steps_per_second": 62.384,
      "step": 50
    },
    {
      "epoch": 0.2807017543859649,
      "grad_norm": 1.8845423460006714,
      "learning_rate": 0.00016772815716257412,
      "loss": 2.1732,
      "step": 60
    },
    {
      "epoch": 0.32748538011695905,
      "grad_norm": 2.0414860248565674,
      "learning_rate": 0.00015469481581224272,
      "loss": 2.1305,
      "step": 70
    },
    {
      "epoch": 0.3742690058479532,
      "grad_norm": 1.5285357236862183,
      "learning_rate": 0.00014016954246529696,
      "loss": 2.0191,
      "step": 80
    },
    {
      "epoch": 0.42105263157894735,
      "grad_norm": 2.235381603240967,
      "learning_rate": 0.00012454854871407994,
      "loss": 2.0033,
      "step": 90
    },
    {
      "epoch": 0.4678362573099415,
      "grad_norm": 1.9849804639816284,
      "learning_rate": 0.00010825793454723325,
      "loss": 1.9567,
      "step": 100
    },
    {
      "epoch": 0.4678362573099415,
      "eval_loss": 1.9434040784835815,
      "eval_runtime": 0.7117,
      "eval_samples_per_second": 126.459,
      "eval_steps_per_second": 63.229,
      "step": 100
    },
    {
      "epoch": 0.5146198830409356,
      "grad_norm": 2.160487651824951,
      "learning_rate": 9.174206545276677e-05,
      "loss": 1.8901,
      "step": 110
    },
    {
      "epoch": 0.5614035087719298,
      "grad_norm": 2.135404109954834,
      "learning_rate": 7.54514512859201e-05,
      "loss": 1.9526,
      "step": 120
    },
    {
      "epoch": 0.6081871345029239,
      "grad_norm": 1.975866436958313,
      "learning_rate": 5.983045753470308e-05,
      "loss": 1.8709,
      "step": 130
    },
    {
      "epoch": 0.6549707602339181,
      "grad_norm": 2.01139760017395,
      "learning_rate": 4.530518418775733e-05,
      "loss": 1.8074,
      "step": 140
    },
    {
      "epoch": 0.7017543859649122,
      "grad_norm": 1.8285801410675049,
      "learning_rate": 3.227184283742591e-05,
      "loss": 1.8838,
      "step": 150
    },
    {
      "epoch": 0.7017543859649122,
      "eval_loss": 1.829226016998291,
      "eval_runtime": 0.6939,
      "eval_samples_per_second": 129.699,
      "eval_steps_per_second": 64.85,
      "step": 150
    },
    {
      "epoch": 0.7485380116959064,
      "grad_norm": 2.3901665210723877,
      "learning_rate": 2.1085949060360654e-05,
      "loss": 1.8426,
      "step": 160
    },
    {
      "epoch": 0.7953216374269005,
      "grad_norm": 2.471519708633423,
      "learning_rate": 1.2052624879351104e-05,
      "loss": 1.8353,
      "step": 170
    },
    {
      "epoch": 0.8421052631578947,
      "grad_norm": 2.3009531497955322,
      "learning_rate": 5.418275829936537e-06,
      "loss": 1.8168,
      "step": 180
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 2.179710865020752,
      "learning_rate": 1.3638696597277679e-06,
      "loss": 1.7738,
      "step": 190
    },
    {
      "epoch": 0.935672514619883,
      "grad_norm": 1.9213963747024536,
      "learning_rate": 0.0,
      "loss": 1.8508,
      "step": 200
    },
    {
      "epoch": 0.935672514619883,
      "eval_loss": 1.8103961944580078,
      "eval_runtime": 0.7042,
      "eval_samples_per_second": 127.798,
      "eval_steps_per_second": 63.899,
      "step": 200
    }
  ],
  "logging_steps": 10,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 685853009510400.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}