{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1701041888156496,
  "eval_steps": 50,
  "global_step": 200,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0008505209440782479,
      "eval_loss": 1.785892128944397,
      "eval_runtime": 17.3247,
      "eval_samples_per_second": 28.572,
      "eval_steps_per_second": 14.315,
      "step": 1
    },
    {
      "epoch": 0.00850520944078248,
      "grad_norm": 1.3187812566757202,
      "learning_rate": 0.0002,
      "loss": 6.8373,
      "step": 10
    },
    {
      "epoch": 0.01701041888156496,
      "grad_norm": 2.7719953060150146,
      "learning_rate": 0.0002,
      "loss": 6.5746,
      "step": 20
    },
    {
      "epoch": 0.02551562832234744,
      "grad_norm": 1.4612891674041748,
      "learning_rate": 0.0002,
      "loss": 6.7459,
      "step": 30
    },
    {
      "epoch": 0.03402083776312992,
      "grad_norm": 1.6617029905319214,
      "learning_rate": 0.0002,
      "loss": 6.2728,
      "step": 40
    },
    {
      "epoch": 0.0425260472039124,
      "grad_norm": 1.557134747505188,
      "learning_rate": 0.0002,
      "loss": 6.3201,
      "step": 50
    },
    {
      "epoch": 0.0425260472039124,
      "eval_loss": 1.5907841920852661,
      "eval_runtime": 17.2481,
      "eval_samples_per_second": 28.699,
      "eval_steps_per_second": 14.378,
      "step": 50
    },
    {
      "epoch": 0.05103125664469488,
      "grad_norm": 1.6395306587219238,
      "learning_rate": 0.0002,
      "loss": 6.604,
      "step": 60
    },
    {
      "epoch": 0.05953646608547736,
      "grad_norm": 1.8522754907608032,
      "learning_rate": 0.0002,
      "loss": 6.2886,
      "step": 70
    },
    {
      "epoch": 0.06804167552625984,
      "grad_norm": 1.2497164011001587,
      "learning_rate": 0.0002,
      "loss": 6.1894,
      "step": 80
    },
    {
      "epoch": 0.07654688496704232,
      "grad_norm": 2.200613498687744,
      "learning_rate": 0.0002,
      "loss": 6.2773,
      "step": 90
    },
    {
      "epoch": 0.0850520944078248,
      "grad_norm": 1.8427073955535889,
      "learning_rate": 0.0002,
      "loss": 6.392,
      "step": 100
    },
    {
      "epoch": 0.0850520944078248,
      "eval_loss": 1.5734424591064453,
      "eval_runtime": 17.2504,
      "eval_samples_per_second": 28.695,
      "eval_steps_per_second": 14.377,
      "step": 100
    },
    {
      "epoch": 0.09355730384860728,
      "grad_norm": 1.8528062105178833,
      "learning_rate": 0.0002,
      "loss": 6.2375,
      "step": 110
    },
    {
      "epoch": 0.10206251328938976,
      "grad_norm": 2.0559117794036865,
      "learning_rate": 0.0002,
      "loss": 6.3323,
      "step": 120
    },
    {
      "epoch": 0.11056772273017224,
      "grad_norm": 2.75404691696167,
      "learning_rate": 0.0002,
      "loss": 6.3663,
      "step": 130
    },
    {
      "epoch": 0.11907293217095472,
      "grad_norm": 1.2870985269546509,
      "learning_rate": 0.0002,
      "loss": 6.2035,
      "step": 140
    },
    {
      "epoch": 0.1275781416117372,
      "grad_norm": 1.0647329092025757,
      "learning_rate": 0.0002,
      "loss": 6.1095,
      "step": 150
    },
    {
      "epoch": 0.1275781416117372,
      "eval_loss": 1.5614224672317505,
      "eval_runtime": 17.2171,
      "eval_samples_per_second": 28.75,
      "eval_steps_per_second": 14.404,
      "step": 150
    },
    {
      "epoch": 0.13608335105251967,
      "grad_norm": 2.079286813735962,
      "learning_rate": 0.0002,
      "loss": 6.5172,
      "step": 160
    },
    {
      "epoch": 0.14458856049330215,
      "grad_norm": 1.3619401454925537,
      "learning_rate": 0.0002,
      "loss": 6.367,
      "step": 170
    },
    {
      "epoch": 0.15309376993408463,
      "grad_norm": 0.9493538737297058,
      "learning_rate": 0.0002,
      "loss": 6.197,
      "step": 180
    },
    {
      "epoch": 0.1615989793748671,
      "grad_norm": 1.0273698568344116,
      "learning_rate": 0.0002,
      "loss": 6.6096,
      "step": 190
    },
    {
      "epoch": 0.1701041888156496,
      "grad_norm": 1.0309791564941406,
      "learning_rate": 0.0002,
      "loss": 6.1175,
      "step": 200
    },
    {
      "epoch": 0.1701041888156496,
      "eval_loss": 1.5528790950775146,
      "eval_runtime": 17.2234,
      "eval_samples_per_second": 28.74,
      "eval_steps_per_second": 14.399,
      "step": 200
    }
  ],
  "logging_steps": 10,
  "max_steps": 200,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.2696397264388096e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}