{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.12072434607645875,
  "eval_steps": 4,
  "global_step": 30,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004024144869215292,
      "grad_norm": 2.6169958114624023,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 8.6044,
      "step": 1
    },
    {
      "epoch": 0.004024144869215292,
      "eval_loss": 3.9319708347320557,
      "eval_runtime": 1.6203,
      "eval_samples_per_second": 64.803,
      "eval_steps_per_second": 16.664,
      "step": 1
    },
    {
      "epoch": 0.008048289738430584,
      "grad_norm": 2.347675323486328,
      "learning_rate": 4.000000000000001e-06,
      "loss": 7.3316,
      "step": 2
    },
    {
      "epoch": 0.012072434607645875,
      "grad_norm": 2.6405279636383057,
      "learning_rate": 6e-06,
      "loss": 7.3743,
      "step": 3
    },
    {
      "epoch": 0.01609657947686117,
      "grad_norm": 2.4261691570281982,
      "learning_rate": 8.000000000000001e-06,
      "loss": 6.9561,
      "step": 4
    },
    {
      "epoch": 0.01609657947686117,
      "eval_loss": 3.9312427043914795,
      "eval_runtime": 1.6196,
      "eval_samples_per_second": 64.832,
      "eval_steps_per_second": 16.671,
      "step": 4
    },
    {
      "epoch": 0.02012072434607646,
      "grad_norm": 2.357309103012085,
      "learning_rate": 1e-05,
      "loss": 7.4314,
      "step": 5
    },
    {
      "epoch": 0.02414486921529175,
      "grad_norm": 2.530703544616699,
      "learning_rate": 9.960573506572391e-06,
      "loss": 6.9004,
      "step": 6
    },
    {
      "epoch": 0.028169014084507043,
      "grad_norm": 2.538944959640503,
      "learning_rate": 9.842915805643156e-06,
      "loss": 6.9956,
      "step": 7
    },
    {
      "epoch": 0.03219315895372234,
      "grad_norm": 2.157011032104492,
      "learning_rate": 9.648882429441258e-06,
      "loss": 6.8751,
      "step": 8
    },
    {
      "epoch": 0.03219315895372234,
      "eval_loss": 3.9274632930755615,
      "eval_runtime": 1.6265,
      "eval_samples_per_second": 64.557,
      "eval_steps_per_second": 16.6,
      "step": 8
    },
    {
      "epoch": 0.03621730382293763,
      "grad_norm": 2.4685795307159424,
      "learning_rate": 9.381533400219319e-06,
      "loss": 8.0845,
      "step": 9
    },
    {
      "epoch": 0.04024144869215292,
      "grad_norm": 2.644880771636963,
      "learning_rate": 9.045084971874738e-06,
      "loss": 7.4036,
      "step": 10
    },
    {
      "epoch": 0.04426559356136821,
      "grad_norm": 2.6943771839141846,
      "learning_rate": 8.644843137107058e-06,
      "loss": 7.4064,
      "step": 11
    },
    {
      "epoch": 0.0482897384305835,
      "grad_norm": 2.553818464279175,
      "learning_rate": 8.18711994874345e-06,
      "loss": 8.3004,
      "step": 12
    },
    {
      "epoch": 0.0482897384305835,
      "eval_loss": 3.9247829914093018,
      "eval_runtime": 1.6269,
      "eval_samples_per_second": 64.538,
      "eval_steps_per_second": 16.596,
      "step": 12
    },
    {
      "epoch": 0.052313883299798795,
      "grad_norm": 2.7009778022766113,
      "learning_rate": 7.679133974894984e-06,
      "loss": 7.4119,
      "step": 13
    },
    {
      "epoch": 0.056338028169014086,
      "grad_norm": 2.3590729236602783,
      "learning_rate": 7.128896457825364e-06,
      "loss": 7.4758,
      "step": 14
    },
    {
      "epoch": 0.060362173038229376,
      "grad_norm": 2.608347177505493,
      "learning_rate": 6.545084971874738e-06,
      "loss": 7.9519,
      "step": 15
    },
    {
      "epoch": 0.06438631790744467,
      "grad_norm": 2.3863368034362793,
      "learning_rate": 5.936906572928625e-06,
      "loss": 7.3194,
      "step": 16
    },
    {
      "epoch": 0.06438631790744467,
      "eval_loss": 3.925156831741333,
      "eval_runtime": 1.6171,
      "eval_samples_per_second": 64.933,
      "eval_steps_per_second": 16.697,
      "step": 16
    },
    {
      "epoch": 0.06841046277665996,
      "grad_norm": 2.498717784881592,
      "learning_rate": 5.3139525976465675e-06,
      "loss": 7.1242,
      "step": 17
    },
    {
      "epoch": 0.07243460764587525,
      "grad_norm": 2.5884764194488525,
      "learning_rate": 4.686047402353433e-06,
      "loss": 7.2932,
      "step": 18
    },
    {
      "epoch": 0.07645875251509054,
      "grad_norm": 2.6778087615966797,
      "learning_rate": 4.063093427071376e-06,
      "loss": 7.8389,
      "step": 19
    },
    {
      "epoch": 0.08048289738430583,
      "grad_norm": 2.952148914337158,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 7.6949,
      "step": 20
    },
    {
      "epoch": 0.08048289738430583,
      "eval_loss": 3.919869899749756,
      "eval_runtime": 1.6151,
      "eval_samples_per_second": 65.012,
      "eval_steps_per_second": 16.717,
      "step": 20
    },
    {
      "epoch": 0.08450704225352113,
      "grad_norm": 2.448875665664673,
      "learning_rate": 2.871103542174637e-06,
      "loss": 7.8969,
      "step": 21
    },
    {
      "epoch": 0.08853118712273642,
      "grad_norm": 2.487572193145752,
      "learning_rate": 2.320866025105016e-06,
      "loss": 6.285,
      "step": 22
    },
    {
      "epoch": 0.0925553319919517,
      "grad_norm": 2.300093412399292,
      "learning_rate": 1.8128800512565514e-06,
      "loss": 6.6932,
      "step": 23
    },
    {
      "epoch": 0.096579476861167,
      "grad_norm": 2.773916006088257,
      "learning_rate": 1.3551568628929434e-06,
      "loss": 7.0114,
      "step": 24
    },
    {
      "epoch": 0.096579476861167,
      "eval_loss": 3.917163133621216,
      "eval_runtime": 1.6764,
      "eval_samples_per_second": 62.632,
      "eval_steps_per_second": 16.105,
      "step": 24
    },
    {
      "epoch": 0.1006036217303823,
      "grad_norm": 2.337402582168579,
      "learning_rate": 9.549150281252633e-07,
      "loss": 7.3169,
      "step": 25
    },
    {
      "epoch": 0.10462776659959759,
      "grad_norm": 2.8300514221191406,
      "learning_rate": 6.184665997806832e-07,
      "loss": 7.2812,
      "step": 26
    },
    {
      "epoch": 0.10865191146881288,
      "grad_norm": 3.735287666320801,
      "learning_rate": 3.511175705587433e-07,
      "loss": 7.1474,
      "step": 27
    },
    {
      "epoch": 0.11267605633802817,
      "grad_norm": 2.840820074081421,
      "learning_rate": 1.5708419435684463e-07,
      "loss": 7.8008,
      "step": 28
    },
    {
      "epoch": 0.11267605633802817,
      "eval_loss": 3.920280933380127,
      "eval_runtime": 1.6256,
      "eval_samples_per_second": 64.591,
      "eval_steps_per_second": 16.609,
      "step": 28
    },
    {
      "epoch": 0.11670020120724346,
      "grad_norm": 2.6696712970733643,
      "learning_rate": 3.9426493427611177e-08,
      "loss": 7.3584,
      "step": 29
    },
    {
      "epoch": 0.12072434607645875,
      "grad_norm": 2.626060962677002,
      "learning_rate": 0.0,
      "loss": 7.9641,
      "step": 30
    }
  ],
  "logging_steps": 1,
  "max_steps": 30,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 20,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 129293195673600.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}