{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.05943536404160475,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0005943536404160475,
      "eval_loss": 4.843453884124756,
      "eval_runtime": 12.6588,
      "eval_samples_per_second": 223.877,
      "eval_steps_per_second": 28.044,
      "step": 1
    },
    {
      "epoch": 0.0017830609212481426,
      "grad_norm": 2.564396619796753,
      "learning_rate": 1.5e-05,
      "loss": 4.8125,
      "step": 3
    },
    {
      "epoch": 0.003566121842496285,
      "grad_norm": 2.7275853157043457,
      "learning_rate": 3e-05,
      "loss": 4.859,
      "step": 6
    },
    {
      "epoch": 0.005349182763744428,
      "grad_norm": 3.3876466751098633,
      "learning_rate": 4.5e-05,
      "loss": 4.8799,
      "step": 9
    },
    {
      "epoch": 0.005349182763744428,
      "eval_loss": 4.784177780151367,
      "eval_runtime": 12.3437,
      "eval_samples_per_second": 229.592,
      "eval_steps_per_second": 28.76,
      "step": 9
    },
    {
      "epoch": 0.00713224368499257,
      "grad_norm": 2.621730089187622,
      "learning_rate": 4.993910125649561e-05,
      "loss": 4.7754,
      "step": 12
    },
    {
      "epoch": 0.008915304606240713,
      "grad_norm": 2.747330665588379,
      "learning_rate": 4.962019382530521e-05,
      "loss": 4.6697,
      "step": 15
    },
    {
      "epoch": 0.010698365527488856,
      "grad_norm": 2.541849136352539,
      "learning_rate": 4.9031542398457974e-05,
      "loss": 4.4937,
      "step": 18
    },
    {
      "epoch": 0.010698365527488856,
      "eval_loss": 4.528736114501953,
      "eval_runtime": 12.3423,
      "eval_samples_per_second": 229.617,
      "eval_steps_per_second": 28.763,
      "step": 18
    },
    {
      "epoch": 0.012481426448737,
      "grad_norm": 2.4157145023345947,
      "learning_rate": 4.817959636416969e-05,
      "loss": 4.4348,
      "step": 21
    },
    {
      "epoch": 0.01426448736998514,
      "grad_norm": 2.329258441925049,
      "learning_rate": 4.707368982147318e-05,
      "loss": 4.5189,
      "step": 24
    },
    {
      "epoch": 0.016047548291233282,
      "grad_norm": 2.7403831481933594,
      "learning_rate": 4.572593931387604e-05,
      "loss": 4.3515,
      "step": 27
    },
    {
      "epoch": 0.016047548291233282,
      "eval_loss": 4.353518962860107,
      "eval_runtime": 12.3571,
      "eval_samples_per_second": 229.341,
      "eval_steps_per_second": 28.728,
      "step": 27
    },
    {
      "epoch": 0.017830609212481426,
      "grad_norm": 2.7104198932647705,
      "learning_rate": 4.415111107797445e-05,
      "loss": 4.291,
      "step": 30
    },
    {
      "epoch": 0.01961367013372957,
      "grad_norm": 3.094278573989868,
      "learning_rate": 4.2366459261474933e-05,
      "loss": 4.231,
      "step": 33
    },
    {
      "epoch": 0.021396731054977712,
      "grad_norm": 2.850407361984253,
      "learning_rate": 4.039153688314145e-05,
      "loss": 4.2833,
      "step": 36
    },
    {
      "epoch": 0.021396731054977712,
      "eval_loss": 4.222593307495117,
      "eval_runtime": 12.3292,
      "eval_samples_per_second": 229.861,
      "eval_steps_per_second": 28.793,
      "step": 36
    },
    {
      "epoch": 0.023179791976225855,
      "grad_norm": 2.623514413833618,
      "learning_rate": 3.824798160583012e-05,
      "loss": 4.2396,
      "step": 39
    },
    {
      "epoch": 0.024962852897474,
      "grad_norm": 2.258589267730713,
      "learning_rate": 3.5959278669726935e-05,
      "loss": 4.093,
      "step": 42
    },
    {
      "epoch": 0.02674591381872214,
      "grad_norm": 2.663977861404419,
      "learning_rate": 3.355050358314172e-05,
      "loss": 4.1153,
      "step": 45
    },
    {
      "epoch": 0.02674591381872214,
      "eval_loss": 4.105684280395508,
      "eval_runtime": 12.3875,
      "eval_samples_per_second": 228.778,
      "eval_steps_per_second": 28.658,
      "step": 45
    },
    {
      "epoch": 0.02852897473997028,
      "grad_norm": 2.7336995601654053,
      "learning_rate": 3.104804738999169e-05,
      "loss": 4.2595,
      "step": 48
    },
    {
      "epoch": 0.030312035661218425,
      "grad_norm": 2.746333122253418,
      "learning_rate": 2.8479327524001636e-05,
      "loss": 3.9046,
      "step": 51
    },
    {
      "epoch": 0.032095096582466565,
      "grad_norm": 2.822312593460083,
      "learning_rate": 2.587248741756253e-05,
      "loss": 4.0262,
      "step": 54
    },
    {
      "epoch": 0.032095096582466565,
      "eval_loss": 4.02208948135376,
      "eval_runtime": 12.3516,
      "eval_samples_per_second": 229.445,
      "eval_steps_per_second": 28.741,
      "step": 54
    },
    {
      "epoch": 0.03387815750371471,
      "grad_norm": 2.3769781589508057,
      "learning_rate": 2.3256088156396868e-05,
      "loss": 3.9969,
      "step": 57
    },
    {
      "epoch": 0.03566121842496285,
      "grad_norm": 2.229933023452759,
      "learning_rate": 2.0658795558326743e-05,
      "loss": 4.0259,
      "step": 60
    },
    {
      "epoch": 0.037444279346210994,
      "grad_norm": 2.422122001647949,
      "learning_rate": 1.8109066104575023e-05,
      "loss": 4.146,
      "step": 63
    },
    {
      "epoch": 0.037444279346210994,
      "eval_loss": 3.963472604751587,
      "eval_runtime": 12.3022,
      "eval_samples_per_second": 230.365,
      "eval_steps_per_second": 28.857,
      "step": 63
    },
    {
      "epoch": 0.03922734026745914,
      "grad_norm": 2.389755964279175,
      "learning_rate": 1.56348351646022e-05,
      "loss": 3.94,
      "step": 66
    },
    {
      "epoch": 0.04101040118870728,
      "grad_norm": 2.618612051010132,
      "learning_rate": 1.3263210930352737e-05,
      "loss": 3.8873,
      "step": 69
    },
    {
      "epoch": 0.042793462109955424,
      "grad_norm": 2.5756452083587646,
      "learning_rate": 1.1020177413231334e-05,
      "loss": 3.8951,
      "step": 72
    },
    {
      "epoch": 0.042793462109955424,
      "eval_loss": 3.9271600246429443,
      "eval_runtime": 12.3546,
      "eval_samples_per_second": 229.388,
      "eval_steps_per_second": 28.734,
      "step": 72
    },
    {
      "epoch": 0.04457652303120357,
      "grad_norm": 2.44830584526062,
      "learning_rate": 8.930309757836517e-06,
      "loss": 3.8871,
      "step": 75
    },
    {
      "epoch": 0.04635958395245171,
      "grad_norm": 2.6867222785949707,
      "learning_rate": 7.016504991533726e-06,
      "loss": 3.9469,
      "step": 78
    },
    {
      "epoch": 0.048142644873699854,
      "grad_norm": 2.7013423442840576,
      "learning_rate": 5.299731159831953e-06,
      "loss": 4.0629,
      "step": 81
    },
    {
      "epoch": 0.048142644873699854,
      "eval_loss": 3.9079818725585938,
      "eval_runtime": 12.3172,
      "eval_samples_per_second": 230.085,
      "eval_steps_per_second": 28.821,
      "step": 81
    },
    {
      "epoch": 0.049925705794948,
      "grad_norm": 2.473344326019287,
      "learning_rate": 3.798797596089351e-06,
      "loss": 3.8004,
      "step": 84
    },
    {
      "epoch": 0.05170876671619613,
      "grad_norm": 3.3223164081573486,
      "learning_rate": 2.5301488425208296e-06,
      "loss": 3.8299,
      "step": 87
    },
    {
      "epoch": 0.05349182763744428,
      "grad_norm": 2.4510903358459473,
      "learning_rate": 1.5076844803522922e-06,
      "loss": 3.9731,
      "step": 90
    },
    {
      "epoch": 0.05349182763744428,
      "eval_loss": 3.9010825157165527,
      "eval_runtime": 12.3178,
      "eval_samples_per_second": 230.073,
      "eval_steps_per_second": 28.82,
      "step": 90
    },
    {
      "epoch": 0.05527488855869242,
      "grad_norm": 2.346513271331787,
      "learning_rate": 7.426068431000882e-07,
      "loss": 3.9167,
      "step": 93
    },
    {
      "epoch": 0.05705794947994056,
      "grad_norm": 2.8069913387298584,
      "learning_rate": 2.4329828146074095e-07,
      "loss": 3.705,
      "step": 96
    },
    {
      "epoch": 0.058841010401188706,
      "grad_norm": 2.7186665534973145,
      "learning_rate": 1.522932452260595e-08,
      "loss": 3.8988,
      "step": 99
    },
    {
      "epoch": 0.058841010401188706,
      "eval_loss": 3.8997690677642822,
      "eval_runtime": 12.3959,
      "eval_samples_per_second": 228.623,
      "eval_steps_per_second": 28.638,
      "step": 99
    }
  ],
  "logging_steps": 3,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 9,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1730915441049600.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}