{
  "best_metric": 1.3085263967514038,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.06591957811470006,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0026367831245880024,
      "grad_norm": 1.3933559656143188,
      "learning_rate": 2e-05,
      "loss": 2.0049,
      "step": 1
    },
    {
      "epoch": 0.0026367831245880024,
      "eval_loss": 1.9893897771835327,
      "eval_runtime": 63.3027,
      "eval_samples_per_second": 2.528,
      "eval_steps_per_second": 1.264,
      "step": 1
    },
    {
      "epoch": 0.005273566249176005,
      "grad_norm": 1.4516927003860474,
      "learning_rate": 4e-05,
      "loss": 1.8449,
      "step": 2
    },
    {
      "epoch": 0.007910349373764008,
      "grad_norm": 1.685225248336792,
      "learning_rate": 6e-05,
      "loss": 2.1275,
      "step": 3
    },
    {
      "epoch": 0.01054713249835201,
      "grad_norm": 1.627281904220581,
      "learning_rate": 8e-05,
      "loss": 1.9866,
      "step": 4
    },
    {
      "epoch": 0.013183915622940013,
      "grad_norm": 1.3624420166015625,
      "learning_rate": 0.0001,
      "loss": 1.9596,
      "step": 5
    },
    {
      "epoch": 0.013183915622940013,
      "eval_loss": 1.838910698890686,
      "eval_runtime": 63.2658,
      "eval_samples_per_second": 2.529,
      "eval_steps_per_second": 1.265,
      "step": 5
    },
    {
      "epoch": 0.015820698747528016,
      "grad_norm": 1.658440351486206,
      "learning_rate": 0.00012,
      "loss": 1.999,
      "step": 6
    },
    {
      "epoch": 0.01845748187211602,
      "grad_norm": 1.3688627481460571,
      "learning_rate": 0.00014,
      "loss": 1.5144,
      "step": 7
    },
    {
      "epoch": 0.02109426499670402,
      "grad_norm": 1.4784142971038818,
      "learning_rate": 0.00016,
      "loss": 1.7929,
      "step": 8
    },
    {
      "epoch": 0.023731048121292023,
      "grad_norm": 1.7867752313613892,
      "learning_rate": 0.00018,
      "loss": 1.9317,
      "step": 9
    },
    {
      "epoch": 0.026367831245880026,
      "grad_norm": 1.67015540599823,
      "learning_rate": 0.0002,
      "loss": 1.7255,
      "step": 10
    },
    {
      "epoch": 0.026367831245880026,
      "eval_loss": 1.5247547626495361,
      "eval_runtime": 62.9051,
      "eval_samples_per_second": 2.544,
      "eval_steps_per_second": 1.272,
      "step": 10
    },
    {
      "epoch": 0.02900461437046803,
      "grad_norm": 1.5086541175842285,
      "learning_rate": 0.00019781476007338058,
      "loss": 1.6557,
      "step": 11
    },
    {
      "epoch": 0.03164139749505603,
      "grad_norm": 1.405285358428955,
      "learning_rate": 0.0001913545457642601,
      "loss": 1.515,
      "step": 12
    },
    {
      "epoch": 0.034278180619644036,
      "grad_norm": 1.5634911060333252,
      "learning_rate": 0.00018090169943749476,
      "loss": 1.4621,
      "step": 13
    },
    {
      "epoch": 0.03691496374423204,
      "grad_norm": 1.5782067775726318,
      "learning_rate": 0.00016691306063588583,
      "loss": 1.4011,
      "step": 14
    },
    {
      "epoch": 0.03955174686882004,
      "grad_norm": 1.4773911237716675,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.3834,
      "step": 15
    },
    {
      "epoch": 0.03955174686882004,
      "eval_loss": 1.3659483194351196,
      "eval_runtime": 63.1446,
      "eval_samples_per_second": 2.534,
      "eval_steps_per_second": 1.267,
      "step": 15
    },
    {
      "epoch": 0.04218852999340804,
      "grad_norm": 1.1775541305541992,
      "learning_rate": 0.00013090169943749476,
      "loss": 1.3241,
      "step": 16
    },
    {
      "epoch": 0.04482531311799604,
      "grad_norm": 1.5839667320251465,
      "learning_rate": 0.00011045284632676536,
      "loss": 1.3951,
      "step": 17
    },
    {
      "epoch": 0.047462096242584045,
      "grad_norm": 1.387986183166504,
      "learning_rate": 8.954715367323468e-05,
      "loss": 1.4098,
      "step": 18
    },
    {
      "epoch": 0.05009887936717205,
      "grad_norm": 1.1882282495498657,
      "learning_rate": 6.909830056250527e-05,
      "loss": 1.2957,
      "step": 19
    },
    {
      "epoch": 0.05273566249176005,
      "grad_norm": 1.3691644668579102,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.4493,
      "step": 20
    },
    {
      "epoch": 0.05273566249176005,
      "eval_loss": 1.3214565515518188,
      "eval_runtime": 63.2235,
      "eval_samples_per_second": 2.531,
      "eval_steps_per_second": 1.265,
      "step": 20
    },
    {
      "epoch": 0.055372445616348055,
      "grad_norm": 1.0872224569320679,
      "learning_rate": 3.308693936411421e-05,
      "loss": 1.2648,
      "step": 21
    },
    {
      "epoch": 0.05800922874093606,
      "grad_norm": 1.3703272342681885,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 1.4033,
      "step": 22
    },
    {
      "epoch": 0.06064601186552406,
      "grad_norm": 1.1510192155838013,
      "learning_rate": 8.645454235739903e-06,
      "loss": 1.5813,
      "step": 23
    },
    {
      "epoch": 0.06328279499011207,
      "grad_norm": 1.166670560836792,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 1.4211,
      "step": 24
    },
    {
      "epoch": 0.06591957811470006,
      "grad_norm": 1.470617651939392,
      "learning_rate": 0.0,
      "loss": 1.4893,
      "step": 25
    },
    {
      "epoch": 0.06591957811470006,
      "eval_loss": 1.3085263967514038,
      "eval_runtime": 63.0894,
      "eval_samples_per_second": 2.536,
      "eval_steps_per_second": 1.268,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9555457081344000.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}