{
  "best_metric": 12.436015129089355,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.0013257324671881213,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 5.302929868752486e-05,
      "grad_norm": 1107.743896484375,
      "learning_rate": 2e-05,
      "loss": 46.599,
      "step": 1
    },
    {
      "epoch": 5.302929868752486e-05,
      "eval_loss": 12.726621627807617,
      "eval_runtime": 823.1969,
      "eval_samples_per_second": 9.645,
      "eval_steps_per_second": 4.823,
      "step": 1
    },
    {
      "epoch": 0.00010605859737504972,
      "grad_norm": 773.663818359375,
      "learning_rate": 4e-05,
      "loss": 51.8828,
      "step": 2
    },
    {
      "epoch": 0.00015908789606257457,
      "grad_norm": 894.6254272460938,
      "learning_rate": 6e-05,
      "loss": 44.2442,
      "step": 3
    },
    {
      "epoch": 0.00021211719475009943,
      "grad_norm": 1092.0123291015625,
      "learning_rate": 8e-05,
      "loss": 48.401,
      "step": 4
    },
    {
      "epoch": 0.00026514649343762427,
      "grad_norm": 1232.330322265625,
      "learning_rate": 0.0001,
      "loss": 46.5714,
      "step": 5
    },
    {
      "epoch": 0.00026514649343762427,
      "eval_loss": 12.71255874633789,
      "eval_runtime": 450.0186,
      "eval_samples_per_second": 17.644,
      "eval_steps_per_second": 8.822,
      "step": 5
    },
    {
      "epoch": 0.00031817579212514913,
      "grad_norm": 1210.712158203125,
      "learning_rate": 0.00012,
      "loss": 67.2146,
      "step": 6
    },
    {
      "epoch": 0.000371205090812674,
      "grad_norm": 860.6235961914062,
      "learning_rate": 0.00014,
      "loss": 43.8206,
      "step": 7
    },
    {
      "epoch": 0.00042423438950019886,
      "grad_norm": 992.6552734375,
      "learning_rate": 0.00016,
      "loss": 48.4138,
      "step": 8
    },
    {
      "epoch": 0.00047726368818772373,
      "grad_norm": 843.8053588867188,
      "learning_rate": 0.00018,
      "loss": 40.5758,
      "step": 9
    },
    {
      "epoch": 0.0005302929868752485,
      "grad_norm": 1063.6488037109375,
      "learning_rate": 0.0002,
      "loss": 52.7458,
      "step": 10
    },
    {
      "epoch": 0.0005302929868752485,
      "eval_loss": 12.6633939743042,
      "eval_runtime": 399.3868,
      "eval_samples_per_second": 19.88,
      "eval_steps_per_second": 9.94,
      "step": 10
    },
    {
      "epoch": 0.0005833222855627735,
      "grad_norm": 834.474609375,
      "learning_rate": 0.00019781476007338058,
      "loss": 60.2393,
      "step": 11
    },
    {
      "epoch": 0.0006363515842502983,
      "grad_norm": 1163.3507080078125,
      "learning_rate": 0.0001913545457642601,
      "loss": 59.4054,
      "step": 12
    },
    {
      "epoch": 0.0006893808829378232,
      "grad_norm": 990.0962524414062,
      "learning_rate": 0.00018090169943749476,
      "loss": 42.1913,
      "step": 13
    },
    {
      "epoch": 0.000742410181625348,
      "grad_norm": 982.2459106445312,
      "learning_rate": 0.00016691306063588583,
      "loss": 48.6565,
      "step": 14
    },
    {
      "epoch": 0.0007954394803128729,
      "grad_norm": 829.754150390625,
      "learning_rate": 0.00015000000000000001,
      "loss": 50.3137,
      "step": 15
    },
    {
      "epoch": 0.0007954394803128729,
      "eval_loss": 12.555487632751465,
      "eval_runtime": 578.4199,
      "eval_samples_per_second": 13.727,
      "eval_steps_per_second": 6.864,
      "step": 15
    },
    {
      "epoch": 0.0008484687790003977,
      "grad_norm": 859.551025390625,
      "learning_rate": 0.00013090169943749476,
      "loss": 57.0582,
      "step": 16
    },
    {
      "epoch": 0.0009014980776879225,
      "grad_norm": 1109.9788818359375,
      "learning_rate": 0.00011045284632676536,
      "loss": 58.2653,
      "step": 17
    },
    {
      "epoch": 0.0009545273763754475,
      "grad_norm": 1524.198486328125,
      "learning_rate": 8.954715367323468e-05,
      "loss": 45.1202,
      "step": 18
    },
    {
      "epoch": 0.0010075566750629723,
      "grad_norm": 1160.0286865234375,
      "learning_rate": 6.909830056250527e-05,
      "loss": 55.1766,
      "step": 19
    },
    {
      "epoch": 0.001060585973750497,
      "grad_norm": 997.8668212890625,
      "learning_rate": 5.000000000000002e-05,
      "loss": 44.6525,
      "step": 20
    },
    {
      "epoch": 0.001060585973750497,
      "eval_loss": 12.454866409301758,
      "eval_runtime": 607.6556,
      "eval_samples_per_second": 13.067,
      "eval_steps_per_second": 6.533,
      "step": 20
    },
    {
      "epoch": 0.001113615272438022,
      "grad_norm": 998.6370239257812,
      "learning_rate": 3.308693936411421e-05,
      "loss": 53.4255,
      "step": 21
    },
    {
      "epoch": 0.001166644571125547,
      "grad_norm": 1196.9560546875,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 55.3743,
      "step": 22
    },
    {
      "epoch": 0.0012196738698130717,
      "grad_norm": 1009.6217651367188,
      "learning_rate": 8.645454235739903e-06,
      "loss": 71.663,
      "step": 23
    },
    {
      "epoch": 0.0012727031685005965,
      "grad_norm": 897.5712890625,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 46.5785,
      "step": 24
    },
    {
      "epoch": 0.0013257324671881213,
      "grad_norm": 1015.3956298828125,
      "learning_rate": 0.0,
      "loss": 42.4509,
      "step": 25
    },
    {
      "epoch": 0.0013257324671881213,
      "eval_loss": 12.436015129089355,
      "eval_runtime": 600.6976,
      "eval_samples_per_second": 13.218,
      "eval_steps_per_second": 6.609,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 28794937147392.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}