{
  "best_metric": NaN,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 1.7527114967462039,
  "eval_steps": 25,
  "global_step": 50,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03470715835140998,
      "grad_norm": 1.021639108657837,
      "learning_rate": 5e-05,
      "loss": 5.7042,
      "step": 1
    },
    {
      "epoch": 0.03470715835140998,
      "eval_loss": NaN,
      "eval_runtime": 2.4567,
      "eval_samples_per_second": 20.352,
      "eval_steps_per_second": 5.292,
      "step": 1
    },
    {
      "epoch": 0.06941431670281996,
      "grad_norm": 0.9875653982162476,
      "learning_rate": 0.0001,
      "loss": 5.8025,
      "step": 2
    },
    {
      "epoch": 0.10412147505422993,
      "grad_norm": 1.0113786458969116,
      "learning_rate": 9.990365154573717e-05,
      "loss": 5.9001,
      "step": 3
    },
    {
      "epoch": 0.13882863340563992,
      "grad_norm": 1.1146953105926514,
      "learning_rate": 9.961501876182148e-05,
      "loss": 6.0393,
      "step": 4
    },
    {
      "epoch": 0.1735357917570499,
      "grad_norm": 1.0519386529922485,
      "learning_rate": 9.913533761814537e-05,
      "loss": 5.9586,
      "step": 5
    },
    {
      "epoch": 0.20824295010845986,
      "grad_norm": 1.0426841974258423,
      "learning_rate": 9.846666218300807e-05,
      "loss": 5.9029,
      "step": 6
    },
    {
      "epoch": 0.24295010845986983,
      "grad_norm": 1.3115895986557007,
      "learning_rate": 9.761185582727977e-05,
      "loss": 5.806,
      "step": 7
    },
    {
      "epoch": 0.27765726681127983,
      "grad_norm": 1.1302939653396606,
      "learning_rate": 9.657457896300791e-05,
      "loss": 4.9616,
      "step": 8
    },
    {
      "epoch": 0.3123644251626898,
      "grad_norm": 1.3160679340362549,
      "learning_rate": 9.535927336897098e-05,
      "loss": 4.877,
      "step": 9
    },
    {
      "epoch": 0.3470715835140998,
      "grad_norm": 1.2698297500610352,
      "learning_rate": 9.397114317029975e-05,
      "loss": 5.1576,
      "step": 10
    },
    {
      "epoch": 0.38177874186550975,
      "grad_norm": 1.253900408744812,
      "learning_rate": 9.241613255361455e-05,
      "loss": 5.196,
      "step": 11
    },
    {
      "epoch": 0.4164859002169197,
      "grad_norm": 1.1845250129699707,
      "learning_rate": 9.070090031310558e-05,
      "loss": 5.2191,
      "step": 12
    },
    {
      "epoch": 0.4511930585683297,
      "grad_norm": 1.2439377307891846,
      "learning_rate": 8.883279133655399e-05,
      "loss": 5.2546,
      "step": 13
    },
    {
      "epoch": 0.48590021691973967,
      "grad_norm": 1.42707097530365,
      "learning_rate": 8.681980515339464e-05,
      "loss": 4.963,
      "step": 14
    },
    {
      "epoch": 0.5206073752711496,
      "grad_norm": 1.049553632736206,
      "learning_rate": 8.467056167950311e-05,
      "loss": 4.5268,
      "step": 15
    },
    {
      "epoch": 0.5553145336225597,
      "grad_norm": 1.2061793804168701,
      "learning_rate": 8.239426430539243e-05,
      "loss": 4.6974,
      "step": 16
    },
    {
      "epoch": 0.5900216919739696,
      "grad_norm": 1.3211257457733154,
      "learning_rate": 8.000066048588211e-05,
      "loss": 4.7157,
      "step": 17
    },
    {
      "epoch": 0.6247288503253796,
      "grad_norm": 1.3587827682495117,
      "learning_rate": 7.75e-05,
      "loss": 4.7935,
      "step": 18
    },
    {
      "epoch": 0.6594360086767896,
      "grad_norm": 1.3575081825256348,
      "learning_rate": 7.490299105985507e-05,
      "loss": 4.7022,
      "step": 19
    },
    {
      "epoch": 0.6941431670281996,
      "grad_norm": 1.2929449081420898,
      "learning_rate": 7.222075445642904e-05,
      "loss": 4.7933,
      "step": 20
    },
    {
      "epoch": 0.7288503253796096,
      "grad_norm": 1.413704752922058,
      "learning_rate": 6.946477593864228e-05,
      "loss": 4.7521,
      "step": 21
    },
    {
      "epoch": 0.7635574837310195,
      "grad_norm": 0.938621461391449,
      "learning_rate": 6.664685702961344e-05,
      "loss": 4.2988,
      "step": 22
    },
    {
      "epoch": 0.7982646420824295,
      "grad_norm": 1.0460076332092285,
      "learning_rate": 6.377906449072578e-05,
      "loss": 4.2894,
      "step": 23
    },
    {
      "epoch": 0.8329718004338394,
      "grad_norm": 1.0571620464324951,
      "learning_rate": 6.087367864990233e-05,
      "loss": 4.3807,
      "step": 24
    },
    {
      "epoch": 0.8676789587852495,
      "grad_norm": 1.2006574869155884,
      "learning_rate": 5.794314081535644e-05,
      "loss": 4.3956,
      "step": 25
    },
    {
      "epoch": 0.8676789587852495,
      "eval_loss": NaN,
      "eval_runtime": 1.8446,
      "eval_samples_per_second": 27.106,
      "eval_steps_per_second": 7.048,
      "step": 25
    },
    {
      "epoch": 0.9023861171366594,
      "grad_norm": 1.2916232347488403,
      "learning_rate": 5.500000000000001e-05,
      "loss": 4.3408,
      "step": 26
    },
    {
      "epoch": 0.9370932754880694,
      "grad_norm": 1.415628433227539,
      "learning_rate": 5.205685918464356e-05,
      "loss": 4.1729,
      "step": 27
    },
    {
      "epoch": 0.9718004338394793,
      "grad_norm": 1.9048328399658203,
      "learning_rate": 4.912632135009769e-05,
      "loss": 4.5536,
      "step": 28
    },
    {
      "epoch": 1.0238611713665944,
      "grad_norm": 1.7431554794311523,
      "learning_rate": 4.6220935509274235e-05,
      "loss": 7.0767,
      "step": 29
    },
    {
      "epoch": 1.0585683297180044,
      "grad_norm": 1.000156044960022,
      "learning_rate": 4.3353142970386564e-05,
      "loss": 4.1861,
      "step": 30
    },
    {
      "epoch": 1.0932754880694142,
      "grad_norm": 0.9822036623954773,
      "learning_rate": 4.053522406135775e-05,
      "loss": 3.8117,
      "step": 31
    },
    {
      "epoch": 1.1279826464208242,
      "grad_norm": 1.1507022380828857,
      "learning_rate": 3.777924554357096e-05,
      "loss": 4.2013,
      "step": 32
    },
    {
      "epoch": 1.1626898047722343,
      "grad_norm": 1.0464407205581665,
      "learning_rate": 3.509700894014496e-05,
      "loss": 4.0921,
      "step": 33
    },
    {
      "epoch": 1.1973969631236443,
      "grad_norm": 1.2470372915267944,
      "learning_rate": 3.250000000000001e-05,
      "loss": 4.1827,
      "step": 34
    },
    {
      "epoch": 1.2321041214750543,
      "grad_norm": 1.3975422382354736,
      "learning_rate": 2.9999339514117912e-05,
      "loss": 3.7477,
      "step": 35
    },
    {
      "epoch": 1.2668112798264641,
      "grad_norm": 1.1209712028503418,
      "learning_rate": 2.760573569460757e-05,
      "loss": 3.8271,
      "step": 36
    },
    {
      "epoch": 1.3015184381778742,
      "grad_norm": 1.000037670135498,
      "learning_rate": 2.53294383204969e-05,
      "loss": 3.8207,
      "step": 37
    },
    {
      "epoch": 1.3362255965292842,
      "grad_norm": 0.973956286907196,
      "learning_rate": 2.3180194846605367e-05,
      "loss": 3.5448,
      "step": 38
    },
    {
      "epoch": 1.3709327548806942,
      "grad_norm": 1.1904510259628296,
      "learning_rate": 2.1167208663446025e-05,
      "loss": 4.273,
      "step": 39
    },
    {
      "epoch": 1.405639913232104,
      "grad_norm": 1.1626383066177368,
      "learning_rate": 1.9299099686894423e-05,
      "loss": 3.6155,
      "step": 40
    },
    {
      "epoch": 1.440347071583514,
      "grad_norm": 1.278516173362732,
      "learning_rate": 1.758386744638546e-05,
      "loss": 3.9717,
      "step": 41
    },
    {
      "epoch": 1.475054229934924,
      "grad_norm": 1.6244045495986938,
      "learning_rate": 1.602885682970026e-05,
      "loss": 4.3282,
      "step": 42
    },
    {
      "epoch": 1.509761388286334,
      "grad_norm": 1.061886191368103,
      "learning_rate": 1.464072663102903e-05,
      "loss": 3.8613,
      "step": 43
    },
    {
      "epoch": 1.5444685466377441,
      "grad_norm": 0.9923258423805237,
      "learning_rate": 1.3425421036992098e-05,
      "loss": 3.4695,
      "step": 44
    },
    {
      "epoch": 1.579175704989154,
      "grad_norm": 1.0817153453826904,
      "learning_rate": 1.2388144172720251e-05,
      "loss": 4.0631,
      "step": 45
    },
    {
      "epoch": 1.613882863340564,
      "grad_norm": 1.121002435684204,
      "learning_rate": 1.1533337816991932e-05,
      "loss": 3.8573,
      "step": 46
    },
    {
      "epoch": 1.648590021691974,
      "grad_norm": 1.1427189111709595,
      "learning_rate": 1.0864662381854632e-05,
      "loss": 3.8918,
      "step": 47
    },
    {
      "epoch": 1.6832971800433838,
      "grad_norm": 1.3459997177124023,
      "learning_rate": 1.0384981238178534e-05,
      "loss": 4.0558,
      "step": 48
    },
    {
      "epoch": 1.718004338394794,
      "grad_norm": 1.4864081144332886,
      "learning_rate": 1.0096348454262845e-05,
      "loss": 3.8344,
      "step": 49
    },
    {
      "epoch": 1.7527114967462039,
      "grad_norm": 1.0709947347640991,
      "learning_rate": 1e-05,
      "loss": 3.6089,
      "step": 50
    },
    {
      "epoch": 1.7527114967462039,
      "eval_loss": NaN,
      "eval_runtime": 1.8486,
      "eval_samples_per_second": 27.048,
      "eval_steps_per_second": 7.033,
      "step": 50
    }
  ],
  "logging_steps": 1,
  "max_steps": 50,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 25,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 1,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 1
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.624057810649088e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}