{
  "best_metric": 2.6889467239379883,
  "best_model_checkpoint": "models/opt-babylm2-rewritten-clean-spacy_no-num-adj-earlystop-bpe_seed-42_1e-3/checkpoint-44500",
  "epoch": 19.99134928659701,
  "eval_steps": 500,
  "global_step": 44500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.4493877092461521,
      "grad_norm": 0.4442262053489685,
      "learning_rate": 3.125e-05,
      "loss": 5.5692,
      "step": 1000
    },
    {
      "epoch": 0.8987754184923042,
      "grad_norm": 0.5283451676368713,
      "learning_rate": 6.25e-05,
      "loss": 4.0804,
      "step": 2000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.35990021325653254,
      "eval_loss": 3.8291473388671875,
      "eval_runtime": 71.8623,
      "eval_samples_per_second": 844.699,
      "eval_steps_per_second": 13.206,
      "step": 2226
    },
    {
      "epoch": 1.3478260869565217,
      "grad_norm": 0.5473753809928894,
      "learning_rate": 9.375e-05,
      "loss": 3.6828,
      "step": 3000
    },
    {
      "epoch": 1.7972137962026737,
      "grad_norm": 0.6101972460746765,
      "learning_rate": 0.000125,
      "loss": 3.431,
      "step": 4000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.4075588167460322,
      "eval_loss": 3.316692590713501,
      "eval_runtime": 71.9883,
      "eval_samples_per_second": 843.22,
      "eval_steps_per_second": 13.183,
      "step": 4452
    },
    {
      "epoch": 2.2462644646668912,
      "grad_norm": 0.5061201453208923,
      "learning_rate": 0.00015625,
      "loss": 3.2333,
      "step": 5000
    },
    {
      "epoch": 2.6956521739130435,
      "grad_norm": 0.4999963343143463,
      "learning_rate": 0.0001875,
      "loss": 3.1165,
      "step": 6000
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.4289709096382779,
      "eval_loss": 3.102813482284546,
      "eval_runtime": 71.4078,
      "eval_samples_per_second": 850.075,
      "eval_steps_per_second": 13.29,
      "step": 6678
    },
    {
      "epoch": 3.144702842377261,
      "grad_norm": 0.4476725161075592,
      "learning_rate": 0.00021875,
      "loss": 3.0211,
      "step": 7000
    },
    {
      "epoch": 3.594090551623413,
      "grad_norm": 0.3835226595401764,
      "learning_rate": 0.00025,
      "loss": 2.9545,
      "step": 8000
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.4395799214549251,
      "eval_loss": 2.998249053955078,
      "eval_runtime": 71.272,
      "eval_samples_per_second": 851.695,
      "eval_steps_per_second": 13.315,
      "step": 8904
    },
    {
      "epoch": 4.04314122008763,
      "grad_norm": 0.36295273900032043,
      "learning_rate": 0.00028125000000000003,
      "loss": 2.9068,
      "step": 9000
    },
    {
      "epoch": 4.4925289293337825,
      "grad_norm": 0.368268221616745,
      "learning_rate": 0.0003125,
      "loss": 2.8533,
      "step": 10000
    },
    {
      "epoch": 4.941916638579935,
      "grad_norm": 0.3496946096420288,
      "learning_rate": 0.00034375,
      "loss": 2.8357,
      "step": 11000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.4463052869660269,
      "eval_loss": 2.9296414852142334,
      "eval_runtime": 70.9885,
      "eval_samples_per_second": 855.097,
      "eval_steps_per_second": 13.368,
      "step": 11130
    },
    {
      "epoch": 5.390967307044153,
      "grad_norm": 0.32746192812919617,
      "learning_rate": 0.000375,
      "loss": 2.7838,
      "step": 12000
    },
    {
      "epoch": 5.840355016290305,
      "grad_norm": 0.3100210726261139,
      "learning_rate": 0.00040625000000000004,
      "loss": 2.7805,
      "step": 13000
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.4504751272852721,
      "eval_loss": 2.892799139022827,
      "eval_runtime": 70.9528,
      "eval_samples_per_second": 855.527,
      "eval_steps_per_second": 13.375,
      "step": 13356
    },
    {
      "epoch": 6.289405684754522,
      "grad_norm": 0.28876417875289917,
      "learning_rate": 0.0004375,
      "loss": 2.7419,
      "step": 14000
    },
    {
      "epoch": 6.738793394000674,
      "grad_norm": 0.2749331295490265,
      "learning_rate": 0.00046871875,
      "loss": 2.7354,
      "step": 15000
    },
    {
      "epoch": 7.0,
      "eval_accuracy": 0.45374956150296436,
      "eval_loss": 2.8629629611968994,
      "eval_runtime": 70.9856,
      "eval_samples_per_second": 855.131,
      "eval_steps_per_second": 13.369,
      "step": 15582
    },
    {
      "epoch": 7.187844062464891,
      "grad_norm": 0.2688666582107544,
      "learning_rate": 0.00049996875,
      "loss": 2.7138,
      "step": 16000
    },
    {
      "epoch": 7.637231771711043,
      "grad_norm": 0.25027596950531006,
      "learning_rate": 0.00053121875,
      "loss": 2.702,
      "step": 17000
    },
    {
      "epoch": 8.0,
      "eval_accuracy": 0.45609111952250175,
      "eval_loss": 2.8440542221069336,
      "eval_runtime": 70.7062,
      "eval_samples_per_second": 858.51,
      "eval_steps_per_second": 13.422,
      "step": 17808
    },
    {
      "epoch": 8.08628244017526,
      "grad_norm": 0.2555592656135559,
      "learning_rate": 0.0005624375,
      "loss": 2.6924,
      "step": 18000
    },
    {
      "epoch": 8.535670149421414,
      "grad_norm": 0.24662208557128906,
      "learning_rate": 0.0005936875,
      "loss": 2.6741,
      "step": 19000
    },
    {
      "epoch": 8.985057858667565,
      "grad_norm": 0.2206139713525772,
      "learning_rate": 0.00062490625,
      "loss": 2.684,
      "step": 20000
    },
    {
      "epoch": 9.0,
      "eval_accuracy": 0.4570897622005542,
      "eval_loss": 2.835329294204712,
      "eval_runtime": 70.6801,
      "eval_samples_per_second": 858.827,
      "eval_steps_per_second": 13.427,
      "step": 20034
    },
    {
      "epoch": 9.434108527131784,
      "grad_norm": 0.21738700568675995,
      "learning_rate": 0.0006561562500000001,
      "loss": 2.6454,
      "step": 21000
    },
    {
      "epoch": 9.883496236377935,
      "grad_norm": 0.2152646780014038,
      "learning_rate": 0.0006873749999999999,
      "loss": 2.6647,
      "step": 22000
    },
    {
      "epoch": 10.0,
      "eval_accuracy": 0.45841717267447984,
      "eval_loss": 2.819920778274536,
      "eval_runtime": 70.5746,
      "eval_samples_per_second": 860.111,
      "eval_steps_per_second": 13.447,
      "step": 22260
    },
    {
      "epoch": 10.332546904842152,
      "grad_norm": 0.2241608053445816,
      "learning_rate": 0.000718625,
      "loss": 2.6349,
      "step": 23000
    },
    {
      "epoch": 10.781934614088305,
      "grad_norm": 0.20968548953533173,
      "learning_rate": 0.0007498437500000001,
      "loss": 2.6475,
      "step": 24000
    },
    {
      "epoch": 11.0,
      "eval_accuracy": 0.45958520603061825,
      "eval_loss": 2.81199049949646,
      "eval_runtime": 70.7302,
      "eval_samples_per_second": 858.219,
      "eval_steps_per_second": 13.417,
      "step": 24486
    },
    {
      "epoch": 11.230985282552522,
      "grad_norm": 0.21336565911769867,
      "learning_rate": 0.00078109375,
      "loss": 2.6285,
      "step": 25000
    },
    {
      "epoch": 11.680372991798674,
      "grad_norm": 0.19908477365970612,
      "learning_rate": 0.0008123125,
      "loss": 2.6325,
      "step": 26000
    },
    {
      "epoch": 12.0,
      "eval_accuracy": 0.46038157479063585,
      "eval_loss": 2.805652618408203,
      "eval_runtime": 70.672,
      "eval_samples_per_second": 858.926,
      "eval_steps_per_second": 13.428,
      "step": 26712
    },
    {
      "epoch": 12.129423660262892,
      "grad_norm": 0.1926439106464386,
      "learning_rate": 0.0008435625,
      "loss": 2.6264,
      "step": 27000
    },
    {
      "epoch": 12.578811369509044,
      "grad_norm": 0.19238470494747162,
      "learning_rate": 0.00087478125,
      "loss": 2.6204,
      "step": 28000
    },
    {
      "epoch": 13.0,
      "eval_accuracy": 0.46109079327424685,
      "eval_loss": 2.7990734577178955,
      "eval_runtime": 71.4566,
      "eval_samples_per_second": 849.495,
      "eval_steps_per_second": 13.281,
      "step": 28938
    },
    {
      "epoch": 13.02786203797326,
      "grad_norm": 0.19909153878688812,
      "learning_rate": 0.0009060312499999999,
      "loss": 2.6278,
      "step": 29000
    },
    {
      "epoch": 13.477249747219414,
      "grad_norm": 0.17719709873199463,
      "learning_rate": 0.00093725,
      "loss": 2.6029,
      "step": 30000
    },
    {
      "epoch": 13.926637456465565,
      "grad_norm": 0.18759088218212128,
      "learning_rate": 0.00096846875,
      "loss": 2.6273,
      "step": 31000
    },
    {
      "epoch": 14.0,
      "eval_accuracy": 0.4612619282499333,
      "eval_loss": 2.797557830810547,
      "eval_runtime": 71.6456,
      "eval_samples_per_second": 847.253,
      "eval_steps_per_second": 13.246,
      "step": 31164
    },
    {
      "epoch": 14.375688124929782,
      "grad_norm": 0.18803943693637848,
      "learning_rate": 0.00099971875,
      "loss": 2.5963,
      "step": 32000
    },
    {
      "epoch": 14.825075834175935,
      "grad_norm": 0.17913933098316193,
      "learning_rate": 0.00092072,
      "loss": 2.6134,
      "step": 33000
    },
    {
      "epoch": 15.0,
      "eval_accuracy": 0.4638461374467747,
      "eval_loss": 2.778160810470581,
      "eval_runtime": 71.3541,
      "eval_samples_per_second": 850.715,
      "eval_steps_per_second": 13.3,
      "step": 33390
    },
    {
      "epoch": 15.274126502640152,
      "grad_norm": 0.1831241399049759,
      "learning_rate": 0.00084072,
      "loss": 2.5729,
      "step": 34000
    },
    {
      "epoch": 15.723514211886306,
      "grad_norm": 0.1739753931760788,
      "learning_rate": 0.0007608000000000001,
      "loss": 2.5675,
      "step": 35000
    },
    {
      "epoch": 16.0,
      "eval_accuracy": 0.4674098666516786,
      "eval_loss": 2.749758720397949,
      "eval_runtime": 71.8388,
      "eval_samples_per_second": 844.975,
      "eval_steps_per_second": 13.21,
      "step": 35616
    },
    {
      "epoch": 16.17256488035052,
      "grad_norm": 0.17786382138729095,
      "learning_rate": 0.0006808,
      "loss": 2.5367,
      "step": 36000
    },
    {
      "epoch": 16.621952589596674,
      "grad_norm": 0.17862257361412048,
      "learning_rate": 0.0006008,
      "loss": 2.5158,
      "step": 37000
    },
    {
      "epoch": 17.0,
      "eval_accuracy": 0.47079748640255414,
      "eval_loss": 2.7294299602508545,
      "eval_runtime": 71.4426,
      "eval_samples_per_second": 849.661,
      "eval_steps_per_second": 13.283,
      "step": 37842
    },
    {
      "epoch": 17.07100325806089,
      "grad_norm": 0.17703622579574585,
      "learning_rate": 0.00052088,
      "loss": 2.5007,
      "step": 38000
    },
    {
      "epoch": 17.520390967307044,
      "grad_norm": 0.1765511929988861,
      "learning_rate": 0.00044088,
      "loss": 2.4562,
      "step": 39000
    },
    {
      "epoch": 17.969778676553197,
      "grad_norm": 0.18510127067565918,
      "learning_rate": 0.00036088,
      "loss": 2.4606,
      "step": 40000
    },
    {
      "epoch": 18.0,
      "eval_accuracy": 0.47380801485366314,
      "eval_loss": 2.705484628677368,
      "eval_runtime": 71.4487,
      "eval_samples_per_second": 849.589,
      "eval_steps_per_second": 13.282,
      "step": 40068
    },
    {
      "epoch": 18.418829345017414,
      "grad_norm": 0.19680210947990417,
      "learning_rate": 0.00028095999999999997,
      "loss": 2.3926,
      "step": 41000
    },
    {
      "epoch": 18.868217054263567,
      "grad_norm": 0.1969345360994339,
      "learning_rate": 0.00020096,
      "loss": 2.3953,
      "step": 42000
    },
    {
      "epoch": 19.0,
      "eval_accuracy": 0.47649991827642724,
      "eval_loss": 2.692018985748291,
      "eval_runtime": 71.5249,
      "eval_samples_per_second": 848.683,
      "eval_steps_per_second": 13.268,
      "step": 42294
    },
    {
      "epoch": 19.317267722727784,
      "grad_norm": 0.21539689600467682,
      "learning_rate": 0.00012096,
      "loss": 2.341,
      "step": 43000
    },
    {
      "epoch": 19.766655431973934,
      "grad_norm": 0.2021603137254715,
      "learning_rate": 4.096e-05,
      "loss": 2.3225,
      "step": 44000
    },
    {
      "epoch": 19.99134928659701,
      "eval_accuracy": 0.4780591265203653,
      "eval_loss": 2.6889467239379883,
      "eval_runtime": 71.2633,
      "eval_samples_per_second": 851.799,
      "eval_steps_per_second": 13.317,
      "step": 44500
    },
    {
      "epoch": 19.99134928659701,
      "step": 44500,
      "total_flos": 1.487793172119552e+18,
      "train_loss": 2.799591330538975,
      "train_runtime": 29586.3987,
      "train_samples_per_second": 385.072,
      "train_steps_per_second": 1.504
    }
  ],
  "logging_steps": 1000,
  "max_steps": 44500,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 500,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 3,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.487793172119552e+18,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}