mentalrobertoo / trainer_state.json

Upload 9 files

e9bbd87 verified about 1 month ago

160 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"global_step": 468696,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"learning_rate": 4.967996313175278e-05,
	"loss": 2.3652,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.5228402614593506,
	"eval_runtime": 19.0224,
	"eval_samples_per_second": 105.139,
	"eval_steps_per_second": 1.682,
	"step": 1000
	},
	{
	"epoch": 0.01,
	"learning_rate": 4.935992626350556e-05,
	"loss": 2.3257,
	"step": 2000
	},
	{
	"epoch": 0.01,
	"eval_loss": 2.4702858924865723,
	"eval_runtime": 19.2339,
	"eval_samples_per_second": 103.983,
	"eval_steps_per_second": 1.664,
	"step": 2000
	},
	{
	"epoch": 0.02,
	"learning_rate": 4.903988939525834e-05,
	"loss": 2.3123,
	"step": 3000
	},
	{
	"epoch": 0.02,
	"eval_loss": 2.5149893760681152,
	"eval_runtime": 18.8526,
	"eval_samples_per_second": 106.086,
	"eval_steps_per_second": 1.697,
	"step": 3000
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.871985252701111e-05,
	"loss": 2.3068,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.4867441654205322,
	"eval_runtime": 18.7454,
	"eval_samples_per_second": 106.693,
	"eval_steps_per_second": 1.707,
	"step": 4000
	},
	{
	"epoch": 0.03,
	"learning_rate": 4.8399815658763894e-05,
	"loss": 2.2906,
	"step": 5000
	},
	{
	"epoch": 0.03,
	"eval_loss": 2.4581546783447266,
	"eval_runtime": 19.2143,
	"eval_samples_per_second": 104.089,
	"eval_steps_per_second": 1.665,
	"step": 5000
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.807977879051667e-05,
	"loss": 2.2817,
	"step": 6000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.477738380432129,
	"eval_runtime": 18.9443,
	"eval_samples_per_second": 105.573,
	"eval_steps_per_second": 1.689,
	"step": 6000
	},
	{
	"epoch": 0.04,
	"learning_rate": 4.7759741922269444e-05,
	"loss": 2.2713,
	"step": 7000
	},
	{
	"epoch": 0.04,
	"eval_loss": 2.490509271621704,
	"eval_runtime": 19.0513,
	"eval_samples_per_second": 104.98,
	"eval_steps_per_second": 1.68,
	"step": 7000
	},
	{
	"epoch": 0.05,
	"learning_rate": 4.743970505402223e-05,
	"loss": 2.2653,
	"step": 8000
	},
	{
	"epoch": 0.05,
	"eval_loss": 2.472813129425049,
	"eval_runtime": 19.2806,
	"eval_samples_per_second": 103.731,
	"eval_steps_per_second": 1.66,
	"step": 8000
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.7119668185775e-05,
	"loss": 2.2581,
	"step": 9000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.4772017002105713,
	"eval_runtime": 19.5407,
	"eval_samples_per_second": 102.351,
	"eval_steps_per_second": 1.638,
	"step": 9000
	},
	{
	"epoch": 0.06,
	"learning_rate": 4.679963131752778e-05,
	"loss": 2.2687,
	"step": 10000
	},
	{
	"epoch": 0.06,
	"eval_loss": 2.4584801197052,
	"eval_runtime": 18.8505,
	"eval_samples_per_second": 106.098,
	"eval_steps_per_second": 1.698,
	"step": 10000
	},
	{
	"epoch": 0.07,
	"learning_rate": 4.6479594449280565e-05,
	"loss": 2.2473,
	"step": 11000
	},
	{
	"epoch": 0.07,
	"eval_loss": 2.450211524963379,
	"eval_runtime": 19.0047,
	"eval_samples_per_second": 105.237,
	"eval_steps_per_second": 1.684,
	"step": 11000
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.6159557581033336e-05,
	"loss": 2.2536,
	"step": 12000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.402937650680542,
	"eval_runtime": 19.1856,
	"eval_samples_per_second": 104.245,
	"eval_steps_per_second": 1.668,
	"step": 12000
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.5839520712786115e-05,
	"loss": 2.2355,
	"step": 13000
	},
	{
	"epoch": 0.08,
	"eval_loss": 2.5034797191619873,
	"eval_runtime": 18.9351,
	"eval_samples_per_second": 105.624,
	"eval_steps_per_second": 1.69,
	"step": 13000
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.551948384453889e-05,
	"loss": 2.2356,
	"step": 14000
	},
	{
	"epoch": 0.09,
	"eval_loss": 2.443594217300415,
	"eval_runtime": 19.1979,
	"eval_samples_per_second": 104.178,
	"eval_steps_per_second": 1.667,
	"step": 14000
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.519944697629167e-05,
	"loss": 2.2385,
	"step": 15000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.4230918884277344,
	"eval_runtime": 19.1941,
	"eval_samples_per_second": 104.199,
	"eval_steps_per_second": 1.667,
	"step": 15000
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.487941010804445e-05,
	"loss": 2.229,
	"step": 16000
	},
	{
	"epoch": 0.1,
	"eval_loss": 2.435939073562622,
	"eval_runtime": 18.7132,
	"eval_samples_per_second": 106.876,
	"eval_steps_per_second": 1.71,
	"step": 16000
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.455937323979723e-05,
	"loss": 2.2308,
	"step": 17000
	},
	{
	"epoch": 0.11,
	"eval_loss": 2.379002094268799,
	"eval_runtime": 18.8323,
	"eval_samples_per_second": 106.2,
	"eval_steps_per_second": 1.699,
	"step": 17000
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.4239336371550006e-05,
	"loss": 2.2247,
	"step": 18000
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.440680742263794,
	"eval_runtime": 18.8124,
	"eval_samples_per_second": 106.313,
	"eval_steps_per_second": 1.701,
	"step": 18000
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.391929950330278e-05,
	"loss": 2.2262,
	"step": 19000
	},
	{
	"epoch": 0.12,
	"eval_loss": 2.401104211807251,
	"eval_runtime": 18.8589,
	"eval_samples_per_second": 106.051,
	"eval_steps_per_second": 1.697,
	"step": 19000
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.359926263505556e-05,
	"loss": 2.2074,
	"step": 20000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.382688522338867,
	"eval_runtime": 18.7139,
	"eval_samples_per_second": 106.872,
	"eval_steps_per_second": 1.71,
	"step": 20000
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.327922576680834e-05,
	"loss": 2.2204,
	"step": 21000
	},
	{
	"epoch": 0.13,
	"eval_loss": 2.421189308166504,
	"eval_runtime": 18.9386,
	"eval_samples_per_second": 105.604,
	"eval_steps_per_second": 1.69,
	"step": 21000
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.295918889856111e-05,
	"loss": 2.2123,
	"step": 22000
	},
	{
	"epoch": 0.14,
	"eval_loss": 2.4362740516662598,
	"eval_runtime": 18.9745,
	"eval_samples_per_second": 105.405,
	"eval_steps_per_second": 1.686,
	"step": 22000
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.263915203031389e-05,
	"loss": 2.2225,
	"step": 23000
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.426682710647583,
	"eval_runtime": 19.1794,
	"eval_samples_per_second": 104.278,
	"eval_steps_per_second": 1.668,
	"step": 23000
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.231911516206668e-05,
	"loss": 2.2137,
	"step": 24000
	},
	{
	"epoch": 0.15,
	"eval_loss": 2.4169669151306152,
	"eval_runtime": 18.8197,
	"eval_samples_per_second": 106.272,
	"eval_steps_per_second": 1.7,
	"step": 24000
	},
	{
	"epoch": 0.16,
	"learning_rate": 4.199907829381945e-05,
	"loss": 2.2143,
	"step": 25000
	},
	{
	"epoch": 0.16,
	"eval_loss": 2.4082441329956055,
	"eval_runtime": 18.9737,
	"eval_samples_per_second": 105.409,
	"eval_steps_per_second": 1.687,
	"step": 25000
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.167904142557223e-05,
	"loss": 2.2131,
	"step": 26000
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.4836766719818115,
	"eval_runtime": 19.0574,
	"eval_samples_per_second": 104.946,
	"eval_steps_per_second": 1.679,
	"step": 26000
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.1359004557325005e-05,
	"loss": 2.1954,
	"step": 27000
	},
	{
	"epoch": 0.17,
	"eval_loss": 2.43381404876709,
	"eval_runtime": 18.8859,
	"eval_samples_per_second": 105.899,
	"eval_steps_per_second": 1.694,
	"step": 27000
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.1038967689077783e-05,
	"loss": 2.1934,
	"step": 28000
	},
	{
	"epoch": 0.18,
	"eval_loss": 2.4075064659118652,
	"eval_runtime": 18.689,
	"eval_samples_per_second": 107.015,
	"eval_steps_per_second": 1.712,
	"step": 28000
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.071893082083056e-05,
	"loss": 2.1943,
	"step": 29000
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.383098602294922,
	"eval_runtime": 18.8218,
	"eval_samples_per_second": 106.26,
	"eval_steps_per_second": 1.7,
	"step": 29000
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.039889395258334e-05,
	"loss": 2.1944,
	"step": 30000
	},
	{
	"epoch": 0.19,
	"eval_loss": 2.3953185081481934,
	"eval_runtime": 18.9451,
	"eval_samples_per_second": 105.568,
	"eval_steps_per_second": 1.689,
	"step": 30000
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.007885708433612e-05,
	"loss": 2.1914,
	"step": 31000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.411050796508789,
	"eval_runtime": 18.7128,
	"eval_samples_per_second": 106.878,
	"eval_steps_per_second": 1.71,
	"step": 31000
	},
	{
	"epoch": 0.2,
	"learning_rate": 3.975882021608889e-05,
	"loss": 2.1865,
	"step": 32000
	},
	{
	"epoch": 0.2,
	"eval_loss": 2.390427827835083,
	"eval_runtime": 18.9045,
	"eval_samples_per_second": 105.795,
	"eval_steps_per_second": 1.693,
	"step": 32000
	},
	{
	"epoch": 0.21,
	"learning_rate": 3.9438783347841675e-05,
	"loss": 2.1871,
	"step": 33000
	},
	{
	"epoch": 0.21,
	"eval_loss": 2.401388168334961,
	"eval_runtime": 18.7096,
	"eval_samples_per_second": 106.897,
	"eval_steps_per_second": 1.71,
	"step": 33000
	},
	{
	"epoch": 0.22,
	"learning_rate": 3.9118746479594454e-05,
	"loss": 2.1792,
	"step": 34000
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.4562745094299316,
	"eval_runtime": 18.8567,
	"eval_samples_per_second": 106.063,
	"eval_steps_per_second": 1.697,
	"step": 34000
	},
	{
	"epoch": 0.22,
	"learning_rate": 3.8798709611347225e-05,
	"loss": 2.1921,
	"step": 35000
	},
	{
	"epoch": 0.22,
	"eval_loss": 2.399921417236328,
	"eval_runtime": 18.7883,
	"eval_samples_per_second": 106.449,
	"eval_steps_per_second": 1.703,
	"step": 35000
	},
	{
	"epoch": 0.23,
	"learning_rate": 3.847867274310001e-05,
	"loss": 2.1831,
	"step": 36000
	},
	{
	"epoch": 0.23,
	"eval_loss": 2.3935768604278564,
	"eval_runtime": 18.8237,
	"eval_samples_per_second": 106.249,
	"eval_steps_per_second": 1.7,
	"step": 36000
	},
	{
	"epoch": 0.24,
	"learning_rate": 3.815863587485278e-05,
	"loss": 2.169,
	"step": 37000
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.385082960128784,
	"eval_runtime": 18.9677,
	"eval_samples_per_second": 105.442,
	"eval_steps_per_second": 1.687,
	"step": 37000
	},
	{
	"epoch": 0.24,
	"learning_rate": 3.783859900660556e-05,
	"loss": 2.1619,
	"step": 38000
	},
	{
	"epoch": 0.24,
	"eval_loss": 2.3289620876312256,
	"eval_runtime": 19.0182,
	"eval_samples_per_second": 105.162,
	"eval_steps_per_second": 1.683,
	"step": 38000
	},
	{
	"epoch": 0.25,
	"learning_rate": 3.7518562138358346e-05,
	"loss": 2.1651,
	"step": 39000
	},
	{
	"epoch": 0.25,
	"eval_loss": 2.3818867206573486,
	"eval_runtime": 18.9593,
	"eval_samples_per_second": 105.489,
	"eval_steps_per_second": 1.688,
	"step": 39000
	},
	{
	"epoch": 0.26,
	"learning_rate": 3.719852527011112e-05,
	"loss": 2.1704,
	"step": 40000
	},
	{
	"epoch": 0.26,
	"eval_loss": 2.3583953380584717,
	"eval_runtime": 18.8577,
	"eval_samples_per_second": 106.057,
	"eval_steps_per_second": 1.697,
	"step": 40000
	},
	{
	"epoch": 0.26,
	"learning_rate": 3.6878488401863896e-05,
	"loss": 2.1601,
	"step": 41000
	},
	{
	"epoch": 0.26,
	"eval_loss": 2.3705227375030518,
	"eval_runtime": 19.0038,
	"eval_samples_per_second": 105.242,
	"eval_steps_per_second": 1.684,
	"step": 41000
	},
	{
	"epoch": 0.27,
	"learning_rate": 3.6558451533616674e-05,
	"loss": 2.1819,
	"step": 42000
	},
	{
	"epoch": 0.27,
	"eval_loss": 2.3806064128875732,
	"eval_runtime": 19.09,
	"eval_samples_per_second": 104.767,
	"eval_steps_per_second": 1.676,
	"step": 42000
	},
	{
	"epoch": 0.28,
	"learning_rate": 3.623841466536945e-05,
	"loss": 2.1666,
	"step": 43000
	},
	{
	"epoch": 0.28,
	"eval_loss": 2.3670589923858643,
	"eval_runtime": 18.9485,
	"eval_samples_per_second": 105.549,
	"eval_steps_per_second": 1.689,
	"step": 43000
	},
	{
	"epoch": 0.28,
	"learning_rate": 3.591837779712223e-05,
	"loss": 2.1718,
	"step": 44000
	},
	{
	"epoch": 0.28,
	"eval_loss": 2.364011764526367,
	"eval_runtime": 18.7665,
	"eval_samples_per_second": 106.573,
	"eval_steps_per_second": 1.705,
	"step": 44000
	},
	{
	"epoch": 0.29,
	"learning_rate": 3.559834092887501e-05,
	"loss": 2.1521,
	"step": 45000
	},
	{
	"epoch": 0.29,
	"eval_loss": 2.373670816421509,
	"eval_runtime": 18.9014,
	"eval_samples_per_second": 105.812,
	"eval_steps_per_second": 1.693,
	"step": 45000
	},
	{
	"epoch": 0.29,
	"learning_rate": 3.527830406062779e-05,
	"loss": 2.148,
	"step": 46000
	},
	{
	"epoch": 0.29,
	"eval_loss": 2.377063035964966,
	"eval_runtime": 19.012,
	"eval_samples_per_second": 105.197,
	"eval_steps_per_second": 1.683,
	"step": 46000
	},
	{
	"epoch": 0.3,
	"learning_rate": 3.495826719238056e-05,
	"loss": 2.1438,
	"step": 47000
	},
	{
	"epoch": 0.3,
	"eval_loss": 2.3637826442718506,
	"eval_runtime": 18.982,
	"eval_samples_per_second": 105.363,
	"eval_steps_per_second": 1.686,
	"step": 47000
	},
	{
	"epoch": 0.31,
	"learning_rate": 3.4638230324133344e-05,
	"loss": 2.1536,
	"step": 48000
	},
	{
	"epoch": 0.31,
	"eval_loss": 2.3571810722351074,
	"eval_runtime": 18.8471,
	"eval_samples_per_second": 106.117,
	"eval_steps_per_second": 1.698,
	"step": 48000
	},
	{
	"epoch": 0.31,
	"learning_rate": 3.431819345588612e-05,
	"loss": 2.1505,
	"step": 49000
	},
	{
	"epoch": 0.31,
	"eval_loss": 2.3516790866851807,
	"eval_runtime": 18.8575,
	"eval_samples_per_second": 106.059,
	"eval_steps_per_second": 1.697,
	"step": 49000
	},
	{
	"epoch": 0.32,
	"learning_rate": 3.3998156587638894e-05,
	"loss": 2.1319,
	"step": 50000
	},
	{
	"epoch": 0.32,
	"eval_loss": 2.3615307807922363,
	"eval_runtime": 19.1166,
	"eval_samples_per_second": 104.621,
	"eval_steps_per_second": 1.674,
	"step": 50000
	},
	{
	"epoch": 0.33,
	"learning_rate": 3.367811971939168e-05,
	"loss": 2.123,
	"step": 51000
	},
	{
	"epoch": 0.33,
	"eval_loss": 2.3522212505340576,
	"eval_runtime": 19.1501,
	"eval_samples_per_second": 104.438,
	"eval_steps_per_second": 1.671,
	"step": 51000
	},
	{
	"epoch": 0.33,
	"learning_rate": 3.335808285114445e-05,
	"loss": 2.1513,
	"step": 52000
	},
	{
	"epoch": 0.33,
	"eval_loss": 2.388401746749878,
	"eval_runtime": 18.8344,
	"eval_samples_per_second": 106.189,
	"eval_steps_per_second": 1.699,
	"step": 52000
	},
	{
	"epoch": 0.34,
	"learning_rate": 3.303804598289723e-05,
	"loss": 2.1419,
	"step": 53000
	},
	{
	"epoch": 0.34,
	"eval_loss": 2.32639479637146,
	"eval_runtime": 18.8162,
	"eval_samples_per_second": 106.292,
	"eval_steps_per_second": 1.701,
	"step": 53000
	},
	{
	"epoch": 0.35,
	"learning_rate": 3.271800911465001e-05,
	"loss": 2.1404,
	"step": 54000
	},
	{
	"epoch": 0.35,
	"eval_loss": 2.3595259189605713,
	"eval_runtime": 18.8272,
	"eval_samples_per_second": 106.229,
	"eval_steps_per_second": 1.7,
	"step": 54000
	},
	{
	"epoch": 0.35,
	"learning_rate": 3.2397972246402786e-05,
	"loss": 2.128,
	"step": 55000
	},
	{
	"epoch": 0.35,
	"eval_loss": 2.3471484184265137,
	"eval_runtime": 18.9594,
	"eval_samples_per_second": 105.489,
	"eval_steps_per_second": 1.688,
	"step": 55000
	},
	{
	"epoch": 0.36,
	"learning_rate": 3.2077935378155565e-05,
	"loss": 2.1287,
	"step": 56000
	},
	{
	"epoch": 0.36,
	"eval_loss": 2.347370147705078,
	"eval_runtime": 18.9278,
	"eval_samples_per_second": 105.665,
	"eval_steps_per_second": 1.691,
	"step": 56000
	},
	{
	"epoch": 0.36,
	"learning_rate": 3.175789850990834e-05,
	"loss": 2.1372,
	"step": 57000
	},
	{
	"epoch": 0.36,
	"eval_loss": 2.3139336109161377,
	"eval_runtime": 19.0473,
	"eval_samples_per_second": 105.002,
	"eval_steps_per_second": 1.68,
	"step": 57000
	},
	{
	"epoch": 0.37,
	"learning_rate": 3.143786164166112e-05,
	"loss": 2.1301,
	"step": 58000
	},
	{
	"epoch": 0.37,
	"eval_loss": 2.3145127296447754,
	"eval_runtime": 18.831,
	"eval_samples_per_second": 106.208,
	"eval_steps_per_second": 1.699,
	"step": 58000
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.11178247734139e-05,
	"loss": 2.128,
	"step": 59000
	},
	{
	"epoch": 0.38,
	"eval_loss": 2.3634743690490723,
	"eval_runtime": 19.0052,
	"eval_samples_per_second": 105.234,
	"eval_steps_per_second": 1.684,
	"step": 59000
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.079778790516668e-05,
	"loss": 2.1088,
	"step": 60000
	},
	{
	"epoch": 0.38,
	"eval_loss": 2.3068251609802246,
	"eval_runtime": 18.9935,
	"eval_samples_per_second": 105.299,
	"eval_steps_per_second": 1.685,
	"step": 60000
	},
	{
	"epoch": 0.39,
	"learning_rate": 3.0477751036919456e-05,
	"loss": 2.122,
	"step": 61000
	},
	{
	"epoch": 0.39,
	"eval_loss": 2.312502145767212,
	"eval_runtime": 18.8963,
	"eval_samples_per_second": 105.841,
	"eval_steps_per_second": 1.693,
	"step": 61000
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.015771416867223e-05,
	"loss": 2.1113,
	"step": 62000
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.3446314334869385,
	"eval_runtime": 18.8671,
	"eval_samples_per_second": 106.005,
	"eval_steps_per_second": 1.696,
	"step": 62000
	},
	{
	"epoch": 0.4,
	"learning_rate": 2.983767730042501e-05,
	"loss": 2.1108,
	"step": 63000
	},
	{
	"epoch": 0.4,
	"eval_loss": 2.3173420429229736,
	"eval_runtime": 18.7418,
	"eval_samples_per_second": 106.713,
	"eval_steps_per_second": 1.707,
	"step": 63000
	},
	{
	"epoch": 0.41,
	"learning_rate": 2.951764043217779e-05,
	"loss": 2.125,
	"step": 64000
	},
	{
	"epoch": 0.41,
	"eval_loss": 2.363111734390259,
	"eval_runtime": 18.789,
	"eval_samples_per_second": 106.445,
	"eval_steps_per_second": 1.703,
	"step": 64000
	},
	{
	"epoch": 0.42,
	"learning_rate": 2.9197603563930563e-05,
	"loss": 2.1106,
	"step": 65000
	},
	{
	"epoch": 0.42,
	"eval_loss": 2.331869602203369,
	"eval_runtime": 18.9057,
	"eval_samples_per_second": 105.788,
	"eval_steps_per_second": 1.693,
	"step": 65000
	},
	{
	"epoch": 0.42,
	"learning_rate": 2.8877566695683345e-05,
	"loss": 2.1143,
	"step": 66000
	},
	{
	"epoch": 0.42,
	"eval_loss": 2.300299882888794,
	"eval_runtime": 18.7948,
	"eval_samples_per_second": 106.413,
	"eval_steps_per_second": 1.703,
	"step": 66000
	},
	{
	"epoch": 0.43,
	"learning_rate": 2.8557529827436123e-05,
	"loss": 2.0982,
	"step": 67000
	},
	{
	"epoch": 0.43,
	"eval_loss": 2.3044443130493164,
	"eval_runtime": 19.1803,
	"eval_samples_per_second": 104.273,
	"eval_steps_per_second": 1.668,
	"step": 67000
	},
	{
	"epoch": 0.44,
	"learning_rate": 2.82374929591889e-05,
	"loss": 2.1026,
	"step": 68000
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.305398464202881,
	"eval_runtime": 18.9121,
	"eval_samples_per_second": 105.752,
	"eval_steps_per_second": 1.692,
	"step": 68000
	},
	{
	"epoch": 0.44,
	"learning_rate": 2.791745609094168e-05,
	"loss": 2.0995,
	"step": 69000
	},
	{
	"epoch": 0.44,
	"eval_loss": 2.3068206310272217,
	"eval_runtime": 18.8989,
	"eval_samples_per_second": 105.826,
	"eval_steps_per_second": 1.693,
	"step": 69000
	},
	{
	"epoch": 0.45,
	"learning_rate": 2.7597419222694455e-05,
	"loss": 2.0844,
	"step": 70000
	},
	{
	"epoch": 0.45,
	"eval_loss": 2.3477184772491455,
	"eval_runtime": 19.0274,
	"eval_samples_per_second": 105.111,
	"eval_steps_per_second": 1.682,
	"step": 70000
	},
	{
	"epoch": 0.45,
	"learning_rate": 2.7277382354447233e-05,
	"loss": 2.1008,
	"step": 71000
	},
	{
	"epoch": 0.45,
	"eval_loss": 2.339860439300537,
	"eval_runtime": 18.7939,
	"eval_samples_per_second": 106.418,
	"eval_steps_per_second": 1.703,
	"step": 71000
	},
	{
	"epoch": 0.46,
	"learning_rate": 2.6957345486200015e-05,
	"loss": 2.092,
	"step": 72000
	},
	{
	"epoch": 0.46,
	"eval_loss": 2.3236074447631836,
	"eval_runtime": 18.7746,
	"eval_samples_per_second": 106.527,
	"eval_steps_per_second": 1.704,
	"step": 72000
	},
	{
	"epoch": 0.47,
	"learning_rate": 2.663730861795279e-05,
	"loss": 2.09,
	"step": 73000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.3070333003997803,
	"eval_runtime": 19.3882,
	"eval_samples_per_second": 103.155,
	"eval_steps_per_second": 1.65,
	"step": 73000
	},
	{
	"epoch": 0.47,
	"learning_rate": 2.631727174970557e-05,
	"loss": 2.0984,
	"step": 74000
	},
	{
	"epoch": 0.47,
	"eval_loss": 2.31845760345459,
	"eval_runtime": 19.5362,
	"eval_samples_per_second": 102.374,
	"eval_steps_per_second": 1.638,
	"step": 74000
	},
	{
	"epoch": 0.48,
	"learning_rate": 2.5997234881458344e-05,
	"loss": 2.0965,
	"step": 75000
	},
	{
	"epoch": 0.48,
	"eval_loss": 2.306812047958374,
	"eval_runtime": 19.4702,
	"eval_samples_per_second": 102.721,
	"eval_steps_per_second": 1.644,
	"step": 75000
	},
	{
	"epoch": 0.49,
	"learning_rate": 2.5677198013211122e-05,
	"loss": 2.081,
	"step": 76000
	},
	{
	"epoch": 0.49,
	"eval_loss": 2.274367570877075,
	"eval_runtime": 19.5806,
	"eval_samples_per_second": 102.142,
	"eval_steps_per_second": 1.634,
	"step": 76000
	},
	{
	"epoch": 0.49,
	"learning_rate": 2.5357161144963904e-05,
	"loss": 2.0871,
	"step": 77000
	},
	{
	"epoch": 0.49,
	"eval_loss": 2.254237651824951,
	"eval_runtime": 19.7552,
	"eval_samples_per_second": 101.239,
	"eval_steps_per_second": 1.62,
	"step": 77000
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.503712427671668e-05,
	"loss": 2.0751,
	"step": 78000
	},
	{
	"epoch": 0.5,
	"eval_loss": 2.2817015647888184,
	"eval_runtime": 19.5765,
	"eval_samples_per_second": 102.163,
	"eval_steps_per_second": 1.635,
	"step": 78000
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.4717087408469457e-05,
	"loss": 2.0875,
	"step": 79000
	},
	{
	"epoch": 0.51,
	"eval_loss": 2.288637161254883,
	"eval_runtime": 19.6173,
	"eval_samples_per_second": 101.951,
	"eval_steps_per_second": 1.631,
	"step": 79000
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.4397050540222236e-05,
	"loss": 2.0847,
	"step": 80000
	},
	{
	"epoch": 0.51,
	"eval_loss": 2.3093936443328857,
	"eval_runtime": 19.3962,
	"eval_samples_per_second": 103.113,
	"eval_steps_per_second": 1.65,
	"step": 80000
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.4077013671975014e-05,
	"loss": 2.0861,
	"step": 81000
	},
	{
	"epoch": 0.52,
	"eval_loss": 2.294950246810913,
	"eval_runtime": 19.5483,
	"eval_samples_per_second": 102.311,
	"eval_steps_per_second": 1.637,
	"step": 81000
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.375697680372779e-05,
	"loss": 2.0689,
	"step": 82000
	},
	{
	"epoch": 0.52,
	"eval_loss": 2.293389320373535,
	"eval_runtime": 19.51,
	"eval_samples_per_second": 102.512,
	"eval_steps_per_second": 1.64,
	"step": 82000
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.3436939935480567e-05,
	"loss": 2.0767,
	"step": 83000
	},
	{
	"epoch": 0.53,
	"eval_loss": 2.304983615875244,
	"eval_runtime": 19.26,
	"eval_samples_per_second": 103.842,
	"eval_steps_per_second": 1.661,
	"step": 83000
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.311690306723335e-05,
	"loss": 2.0711,
	"step": 84000
	},
	{
	"epoch": 0.54,
	"eval_loss": 2.2823355197906494,
	"eval_runtime": 20.4429,
	"eval_samples_per_second": 97.834,
	"eval_steps_per_second": 1.565,
	"step": 84000
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.2796866198986124e-05,
	"loss": 2.0654,
	"step": 85000
	},
	{
	"epoch": 0.54,
	"eval_loss": 2.280226469039917,
	"eval_runtime": 19.5501,
	"eval_samples_per_second": 102.301,
	"eval_steps_per_second": 1.637,
	"step": 85000
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.2476829330738902e-05,
	"loss": 2.0627,
	"step": 86000
	},
	{
	"epoch": 0.55,
	"eval_loss": 2.2770543098449707,
	"eval_runtime": 19.4549,
	"eval_samples_per_second": 102.802,
	"eval_steps_per_second": 1.645,
	"step": 86000
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.215679246249168e-05,
	"loss": 2.0656,
	"step": 87000
	},
	{
	"epoch": 0.56,
	"eval_loss": 2.2922134399414062,
	"eval_runtime": 19.3407,
	"eval_samples_per_second": 103.409,
	"eval_steps_per_second": 1.655,
	"step": 87000
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.1836755594244456e-05,
	"loss": 2.07,
	"step": 88000
	},
	{
	"epoch": 0.56,
	"eval_loss": 2.268709897994995,
	"eval_runtime": 19.4551,
	"eval_samples_per_second": 102.801,
	"eval_steps_per_second": 1.645,
	"step": 88000
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.1516718725997238e-05,
	"loss": 2.0661,
	"step": 89000
	},
	{
	"epoch": 0.57,
	"eval_loss": 2.247802972793579,
	"eval_runtime": 19.273,
	"eval_samples_per_second": 103.772,
	"eval_steps_per_second": 1.66,
	"step": 89000
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.1196681857750016e-05,
	"loss": 2.0511,
	"step": 90000
	},
	{
	"epoch": 0.58,
	"eval_loss": 2.3074941635131836,
	"eval_runtime": 19.2075,
	"eval_samples_per_second": 104.126,
	"eval_steps_per_second": 1.666,
	"step": 90000
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.087664498950279e-05,
	"loss": 2.0582,
	"step": 91000
	},
	{
	"epoch": 0.58,
	"eval_loss": 2.248690605163574,
	"eval_runtime": 19.2432,
	"eval_samples_per_second": 103.933,
	"eval_steps_per_second": 1.663,
	"step": 91000
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.055660812125557e-05,
	"loss": 2.0626,
	"step": 92000
	},
	{
	"epoch": 0.59,
	"eval_loss": 2.2588484287261963,
	"eval_runtime": 19.4441,
	"eval_samples_per_second": 102.859,
	"eval_steps_per_second": 1.646,
	"step": 92000
	},
	{
	"epoch": 0.6,
	"learning_rate": 2.0236571253008348e-05,
	"loss": 2.0562,
	"step": 93000
	},
	{
	"epoch": 0.6,
	"eval_loss": 2.274319887161255,
	"eval_runtime": 19.4979,
	"eval_samples_per_second": 102.575,
	"eval_steps_per_second": 1.641,
	"step": 93000
	},
	{
	"epoch": 0.6,
	"learning_rate": 1.9916534384761126e-05,
	"loss": 2.0511,
	"step": 94000
	},
	{
	"epoch": 0.6,
	"eval_loss": 2.276171922683716,
	"eval_runtime": 19.331,
	"eval_samples_per_second": 103.461,
	"eval_steps_per_second": 1.655,
	"step": 94000
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9596497516513904e-05,
	"loss": 2.0413,
	"step": 95000
	},
	{
	"epoch": 0.61,
	"eval_loss": 2.2398881912231445,
	"eval_runtime": 19.5099,
	"eval_samples_per_second": 102.512,
	"eval_steps_per_second": 1.64,
	"step": 95000
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.927646064826668e-05,
	"loss": 2.0496,
	"step": 96000
	},
	{
	"epoch": 0.61,
	"eval_loss": 2.271150588989258,
	"eval_runtime": 19.317,
	"eval_samples_per_second": 103.536,
	"eval_steps_per_second": 1.657,
	"step": 96000
	},
	{
	"epoch": 0.62,
	"learning_rate": 1.8956423780019458e-05,
	"loss": 2.0564,
	"step": 97000
	},
	{
	"epoch": 0.62,
	"eval_loss": 2.2770469188690186,
	"eval_runtime": 19.1141,
	"eval_samples_per_second": 104.635,
	"eval_steps_per_second": 1.674,
	"step": 97000
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.863638691177224e-05,
	"loss": 2.0505,
	"step": 98000
	},
	{
	"epoch": 0.63,
	"eval_loss": 2.2885847091674805,
	"eval_runtime": 19.6608,
	"eval_samples_per_second": 101.725,
	"eval_steps_per_second": 1.628,
	"step": 98000
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.8316350043525015e-05,
	"loss": 2.0504,
	"step": 99000
	},
	{
	"epoch": 0.63,
	"eval_loss": 2.3180038928985596,
	"eval_runtime": 19.4021,
	"eval_samples_per_second": 103.082,
	"eval_steps_per_second": 1.649,
	"step": 99000
	},
	{
	"epoch": 0.64,
	"learning_rate": 1.7996313175277793e-05,
	"loss": 2.0439,
	"step": 100000
	},
	{
	"epoch": 0.64,
	"eval_loss": 2.2651731967926025,
	"eval_runtime": 19.3214,
	"eval_samples_per_second": 103.512,
	"eval_steps_per_second": 1.656,
	"step": 100000
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.767627630703057e-05,
	"loss": 2.0461,
	"step": 101000
	},
	{
	"epoch": 0.65,
	"eval_loss": 2.222968101501465,
	"eval_runtime": 19.2774,
	"eval_samples_per_second": 103.749,
	"eval_steps_per_second": 1.66,
	"step": 101000
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.7356239438783346e-05,
	"loss": 2.0405,
	"step": 102000
	},
	{
	"epoch": 0.65,
	"eval_loss": 2.2448790073394775,
	"eval_runtime": 21.2727,
	"eval_samples_per_second": 94.017,
	"eval_steps_per_second": 1.504,
	"step": 102000
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.7036202570536128e-05,
	"loss": 2.038,
	"step": 103000
	},
	{
	"epoch": 0.66,
	"eval_loss": 2.2096433639526367,
	"eval_runtime": 19.292,
	"eval_samples_per_second": 103.67,
	"eval_steps_per_second": 1.659,
	"step": 103000
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.6716165702288906e-05,
	"loss": 2.0205,
	"step": 104000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.2131240367889404,
	"eval_runtime": 19.1995,
	"eval_samples_per_second": 104.169,
	"eval_steps_per_second": 1.667,
	"step": 104000
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.639612883404168e-05,
	"loss": 2.0196,
	"step": 105000
	},
	{
	"epoch": 0.67,
	"eval_loss": 2.2505383491516113,
	"eval_runtime": 19.4936,
	"eval_samples_per_second": 102.598,
	"eval_steps_per_second": 1.642,
	"step": 105000
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.607609196579446e-05,
	"loss": 2.0272,
	"step": 106000
	},
	{
	"epoch": 0.68,
	"eval_loss": 2.243058681488037,
	"eval_runtime": 19.4712,
	"eval_samples_per_second": 102.716,
	"eval_steps_per_second": 1.643,
	"step": 106000
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.5756055097547238e-05,
	"loss": 2.0276,
	"step": 107000
	},
	{
	"epoch": 0.68,
	"eval_loss": 2.2137022018432617,
	"eval_runtime": 18.6801,
	"eval_samples_per_second": 107.066,
	"eval_steps_per_second": 1.713,
	"step": 107000
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.5436018229300017e-05,
	"loss": 2.0224,
	"step": 108000
	},
	{
	"epoch": 0.69,
	"eval_loss": 2.2309203147888184,
	"eval_runtime": 18.8357,
	"eval_samples_per_second": 106.181,
	"eval_steps_per_second": 1.699,
	"step": 108000
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.5115981361052795e-05,
	"loss": 2.0253,
	"step": 109000
	},
	{
	"epoch": 0.7,
	"eval_loss": 2.2213120460510254,
	"eval_runtime": 19.2801,
	"eval_samples_per_second": 103.734,
	"eval_steps_per_second": 1.66,
	"step": 109000
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.4795944492805572e-05,
	"loss": 2.0199,
	"step": 110000
	},
	{
	"epoch": 0.7,
	"eval_loss": 2.2416763305664062,
	"eval_runtime": 18.8526,
	"eval_samples_per_second": 106.086,
	"eval_steps_per_second": 1.697,
	"step": 110000
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.4475907624558348e-05,
	"loss": 2.0216,
	"step": 111000
	},
	{
	"epoch": 0.71,
	"eval_loss": 2.24078369140625,
	"eval_runtime": 18.5093,
	"eval_samples_per_second": 108.054,
	"eval_steps_per_second": 1.729,
	"step": 111000
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.4155870756311127e-05,
	"loss": 2.0236,
	"step": 112000
	},
	{
	"epoch": 0.72,
	"eval_loss": 2.2598512172698975,
	"eval_runtime": 19.0496,
	"eval_samples_per_second": 104.989,
	"eval_steps_per_second": 1.68,
	"step": 112000
	},
	{
	"epoch": 0.72,
	"learning_rate": 1.3835833888063907e-05,
	"loss": 2.0247,
	"step": 113000
	},
	{
	"epoch": 0.72,
	"eval_loss": 2.2282919883728027,
	"eval_runtime": 18.7751,
	"eval_samples_per_second": 106.524,
	"eval_steps_per_second": 1.704,
	"step": 113000
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.3515797019816683e-05,
	"loss": 2.0263,
	"step": 114000
	},
	{
	"epoch": 0.73,
	"eval_loss": 2.248234748840332,
	"eval_runtime": 18.8567,
	"eval_samples_per_second": 106.063,
	"eval_steps_per_second": 1.697,
	"step": 114000
	},
	{
	"epoch": 0.74,
	"learning_rate": 1.3195760151569462e-05,
	"loss": 2.014,
	"step": 115000
	},
	{
	"epoch": 0.74,
	"eval_loss": 2.194716691970825,
	"eval_runtime": 18.7872,
	"eval_samples_per_second": 106.455,
	"eval_steps_per_second": 1.703,
	"step": 115000
	},
	{
	"epoch": 0.74,
	"learning_rate": 1.2875723283322239e-05,
	"loss": 2.0076,
	"step": 116000
	},
	{
	"epoch": 0.74,
	"eval_loss": 2.233458995819092,
	"eval_runtime": 18.8711,
	"eval_samples_per_second": 105.982,
	"eval_steps_per_second": 1.696,
	"step": 116000
	},
	{
	"epoch": 0.75,
	"learning_rate": 1.2555686415075015e-05,
	"loss": 2.011,
	"step": 117000
	},
	{
	"epoch": 0.75,
	"eval_loss": 2.213284492492676,
	"eval_runtime": 19.5167,
	"eval_samples_per_second": 102.477,
	"eval_steps_per_second": 1.64,
	"step": 117000
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.2235649546827795e-05,
	"loss": 2.0216,
	"step": 118000
	},
	{
	"epoch": 0.76,
	"eval_loss": 2.210317373275757,
	"eval_runtime": 18.6333,
	"eval_samples_per_second": 107.334,
	"eval_steps_per_second": 1.717,
	"step": 118000
	},
	{
	"epoch": 0.76,
	"learning_rate": 1.1915612678580574e-05,
	"loss": 2.0097,
	"step": 119000
	},
	{
	"epoch": 0.76,
	"eval_loss": 2.241175651550293,
	"eval_runtime": 18.694,
	"eval_samples_per_second": 106.986,
	"eval_steps_per_second": 1.712,
	"step": 119000
	},
	{
	"epoch": 0.77,
	"learning_rate": 1.159557581033335e-05,
	"loss": 2.0076,
	"step": 120000
	},
	{
	"epoch": 0.77,
	"eval_loss": 2.2543113231658936,
	"eval_runtime": 18.8082,
	"eval_samples_per_second": 106.336,
	"eval_steps_per_second": 1.701,
	"step": 120000
	},
	{
	"epoch": 0.77,
	"learning_rate": 1.1275538942086129e-05,
	"loss": 2.01,
	"step": 121000
	},
	{
	"epoch": 0.77,
	"eval_loss": 2.2642598152160645,
	"eval_runtime": 19.4522,
	"eval_samples_per_second": 102.816,
	"eval_steps_per_second": 1.645,
	"step": 121000
	},
	{
	"epoch": 0.78,
	"learning_rate": 1.0955502073838907e-05,
	"loss": 2.0074,
	"step": 122000
	},
	{
	"epoch": 0.78,
	"eval_loss": 2.2413113117218018,
	"eval_runtime": 18.8078,
	"eval_samples_per_second": 106.339,
	"eval_steps_per_second": 1.701,
	"step": 122000
	},
	{
	"epoch": 0.79,
	"learning_rate": 1.0635465205591686e-05,
	"loss": 1.9898,
	"step": 123000
	},
	{
	"epoch": 0.79,
	"eval_loss": 2.2442147731781006,
	"eval_runtime": 18.8179,
	"eval_samples_per_second": 106.282,
	"eval_steps_per_second": 1.701,
	"step": 123000
	},
	{
	"epoch": 0.79,
	"learning_rate": 1.0315428337344462e-05,
	"loss": 2.0119,
	"step": 124000
	},
	{
	"epoch": 0.79,
	"eval_loss": 2.227520704269409,
	"eval_runtime": 18.9241,
	"eval_samples_per_second": 105.686,
	"eval_steps_per_second": 1.691,
	"step": 124000
	},
	{
	"epoch": 0.8,
	"learning_rate": 9.99539146909724e-06,
	"loss": 1.993,
	"step": 125000
	},
	{
	"epoch": 0.8,
	"eval_loss": 2.2116286754608154,
	"eval_runtime": 19.6066,
	"eval_samples_per_second": 102.007,
	"eval_steps_per_second": 1.632,
	"step": 125000
	},
	{
	"epoch": 0.81,
	"learning_rate": 9.675354600850019e-06,
	"loss": 2.0092,
	"step": 126000
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.2108232975006104,
	"eval_runtime": 18.7069,
	"eval_samples_per_second": 106.912,
	"eval_steps_per_second": 1.711,
	"step": 126000
	},
	{
	"epoch": 0.81,
	"learning_rate": 9.355317732602796e-06,
	"loss": 2.0019,
	"step": 127000
	},
	{
	"epoch": 0.81,
	"eval_loss": 2.2236363887786865,
	"eval_runtime": 18.8801,
	"eval_samples_per_second": 105.931,
	"eval_steps_per_second": 1.695,
	"step": 127000
	},
	{
	"epoch": 0.82,
	"learning_rate": 9.035280864355574e-06,
	"loss": 1.9931,
	"step": 128000
	},
	{
	"epoch": 0.82,
	"eval_loss": 2.2105228900909424,
	"eval_runtime": 21.3819,
	"eval_samples_per_second": 93.537,
	"eval_steps_per_second": 1.497,
	"step": 128000
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.715243996108352e-06,
	"loss": 1.9851,
	"step": 129000
	},
	{
	"epoch": 0.83,
	"eval_loss": 2.2179064750671387,
	"eval_runtime": 19.3741,
	"eval_samples_per_second": 103.231,
	"eval_steps_per_second": 1.652,
	"step": 129000
	},
	{
	"epoch": 0.83,
	"learning_rate": 8.395207127861129e-06,
	"loss": 1.9882,
	"step": 130000
	},
	{
	"epoch": 0.83,
	"eval_loss": 2.2303926944732666,
	"eval_runtime": 18.846,
	"eval_samples_per_second": 106.123,
	"eval_steps_per_second": 1.698,
	"step": 130000
	},
	{
	"epoch": 0.84,
	"learning_rate": 8.075170259613907e-06,
	"loss": 1.999,
	"step": 131000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.202813148498535,
	"eval_runtime": 19.3498,
	"eval_samples_per_second": 103.36,
	"eval_steps_per_second": 1.654,
	"step": 131000
	},
	{
	"epoch": 0.84,
	"learning_rate": 7.755133391366686e-06,
	"loss": 1.9848,
	"step": 132000
	},
	{
	"epoch": 0.84,
	"eval_loss": 2.1549251079559326,
	"eval_runtime": 20.1588,
	"eval_samples_per_second": 99.212,
	"eval_steps_per_second": 1.587,
	"step": 132000
	},
	{
	"epoch": 0.85,
	"learning_rate": 7.435096523119464e-06,
	"loss": 1.9962,
	"step": 133000
	},
	{
	"epoch": 0.85,
	"eval_loss": 2.2457568645477295,
	"eval_runtime": 19.1213,
	"eval_samples_per_second": 104.595,
	"eval_steps_per_second": 1.674,
	"step": 133000
	},
	{
	"epoch": 0.86,
	"learning_rate": 7.115059654872242e-06,
	"loss": 1.991,
	"step": 134000
	},
	{
	"epoch": 0.86,
	"eval_loss": 2.1861023902893066,
	"eval_runtime": 19.2023,
	"eval_samples_per_second": 104.154,
	"eval_steps_per_second": 1.666,
	"step": 134000
	},
	{
	"epoch": 0.86,
	"learning_rate": 6.79502278662502e-06,
	"loss": 1.9901,
	"step": 135000
	},
	{
	"epoch": 0.86,
	"eval_loss": 2.2025179862976074,
	"eval_runtime": 19.2167,
	"eval_samples_per_second": 104.076,
	"eval_steps_per_second": 1.665,
	"step": 135000
	},
	{
	"epoch": 0.87,
	"learning_rate": 6.474985918377798e-06,
	"loss": 1.9698,
	"step": 136000
	},
	{
	"epoch": 0.87,
	"eval_loss": 2.2299790382385254,
	"eval_runtime": 20.1153,
	"eval_samples_per_second": 99.427,
	"eval_steps_per_second": 1.591,
	"step": 136000
	},
	{
	"epoch": 0.88,
	"learning_rate": 6.154949050130575e-06,
	"loss": 1.9772,
	"step": 137000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.1934893131256104,
	"eval_runtime": 19.0706,
	"eval_samples_per_second": 104.874,
	"eval_steps_per_second": 1.678,
	"step": 137000
	},
	{
	"epoch": 0.88,
	"learning_rate": 5.8349121818833536e-06,
	"loss": 1.974,
	"step": 138000
	},
	{
	"epoch": 0.88,
	"eval_loss": 2.201178789138794,
	"eval_runtime": 18.9851,
	"eval_samples_per_second": 105.346,
	"eval_steps_per_second": 1.686,
	"step": 138000
	},
	{
	"epoch": 0.89,
	"learning_rate": 5.514875313636131e-06,
	"loss": 1.9906,
	"step": 139000
	},
	{
	"epoch": 0.89,
	"eval_loss": 2.2042794227600098,
	"eval_runtime": 19.1406,
	"eval_samples_per_second": 104.49,
	"eval_steps_per_second": 1.672,
	"step": 139000
	},
	{
	"epoch": 0.9,
	"learning_rate": 5.194838445388909e-06,
	"loss": 1.9899,
	"step": 140000
	},
	{
	"epoch": 0.9,
	"eval_loss": 2.187676191329956,
	"eval_runtime": 19.4746,
	"eval_samples_per_second": 102.698,
	"eval_steps_per_second": 1.643,
	"step": 140000
	},
	{
	"epoch": 0.9,
	"learning_rate": 4.874801577141687e-06,
	"loss": 1.9785,
	"step": 141000
	},
	{
	"epoch": 0.9,
	"eval_loss": 2.2104039192199707,
	"eval_runtime": 19.2016,
	"eval_samples_per_second": 104.158,
	"eval_steps_per_second": 1.667,
	"step": 141000
	},
	{
	"epoch": 0.91,
	"learning_rate": 4.5547647088944646e-06,
	"loss": 1.9682,
	"step": 142000
	},
	{
	"epoch": 0.91,
	"eval_loss": 2.1898605823516846,
	"eval_runtime": 19.2296,
	"eval_samples_per_second": 104.006,
	"eval_steps_per_second": 1.664,
	"step": 142000
	},
	{
	"epoch": 0.92,
	"learning_rate": 4.234727840647243e-06,
	"loss": 1.9785,
	"step": 143000
	},
	{
	"epoch": 0.92,
	"eval_loss": 2.183152437210083,
	"eval_runtime": 19.1118,
	"eval_samples_per_second": 104.647,
	"eval_steps_per_second": 1.674,
	"step": 143000
	},
	{
	"epoch": 0.92,
	"learning_rate": 3.914690972400021e-06,
	"loss": 1.9795,
	"step": 144000
	},
	{
	"epoch": 0.92,
	"eval_loss": 2.199709415435791,
	"eval_runtime": 19.352,
	"eval_samples_per_second": 103.348,
	"eval_steps_per_second": 1.654,
	"step": 144000
	},
	{
	"epoch": 0.93,
	"learning_rate": 3.5946541041527984e-06,
	"loss": 1.9656,
	"step": 145000
	},
	{
	"epoch": 0.93,
	"eval_loss": 2.200268507003784,
	"eval_runtime": 19.3103,
	"eval_samples_per_second": 103.572,
	"eval_steps_per_second": 1.657,
	"step": 145000
	},
	{
	"epoch": 0.93,
	"learning_rate": 3.2746172359055764e-06,
	"loss": 1.9813,
	"step": 146000
	},
	{
	"epoch": 0.93,
	"eval_loss": 2.1825687885284424,
	"eval_runtime": 19.0952,
	"eval_samples_per_second": 104.739,
	"eval_steps_per_second": 1.676,
	"step": 146000
	},
	{
	"epoch": 0.94,
	"learning_rate": 2.9545803676583543e-06,
	"loss": 1.9719,
	"step": 147000
	},
	{
	"epoch": 0.94,
	"eval_loss": 2.1915125846862793,
	"eval_runtime": 19.3108,
	"eval_samples_per_second": 103.569,
	"eval_steps_per_second": 1.657,
	"step": 147000
	},
	{
	"epoch": 0.95,
	"learning_rate": 2.6345434994111323e-06,
	"loss": 1.962,
	"step": 148000
	},
	{
	"epoch": 0.95,
	"eval_loss": 2.196523904800415,
	"eval_runtime": 19.1234,
	"eval_samples_per_second": 104.584,
	"eval_steps_per_second": 1.673,
	"step": 148000
	},
	{
	"epoch": 0.95,
	"learning_rate": 2.3145066311639102e-06,
	"loss": 1.9657,
	"step": 149000
	},
	{
	"epoch": 0.95,
	"eval_loss": 2.1772007942199707,
	"eval_runtime": 19.0921,
	"eval_samples_per_second": 104.756,
	"eval_steps_per_second": 1.676,
	"step": 149000
	},
	{
	"epoch": 0.96,
	"learning_rate": 1.994469762916688e-06,
	"loss": 1.9662,
	"step": 150000
	},
	{
	"epoch": 0.96,
	"eval_loss": 2.151597261428833,
	"eval_runtime": 19.1055,
	"eval_samples_per_second": 104.682,
	"eval_steps_per_second": 1.675,
	"step": 150000
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.674432894669466e-06,
	"loss": 1.9631,
	"step": 151000
	},
	{
	"epoch": 0.97,
	"eval_loss": 2.1692702770233154,
	"eval_runtime": 19.4031,
	"eval_samples_per_second": 103.077,
	"eval_steps_per_second": 1.649,
	"step": 151000
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.354396026422244e-06,
	"loss": 1.9651,
	"step": 152000
	},
	{
	"epoch": 0.97,
	"eval_loss": 2.174436330795288,
	"eval_runtime": 19.3133,
	"eval_samples_per_second": 103.555,
	"eval_steps_per_second": 1.657,
	"step": 152000
	},
	{
	"epoch": 0.98,
	"learning_rate": 1.0343591581750219e-06,
	"loss": 1.9761,
	"step": 153000
	},
	{
	"epoch": 0.98,
	"eval_loss": 2.1922249794006348,
	"eval_runtime": 19.2415,
	"eval_samples_per_second": 103.942,
	"eval_steps_per_second": 1.663,
	"step": 153000
	},
	{
	"epoch": 0.99,
	"learning_rate": 7.143222899277997e-07,
	"loss": 1.9602,
	"step": 154000
	},
	{
	"epoch": 0.99,
	"eval_loss": 2.177457571029663,
	"eval_runtime": 19.1279,
	"eval_samples_per_second": 104.559,
	"eval_steps_per_second": 1.673,
	"step": 154000
	},
	{
	"epoch": 0.99,
	"learning_rate": 3.9428542168057766e-07,
	"loss": 1.9429,
	"step": 155000
	},
	{
	"epoch": 0.99,
	"eval_loss": 2.167567491531372,
	"eval_runtime": 19.5087,
	"eval_samples_per_second": 102.518,
	"eval_steps_per_second": 1.64,
	"step": 155000
	},
	{
	"epoch": 1.0,
	"learning_rate": 7.424855343335553e-08,
	"loss": 1.9662,
	"step": 156000
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.179702043533325,
	"eval_runtime": 19.3655,
	"eval_samples_per_second": 103.276,
	"eval_steps_per_second": 1.652,
	"step": 156000
	},
	{
	"epoch": 1.0,
	"learning_rate": 2.4877105842593068e-05,
	"loss": 1.9883,
	"step": 157000
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.1984949111938477,
	"eval_runtime": 19.5918,
	"eval_samples_per_second": 102.084,
	"eval_steps_per_second": 1.633,
	"step": 157000
	},
	{
	"epoch": 1.01,
	"learning_rate": 2.4717087408469457e-05,
	"loss": 2.0127,
	"step": 158000
	},
	{
	"epoch": 1.01,
	"eval_loss": 2.264371633529663,
	"eval_runtime": 19.1742,
	"eval_samples_per_second": 104.307,
	"eval_steps_per_second": 1.669,
	"step": 158000
	},
	{
	"epoch": 1.02,
	"learning_rate": 2.4557068974345846e-05,
	"loss": 2.013,
	"step": 159000
	},
	{
	"epoch": 1.02,
	"eval_loss": 2.263242721557617,
	"eval_runtime": 19.0844,
	"eval_samples_per_second": 104.798,
	"eval_steps_per_second": 1.677,
	"step": 159000
	},
	{
	"epoch": 1.02,
	"learning_rate": 2.4397050540222236e-05,
	"loss": 2.0243,
	"step": 160000
	},
	{
	"epoch": 1.02,
	"eval_loss": 2.267091751098633,
	"eval_runtime": 19.3957,
	"eval_samples_per_second": 103.116,
	"eval_steps_per_second": 1.65,
	"step": 160000
	},
	{
	"epoch": 1.03,
	"learning_rate": 2.423703210609862e-05,
	"loss": 2.021,
	"step": 161000
	},
	{
	"epoch": 1.03,
	"eval_loss": 2.2471094131469727,
	"eval_runtime": 19.2438,
	"eval_samples_per_second": 103.929,
	"eval_steps_per_second": 1.663,
	"step": 161000
	},
	{
	"epoch": 1.04,
	"learning_rate": 2.4077013671975014e-05,
	"loss": 2.0278,
	"step": 162000
	},
	{
	"epoch": 1.04,
	"eval_loss": 2.2140402793884277,
	"eval_runtime": 19.0312,
	"eval_samples_per_second": 105.091,
	"eval_steps_per_second": 1.681,
	"step": 162000
	},
	{
	"epoch": 1.04,
	"learning_rate": 2.3916995237851403e-05,
	"loss": 2.0109,
	"step": 163000
	},
	{
	"epoch": 1.04,
	"eval_loss": 2.2622554302215576,
	"eval_runtime": 19.0334,
	"eval_samples_per_second": 105.078,
	"eval_steps_per_second": 1.681,
	"step": 163000
	},
	{
	"epoch": 1.05,
	"learning_rate": 2.375697680372779e-05,
	"loss": 2.023,
	"step": 164000
	},
	{
	"epoch": 1.05,
	"eval_loss": 2.245877981185913,
	"eval_runtime": 19.4264,
	"eval_samples_per_second": 102.953,
	"eval_steps_per_second": 1.647,
	"step": 164000
	},
	{
	"epoch": 1.06,
	"learning_rate": 2.359695836960418e-05,
	"loss": 2.0187,
	"step": 165000
	},
	{
	"epoch": 1.06,
	"eval_loss": 2.25624942779541,
	"eval_runtime": 19.303,
	"eval_samples_per_second": 103.611,
	"eval_steps_per_second": 1.658,
	"step": 165000
	},
	{
	"epoch": 1.06,
	"learning_rate": 2.3436939935480567e-05,
	"loss": 2.019,
	"step": 166000
	},
	{
	"epoch": 1.06,
	"eval_loss": 2.2587056159973145,
	"eval_runtime": 18.8102,
	"eval_samples_per_second": 106.325,
	"eval_steps_per_second": 1.701,
	"step": 166000
	},
	{
	"epoch": 1.07,
	"learning_rate": 2.3276921501356956e-05,
	"loss": 2.0208,
	"step": 167000
	},
	{
	"epoch": 1.07,
	"eval_loss": 2.2842631340026855,
	"eval_runtime": 19.22,
	"eval_samples_per_second": 104.058,
	"eval_steps_per_second": 1.665,
	"step": 167000
	},
	{
	"epoch": 1.08,
	"learning_rate": 2.311690306723335e-05,
	"loss": 2.0043,
	"step": 168000
	},
	{
	"epoch": 1.08,
	"eval_loss": 2.2638208866119385,
	"eval_runtime": 19.6646,
	"eval_samples_per_second": 101.706,
	"eval_steps_per_second": 1.627,
	"step": 168000
	},
	{
	"epoch": 1.08,
	"learning_rate": 2.2956884633109735e-05,
	"loss": 2.0171,
	"step": 169000
	},
	{
	"epoch": 1.08,
	"eval_loss": 2.2604892253875732,
	"eval_runtime": 19.2438,
	"eval_samples_per_second": 103.93,
	"eval_steps_per_second": 1.663,
	"step": 169000
	},
	{
	"epoch": 1.09,
	"learning_rate": 2.2796866198986124e-05,
	"loss": 2.0351,
	"step": 170000
	},
	{
	"epoch": 1.09,
	"eval_loss": 2.2608911991119385,
	"eval_runtime": 19.3036,
	"eval_samples_per_second": 103.607,
	"eval_steps_per_second": 1.658,
	"step": 170000
	},
	{
	"epoch": 1.09,
	"learning_rate": 2.2636847764862513e-05,
	"loss": 2.0166,
	"step": 171000
	},
	{
	"epoch": 1.09,
	"eval_loss": 2.2317748069763184,
	"eval_runtime": 19.0555,
	"eval_samples_per_second": 104.957,
	"eval_steps_per_second": 1.679,
	"step": 171000
	},
	{
	"epoch": 1.1,
	"learning_rate": 2.2476829330738902e-05,
	"loss": 2.0102,
	"step": 172000
	},
	{
	"epoch": 1.1,
	"eval_loss": 2.2210681438446045,
	"eval_runtime": 19.4253,
	"eval_samples_per_second": 102.958,
	"eval_steps_per_second": 1.647,
	"step": 172000
	},
	{
	"epoch": 1.11,
	"learning_rate": 2.231681089661529e-05,
	"loss": 2.0226,
	"step": 173000
	},
	{
	"epoch": 1.11,
	"eval_loss": 2.2446329593658447,
	"eval_runtime": 19.1758,
	"eval_samples_per_second": 104.298,
	"eval_steps_per_second": 1.669,
	"step": 173000
	},
	{
	"epoch": 1.11,
	"learning_rate": 2.215679246249168e-05,
	"loss": 2.0293,
	"step": 174000
	},
	{
	"epoch": 1.11,
	"eval_loss": 2.2327494621276855,
	"eval_runtime": 19.0577,
	"eval_samples_per_second": 104.945,
	"eval_steps_per_second": 1.679,
	"step": 174000
	},
	{
	"epoch": 1.12,
	"learning_rate": 2.199677402836807e-05,
	"loss": 2.0269,
	"step": 175000
	},
	{
	"epoch": 1.12,
	"eval_loss": 2.223355293273926,
	"eval_runtime": 19.372,
	"eval_samples_per_second": 103.242,
	"eval_steps_per_second": 1.652,
	"step": 175000
	},
	{
	"epoch": 1.13,
	"learning_rate": 2.1836755594244456e-05,
	"loss": 2.0232,
	"step": 176000
	},
	{
	"epoch": 1.13,
	"eval_loss": 2.2283060550689697,
	"eval_runtime": 19.4986,
	"eval_samples_per_second": 102.572,
	"eval_steps_per_second": 1.641,
	"step": 176000
	},
	{
	"epoch": 1.13,
	"learning_rate": 2.167673716012085e-05,
	"loss": 2.0155,
	"step": 177000
	},
	{
	"epoch": 1.13,
	"eval_loss": 2.241269588470459,
	"eval_runtime": 19.5594,
	"eval_samples_per_second": 102.253,
	"eval_steps_per_second": 1.636,
	"step": 177000
	},
	{
	"epoch": 1.14,
	"learning_rate": 2.1516718725997238e-05,
	"loss": 2.0148,
	"step": 178000
	},
	{
	"epoch": 1.14,
	"eval_loss": 2.2584030628204346,
	"eval_runtime": 18.9767,
	"eval_samples_per_second": 105.392,
	"eval_steps_per_second": 1.686,
	"step": 178000
	},
	{
	"epoch": 1.15,
	"learning_rate": 2.1356700291873623e-05,
	"loss": 2.0167,
	"step": 179000
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.2308297157287598,
	"eval_runtime": 19.318,
	"eval_samples_per_second": 103.531,
	"eval_steps_per_second": 1.656,
	"step": 179000
	},
	{
	"epoch": 1.15,
	"learning_rate": 2.1196681857750016e-05,
	"loss": 2.0204,
	"step": 180000
	},
	{
	"epoch": 1.15,
	"eval_loss": 2.2320470809936523,
	"eval_runtime": 19.5088,
	"eval_samples_per_second": 102.518,
	"eval_steps_per_second": 1.64,
	"step": 180000
	},
	{
	"epoch": 1.16,
	"learning_rate": 2.1036663423626402e-05,
	"loss": 2.014,
	"step": 181000
	},
	{
	"epoch": 1.16,
	"eval_loss": 2.25752854347229,
	"eval_runtime": 19.1454,
	"eval_samples_per_second": 104.464,
	"eval_steps_per_second": 1.671,
	"step": 181000
	},
	{
	"epoch": 1.16,
	"learning_rate": 2.087664498950279e-05,
	"loss": 2.0149,
	"step": 182000
	},
	{
	"epoch": 1.16,
	"eval_loss": 2.2161190509796143,
	"eval_runtime": 19.0879,
	"eval_samples_per_second": 104.779,
	"eval_steps_per_second": 1.676,
	"step": 182000
	},
	{
	"epoch": 1.17,
	"learning_rate": 2.071662655537918e-05,
	"loss": 2.0082,
	"step": 183000
	},
	{
	"epoch": 1.17,
	"eval_loss": 2.2062742710113525,
	"eval_runtime": 19.2713,
	"eval_samples_per_second": 103.781,
	"eval_steps_per_second": 1.66,
	"step": 183000
	},
	{
	"epoch": 1.18,
	"learning_rate": 2.055660812125557e-05,
	"loss": 2.0017,
	"step": 184000
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.2289586067199707,
	"eval_runtime": 19.4499,
	"eval_samples_per_second": 102.828,
	"eval_steps_per_second": 1.645,
	"step": 184000
	},
	{
	"epoch": 1.18,
	"learning_rate": 2.039658968713196e-05,
	"loss": 2.0146,
	"step": 185000
	},
	{
	"epoch": 1.18,
	"eval_loss": 2.2288384437561035,
	"eval_runtime": 19.335,
	"eval_samples_per_second": 103.439,
	"eval_steps_per_second": 1.655,
	"step": 185000
	},
	{
	"epoch": 1.19,
	"learning_rate": 2.0236571253008348e-05,
	"loss": 2.024,
	"step": 186000
	},
	{
	"epoch": 1.19,
	"eval_loss": 2.194934606552124,
	"eval_runtime": 19.5009,
	"eval_samples_per_second": 102.559,
	"eval_steps_per_second": 1.641,
	"step": 186000
	},
	{
	"epoch": 1.2,
	"learning_rate": 2.0076552818884737e-05,
	"loss": 2.0016,
	"step": 187000
	},
	{
	"epoch": 1.2,
	"eval_loss": 2.197631597518921,
	"eval_runtime": 19.2128,
	"eval_samples_per_second": 104.097,
	"eval_steps_per_second": 1.666,
	"step": 187000
	},
	{
	"epoch": 1.2,
	"learning_rate": 1.9916534384761126e-05,
	"loss": 2.0066,
	"step": 188000
	},
	{
	"epoch": 1.2,
	"eval_loss": 2.238746166229248,
	"eval_runtime": 19.4524,
	"eval_samples_per_second": 102.815,
	"eval_steps_per_second": 1.645,
	"step": 188000
	},
	{
	"epoch": 1.21,
	"learning_rate": 1.9756515950637515e-05,
	"loss": 2.0168,
	"step": 189000
	},
	{
	"epoch": 1.21,
	"eval_loss": 2.2261757850646973,
	"eval_runtime": 19.645,
	"eval_samples_per_second": 101.807,
	"eval_steps_per_second": 1.629,
	"step": 189000
	},
	{
	"epoch": 1.22,
	"learning_rate": 1.9596497516513904e-05,
	"loss": 2.0023,
	"step": 190000
	},
	{
	"epoch": 1.22,
	"eval_loss": 2.2070722579956055,
	"eval_runtime": 19.0874,
	"eval_samples_per_second": 104.781,
	"eval_steps_per_second": 1.676,
	"step": 190000
	},
	{
	"epoch": 1.22,
	"learning_rate": 1.943647908239029e-05,
	"loss": 1.9917,
	"step": 191000
	},
	{
	"epoch": 1.22,
	"eval_loss": 2.2613461017608643,
	"eval_runtime": 19.1099,
	"eval_samples_per_second": 104.658,
	"eval_steps_per_second": 1.675,
	"step": 191000
	},
	{
	"epoch": 1.23,
	"learning_rate": 1.927646064826668e-05,
	"loss": 2.01,
	"step": 192000
	},
	{
	"epoch": 1.23,
	"eval_loss": 2.2324349880218506,
	"eval_runtime": 20.8611,
	"eval_samples_per_second": 95.872,
	"eval_steps_per_second": 1.534,
	"step": 192000
	},
	{
	"epoch": 1.24,
	"learning_rate": 1.9116442214143072e-05,
	"loss": 2.0023,
	"step": 193000
	},
	{
	"epoch": 1.24,
	"eval_loss": 2.2707834243774414,
	"eval_runtime": 19.7356,
	"eval_samples_per_second": 101.34,
	"eval_steps_per_second": 1.621,
	"step": 193000
	},
	{
	"epoch": 1.24,
	"learning_rate": 1.8956423780019458e-05,
	"loss": 2.0037,
	"step": 194000
	},
	{
	"epoch": 1.24,
	"eval_loss": 2.2384769916534424,
	"eval_runtime": 19.0414,
	"eval_samples_per_second": 105.034,
	"eval_steps_per_second": 1.681,
	"step": 194000
	},
	{
	"epoch": 1.25,
	"learning_rate": 1.8796405345895847e-05,
	"loss": 1.9994,
	"step": 195000
	},
	{
	"epoch": 1.25,
	"eval_loss": 2.192796230316162,
	"eval_runtime": 19.0496,
	"eval_samples_per_second": 104.989,
	"eval_steps_per_second": 1.68,
	"step": 195000
	},
	{
	"epoch": 1.25,
	"learning_rate": 1.863638691177224e-05,
	"loss": 1.994,
	"step": 196000
	},
	{
	"epoch": 1.25,
	"eval_loss": 2.170961618423462,
	"eval_runtime": 19.6903,
	"eval_samples_per_second": 101.573,
	"eval_steps_per_second": 1.625,
	"step": 196000
	},
	{
	"epoch": 1.26,
	"learning_rate": 1.8476368477648625e-05,
	"loss": 2.0016,
	"step": 197000
	},
	{
	"epoch": 1.26,
	"eval_loss": 2.2660317420959473,
	"eval_runtime": 19.6654,
	"eval_samples_per_second": 101.702,
	"eval_steps_per_second": 1.627,
	"step": 197000
	},
	{
	"epoch": 1.27,
	"learning_rate": 1.8316350043525015e-05,
	"loss": 2.0044,
	"step": 198000
	},
	{
	"epoch": 1.27,
	"eval_loss": 2.204163074493408,
	"eval_runtime": 18.9759,
	"eval_samples_per_second": 105.397,
	"eval_steps_per_second": 1.686,
	"step": 198000
	},
	{
	"epoch": 1.27,
	"learning_rate": 1.8156331609401404e-05,
	"loss": 1.9962,
	"step": 199000
	},
	{
	"epoch": 1.27,
	"eval_loss": 2.214494228363037,
	"eval_runtime": 19.1044,
	"eval_samples_per_second": 104.688,
	"eval_steps_per_second": 1.675,
	"step": 199000
	},
	{
	"epoch": 1.28,
	"learning_rate": 1.7996313175277793e-05,
	"loss": 2.002,
	"step": 200000
	},
	{
	"epoch": 1.28,
	"eval_loss": 2.231771230697632,
	"eval_runtime": 19.3683,
	"eval_samples_per_second": 103.262,
	"eval_steps_per_second": 1.652,
	"step": 200000
	},
	{
	"epoch": 1.29,
	"learning_rate": 1.7836294741154182e-05,
	"loss": 1.9933,
	"step": 201000
	},
	{
	"epoch": 1.29,
	"eval_loss": 2.2037816047668457,
	"eval_runtime": 19.3894,
	"eval_samples_per_second": 103.149,
	"eval_steps_per_second": 1.65,
	"step": 201000
	},
	{
	"epoch": 1.29,
	"learning_rate": 1.767627630703057e-05,
	"loss": 2.01,
	"step": 202000
	},
	{
	"epoch": 1.29,
	"eval_loss": 2.1932146549224854,
	"eval_runtime": 19.0804,
	"eval_samples_per_second": 104.819,
	"eval_steps_per_second": 1.677,
	"step": 202000
	},
	{
	"epoch": 1.3,
	"learning_rate": 1.751625787290696e-05,
	"loss": 1.9876,
	"step": 203000
	},
	{
	"epoch": 1.3,
	"eval_loss": 2.1909868717193604,
	"eval_runtime": 19.2334,
	"eval_samples_per_second": 103.986,
	"eval_steps_per_second": 1.664,
	"step": 203000
	},
	{
	"epoch": 1.31,
	"learning_rate": 1.7356239438783346e-05,
	"loss": 1.9959,
	"step": 204000
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.226149559020996,
	"eval_runtime": 19.403,
	"eval_samples_per_second": 103.077,
	"eval_steps_per_second": 1.649,
	"step": 204000
	},
	{
	"epoch": 1.31,
	"learning_rate": 1.719622100465974e-05,
	"loss": 1.9966,
	"step": 205000
	},
	{
	"epoch": 1.31,
	"eval_loss": 2.250934600830078,
	"eval_runtime": 19.4964,
	"eval_samples_per_second": 102.583,
	"eval_steps_per_second": 1.641,
	"step": 205000
	},
	{
	"epoch": 1.32,
	"learning_rate": 1.7036202570536128e-05,
	"loss": 2.001,
	"step": 206000
	},
	{
	"epoch": 1.32,
	"eval_loss": 2.1994211673736572,
	"eval_runtime": 19.1839,
	"eval_samples_per_second": 104.254,
	"eval_steps_per_second": 1.668,
	"step": 206000
	},
	{
	"epoch": 1.32,
	"learning_rate": 1.6876184136412514e-05,
	"loss": 1.9883,
	"step": 207000
	},
	{
	"epoch": 1.32,
	"eval_loss": 2.196751356124878,
	"eval_runtime": 19.6979,
	"eval_samples_per_second": 101.534,
	"eval_steps_per_second": 1.625,
	"step": 207000
	},
	{
	"epoch": 1.33,
	"learning_rate": 1.6716165702288906e-05,
	"loss": 1.9968,
	"step": 208000
	},
	{
	"epoch": 1.33,
	"eval_loss": 2.248135805130005,
	"eval_runtime": 19.2411,
	"eval_samples_per_second": 103.944,
	"eval_steps_per_second": 1.663,
	"step": 208000
	},
	{
	"epoch": 1.34,
	"learning_rate": 1.6556147268165292e-05,
	"loss": 1.9951,
	"step": 209000
	},
	{
	"epoch": 1.34,
	"eval_loss": 2.213362216949463,
	"eval_runtime": 19.146,
	"eval_samples_per_second": 104.46,
	"eval_steps_per_second": 1.671,
	"step": 209000
	},
	{
	"epoch": 1.34,
	"learning_rate": 1.639612883404168e-05,
	"loss": 1.9941,
	"step": 210000
	},
	{
	"epoch": 1.34,
	"eval_loss": 2.219302177429199,
	"eval_runtime": 19.0054,
	"eval_samples_per_second": 105.233,
	"eval_steps_per_second": 1.684,
	"step": 210000
	},
	{
	"epoch": 1.35,
	"learning_rate": 1.6236110399918074e-05,
	"loss": 1.9875,
	"step": 211000
	},
	{
	"epoch": 1.35,
	"eval_loss": 2.2148916721343994,
	"eval_runtime": 19.4732,
	"eval_samples_per_second": 102.705,
	"eval_steps_per_second": 1.643,
	"step": 211000
	},
	{
	"epoch": 1.36,
	"learning_rate": 1.607609196579446e-05,
	"loss": 2.0026,
	"step": 212000
	},
	{
	"epoch": 1.36,
	"eval_loss": 2.197999954223633,
	"eval_runtime": 19.3649,
	"eval_samples_per_second": 103.28,
	"eval_steps_per_second": 1.652,
	"step": 212000
	},
	{
	"epoch": 1.36,
	"learning_rate": 1.591607353167085e-05,
	"loss": 1.9908,
	"step": 213000
	},
	{
	"epoch": 1.36,
	"eval_loss": 2.2245354652404785,
	"eval_runtime": 19.4688,
	"eval_samples_per_second": 102.728,
	"eval_steps_per_second": 1.644,
	"step": 213000
	},
	{
	"epoch": 1.37,
	"learning_rate": 1.5756055097547238e-05,
	"loss": 1.979,
	"step": 214000
	},
	{
	"epoch": 1.37,
	"eval_loss": 2.186586856842041,
	"eval_runtime": 19.6234,
	"eval_samples_per_second": 101.919,
	"eval_steps_per_second": 1.631,
	"step": 214000
	},
	{
	"epoch": 1.38,
	"learning_rate": 1.5596036663423627e-05,
	"loss": 1.99,
	"step": 215000
	},
	{
	"epoch": 1.38,
	"eval_loss": 2.182631015777588,
	"eval_runtime": 19.4018,
	"eval_samples_per_second": 103.083,
	"eval_steps_per_second": 1.649,
	"step": 215000
	},
	{
	"epoch": 1.38,
	"learning_rate": 1.5436018229300017e-05,
	"loss": 1.9816,
	"step": 216000
	},
	{
	"epoch": 1.38,
	"eval_loss": 2.187858819961548,
	"eval_runtime": 19.4098,
	"eval_samples_per_second": 103.041,
	"eval_steps_per_second": 1.649,
	"step": 216000
	},
	{
	"epoch": 1.39,
	"learning_rate": 1.5275999795176406e-05,
	"loss": 1.989,
	"step": 217000
	},
	{
	"epoch": 1.39,
	"eval_loss": 2.232002019882202,
	"eval_runtime": 19.4529,
	"eval_samples_per_second": 102.813,
	"eval_steps_per_second": 1.645,
	"step": 217000
	},
	{
	"epoch": 1.4,
	"learning_rate": 1.5115981361052795e-05,
	"loss": 1.9931,
	"step": 218000
	},
	{
	"epoch": 1.4,
	"eval_loss": 2.1929688453674316,
	"eval_runtime": 19.3402,
	"eval_samples_per_second": 103.411,
	"eval_steps_per_second": 1.655,
	"step": 218000
	},
	{
	"epoch": 1.4,
	"learning_rate": 1.4955962926929182e-05,
	"loss": 1.9804,
	"step": 219000
	},
	{
	"epoch": 1.4,
	"eval_loss": 2.2313404083251953,
	"eval_runtime": 19.6691,
	"eval_samples_per_second": 101.682,
	"eval_steps_per_second": 1.627,
	"step": 219000
	},
	{
	"epoch": 1.41,
	"learning_rate": 1.4795944492805572e-05,
	"loss": 1.9902,
	"step": 220000
	},
	{
	"epoch": 1.41,
	"eval_loss": 2.1808815002441406,
	"eval_runtime": 19.8875,
	"eval_samples_per_second": 100.566,
	"eval_steps_per_second": 1.609,
	"step": 220000
	},
	{
	"epoch": 1.41,
	"learning_rate": 1.4635926058681963e-05,
	"loss": 1.9791,
	"step": 221000
	},
	{
	"epoch": 1.41,
	"eval_loss": 2.1454262733459473,
	"eval_runtime": 19.9595,
	"eval_samples_per_second": 100.203,
	"eval_steps_per_second": 1.603,
	"step": 221000
	},
	{
	"epoch": 1.42,
	"learning_rate": 1.4475907624558348e-05,
	"loss": 1.9702,
	"step": 222000
	},
	{
	"epoch": 1.42,
	"eval_loss": 2.220078468322754,
	"eval_runtime": 19.5477,
	"eval_samples_per_second": 102.314,
	"eval_steps_per_second": 1.637,
	"step": 222000
	},
	{
	"epoch": 1.43,
	"learning_rate": 1.431588919043474e-05,
	"loss": 1.9848,
	"step": 223000
	},
	{
	"epoch": 1.43,
	"eval_loss": 2.198873281478882,
	"eval_runtime": 19.8165,
	"eval_samples_per_second": 100.926,
	"eval_steps_per_second": 1.615,
	"step": 223000
	},
	{
	"epoch": 1.43,
	"learning_rate": 1.4155870756311127e-05,
	"loss": 1.9813,
	"step": 224000
	},
	{
	"epoch": 1.43,
	"eval_loss": 2.197327136993408,
	"eval_runtime": 21.9598,
	"eval_samples_per_second": 91.076,
	"eval_steps_per_second": 1.457,
	"step": 224000
	},
	{
	"epoch": 1.44,
	"learning_rate": 1.3995852322187516e-05,
	"loss": 1.9784,
	"step": 225000
	},
	{
	"epoch": 1.44,
	"eval_loss": 2.189138889312744,
	"eval_runtime": 19.3319,
	"eval_samples_per_second": 103.456,
	"eval_steps_per_second": 1.655,
	"step": 225000
	},
	{
	"epoch": 1.45,
	"learning_rate": 1.3835833888063907e-05,
	"loss": 1.9766,
	"step": 226000
	},
	{
	"epoch": 1.45,
	"eval_loss": 2.20912504196167,
	"eval_runtime": 19.5253,
	"eval_samples_per_second": 102.431,
	"eval_steps_per_second": 1.639,
	"step": 226000
	},
	{
	"epoch": 1.45,
	"learning_rate": 1.3675815453940294e-05,
	"loss": 1.9732,
	"step": 227000
	},
	{
	"epoch": 1.45,
	"eval_loss": 2.140838384628296,
	"eval_runtime": 19.1497,
	"eval_samples_per_second": 104.44,
	"eval_steps_per_second": 1.671,
	"step": 227000
	},
	{
	"epoch": 1.46,
	"learning_rate": 1.3515797019816683e-05,
	"loss": 1.9621,
	"step": 228000
	},
	{
	"epoch": 1.46,
	"eval_loss": 2.226170063018799,
	"eval_runtime": 19.0166,
	"eval_samples_per_second": 105.171,
	"eval_steps_per_second": 1.683,
	"step": 228000
	},
	{
	"epoch": 1.47,
	"learning_rate": 1.3355778585693071e-05,
	"loss": 1.9739,
	"step": 229000
	},
	{
	"epoch": 1.47,
	"eval_loss": 2.2281548976898193,
	"eval_runtime": 19.3581,
	"eval_samples_per_second": 103.316,
	"eval_steps_per_second": 1.653,
	"step": 229000
	},
	{
	"epoch": 1.47,
	"learning_rate": 1.3195760151569462e-05,
	"loss": 1.968,
	"step": 230000
	},
	{
	"epoch": 1.47,
	"eval_loss": 2.205911636352539,
	"eval_runtime": 19.2592,
	"eval_samples_per_second": 103.846,
	"eval_steps_per_second": 1.662,
	"step": 230000
	},
	{
	"epoch": 1.48,
	"learning_rate": 1.3035741717445851e-05,
	"loss": 1.9656,
	"step": 231000
	},
	{
	"epoch": 1.48,
	"eval_loss": 2.2183620929718018,
	"eval_runtime": 19.2973,
	"eval_samples_per_second": 103.641,
	"eval_steps_per_second": 1.658,
	"step": 231000
	},
	{
	"epoch": 1.48,
	"learning_rate": 1.2875723283322239e-05,
	"loss": 1.9728,
	"step": 232000
	},
	{
	"epoch": 1.48,
	"eval_loss": 2.1920948028564453,
	"eval_runtime": 19.4211,
	"eval_samples_per_second": 102.981,
	"eval_steps_per_second": 1.648,
	"step": 232000
	},
	{
	"epoch": 1.49,
	"learning_rate": 1.271570484919863e-05,
	"loss": 1.9577,
	"step": 233000
	},
	{
	"epoch": 1.49,
	"eval_loss": 2.191782236099243,
	"eval_runtime": 19.3617,
	"eval_samples_per_second": 103.296,
	"eval_steps_per_second": 1.653,
	"step": 233000
	},
	{
	"epoch": 1.5,
	"learning_rate": 1.2555686415075015e-05,
	"loss": 1.9777,
	"step": 234000
	},
	{
	"epoch": 1.5,
	"eval_loss": 2.209336042404175,
	"eval_runtime": 19.3939,
	"eval_samples_per_second": 103.125,
	"eval_steps_per_second": 1.65,
	"step": 234000
	},
	{
	"epoch": 1.5,
	"learning_rate": 1.2395667980951406e-05,
	"loss": 1.9662,
	"step": 235000
	},
	{
	"epoch": 1.5,
	"eval_loss": 2.152353048324585,
	"eval_runtime": 19.7245,
	"eval_samples_per_second": 101.397,
	"eval_steps_per_second": 1.622,
	"step": 235000
	},
	{
	"epoch": 1.51,
	"learning_rate": 1.2235649546827795e-05,
	"loss": 1.9681,
	"step": 236000
	},
	{
	"epoch": 1.51,
	"eval_loss": 2.1999175548553467,
	"eval_runtime": 18.9532,
	"eval_samples_per_second": 105.523,
	"eval_steps_per_second": 1.688,
	"step": 236000
	},
	{
	"epoch": 1.52,
	"learning_rate": 1.2075631112704184e-05,
	"loss": 1.9543,
	"step": 237000
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.1981661319732666,
	"eval_runtime": 19.2785,
	"eval_samples_per_second": 103.742,
	"eval_steps_per_second": 1.66,
	"step": 237000
	},
	{
	"epoch": 1.52,
	"learning_rate": 1.1915612678580574e-05,
	"loss": 1.9636,
	"step": 238000
	},
	{
	"epoch": 1.52,
	"eval_loss": 2.197685956954956,
	"eval_runtime": 19.3506,
	"eval_samples_per_second": 103.356,
	"eval_steps_per_second": 1.654,
	"step": 238000
	},
	{
	"epoch": 1.53,
	"learning_rate": 1.1755594244456961e-05,
	"loss": 1.9623,
	"step": 239000
	},
	{
	"epoch": 1.53,
	"eval_loss": 2.207620620727539,
	"eval_runtime": 19.1912,
	"eval_samples_per_second": 104.214,
	"eval_steps_per_second": 1.667,
	"step": 239000
	},
	{
	"epoch": 1.54,
	"learning_rate": 1.159557581033335e-05,
	"loss": 1.9645,
	"step": 240000
	},
	{
	"epoch": 1.54,
	"eval_loss": 2.1756386756896973,
	"eval_runtime": 19.1978,
	"eval_samples_per_second": 104.178,
	"eval_steps_per_second": 1.667,
	"step": 240000
	},
	{
	"epoch": 1.54,
	"learning_rate": 1.143555737620974e-05,
	"loss": 1.9676,
	"step": 241000
	},
	{
	"epoch": 1.54,
	"eval_loss": 2.1699678897857666,
	"eval_runtime": 19.2027,
	"eval_samples_per_second": 104.152,
	"eval_steps_per_second": 1.666,
	"step": 241000
	},
	{
	"epoch": 1.55,
	"learning_rate": 1.1275538942086129e-05,
	"loss": 1.9552,
	"step": 242000
	},
	{
	"epoch": 1.55,
	"eval_loss": 2.1813385486602783,
	"eval_runtime": 19.1939,
	"eval_samples_per_second": 104.2,
	"eval_steps_per_second": 1.667,
	"step": 242000
	},
	{
	"epoch": 1.56,
	"learning_rate": 1.1115520507962518e-05,
	"loss": 1.9675,
	"step": 243000
	},
	{
	"epoch": 1.56,
	"eval_loss": 2.1804428100585938,
	"eval_runtime": 19.3246,
	"eval_samples_per_second": 103.495,
	"eval_steps_per_second": 1.656,
	"step": 243000
	},
	{
	"epoch": 1.56,
	"learning_rate": 1.0955502073838907e-05,
	"loss": 1.9707,
	"step": 244000
	},
	{
	"epoch": 1.56,
	"eval_loss": 2.1776347160339355,
	"eval_runtime": 19.4613,
	"eval_samples_per_second": 102.768,
	"eval_steps_per_second": 1.644,
	"step": 244000
	},
	{
	"epoch": 1.57,
	"learning_rate": 1.0795483639715295e-05,
	"loss": 1.9609,
	"step": 245000
	},
	{
	"epoch": 1.57,
	"eval_loss": 2.2101809978485107,
	"eval_runtime": 19.232,
	"eval_samples_per_second": 103.993,
	"eval_steps_per_second": 1.664,
	"step": 245000
	},
	{
	"epoch": 1.57,
	"learning_rate": 1.0635465205591686e-05,
	"loss": 1.9584,
	"step": 246000
	},
	{
	"epoch": 1.57,
	"eval_loss": 2.18208384513855,
	"eval_runtime": 19.1408,
	"eval_samples_per_second": 104.489,
	"eval_steps_per_second": 1.672,
	"step": 246000
	},
	{
	"epoch": 1.58,
	"learning_rate": 1.0475446771468075e-05,
	"loss": 1.9568,
	"step": 247000
	},
	{
	"epoch": 1.58,
	"eval_loss": 2.164984941482544,
	"eval_runtime": 19.2986,
	"eval_samples_per_second": 103.634,
	"eval_steps_per_second": 1.658,
	"step": 247000
	},
	{
	"epoch": 1.59,
	"learning_rate": 1.0315428337344462e-05,
	"loss": 1.9514,
	"step": 248000
	},
	{
	"epoch": 1.59,
	"eval_loss": 2.218735456466675,
	"eval_runtime": 19.5707,
	"eval_samples_per_second": 102.193,
	"eval_steps_per_second": 1.635,
	"step": 248000
	},
	{
	"epoch": 1.59,
	"learning_rate": 1.0155409903220851e-05,
	"loss": 1.9567,
	"step": 249000
	},
	{
	"epoch": 1.59,
	"eval_loss": 2.1572988033294678,
	"eval_runtime": 19.0634,
	"eval_samples_per_second": 104.913,
	"eval_steps_per_second": 1.679,
	"step": 249000
	},
	{
	"epoch": 1.6,
	"learning_rate": 9.99539146909724e-06,
	"loss": 1.9555,
	"step": 250000
	},
	{
	"epoch": 1.6,
	"eval_loss": 2.1475002765655518,
	"eval_runtime": 19.0267,
	"eval_samples_per_second": 105.115,
	"eval_steps_per_second": 1.682,
	"step": 250000
	},
	{
	"epoch": 1.61,
	"learning_rate": 9.83537303497363e-06,
	"loss": 1.965,
	"step": 251000
	},
	{
	"epoch": 1.61,
	"eval_loss": 2.1785731315612793,
	"eval_runtime": 19.7697,
	"eval_samples_per_second": 101.165,
	"eval_steps_per_second": 1.619,
	"step": 251000
	},
	{
	"epoch": 1.61,
	"learning_rate": 9.675354600850019e-06,
	"loss": 1.9508,
	"step": 252000
	},
	{
	"epoch": 1.61,
	"eval_loss": 2.1723153591156006,
	"eval_runtime": 19.1786,
	"eval_samples_per_second": 104.283,
	"eval_steps_per_second": 1.669,
	"step": 252000
	},
	{
	"epoch": 1.62,
	"learning_rate": 9.515336166726408e-06,
	"loss": 1.9522,
	"step": 253000
	},
	{
	"epoch": 1.62,
	"eval_loss": 2.180307626724243,
	"eval_runtime": 18.9009,
	"eval_samples_per_second": 105.815,
	"eval_steps_per_second": 1.693,
	"step": 253000
	},
	{
	"epoch": 1.63,
	"learning_rate": 9.355317732602796e-06,
	"loss": 1.9637,
	"step": 254000
	},
	{
	"epoch": 1.63,
	"eval_loss": 2.179806709289551,
	"eval_runtime": 19.3455,
	"eval_samples_per_second": 103.383,
	"eval_steps_per_second": 1.654,
	"step": 254000
	},
	{
	"epoch": 1.63,
	"learning_rate": 9.195299298479185e-06,
	"loss": 1.9588,
	"step": 255000
	},
	{
	"epoch": 1.63,
	"eval_loss": 2.200853109359741,
	"eval_runtime": 19.4782,
	"eval_samples_per_second": 102.679,
	"eval_steps_per_second": 1.643,
	"step": 255000
	},
	{
	"epoch": 1.64,
	"learning_rate": 9.035280864355574e-06,
	"loss": 1.9553,
	"step": 256000
	},
	{
	"epoch": 1.64,
	"eval_loss": 2.1626343727111816,
	"eval_runtime": 19.24,
	"eval_samples_per_second": 103.95,
	"eval_steps_per_second": 1.663,
	"step": 256000
	},
	{
	"epoch": 1.64,
	"learning_rate": 8.875262430231963e-06,
	"loss": 1.946,
	"step": 257000
	},
	{
	"epoch": 1.64,
	"eval_loss": 2.1843950748443604,
	"eval_runtime": 19.1181,
	"eval_samples_per_second": 104.613,
	"eval_steps_per_second": 1.674,
	"step": 257000
	},
	{
	"epoch": 1.65,
	"learning_rate": 8.715243996108352e-06,
	"loss": 1.9493,
	"step": 258000
	},
	{
	"epoch": 1.65,
	"eval_loss": 2.150207757949829,
	"eval_runtime": 19.2502,
	"eval_samples_per_second": 103.895,
	"eval_steps_per_second": 1.662,
	"step": 258000
	},
	{
	"epoch": 1.66,
	"learning_rate": 8.55522556198474e-06,
	"loss": 1.9442,
	"step": 259000
	},
	{
	"epoch": 1.66,
	"eval_loss": 2.1614534854888916,
	"eval_runtime": 19.2393,
	"eval_samples_per_second": 103.954,
	"eval_steps_per_second": 1.663,
	"step": 259000
	},
	{
	"epoch": 1.66,
	"learning_rate": 8.395207127861129e-06,
	"loss": 1.945,
	"step": 260000
	},
	{
	"epoch": 1.66,
	"eval_loss": 2.178889751434326,
	"eval_runtime": 19.4657,
	"eval_samples_per_second": 102.745,
	"eval_steps_per_second": 1.644,
	"step": 260000
	},
	{
	"epoch": 1.67,
	"learning_rate": 8.23518869373752e-06,
	"loss": 1.9368,
	"step": 261000
	},
	{
	"epoch": 1.67,
	"eval_loss": 2.172461986541748,
	"eval_runtime": 19.2788,
	"eval_samples_per_second": 103.741,
	"eval_steps_per_second": 1.66,
	"step": 261000
	},
	{
	"epoch": 1.68,
	"learning_rate": 8.075170259613907e-06,
	"loss": 1.9393,
	"step": 262000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.169734001159668,
	"eval_runtime": 19.3666,
	"eval_samples_per_second": 103.27,
	"eval_steps_per_second": 1.652,
	"step": 262000
	},
	{
	"epoch": 1.68,
	"learning_rate": 7.915151825490297e-06,
	"loss": 1.9525,
	"step": 263000
	},
	{
	"epoch": 1.68,
	"eval_loss": 2.1597206592559814,
	"eval_runtime": 19.3459,
	"eval_samples_per_second": 103.381,
	"eval_steps_per_second": 1.654,
	"step": 263000
	},
	{
	"epoch": 1.69,
	"learning_rate": 7.755133391366686e-06,
	"loss": 1.9444,
	"step": 264000
	},
	{
	"epoch": 1.69,
	"eval_loss": 2.1798765659332275,
	"eval_runtime": 19.0083,
	"eval_samples_per_second": 105.217,
	"eval_steps_per_second": 1.683,
	"step": 264000
	},
	{
	"epoch": 1.7,
	"learning_rate": 7.595114957243074e-06,
	"loss": 1.9352,
	"step": 265000
	},
	{
	"epoch": 1.7,
	"eval_loss": 2.164872169494629,
	"eval_runtime": 19.1384,
	"eval_samples_per_second": 104.502,
	"eval_steps_per_second": 1.672,
	"step": 265000
	},
	{
	"epoch": 1.7,
	"learning_rate": 7.435096523119464e-06,
	"loss": 1.9537,
	"step": 266000
	},
	{
	"epoch": 1.7,
	"eval_loss": 2.1663596630096436,
	"eval_runtime": 19.6791,
	"eval_samples_per_second": 101.63,
	"eval_steps_per_second": 1.626,
	"step": 266000
	},
	{
	"epoch": 1.71,
	"learning_rate": 7.2750780889958526e-06,
	"loss": 1.9399,
	"step": 267000
	},
	{
	"epoch": 1.71,
	"eval_loss": 2.1855850219726562,
	"eval_runtime": 19.3954,
	"eval_samples_per_second": 103.117,
	"eval_steps_per_second": 1.65,
	"step": 267000
	},
	{
	"epoch": 1.72,
	"learning_rate": 7.115059654872242e-06,
	"loss": 1.9325,
	"step": 268000
	},
	{
	"epoch": 1.72,
	"eval_loss": 2.1838717460632324,
	"eval_runtime": 19.1074,
	"eval_samples_per_second": 104.671,
	"eval_steps_per_second": 1.675,
	"step": 268000
	},
	{
	"epoch": 1.72,
	"learning_rate": 6.95504122074863e-06,
	"loss": 1.9466,
	"step": 269000
	},
	{
	"epoch": 1.72,
	"eval_loss": 2.1524887084960938,
	"eval_runtime": 19.375,
	"eval_samples_per_second": 103.226,
	"eval_steps_per_second": 1.652,
	"step": 269000
	},
	{
	"epoch": 1.73,
	"learning_rate": 6.79502278662502e-06,
	"loss": 1.9403,
	"step": 270000
	},
	{
	"epoch": 1.73,
	"eval_loss": 2.1773369312286377,
	"eval_runtime": 19.1103,
	"eval_samples_per_second": 104.656,
	"eval_steps_per_second": 1.674,
	"step": 270000
	},
	{
	"epoch": 1.73,
	"learning_rate": 6.6350043525014085e-06,
	"loss": 1.9391,
	"step": 271000
	},
	{
	"epoch": 1.73,
	"eval_loss": 2.212693452835083,
	"eval_runtime": 19.2143,
	"eval_samples_per_second": 104.089,
	"eval_steps_per_second": 1.665,
	"step": 271000
	},
	{
	"epoch": 1.74,
	"learning_rate": 6.474985918377798e-06,
	"loss": 1.9419,
	"step": 272000
	},
	{
	"epoch": 1.74,
	"eval_loss": 2.1781909465789795,
	"eval_runtime": 19.4708,
	"eval_samples_per_second": 102.718,
	"eval_steps_per_second": 1.643,
	"step": 272000
	},
	{
	"epoch": 1.75,
	"learning_rate": 6.314967484254186e-06,
	"loss": 1.9454,
	"step": 273000
	},
	{
	"epoch": 1.75,
	"eval_loss": 2.1962130069732666,
	"eval_runtime": 18.6565,
	"eval_samples_per_second": 107.201,
	"eval_steps_per_second": 1.715,
	"step": 273000
	},
	{
	"epoch": 1.75,
	"learning_rate": 6.154949050130575e-06,
	"loss": 1.946,
	"step": 274000
	},
	{
	"epoch": 1.75,
	"eval_loss": 2.157792091369629,
	"eval_runtime": 19.0429,
	"eval_samples_per_second": 105.026,
	"eval_steps_per_second": 1.68,
	"step": 274000
	},
	{
	"epoch": 1.76,
	"learning_rate": 5.994930616006964e-06,
	"loss": 1.9339,
	"step": 275000
	},
	{
	"epoch": 1.76,
	"eval_loss": 2.190920829772949,
	"eval_runtime": 18.7174,
	"eval_samples_per_second": 106.853,
	"eval_steps_per_second": 1.71,
	"step": 275000
	},
	{
	"epoch": 1.77,
	"learning_rate": 5.8349121818833536e-06,
	"loss": 1.9289,
	"step": 276000
	},
	{
	"epoch": 1.77,
	"eval_loss": 2.169802665710449,
	"eval_runtime": 19.7624,
	"eval_samples_per_second": 101.202,
	"eval_steps_per_second": 1.619,
	"step": 276000
	},
	{
	"epoch": 1.77,
	"learning_rate": 5.674893747759742e-06,
	"loss": 1.9284,
	"step": 277000
	},
	{
	"epoch": 1.77,
	"eval_loss": 2.149372100830078,
	"eval_runtime": 18.847,
	"eval_samples_per_second": 106.118,
	"eval_steps_per_second": 1.698,
	"step": 277000
	},
	{
	"epoch": 1.78,
	"learning_rate": 5.514875313636131e-06,
	"loss": 1.9423,
	"step": 278000
	},
	{
	"epoch": 1.78,
	"eval_loss": 2.163377046585083,
	"eval_runtime": 19.097,
	"eval_samples_per_second": 104.728,
	"eval_steps_per_second": 1.676,
	"step": 278000
	},
	{
	"epoch": 1.79,
	"learning_rate": 5.35485687951252e-06,
	"loss": 1.9317,
	"step": 279000
	},
	{
	"epoch": 1.79,
	"eval_loss": 2.129027843475342,
	"eval_runtime": 18.715,
	"eval_samples_per_second": 106.866,
	"eval_steps_per_second": 1.71,
	"step": 279000
	},
	{
	"epoch": 1.79,
	"learning_rate": 5.194838445388909e-06,
	"loss": 1.9216,
	"step": 280000
	},
	{
	"epoch": 1.79,
	"eval_loss": 2.171983480453491,
	"eval_runtime": 18.8986,
	"eval_samples_per_second": 105.828,
	"eval_steps_per_second": 1.693,
	"step": 280000
	},
	{
	"epoch": 1.8,
	"learning_rate": 5.034820011265298e-06,
	"loss": 1.9176,
	"step": 281000
	},
	{
	"epoch": 1.8,
	"eval_loss": 2.1561877727508545,
	"eval_runtime": 18.6229,
	"eval_samples_per_second": 107.395,
	"eval_steps_per_second": 1.718,
	"step": 281000
	},
	{
	"epoch": 1.81,
	"learning_rate": 4.874801577141687e-06,
	"loss": 1.9345,
	"step": 282000
	},
	{
	"epoch": 1.81,
	"eval_loss": 2.1655592918395996,
	"eval_runtime": 18.6917,
	"eval_samples_per_second": 106.999,
	"eval_steps_per_second": 1.712,
	"step": 282000
	},
	{
	"epoch": 1.81,
	"learning_rate": 4.714783143018076e-06,
	"loss": 1.9431,
	"step": 283000
	},
	{
	"epoch": 1.81,
	"eval_loss": 2.1130497455596924,
	"eval_runtime": 18.7533,
	"eval_samples_per_second": 106.648,
	"eval_steps_per_second": 1.706,
	"step": 283000
	},
	{
	"epoch": 1.82,
	"learning_rate": 4.5547647088944646e-06,
	"loss": 1.936,
	"step": 284000
	},
	{
	"epoch": 1.82,
	"eval_loss": 2.1281943321228027,
	"eval_runtime": 18.4643,
	"eval_samples_per_second": 108.317,
	"eval_steps_per_second": 1.733,
	"step": 284000
	},
	{
	"epoch": 1.82,
	"learning_rate": 4.394746274770854e-06,
	"loss": 1.9344,
	"step": 285000
	},
	{
	"epoch": 1.82,
	"eval_loss": 2.142157554626465,
	"eval_runtime": 18.6731,
	"eval_samples_per_second": 107.106,
	"eval_steps_per_second": 1.714,
	"step": 285000
	},
	{
	"epoch": 1.83,
	"learning_rate": 4.234727840647243e-06,
	"loss": 1.9237,
	"step": 286000
	},
	{
	"epoch": 1.83,
	"eval_loss": 2.1462085247039795,
	"eval_runtime": 18.787,
	"eval_samples_per_second": 106.457,
	"eval_steps_per_second": 1.703,
	"step": 286000
	},
	{
	"epoch": 1.84,
	"learning_rate": 4.074709406523631e-06,
	"loss": 1.9309,
	"step": 287000
	},
	{
	"epoch": 1.84,
	"eval_loss": 2.1435041427612305,
	"eval_runtime": 18.7845,
	"eval_samples_per_second": 106.471,
	"eval_steps_per_second": 1.704,
	"step": 287000
	},
	{
	"epoch": 1.84,
	"learning_rate": 3.914690972400021e-06,
	"loss": 1.9239,
	"step": 288000
	},
	{
	"epoch": 1.84,
	"eval_loss": 2.152646064758301,
	"eval_runtime": 18.6983,
	"eval_samples_per_second": 106.961,
	"eval_steps_per_second": 1.711,
	"step": 288000
	},
	{
	"epoch": 1.85,
	"learning_rate": 3.7546725382764097e-06,
	"loss": 1.9168,
	"step": 289000
	},
	{
	"epoch": 1.85,
	"eval_loss": 2.1280956268310547,
	"eval_runtime": 18.8639,
	"eval_samples_per_second": 106.023,
	"eval_steps_per_second": 1.696,
	"step": 289000
	},
	{
	"epoch": 1.86,
	"learning_rate": 3.5946541041527984e-06,
	"loss": 1.9232,
	"step": 290000
	},
	{
	"epoch": 1.86,
	"eval_loss": 2.143430471420288,
	"eval_runtime": 18.873,
	"eval_samples_per_second": 105.971,
	"eval_steps_per_second": 1.696,
	"step": 290000
	},
	{
	"epoch": 1.86,
	"learning_rate": 3.4346356700291876e-06,
	"loss": 1.9338,
	"step": 291000
	},
	{
	"epoch": 1.86,
	"eval_loss": 2.1642520427703857,
	"eval_runtime": 18.6105,
	"eval_samples_per_second": 107.466,
	"eval_steps_per_second": 1.719,
	"step": 291000
	},
	{
	"epoch": 1.87,
	"learning_rate": 3.2746172359055764e-06,
	"loss": 1.9241,
	"step": 292000
	},
	{
	"epoch": 1.87,
	"eval_loss": 2.120400905609131,
	"eval_runtime": 18.6654,
	"eval_samples_per_second": 107.15,
	"eval_steps_per_second": 1.714,
	"step": 292000
	},
	{
	"epoch": 1.88,
	"learning_rate": 3.114598801781965e-06,
	"loss": 1.9209,
	"step": 293000
	},
	{
	"epoch": 1.88,
	"eval_loss": 2.1418490409851074,
	"eval_runtime": 18.986,
	"eval_samples_per_second": 105.341,
	"eval_steps_per_second": 1.685,
	"step": 293000
	},
	{
	"epoch": 1.88,
	"learning_rate": 2.9545803676583543e-06,
	"loss": 1.928,
	"step": 294000
	},
	{
	"epoch": 1.88,
	"eval_loss": 2.1255481243133545,
	"eval_runtime": 18.6322,
	"eval_samples_per_second": 107.341,
	"eval_steps_per_second": 1.717,
	"step": 294000
	},
	{
	"epoch": 1.89,
	"learning_rate": 2.7945619335347435e-06,
	"loss": 1.9482,
	"step": 295000
	},
	{
	"epoch": 1.89,
	"eval_loss": 2.185188055038452,
	"eval_runtime": 18.6065,
	"eval_samples_per_second": 107.489,
	"eval_steps_per_second": 1.72,
	"step": 295000
	},
	{
	"epoch": 1.89,
	"learning_rate": 2.6345434994111323e-06,
	"loss": 1.9276,
	"step": 296000
	},
	{
	"epoch": 1.89,
	"eval_loss": 2.1754209995269775,
	"eval_runtime": 18.6892,
	"eval_samples_per_second": 107.014,
	"eval_steps_per_second": 1.712,
	"step": 296000
	},
	{
	"epoch": 1.9,
	"learning_rate": 2.4745250652875215e-06,
	"loss": 1.9214,
	"step": 297000
	},
	{
	"epoch": 1.9,
	"eval_loss": 2.124568462371826,
	"eval_runtime": 18.6607,
	"eval_samples_per_second": 107.177,
	"eval_steps_per_second": 1.715,
	"step": 297000
	},
	{
	"epoch": 1.91,
	"learning_rate": 2.3145066311639102e-06,
	"loss": 1.9296,
	"step": 298000
	},
	{
	"epoch": 1.91,
	"eval_loss": 2.1418752670288086,
	"eval_runtime": 18.8993,
	"eval_samples_per_second": 105.824,
	"eval_steps_per_second": 1.693,
	"step": 298000
	},
	{
	"epoch": 1.91,
	"learning_rate": 2.154488197040299e-06,
	"loss": 1.9182,
	"step": 299000
	},
	{
	"epoch": 1.91,
	"eval_loss": 2.1427695751190186,
	"eval_runtime": 18.6439,
	"eval_samples_per_second": 107.273,
	"eval_steps_per_second": 1.716,
	"step": 299000
	},
	{
	"epoch": 1.92,
	"learning_rate": 1.994469762916688e-06,
	"loss": 1.9172,
	"step": 300000
	},
	{
	"epoch": 1.92,
	"eval_loss": 2.17488956451416,
	"eval_runtime": 20.0248,
	"eval_samples_per_second": 99.876,
	"eval_steps_per_second": 1.598,
	"step": 300000
	},
	{
	"epoch": 1.93,
	"learning_rate": 1.834451328793077e-06,
	"loss": 1.9054,
	"step": 301000
	},
	{
	"epoch": 1.93,
	"eval_loss": 2.1516401767730713,
	"eval_runtime": 19.1509,
	"eval_samples_per_second": 104.434,
	"eval_steps_per_second": 1.671,
	"step": 301000
	},
	{
	"epoch": 1.93,
	"learning_rate": 1.674432894669466e-06,
	"loss": 1.9209,
	"step": 302000
	},
	{
	"epoch": 1.93,
	"eval_loss": 2.1247944831848145,
	"eval_runtime": 19.0766,
	"eval_samples_per_second": 104.84,
	"eval_steps_per_second": 1.677,
	"step": 302000
	},
	{
	"epoch": 1.94,
	"learning_rate": 1.5144144605458551e-06,
	"loss": 1.9191,
	"step": 303000
	},
	{
	"epoch": 1.94,
	"eval_loss": 2.1422977447509766,
	"eval_runtime": 19.0887,
	"eval_samples_per_second": 104.774,
	"eval_steps_per_second": 1.676,
	"step": 303000
	},
	{
	"epoch": 1.95,
	"learning_rate": 1.354396026422244e-06,
	"loss": 1.9143,
	"step": 304000
	},
	{
	"epoch": 1.95,
	"eval_loss": 2.1302106380462646,
	"eval_runtime": 19.5033,
	"eval_samples_per_second": 102.547,
	"eval_steps_per_second": 1.641,
	"step": 304000
	},
	{
	"epoch": 1.95,
	"learning_rate": 1.1943775922986329e-06,
	"loss": 1.9163,
	"step": 305000
	},
	{
	"epoch": 1.95,
	"eval_loss": 2.16552472114563,
	"eval_runtime": 18.815,
	"eval_samples_per_second": 106.298,
	"eval_steps_per_second": 1.701,
	"step": 305000
	},
	{
	"epoch": 1.96,
	"learning_rate": 1.0343591581750219e-06,
	"loss": 1.915,
	"step": 306000
	},
	{
	"epoch": 1.96,
	"eval_loss": 2.1272425651550293,
	"eval_runtime": 19.1159,
	"eval_samples_per_second": 104.625,
	"eval_steps_per_second": 1.674,
	"step": 306000
	},
	{
	"epoch": 1.97,
	"learning_rate": 8.743407240514107e-07,
	"loss": 1.9193,
	"step": 307000
	},
	{
	"epoch": 1.97,
	"eval_loss": 2.151264190673828,
	"eval_runtime": 18.961,
	"eval_samples_per_second": 105.48,
	"eval_steps_per_second": 1.688,
	"step": 307000
	},
	{
	"epoch": 1.97,
	"learning_rate": 7.143222899277997e-07,
	"loss": 1.9238,
	"step": 308000
	},
	{
	"epoch": 1.97,
	"eval_loss": 2.145237922668457,
	"eval_runtime": 19.4596,
	"eval_samples_per_second": 102.777,
	"eval_steps_per_second": 1.644,
	"step": 308000
	},
	{
	"epoch": 1.98,
	"learning_rate": 5.543038558041887e-07,
	"loss": 1.9129,
	"step": 309000
	},
	{
	"epoch": 1.98,
	"eval_loss": 2.132681369781494,
	"eval_runtime": 18.9129,
	"eval_samples_per_second": 105.748,
	"eval_steps_per_second": 1.692,
	"step": 309000
	},
	{
	"epoch": 1.98,
	"learning_rate": 3.9428542168057766e-07,
	"loss": 1.92,
	"step": 310000
	},
	{
	"epoch": 1.98,
	"eval_loss": 2.1479594707489014,
	"eval_runtime": 18.8663,
	"eval_samples_per_second": 106.009,
	"eval_steps_per_second": 1.696,
	"step": 310000
	},
	{
	"epoch": 1.99,
	"learning_rate": 2.342669875569666e-07,
	"loss": 1.9098,
	"step": 311000
	},
	{
	"epoch": 1.99,
	"eval_loss": 2.171926736831665,
	"eval_runtime": 19.0151,
	"eval_samples_per_second": 105.179,
	"eval_steps_per_second": 1.683,
	"step": 311000
	},
	{
	"epoch": 2.0,
	"learning_rate": 7.424855343335553e-08,
	"loss": 1.9105,
	"step": 312000
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.1461212635040283,
	"eval_runtime": 19.4871,
	"eval_samples_per_second": 102.632,
	"eval_steps_per_second": 1.642,
	"step": 312000
	},
	{
	"epoch": 2.0,
	"learning_rate": 1.6609486746206498e-05,
	"loss": 1.9453,
	"step": 313000
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.190183162689209,
	"eval_runtime": 16.3864,
	"eval_samples_per_second": 122.052,
	"eval_steps_per_second": 1.953,
	"step": 313000
	},
	{
	"epoch": 2.01,
	"learning_rate": 1.650280779012409e-05,
	"loss": 1.9458,
	"step": 314000
	},
	{
	"epoch": 2.01,
	"eval_loss": 2.1692402362823486,
	"eval_runtime": 15.9646,
	"eval_samples_per_second": 125.277,
	"eval_steps_per_second": 2.004,
	"step": 314000
	},
	{
	"epoch": 2.02,
	"learning_rate": 1.639612883404168e-05,
	"loss": 1.9428,
	"step": 315000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.1538236141204834,
	"eval_runtime": 16.0153,
	"eval_samples_per_second": 124.881,
	"eval_steps_per_second": 1.998,
	"step": 315000
	},
	{
	"epoch": 2.02,
	"learning_rate": 1.6289449877959276e-05,
	"loss": 1.9488,
	"step": 316000
	},
	{
	"epoch": 2.02,
	"eval_loss": 2.153665542602539,
	"eval_runtime": 16.1132,
	"eval_samples_per_second": 124.122,
	"eval_steps_per_second": 1.986,
	"step": 316000
	},
	{
	"epoch": 2.03,
	"learning_rate": 1.6182770921876865e-05,
	"loss": 1.9437,
	"step": 317000
	},
	{
	"epoch": 2.03,
	"eval_loss": 2.1973447799682617,
	"eval_runtime": 17.5461,
	"eval_samples_per_second": 113.986,
	"eval_steps_per_second": 1.824,
	"step": 317000
	},
	{
	"epoch": 2.04,
	"learning_rate": 1.607609196579446e-05,
	"loss": 1.9487,
	"step": 318000
	},
	{
	"epoch": 2.04,
	"eval_loss": 2.1677041053771973,
	"eval_runtime": 15.9539,
	"eval_samples_per_second": 125.361,
	"eval_steps_per_second": 2.006,
	"step": 318000
	},
	{
	"epoch": 2.04,
	"learning_rate": 1.596941300971205e-05,
	"loss": 1.9559,
	"step": 319000
	},
	{
	"epoch": 2.04,
	"eval_loss": 2.155820369720459,
	"eval_runtime": 16.1853,
	"eval_samples_per_second": 123.569,
	"eval_steps_per_second": 1.977,
	"step": 319000
	},
	{
	"epoch": 2.05,
	"learning_rate": 1.5862734053629647e-05,
	"loss": 1.9662,
	"step": 320000
	},
	{
	"epoch": 2.05,
	"eval_loss": 2.1629369258880615,
	"eval_runtime": 16.6642,
	"eval_samples_per_second": 120.018,
	"eval_steps_per_second": 1.92,
	"step": 320000
	},
	{
	"epoch": 2.05,
	"learning_rate": 1.5756055097547238e-05,
	"loss": 1.9556,
	"step": 321000
	},
	{
	"epoch": 2.05,
	"eval_loss": 2.1815614700317383,
	"eval_runtime": 16.5814,
	"eval_samples_per_second": 120.617,
	"eval_steps_per_second": 1.93,
	"step": 321000
	},
	{
	"epoch": 2.06,
	"learning_rate": 1.564937614146483e-05,
	"loss": 1.9512,
	"step": 322000
	},
	{
	"epoch": 2.06,
	"eval_loss": 2.1164066791534424,
	"eval_runtime": 15.9298,
	"eval_samples_per_second": 125.551,
	"eval_steps_per_second": 2.009,
	"step": 322000
	},
	{
	"epoch": 2.07,
	"learning_rate": 1.5542697185382425e-05,
	"loss": 1.9544,
	"step": 323000
	},
	{
	"epoch": 2.07,
	"eval_loss": 2.165865659713745,
	"eval_runtime": 15.883,
	"eval_samples_per_second": 125.921,
	"eval_steps_per_second": 2.015,
	"step": 323000
	},
	{
	"epoch": 2.07,
	"learning_rate": 1.5436018229300017e-05,
	"loss": 1.9568,
	"step": 324000
	},
	{
	"epoch": 2.07,
	"eval_loss": 2.1747090816497803,
	"eval_runtime": 15.9331,
	"eval_samples_per_second": 125.525,
	"eval_steps_per_second": 2.008,
	"step": 324000
	},
	{
	"epoch": 2.08,
	"learning_rate": 1.5329339273217608e-05,
	"loss": 1.9449,
	"step": 325000
	},
	{
	"epoch": 2.08,
	"eval_loss": 2.1862990856170654,
	"eval_runtime": 16.6952,
	"eval_samples_per_second": 119.795,
	"eval_steps_per_second": 1.917,
	"step": 325000
	},
	{
	"epoch": 2.09,
	"learning_rate": 1.5222660317135202e-05,
	"loss": 1.9491,
	"step": 326000
	},
	{
	"epoch": 2.09,
	"eval_loss": 2.1621673107147217,
	"eval_runtime": 15.9325,
	"eval_samples_per_second": 125.529,
	"eval_steps_per_second": 2.008,
	"step": 326000
	},
	{
	"epoch": 2.09,
	"learning_rate": 1.5115981361052795e-05,
	"loss": 1.9526,
	"step": 327000
	},
	{
	"epoch": 2.09,
	"eval_loss": 2.1826863288879395,
	"eval_runtime": 15.8228,
	"eval_samples_per_second": 126.4,
	"eval_steps_per_second": 2.022,
	"step": 327000
	},
	{
	"epoch": 2.1,
	"learning_rate": 1.5009302404970388e-05,
	"loss": 1.952,
	"step": 328000
	},
	{
	"epoch": 2.1,
	"eval_loss": 2.1913392543792725,
	"eval_runtime": 16.1458,
	"eval_samples_per_second": 123.871,
	"eval_steps_per_second": 1.982,
	"step": 328000
	},
	{
	"epoch": 2.11,
	"learning_rate": 1.4902623448887978e-05,
	"loss": 1.9545,
	"step": 329000
	},
	{
	"epoch": 2.11,
	"eval_loss": 2.18023681640625,
	"eval_runtime": 16.3141,
	"eval_samples_per_second": 122.593,
	"eval_steps_per_second": 1.961,
	"step": 329000
	},
	{
	"epoch": 2.11,
	"learning_rate": 1.4795944492805572e-05,
	"loss": 1.9616,
	"step": 330000
	},
	{
	"epoch": 2.11,
	"eval_loss": 2.178854465484619,
	"eval_runtime": 15.9442,
	"eval_samples_per_second": 125.438,
	"eval_steps_per_second": 2.007,
	"step": 330000
	},
	{
	"epoch": 2.12,
	"learning_rate": 1.4689265536723165e-05,
	"loss": 1.9515,
	"step": 331000
	},
	{
	"epoch": 2.12,
	"eval_loss": 2.1725854873657227,
	"eval_runtime": 15.939,
	"eval_samples_per_second": 125.478,
	"eval_steps_per_second": 2.008,
	"step": 331000
	},
	{
	"epoch": 2.13,
	"learning_rate": 1.4582586580640758e-05,
	"loss": 1.9484,
	"step": 332000
	},
	{
	"epoch": 2.13,
	"eval_loss": 2.1632540225982666,
	"eval_runtime": 16.7042,
	"eval_samples_per_second": 119.731,
	"eval_steps_per_second": 1.916,
	"step": 332000
	},
	{
	"epoch": 2.13,
	"learning_rate": 1.4475907624558348e-05,
	"loss": 1.962,
	"step": 333000
	},
	{
	"epoch": 2.13,
	"eval_loss": 2.1514594554901123,
	"eval_runtime": 15.9872,
	"eval_samples_per_second": 125.1,
	"eval_steps_per_second": 2.002,
	"step": 333000
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.4369228668475942e-05,
	"loss": 1.9563,
	"step": 334000
	},
	{
	"epoch": 2.14,
	"eval_loss": 2.18198299407959,
	"eval_runtime": 16.1962,
	"eval_samples_per_second": 123.486,
	"eval_steps_per_second": 1.976,
	"step": 334000
	},
	{
	"epoch": 2.14,
	"learning_rate": 1.4262549712393535e-05,
	"loss": 1.9544,
	"step": 335000
	},
	{
	"epoch": 2.14,
	"eval_loss": 2.168269634246826,
	"eval_runtime": 16.3411,
	"eval_samples_per_second": 122.391,
	"eval_steps_per_second": 1.958,
	"step": 335000
	},
	{
	"epoch": 2.15,
	"learning_rate": 1.4155870756311127e-05,
	"loss": 1.9509,
	"step": 336000
	},
	{
	"epoch": 2.15,
	"eval_loss": 2.157496690750122,
	"eval_runtime": 16.7663,
	"eval_samples_per_second": 119.287,
	"eval_steps_per_second": 1.909,
	"step": 336000
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.404919180022872e-05,
	"loss": 1.9527,
	"step": 337000
	},
	{
	"epoch": 2.16,
	"eval_loss": 2.162778377532959,
	"eval_runtime": 16.4574,
	"eval_samples_per_second": 121.526,
	"eval_steps_per_second": 1.944,
	"step": 337000
	},
	{
	"epoch": 2.16,
	"learning_rate": 1.3942512844146313e-05,
	"loss": 1.9455,
	"step": 338000
	},
	{
	"epoch": 2.16,
	"eval_loss": 2.2115304470062256,
	"eval_runtime": 15.9425,
	"eval_samples_per_second": 125.451,
	"eval_steps_per_second": 2.007,
	"step": 338000
	},
	{
	"epoch": 2.17,
	"learning_rate": 1.3835833888063907e-05,
	"loss": 1.9443,
	"step": 339000
	},
	{
	"epoch": 2.17,
	"eval_loss": 2.1575698852539062,
	"eval_runtime": 16.1638,
	"eval_samples_per_second": 123.734,
	"eval_steps_per_second": 1.98,
	"step": 339000
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.3729154931981497e-05,
	"loss": 1.9471,
	"step": 340000
	},
	{
	"epoch": 2.18,
	"eval_loss": 2.163440465927124,
	"eval_runtime": 16.5887,
	"eval_samples_per_second": 120.564,
	"eval_steps_per_second": 1.929,
	"step": 340000
	},
	{
	"epoch": 2.18,
	"learning_rate": 1.362247597589909e-05,
	"loss": 1.9385,
	"step": 341000
	},
	{
	"epoch": 2.18,
	"eval_loss": 2.1808547973632812,
	"eval_runtime": 16.0292,
	"eval_samples_per_second": 124.773,
	"eval_steps_per_second": 1.996,
	"step": 341000
	},
	{
	"epoch": 2.19,
	"learning_rate": 1.3515797019816683e-05,
	"loss": 1.9472,
	"step": 342000
	},
	{
	"epoch": 2.19,
	"eval_loss": 2.1804370880126953,
	"eval_runtime": 16.1599,
	"eval_samples_per_second": 123.763,
	"eval_steps_per_second": 1.98,
	"step": 342000
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.3409118063734277e-05,
	"loss": 1.9578,
	"step": 343000
	},
	{
	"epoch": 2.2,
	"eval_loss": 2.172938346862793,
	"eval_runtime": 16.4066,
	"eval_samples_per_second": 121.902,
	"eval_steps_per_second": 1.95,
	"step": 343000
	},
	{
	"epoch": 2.2,
	"learning_rate": 1.3302439107651868e-05,
	"loss": 1.9501,
	"step": 344000
	},
	{
	"epoch": 2.2,
	"eval_loss": 2.1206016540527344,
	"eval_runtime": 16.7126,
	"eval_samples_per_second": 119.67,
	"eval_steps_per_second": 1.915,
	"step": 344000
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.3195760151569462e-05,
	"loss": 1.9363,
	"step": 345000
	},
	{
	"epoch": 2.21,
	"eval_loss": 2.1700916290283203,
	"eval_runtime": 15.9452,
	"eval_samples_per_second": 125.43,
	"eval_steps_per_second": 2.007,
	"step": 345000
	},
	{
	"epoch": 2.21,
	"learning_rate": 1.3089081195487055e-05,
	"loss": 1.9452,
	"step": 346000
	},
	{
	"epoch": 2.21,
	"eval_loss": 2.1466197967529297,
	"eval_runtime": 16.0688,
	"eval_samples_per_second": 124.465,
	"eval_steps_per_second": 1.991,
	"step": 346000
	},
	{
	"epoch": 2.22,
	"learning_rate": 1.2982402239404649e-05,
	"loss": 1.9544,
	"step": 347000
	},
	{
	"epoch": 2.22,
	"eval_loss": 2.118955135345459,
	"eval_runtime": 16.4559,
	"eval_samples_per_second": 121.537,
	"eval_steps_per_second": 1.945,
	"step": 347000
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.2875723283322239e-05,
	"loss": 1.9442,
	"step": 348000
	},
	{
	"epoch": 2.23,
	"eval_loss": 2.2223548889160156,
	"eval_runtime": 15.9342,
	"eval_samples_per_second": 125.516,
	"eval_steps_per_second": 2.008,
	"step": 348000
	},
	{
	"epoch": 2.23,
	"learning_rate": 1.2769044327239832e-05,
	"loss": 1.949,
	"step": 349000
	},
	{
	"epoch": 2.23,
	"eval_loss": 2.1240313053131104,
	"eval_runtime": 16.1322,
	"eval_samples_per_second": 123.975,
	"eval_steps_per_second": 1.984,
	"step": 349000
	},
	{
	"epoch": 2.24,
	"learning_rate": 1.2662365371157425e-05,
	"loss": 1.9524,
	"step": 350000
	},
	{
	"epoch": 2.24,
	"eval_loss": 2.2078564167022705,
	"eval_runtime": 15.9714,
	"eval_samples_per_second": 125.224,
	"eval_steps_per_second": 2.004,
	"step": 350000
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.2555686415075015e-05,
	"loss": 1.9371,
	"step": 351000
	},
	{
	"epoch": 2.25,
	"eval_loss": 2.1884605884552,
	"eval_runtime": 17.7436,
	"eval_samples_per_second": 112.717,
	"eval_steps_per_second": 1.803,
	"step": 351000
	},
	{
	"epoch": 2.25,
	"learning_rate": 1.2449007458992609e-05,
	"loss": 1.9474,
	"step": 352000
	},
	{
	"epoch": 2.25,
	"eval_loss": 2.165747880935669,
	"eval_runtime": 15.9774,
	"eval_samples_per_second": 125.177,
	"eval_steps_per_second": 2.003,
	"step": 352000
	},
	{
	"epoch": 2.26,
	"learning_rate": 1.2342328502910202e-05,
	"loss": 1.9444,
	"step": 353000
	},
	{
	"epoch": 2.26,
	"eval_loss": 2.180070161819458,
	"eval_runtime": 15.9059,
	"eval_samples_per_second": 125.74,
	"eval_steps_per_second": 2.012,
	"step": 353000
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.2235649546827795e-05,
	"loss": 1.9381,
	"step": 354000
	},
	{
	"epoch": 2.27,
	"eval_loss": 2.195138931274414,
	"eval_runtime": 15.4982,
	"eval_samples_per_second": 129.047,
	"eval_steps_per_second": 2.065,
	"step": 354000
	},
	{
	"epoch": 2.27,
	"learning_rate": 1.2128970590745389e-05,
	"loss": 1.9462,
	"step": 355000
	},
	{
	"epoch": 2.27,
	"eval_loss": 2.197645902633667,
	"eval_runtime": 16.2722,
	"eval_samples_per_second": 122.909,
	"eval_steps_per_second": 1.967,
	"step": 355000
	},
	{
	"epoch": 2.28,
	"learning_rate": 1.202229163466298e-05,
	"loss": 1.9312,
	"step": 356000
	},
	{
	"epoch": 2.28,
	"eval_loss": 2.1800289154052734,
	"eval_runtime": 15.5962,
	"eval_samples_per_second": 128.236,
	"eval_steps_per_second": 2.052,
	"step": 356000
	},
	{
	"epoch": 2.29,
	"learning_rate": 1.1915612678580574e-05,
	"loss": 1.9379,
	"step": 357000
	},
	{
	"epoch": 2.29,
	"eval_loss": 2.175736427307129,
	"eval_runtime": 15.9665,
	"eval_samples_per_second": 125.262,
	"eval_steps_per_second": 2.004,
	"step": 357000
	},
	{
	"epoch": 2.29,
	"learning_rate": 1.1808933722498165e-05,
	"loss": 1.9435,
	"step": 358000
	},
	{
	"epoch": 2.29,
	"eval_loss": 2.205449104309082,
	"eval_runtime": 15.7121,
	"eval_samples_per_second": 127.291,
	"eval_steps_per_second": 2.037,
	"step": 358000
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.1702254766415759e-05,
	"loss": 1.9448,
	"step": 359000
	},
	{
	"epoch": 2.3,
	"eval_loss": 2.173300266265869,
	"eval_runtime": 16.397,
	"eval_samples_per_second": 121.974,
	"eval_steps_per_second": 1.952,
	"step": 359000
	},
	{
	"epoch": 2.3,
	"learning_rate": 1.159557581033335e-05,
	"loss": 1.9529,
	"step": 360000
	},
	{
	"epoch": 2.3,
	"eval_loss": 2.145735263824463,
	"eval_runtime": 15.5694,
	"eval_samples_per_second": 128.457,
	"eval_steps_per_second": 2.055,
	"step": 360000
	},
	{
	"epoch": 2.31,
	"learning_rate": 1.1488896854250944e-05,
	"loss": 1.9444,
	"step": 361000
	},
	{
	"epoch": 2.31,
	"eval_loss": 2.1839778423309326,
	"eval_runtime": 15.6504,
	"eval_samples_per_second": 127.792,
	"eval_steps_per_second": 2.045,
	"step": 361000
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.1382217898168535e-05,
	"loss": 1.9439,
	"step": 362000
	},
	{
	"epoch": 2.32,
	"eval_loss": 2.128485918045044,
	"eval_runtime": 15.7866,
	"eval_samples_per_second": 126.69,
	"eval_steps_per_second": 2.027,
	"step": 362000
	},
	{
	"epoch": 2.32,
	"learning_rate": 1.1275538942086129e-05,
	"loss": 1.9345,
	"step": 363000
	},
	{
	"epoch": 2.32,
	"eval_loss": 2.16981840133667,
	"eval_runtime": 16.0509,
	"eval_samples_per_second": 124.604,
	"eval_steps_per_second": 1.994,
	"step": 363000
	},
	{
	"epoch": 2.33,
	"learning_rate": 1.1168859986003722e-05,
	"loss": 1.9355,
	"step": 364000
	},
	{
	"epoch": 2.33,
	"eval_loss": 2.1235830783843994,
	"eval_runtime": 15.5068,
	"eval_samples_per_second": 128.975,
	"eval_steps_per_second": 2.064,
	"step": 364000
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.1062181029921315e-05,
	"loss": 1.9385,
	"step": 365000
	},
	{
	"epoch": 2.34,
	"eval_loss": 2.1465463638305664,
	"eval_runtime": 15.3143,
	"eval_samples_per_second": 130.597,
	"eval_steps_per_second": 2.09,
	"step": 365000
	},
	{
	"epoch": 2.34,
	"learning_rate": 1.0955502073838907e-05,
	"loss": 1.9425,
	"step": 366000
	},
	{
	"epoch": 2.34,
	"eval_loss": 2.1613283157348633,
	"eval_runtime": 15.466,
	"eval_samples_per_second": 129.316,
	"eval_steps_per_second": 2.069,
	"step": 366000
	},
	{
	"epoch": 2.35,
	"learning_rate": 1.08488231177565e-05,
	"loss": 1.9304,
	"step": 367000
	},
	{
	"epoch": 2.35,
	"eval_loss": 2.172750949859619,
	"eval_runtime": 15.5842,
	"eval_samples_per_second": 128.335,
	"eval_steps_per_second": 2.053,
	"step": 367000
	},
	{
	"epoch": 2.36,
	"learning_rate": 1.0742144161674092e-05,
	"loss": 1.9339,
	"step": 368000
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.148078680038452,
	"eval_runtime": 15.9481,
	"eval_samples_per_second": 125.407,
	"eval_steps_per_second": 2.007,
	"step": 368000
	},
	{
	"epoch": 2.36,
	"learning_rate": 1.0635465205591686e-05,
	"loss": 1.9463,
	"step": 369000
	},
	{
	"epoch": 2.36,
	"eval_loss": 2.1650550365448,
	"eval_runtime": 15.3617,
	"eval_samples_per_second": 130.194,
	"eval_steps_per_second": 2.083,
	"step": 369000
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.0528786249509277e-05,
	"loss": 1.9407,
	"step": 370000
	},
	{
	"epoch": 2.37,
	"eval_loss": 2.1432077884674072,
	"eval_runtime": 15.1001,
	"eval_samples_per_second": 132.45,
	"eval_steps_per_second": 2.119,
	"step": 370000
	},
	{
	"epoch": 2.37,
	"learning_rate": 1.0422107293426869e-05,
	"loss": 1.9453,
	"step": 371000
	},
	{
	"epoch": 2.37,
	"eval_loss": 2.147706985473633,
	"eval_runtime": 15.9626,
	"eval_samples_per_second": 125.293,
	"eval_steps_per_second": 2.005,
	"step": 371000
	},
	{
	"epoch": 2.38,
	"learning_rate": 1.0315428337344462e-05,
	"loss": 1.9368,
	"step": 372000
	},
	{
	"epoch": 2.38,
	"eval_loss": 2.184664249420166,
	"eval_runtime": 15.5454,
	"eval_samples_per_second": 128.656,
	"eval_steps_per_second": 2.058,
	"step": 372000
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.0208749381262054e-05,
	"loss": 1.9407,
	"step": 373000
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.1857311725616455,
	"eval_runtime": 15.3498,
	"eval_samples_per_second": 130.295,
	"eval_steps_per_second": 2.085,
	"step": 373000
	},
	{
	"epoch": 2.39,
	"learning_rate": 1.0102070425179647e-05,
	"loss": 1.934,
	"step": 374000
	},
	{
	"epoch": 2.39,
	"eval_loss": 2.119173765182495,
	"eval_runtime": 15.4006,
	"eval_samples_per_second": 129.865,
	"eval_steps_per_second": 2.078,
	"step": 374000
	},
	{
	"epoch": 2.4,
	"learning_rate": 9.99539146909724e-06,
	"loss": 1.9297,
	"step": 375000
	},
	{
	"epoch": 2.4,
	"eval_loss": 2.1658694744110107,
	"eval_runtime": 15.796,
	"eval_samples_per_second": 126.615,
	"eval_steps_per_second": 2.026,
	"step": 375000
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.888712513014834e-06,
	"loss": 1.9298,
	"step": 376000
	},
	{
	"epoch": 2.41,
	"eval_loss": 2.171632766723633,
	"eval_runtime": 15.3482,
	"eval_samples_per_second": 130.308,
	"eval_steps_per_second": 2.085,
	"step": 376000
	},
	{
	"epoch": 2.41,
	"learning_rate": 9.782033556932426e-06,
	"loss": 1.9267,
	"step": 377000
	},
	{
	"epoch": 2.41,
	"eval_loss": 2.1282413005828857,
	"eval_runtime": 15.2611,
	"eval_samples_per_second": 131.052,
	"eval_steps_per_second": 2.097,
	"step": 377000
	},
	{
	"epoch": 2.42,
	"learning_rate": 9.675354600850019e-06,
	"loss": 1.9387,
	"step": 378000
	},
	{
	"epoch": 2.42,
	"eval_loss": 2.175699472427368,
	"eval_runtime": 15.3352,
	"eval_samples_per_second": 130.419,
	"eval_steps_per_second": 2.087,
	"step": 378000
	},
	{
	"epoch": 2.43,
	"learning_rate": 9.56867564476761e-06,
	"loss": 1.9235,
	"step": 379000
	},
	{
	"epoch": 2.43,
	"eval_loss": 2.1758999824523926,
	"eval_runtime": 16.089,
	"eval_samples_per_second": 124.309,
	"eval_steps_per_second": 1.989,
	"step": 379000
	},
	{
	"epoch": 2.43,
	"learning_rate": 9.461996688685204e-06,
	"loss": 1.9265,
	"step": 380000
	},
	{
	"epoch": 2.43,
	"eval_loss": 2.163534164428711,
	"eval_runtime": 15.2326,
	"eval_samples_per_second": 131.297,
	"eval_steps_per_second": 2.101,
	"step": 380000
	},
	{
	"epoch": 2.44,
	"learning_rate": 9.355317732602796e-06,
	"loss": 1.9151,
	"step": 381000
	},
	{
	"epoch": 2.44,
	"eval_loss": 2.1671011447906494,
	"eval_runtime": 15.2621,
	"eval_samples_per_second": 131.044,
	"eval_steps_per_second": 2.097,
	"step": 381000
	},
	{
	"epoch": 2.45,
	"learning_rate": 9.248638776520389e-06,
	"loss": 1.9262,
	"step": 382000
	},
	{
	"epoch": 2.45,
	"eval_loss": 2.144550323486328,
	"eval_runtime": 15.6946,
	"eval_samples_per_second": 127.432,
	"eval_steps_per_second": 2.039,
	"step": 382000
	},
	{
	"epoch": 2.45,
	"learning_rate": 9.14195982043798e-06,
	"loss": 1.9311,
	"step": 383000
	},
	{
	"epoch": 2.45,
	"eval_loss": 2.1890273094177246,
	"eval_runtime": 15.377,
	"eval_samples_per_second": 130.065,
	"eval_steps_per_second": 2.081,
	"step": 383000
	},
	{
	"epoch": 2.46,
	"learning_rate": 9.035280864355574e-06,
	"loss": 1.9305,
	"step": 384000
	},
	{
	"epoch": 2.46,
	"eval_loss": 2.166837692260742,
	"eval_runtime": 15.3262,
	"eval_samples_per_second": 130.496,
	"eval_steps_per_second": 2.088,
	"step": 384000
	},
	{
	"epoch": 2.46,
	"learning_rate": 8.928601908273167e-06,
	"loss": 1.9237,
	"step": 385000
	},
	{
	"epoch": 2.46,
	"eval_loss": 2.0922629833221436,
	"eval_runtime": 15.1049,
	"eval_samples_per_second": 132.408,
	"eval_steps_per_second": 2.119,
	"step": 385000
	},
	{
	"epoch": 2.47,
	"learning_rate": 8.82192295219076e-06,
	"loss": 1.9256,
	"step": 386000
	},
	{
	"epoch": 2.47,
	"eval_loss": 2.1387295722961426,
	"eval_runtime": 15.8611,
	"eval_samples_per_second": 126.095,
	"eval_steps_per_second": 2.018,
	"step": 386000
	},
	{
	"epoch": 2.48,
	"learning_rate": 8.715243996108352e-06,
	"loss": 1.9339,
	"step": 387000
	},
	{
	"epoch": 2.48,
	"eval_loss": 2.160367250442505,
	"eval_runtime": 15.4895,
	"eval_samples_per_second": 129.12,
	"eval_steps_per_second": 2.066,
	"step": 387000
	},
	{
	"epoch": 2.48,
	"learning_rate": 8.608565040025944e-06,
	"loss": 1.925,
	"step": 388000
	},
	{
	"epoch": 2.48,
	"eval_loss": 2.1711387634277344,
	"eval_runtime": 15.39,
	"eval_samples_per_second": 129.955,
	"eval_steps_per_second": 2.079,
	"step": 388000
	},
	{
	"epoch": 2.49,
	"learning_rate": 8.501886083943537e-06,
	"loss": 1.9185,
	"step": 389000
	},
	{
	"epoch": 2.49,
	"eval_loss": 2.1491212844848633,
	"eval_runtime": 15.607,
	"eval_samples_per_second": 128.147,
	"eval_steps_per_second": 2.05,
	"step": 389000
	},
	{
	"epoch": 2.5,
	"learning_rate": 8.395207127861129e-06,
	"loss": 1.9214,
	"step": 390000
	},
	{
	"epoch": 2.5,
	"eval_loss": 2.1444971561431885,
	"eval_runtime": 15.4605,
	"eval_samples_per_second": 129.362,
	"eval_steps_per_second": 2.07,
	"step": 390000
	},
	{
	"epoch": 2.5,
	"learning_rate": 8.288528171778722e-06,
	"loss": 1.928,
	"step": 391000
	},
	{
	"epoch": 2.5,
	"eval_loss": 2.1359145641326904,
	"eval_runtime": 15.6126,
	"eval_samples_per_second": 128.102,
	"eval_steps_per_second": 2.05,
	"step": 391000
	},
	{
	"epoch": 2.51,
	"learning_rate": 8.181849215696314e-06,
	"loss": 1.9243,
	"step": 392000
	},
	{
	"epoch": 2.51,
	"eval_loss": 2.156005620956421,
	"eval_runtime": 15.7238,
	"eval_samples_per_second": 127.196,
	"eval_steps_per_second": 2.035,
	"step": 392000
	},
	{
	"epoch": 2.52,
	"learning_rate": 8.075170259613907e-06,
	"loss": 1.9096,
	"step": 393000
	},
	{
	"epoch": 2.52,
	"eval_loss": 2.1110196113586426,
	"eval_runtime": 15.176,
	"eval_samples_per_second": 131.787,
	"eval_steps_per_second": 2.109,
	"step": 393000
	},
	{
	"epoch": 2.52,
	"learning_rate": 7.9684913035315e-06,
	"loss": 1.9254,
	"step": 394000
	},
	{
	"epoch": 2.52,
	"eval_loss": 2.135141611099243,
	"eval_runtime": 15.4036,
	"eval_samples_per_second": 129.84,
	"eval_steps_per_second": 2.077,
	"step": 394000
	},
	{
	"epoch": 2.53,
	"learning_rate": 7.861812347449094e-06,
	"loss": 1.9214,
	"step": 395000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.1366610527038574,
	"eval_runtime": 15.7136,
	"eval_samples_per_second": 127.279,
	"eval_steps_per_second": 2.036,
	"step": 395000
	},
	{
	"epoch": 2.53,
	"learning_rate": 7.755133391366686e-06,
	"loss": 1.9229,
	"step": 396000
	},
	{
	"epoch": 2.53,
	"eval_loss": 2.1293559074401855,
	"eval_runtime": 15.3708,
	"eval_samples_per_second": 130.117,
	"eval_steps_per_second": 2.082,
	"step": 396000
	},
	{
	"epoch": 2.54,
	"learning_rate": 7.64845443528428e-06,
	"loss": 1.9166,
	"step": 397000
	},
	{
	"epoch": 2.54,
	"eval_loss": 2.1272215843200684,
	"eval_runtime": 15.7644,
	"eval_samples_per_second": 126.868,
	"eval_steps_per_second": 2.03,
	"step": 397000
	},
	{
	"epoch": 2.55,
	"learning_rate": 7.541775479201871e-06,
	"loss": 1.9152,
	"step": 398000
	},
	{
	"epoch": 2.55,
	"eval_loss": 2.1080117225646973,
	"eval_runtime": 15.3816,
	"eval_samples_per_second": 130.026,
	"eval_steps_per_second": 2.08,
	"step": 398000
	},
	{
	"epoch": 2.55,
	"learning_rate": 7.435096523119464e-06,
	"loss": 1.9138,
	"step": 399000
	},
	{
	"epoch": 2.55,
	"eval_loss": 2.156583309173584,
	"eval_runtime": 15.5093,
	"eval_samples_per_second": 128.955,
	"eval_steps_per_second": 2.063,
	"step": 399000
	},
	{
	"epoch": 2.56,
	"learning_rate": 7.328417567037056e-06,
	"loss": 1.9193,
	"step": 400000
	},
	{
	"epoch": 2.56,
	"eval_loss": 2.1462528705596924,
	"eval_runtime": 15.6345,
	"eval_samples_per_second": 127.923,
	"eval_steps_per_second": 2.047,
	"step": 400000
	},
	{
	"epoch": 2.57,
	"learning_rate": 7.221738610954649e-06,
	"loss": 1.9216,
	"step": 401000
	},
	{
	"epoch": 2.57,
	"eval_loss": 2.1311724185943604,
	"eval_runtime": 15.5304,
	"eval_samples_per_second": 128.78,
	"eval_steps_per_second": 2.06,
	"step": 401000
	},
	{
	"epoch": 2.57,
	"learning_rate": 7.115059654872242e-06,
	"loss": 1.9171,
	"step": 402000
	},
	{
	"epoch": 2.57,
	"eval_loss": 2.1334073543548584,
	"eval_runtime": 15.6034,
	"eval_samples_per_second": 128.177,
	"eval_steps_per_second": 2.051,
	"step": 402000
	},
	{
	"epoch": 2.58,
	"learning_rate": 7.008380698789835e-06,
	"loss": 1.9148,
	"step": 403000
	},
	{
	"epoch": 2.58,
	"eval_loss": 2.1480307579040527,
	"eval_runtime": 15.4786,
	"eval_samples_per_second": 129.211,
	"eval_steps_per_second": 2.067,
	"step": 403000
	},
	{
	"epoch": 2.59,
	"learning_rate": 6.901701742707427e-06,
	"loss": 1.9204,
	"step": 404000
	},
	{
	"epoch": 2.59,
	"eval_loss": 2.1620922088623047,
	"eval_runtime": 17.9933,
	"eval_samples_per_second": 111.152,
	"eval_steps_per_second": 1.778,
	"step": 404000
	},
	{
	"epoch": 2.59,
	"learning_rate": 6.79502278662502e-06,
	"loss": 1.9163,
	"step": 405000
	},
	{
	"epoch": 2.59,
	"eval_loss": 2.1261579990386963,
	"eval_runtime": 15.7916,
	"eval_samples_per_second": 126.65,
	"eval_steps_per_second": 2.026,
	"step": 405000
	},
	{
	"epoch": 2.6,
	"learning_rate": 6.688343830542612e-06,
	"loss": 1.9147,
	"step": 406000
	},
	{
	"epoch": 2.6,
	"eval_loss": 2.134714365005493,
	"eval_runtime": 15.563,
	"eval_samples_per_second": 128.51,
	"eval_steps_per_second": 2.056,
	"step": 406000
	},
	{
	"epoch": 2.61,
	"learning_rate": 6.581664874460204e-06,
	"loss": 1.9107,
	"step": 407000
	},
	{
	"epoch": 2.61,
	"eval_loss": 2.094939947128296,
	"eval_runtime": 15.3395,
	"eval_samples_per_second": 130.383,
	"eval_steps_per_second": 2.086,
	"step": 407000
	},
	{
	"epoch": 2.61,
	"learning_rate": 6.474985918377798e-06,
	"loss": 1.9185,
	"step": 408000
	},
	{
	"epoch": 2.61,
	"eval_loss": 2.1135287284851074,
	"eval_runtime": 15.2587,
	"eval_samples_per_second": 131.072,
	"eval_steps_per_second": 2.097,
	"step": 408000
	},
	{
	"epoch": 2.62,
	"learning_rate": 6.368306962295389e-06,
	"loss": 1.9134,
	"step": 409000
	},
	{
	"epoch": 2.62,
	"eval_loss": 2.1412642002105713,
	"eval_runtime": 15.702,
	"eval_samples_per_second": 127.372,
	"eval_steps_per_second": 2.038,
	"step": 409000
	},
	{
	"epoch": 2.62,
	"learning_rate": 6.261628006212983e-06,
	"loss": 1.9144,
	"step": 410000
	},
	{
	"epoch": 2.62,
	"eval_loss": 2.1682534217834473,
	"eval_runtime": 15.4072,
	"eval_samples_per_second": 129.81,
	"eval_steps_per_second": 2.077,
	"step": 410000
	},
	{
	"epoch": 2.63,
	"learning_rate": 6.154949050130575e-06,
	"loss": 1.9086,
	"step": 411000
	},
	{
	"epoch": 2.63,
	"eval_loss": 2.141894578933716,
	"eval_runtime": 15.208,
	"eval_samples_per_second": 131.51,
	"eval_steps_per_second": 2.104,
	"step": 411000
	},
	{
	"epoch": 2.64,
	"learning_rate": 6.0482700940481686e-06,
	"loss": 1.9101,
	"step": 412000
	},
	{
	"epoch": 2.64,
	"eval_loss": 2.1342506408691406,
	"eval_runtime": 15.2405,
	"eval_samples_per_second": 131.229,
	"eval_steps_per_second": 2.1,
	"step": 412000
	},
	{
	"epoch": 2.64,
	"learning_rate": 5.941591137965761e-06,
	"loss": 1.9086,
	"step": 413000
	},
	{
	"epoch": 2.64,
	"eval_loss": 2.097320318222046,
	"eval_runtime": 15.5657,
	"eval_samples_per_second": 128.488,
	"eval_steps_per_second": 2.056,
	"step": 413000
	},
	{
	"epoch": 2.65,
	"learning_rate": 5.8349121818833536e-06,
	"loss": 1.9089,
	"step": 414000
	},
	{
	"epoch": 2.65,
	"eval_loss": 2.1229472160339355,
	"eval_runtime": 15.1808,
	"eval_samples_per_second": 131.746,
	"eval_steps_per_second": 2.108,
	"step": 414000
	},
	{
	"epoch": 2.66,
	"learning_rate": 5.728233225800946e-06,
	"loss": 1.915,
	"step": 415000
	},
	{
	"epoch": 2.66,
	"eval_loss": 2.1642491817474365,
	"eval_runtime": 15.6522,
	"eval_samples_per_second": 127.777,
	"eval_steps_per_second": 2.044,
	"step": 415000
	},
	{
	"epoch": 2.66,
	"learning_rate": 5.621554269718539e-06,
	"loss": 1.914,
	"step": 416000
	},
	{
	"epoch": 2.66,
	"eval_loss": 2.1208455562591553,
	"eval_runtime": 15.453,
	"eval_samples_per_second": 129.425,
	"eval_steps_per_second": 2.071,
	"step": 416000
	},
	{
	"epoch": 2.67,
	"learning_rate": 5.514875313636131e-06,
	"loss": 1.9031,
	"step": 417000
	},
	{
	"epoch": 2.67,
	"eval_loss": 2.103487253189087,
	"eval_runtime": 15.4394,
	"eval_samples_per_second": 129.539,
	"eval_steps_per_second": 2.073,
	"step": 417000
	},
	{
	"epoch": 2.68,
	"learning_rate": 5.408196357553724e-06,
	"loss": 1.9015,
	"step": 418000
	},
	{
	"epoch": 2.68,
	"eval_loss": 2.1312220096588135,
	"eval_runtime": 15.3068,
	"eval_samples_per_second": 130.661,
	"eval_steps_per_second": 2.091,
	"step": 418000
	},
	{
	"epoch": 2.68,
	"learning_rate": 5.301517401471316e-06,
	"loss": 1.9069,
	"step": 419000
	},
	{
	"epoch": 2.68,
	"eval_loss": 2.1444790363311768,
	"eval_runtime": 15.4574,
	"eval_samples_per_second": 129.388,
	"eval_steps_per_second": 2.07,
	"step": 419000
	},
	{
	"epoch": 2.69,
	"learning_rate": 5.194838445388909e-06,
	"loss": 1.9016,
	"step": 420000
	},
	{
	"epoch": 2.69,
	"eval_loss": 2.1105127334594727,
	"eval_runtime": 15.3042,
	"eval_samples_per_second": 130.683,
	"eval_steps_per_second": 2.091,
	"step": 420000
	},
	{
	"epoch": 2.69,
	"learning_rate": 5.088159489306501e-06,
	"loss": 1.8882,
	"step": 421000
	},
	{
	"epoch": 2.69,
	"eval_loss": 2.151632785797119,
	"eval_runtime": 15.8977,
	"eval_samples_per_second": 125.805,
	"eval_steps_per_second": 2.013,
	"step": 421000
	},
	{
	"epoch": 2.7,
	"learning_rate": 4.9814805332240945e-06,
	"loss": 1.9158,
	"step": 422000
	},
	{
	"epoch": 2.7,
	"eval_loss": 2.1242105960845947,
	"eval_runtime": 15.298,
	"eval_samples_per_second": 130.736,
	"eval_steps_per_second": 2.092,
	"step": 422000
	},
	{
	"epoch": 2.71,
	"learning_rate": 4.874801577141687e-06,
	"loss": 1.9136,
	"step": 423000
	},
	{
	"epoch": 2.71,
	"eval_loss": 2.1192123889923096,
	"eval_runtime": 15.1175,
	"eval_samples_per_second": 132.297,
	"eval_steps_per_second": 2.117,
	"step": 423000
	},
	{
	"epoch": 2.71,
	"learning_rate": 4.7681226210592795e-06,
	"loss": 1.916,
	"step": 424000
	},
	{
	"epoch": 2.71,
	"eval_loss": 2.1400868892669678,
	"eval_runtime": 15.3165,
	"eval_samples_per_second": 130.578,
	"eval_steps_per_second": 2.089,
	"step": 424000
	},
	{
	"epoch": 2.72,
	"learning_rate": 4.661443664976872e-06,
	"loss": 1.8986,
	"step": 425000
	},
	{
	"epoch": 2.72,
	"eval_loss": 2.158984899520874,
	"eval_runtime": 15.2786,
	"eval_samples_per_second": 130.902,
	"eval_steps_per_second": 2.094,
	"step": 425000
	},
	{
	"epoch": 2.73,
	"learning_rate": 4.5547647088944646e-06,
	"loss": 1.9046,
	"step": 426000
	},
	{
	"epoch": 2.73,
	"eval_loss": 2.1008715629577637,
	"eval_runtime": 15.3482,
	"eval_samples_per_second": 130.309,
	"eval_steps_per_second": 2.085,
	"step": 426000
	},
	{
	"epoch": 2.73,
	"learning_rate": 4.448085752812058e-06,
	"loss": 1.9019,
	"step": 427000
	},
	{
	"epoch": 2.73,
	"eval_loss": 2.1234779357910156,
	"eval_runtime": 15.3947,
	"eval_samples_per_second": 129.915,
	"eval_steps_per_second": 2.079,
	"step": 427000
	},
	{
	"epoch": 2.74,
	"learning_rate": 4.34140679672965e-06,
	"loss": 1.9075,
	"step": 428000
	},
	{
	"epoch": 2.74,
	"eval_loss": 2.1445555686950684,
	"eval_runtime": 15.263,
	"eval_samples_per_second": 131.036,
	"eval_steps_per_second": 2.097,
	"step": 428000
	},
	{
	"epoch": 2.75,
	"learning_rate": 4.234727840647243e-06,
	"loss": 1.9023,
	"step": 429000
	},
	{
	"epoch": 2.75,
	"eval_loss": 2.1059927940368652,
	"eval_runtime": 15.6241,
	"eval_samples_per_second": 128.007,
	"eval_steps_per_second": 2.048,
	"step": 429000
	},
	{
	"epoch": 2.75,
	"learning_rate": 4.1280488845648354e-06,
	"loss": 1.9096,
	"step": 430000
	},
	{
	"epoch": 2.75,
	"eval_loss": 2.124612331390381,
	"eval_runtime": 15.4182,
	"eval_samples_per_second": 129.717,
	"eval_steps_per_second": 2.075,
	"step": 430000
	},
	{
	"epoch": 2.76,
	"learning_rate": 4.021369928482428e-06,
	"loss": 1.9021,
	"step": 431000
	},
	{
	"epoch": 2.76,
	"eval_loss": 2.1339197158813477,
	"eval_runtime": 15.3184,
	"eval_samples_per_second": 130.562,
	"eval_steps_per_second": 2.089,
	"step": 431000
	},
	{
	"epoch": 2.77,
	"learning_rate": 3.914690972400021e-06,
	"loss": 1.9051,
	"step": 432000
	},
	{
	"epoch": 2.77,
	"eval_loss": 2.150739908218384,
	"eval_runtime": 15.3685,
	"eval_samples_per_second": 130.137,
	"eval_steps_per_second": 2.082,
	"step": 432000
	},
	{
	"epoch": 2.77,
	"learning_rate": 3.808012016317614e-06,
	"loss": 1.8959,
	"step": 433000
	},
	{
	"epoch": 2.77,
	"eval_loss": 2.1340439319610596,
	"eval_runtime": 15.9351,
	"eval_samples_per_second": 125.509,
	"eval_steps_per_second": 2.008,
	"step": 433000
	},
	{
	"epoch": 2.78,
	"learning_rate": 3.7013330602352055e-06,
	"loss": 1.8924,
	"step": 434000
	},
	{
	"epoch": 2.78,
	"eval_loss": 2.1609554290771484,
	"eval_runtime": 15.2114,
	"eval_samples_per_second": 131.48,
	"eval_steps_per_second": 2.104,
	"step": 434000
	},
	{
	"epoch": 2.78,
	"learning_rate": 3.5946541041527984e-06,
	"loss": 1.9091,
	"step": 435000
	},
	{
	"epoch": 2.78,
	"eval_loss": 2.147794008255005,
	"eval_runtime": 15.5411,
	"eval_samples_per_second": 128.691,
	"eval_steps_per_second": 2.059,
	"step": 435000
	},
	{
	"epoch": 2.79,
	"learning_rate": 3.487975148070391e-06,
	"loss": 1.8908,
	"step": 436000
	},
	{
	"epoch": 2.79,
	"eval_loss": 2.100537061691284,
	"eval_runtime": 15.6967,
	"eval_samples_per_second": 127.415,
	"eval_steps_per_second": 2.039,
	"step": 436000
	},
	{
	"epoch": 2.8,
	"learning_rate": 3.3812961919879834e-06,
	"loss": 1.8946,
	"step": 437000
	},
	{
	"epoch": 2.8,
	"eval_loss": 2.111453056335449,
	"eval_runtime": 15.3824,
	"eval_samples_per_second": 130.019,
	"eval_steps_per_second": 2.08,
	"step": 437000
	},
	{
	"epoch": 2.8,
	"learning_rate": 3.2746172359055764e-06,
	"loss": 1.8977,
	"step": 438000
	},
	{
	"epoch": 2.8,
	"eval_loss": 2.130976676940918,
	"eval_runtime": 15.1954,
	"eval_samples_per_second": 131.618,
	"eval_steps_per_second": 2.106,
	"step": 438000
	},
	{
	"epoch": 2.81,
	"learning_rate": 3.167938279823169e-06,
	"loss": 1.9021,
	"step": 439000
	},
	{
	"epoch": 2.81,
	"eval_loss": 2.1252684593200684,
	"eval_runtime": 15.3946,
	"eval_samples_per_second": 129.916,
	"eval_steps_per_second": 2.079,
	"step": 439000
	},
	{
	"epoch": 2.82,
	"learning_rate": 3.061259323740762e-06,
	"loss": 1.9019,
	"step": 440000
	},
	{
	"epoch": 2.82,
	"eval_loss": 2.1282765865325928,
	"eval_runtime": 15.6319,
	"eval_samples_per_second": 127.943,
	"eval_steps_per_second": 2.047,
	"step": 440000
	},
	{
	"epoch": 2.82,
	"learning_rate": 2.9545803676583543e-06,
	"loss": 1.8947,
	"step": 441000
	},
	{
	"epoch": 2.82,
	"eval_loss": 2.1524507999420166,
	"eval_runtime": 15.3337,
	"eval_samples_per_second": 130.432,
	"eval_steps_per_second": 2.087,
	"step": 441000
	},
	{
	"epoch": 2.83,
	"learning_rate": 2.847901411575947e-06,
	"loss": 1.8854,
	"step": 442000
	},
	{
	"epoch": 2.83,
	"eval_loss": 2.1064517498016357,
	"eval_runtime": 15.2656,
	"eval_samples_per_second": 131.013,
	"eval_steps_per_second": 2.096,
	"step": 442000
	},
	{
	"epoch": 2.84,
	"learning_rate": 2.7412224554935398e-06,
	"loss": 1.9007,
	"step": 443000
	},
	{
	"epoch": 2.84,
	"eval_loss": 2.0694828033447266,
	"eval_runtime": 15.8869,
	"eval_samples_per_second": 125.89,
	"eval_steps_per_second": 2.014,
	"step": 443000
	},
	{
	"epoch": 2.84,
	"learning_rate": 2.6345434994111323e-06,
	"loss": 1.8981,
	"step": 444000
	},
	{
	"epoch": 2.84,
	"eval_loss": 2.1273715496063232,
	"eval_runtime": 15.1985,
	"eval_samples_per_second": 131.592,
	"eval_steps_per_second": 2.105,
	"step": 444000
	},
	{
	"epoch": 2.85,
	"learning_rate": 2.527864543328725e-06,
	"loss": 1.8872,
	"step": 445000
	},
	{
	"epoch": 2.85,
	"eval_loss": 2.1042518615722656,
	"eval_runtime": 15.3793,
	"eval_samples_per_second": 130.045,
	"eval_steps_per_second": 2.081,
	"step": 445000
	},
	{
	"epoch": 2.85,
	"learning_rate": 2.4211855872463177e-06,
	"loss": 1.8957,
	"step": 446000
	},
	{
	"epoch": 2.85,
	"eval_loss": 2.0750997066497803,
	"eval_runtime": 15.5989,
	"eval_samples_per_second": 128.214,
	"eval_steps_per_second": 2.051,
	"step": 446000
	},
	{
	"epoch": 2.86,
	"learning_rate": 2.3145066311639102e-06,
	"loss": 1.9031,
	"step": 447000
	},
	{
	"epoch": 2.86,
	"eval_loss": 2.127918004989624,
	"eval_runtime": 15.6223,
	"eval_samples_per_second": 128.022,
	"eval_steps_per_second": 2.048,
	"step": 447000
	},
	{
	"epoch": 2.87,
	"learning_rate": 2.2078276750815028e-06,
	"loss": 1.9001,
	"step": 448000
	},
	{
	"epoch": 2.87,
	"eval_loss": 2.1019787788391113,
	"eval_runtime": 15.4843,
	"eval_samples_per_second": 129.163,
	"eval_steps_per_second": 2.067,
	"step": 448000
	},
	{
	"epoch": 2.87,
	"learning_rate": 2.1011487189990953e-06,
	"loss": 1.8964,
	"step": 449000
	},
	{
	"epoch": 2.87,
	"eval_loss": 2.0935049057006836,
	"eval_runtime": 15.5998,
	"eval_samples_per_second": 128.206,
	"eval_steps_per_second": 2.051,
	"step": 449000
	},
	{
	"epoch": 2.88,
	"learning_rate": 1.994469762916688e-06,
	"loss": 1.9003,
	"step": 450000
	},
	{
	"epoch": 2.88,
	"eval_loss": 2.1466352939605713,
	"eval_runtime": 15.1432,
	"eval_samples_per_second": 132.072,
	"eval_steps_per_second": 2.113,
	"step": 450000
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.8877908068342807e-06,
	"loss": 1.9041,
	"step": 451000
	},
	{
	"epoch": 2.89,
	"eval_loss": 2.1213934421539307,
	"eval_runtime": 15.5486,
	"eval_samples_per_second": 128.629,
	"eval_steps_per_second": 2.058,
	"step": 451000
	},
	{
	"epoch": 2.89,
	"learning_rate": 1.7811118507518734e-06,
	"loss": 1.8972,
	"step": 452000
	},
	{
	"epoch": 2.89,
	"eval_loss": 2.139911651611328,
	"eval_runtime": 17.4254,
	"eval_samples_per_second": 114.775,
	"eval_steps_per_second": 1.836,
	"step": 452000
	},
	{
	"epoch": 2.9,
	"learning_rate": 1.674432894669466e-06,
	"loss": 1.9001,
	"step": 453000
	},
	{
	"epoch": 2.9,
	"eval_loss": 2.1135449409484863,
	"eval_runtime": 15.3928,
	"eval_samples_per_second": 129.931,
	"eval_steps_per_second": 2.079,
	"step": 453000
	},
	{
	"epoch": 2.91,
	"learning_rate": 1.5677539385870587e-06,
	"loss": 1.9034,
	"step": 454000
	},
	{
	"epoch": 2.91,
	"eval_loss": 2.0974974632263184,
	"eval_runtime": 15.5392,
	"eval_samples_per_second": 128.707,
	"eval_steps_per_second": 2.059,
	"step": 454000
	},
	{
	"epoch": 2.91,
	"learning_rate": 1.4610749825046512e-06,
	"loss": 1.88,
	"step": 455000
	},
	{
	"epoch": 2.91,
	"eval_loss": 2.086946725845337,
	"eval_runtime": 15.3909,
	"eval_samples_per_second": 129.947,
	"eval_steps_per_second": 2.079,
	"step": 455000
	},
	{
	"epoch": 2.92,
	"learning_rate": 1.354396026422244e-06,
	"loss": 1.894,
	"step": 456000
	},
	{
	"epoch": 2.92,
	"eval_loss": 2.0814855098724365,
	"eval_runtime": 16.0281,
	"eval_samples_per_second": 124.781,
	"eval_steps_per_second": 1.996,
	"step": 456000
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.2477170703398366e-06,
	"loss": 1.8956,
	"step": 457000
	},
	{
	"epoch": 2.93,
	"eval_loss": 2.1207478046417236,
	"eval_runtime": 16.265,
	"eval_samples_per_second": 122.964,
	"eval_steps_per_second": 1.967,
	"step": 457000
	},
	{
	"epoch": 2.93,
	"learning_rate": 1.1410381142574291e-06,
	"loss": 1.8882,
	"step": 458000
	},
	{
	"epoch": 2.93,
	"eval_loss": 2.1136324405670166,
	"eval_runtime": 15.2771,
	"eval_samples_per_second": 130.915,
	"eval_steps_per_second": 2.095,
	"step": 458000
	},
	{
	"epoch": 2.94,
	"learning_rate": 1.0343591581750219e-06,
	"loss": 1.8924,
	"step": 459000
	},
	{
	"epoch": 2.94,
	"eval_loss": 2.137352466583252,
	"eval_runtime": 15.981,
	"eval_samples_per_second": 125.149,
	"eval_steps_per_second": 2.002,
	"step": 459000
	},
	{
	"epoch": 2.94,
	"learning_rate": 9.276802020926144e-07,
	"loss": 1.8953,
	"step": 460000
	},
	{
	"epoch": 2.94,
	"eval_loss": 2.1012661457061768,
	"eval_runtime": 15.3369,
	"eval_samples_per_second": 130.404,
	"eval_steps_per_second": 2.086,
	"step": 460000
	},
	{
	"epoch": 2.95,
	"learning_rate": 8.210012460102071e-07,
	"loss": 1.893,
	"step": 461000
	},
	{
	"epoch": 2.95,
	"eval_loss": 2.135178804397583,
	"eval_runtime": 15.8046,
	"eval_samples_per_second": 126.546,
	"eval_steps_per_second": 2.025,
	"step": 461000
	},
	{
	"epoch": 2.96,
	"learning_rate": 7.143222899277997e-07,
	"loss": 1.8903,
	"step": 462000
	},
	{
	"epoch": 2.96,
	"eval_loss": 2.1333072185516357,
	"eval_runtime": 15.5282,
	"eval_samples_per_second": 128.798,
	"eval_steps_per_second": 2.061,
	"step": 462000
	},
	{
	"epoch": 2.96,
	"learning_rate": 6.076433338453923e-07,
	"loss": 1.8895,
	"step": 463000
	},
	{
	"epoch": 2.96,
	"eval_loss": 2.1294093132019043,
	"eval_runtime": 15.3716,
	"eval_samples_per_second": 130.11,
	"eval_steps_per_second": 2.082,
	"step": 463000
	},
	{
	"epoch": 2.97,
	"learning_rate": 5.009643777629849e-07,
	"loss": 1.8939,
	"step": 464000
	},
	{
	"epoch": 2.97,
	"eval_loss": 2.1235413551330566,
	"eval_runtime": 15.3293,
	"eval_samples_per_second": 130.469,
	"eval_steps_per_second": 2.088,
	"step": 464000
	},
	{
	"epoch": 2.98,
	"learning_rate": 3.9428542168057766e-07,
	"loss": 1.8915,
	"step": 465000
	},
	{
	"epoch": 2.98,
	"eval_loss": 2.0933895111083984,
	"eval_runtime": 15.9617,
	"eval_samples_per_second": 125.3,
	"eval_steps_per_second": 2.005,
	"step": 465000
	},
	{
	"epoch": 2.98,
	"learning_rate": 2.8760646559817023e-07,
	"loss": 1.8884,
	"step": 466000
	},
	{
	"epoch": 2.98,
	"eval_loss": 2.1353940963745117,
	"eval_runtime": 15.6819,
	"eval_samples_per_second": 127.536,
	"eval_steps_per_second": 2.041,
	"step": 466000
	},
	{
	"epoch": 2.99,
	"learning_rate": 1.809275095157629e-07,
	"loss": 1.8932,
	"step": 467000
	},
	{
	"epoch": 2.99,
	"eval_loss": 2.1101338863372803,
	"eval_runtime": 15.545,
	"eval_samples_per_second": 128.659,
	"eval_steps_per_second": 2.059,
	"step": 467000
	},
	{
	"epoch": 3.0,
	"learning_rate": 7.424855343335553e-08,
	"loss": 1.9,
	"step": 468000
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.130716562271118,
	"eval_runtime": 15.4114,
	"eval_samples_per_second": 129.774,
	"eval_steps_per_second": 2.076,
	"step": 468000
	},
	{
	"epoch": 3.0,
	"step": 468696,
	"total_flos": 6.219491681834838e+18,
	"train_loss": 0.6429893864398178,
	"train_runtime": 172266.1403,
	"train_samples_per_second": 174.128,
	"train_steps_per_second": 2.721
	}
	],
	"max_steps": 468696,
	"num_train_epochs": 3,
	"total_flos": 6.219491681834838e+18,
	"trial_name": null,
	"trial_params": null
	}