iwslt_aligned_smallT5_cont0 / trainer_state.json

End of training

8933820 verified 6 months ago

87.5 kB

	{
	"best_metric": 65.6358,
	"best_model_checkpoint": "/tmp/finetuned_models/iwslt_aligned_smallT5_cont0/checkpoint-490000",
	"epoch": 38.81384878124515,
	"eval_steps": 10000,
	"global_step": 500000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.08,
	"grad_norm": 3.0081684589385986,
	"learning_rate": 0.0002,
	"loss": 3.3371,
	"step": 1000
	},
	{
	"epoch": 0.16,
	"grad_norm": 2.347439765930176,
	"learning_rate": 0.0002,
	"loss": 1.9825,
	"step": 2000
	},
	{
	"epoch": 0.23,
	"grad_norm": 3.2636098861694336,
	"learning_rate": 0.0002,
	"loss": 1.7503,
	"step": 3000
	},
	{
	"epoch": 0.31,
	"grad_norm": 2.1704177856445312,
	"learning_rate": 0.0002,
	"loss": 1.6063,
	"step": 4000
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.8257893323898315,
	"learning_rate": 0.0002,
	"loss": 1.5193,
	"step": 5000
	},
	{
	"epoch": 0.47,
	"grad_norm": 2.1923136711120605,
	"learning_rate": 0.0002,
	"loss": 1.4439,
	"step": 6000
	},
	{
	"epoch": 0.54,
	"grad_norm": 2.198930501937866,
	"learning_rate": 0.0002,
	"loss": 1.3742,
	"step": 7000
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.8519206047058105,
	"learning_rate": 0.0002,
	"loss": 1.3327,
	"step": 8000
	},
	{
	"epoch": 0.7,
	"grad_norm": 2.371457576751709,
	"learning_rate": 0.0002,
	"loss": 1.2872,
	"step": 9000
	},
	{
	"epoch": 0.78,
	"grad_norm": 2.2528538703918457,
	"learning_rate": 0.0002,
	"loss": 1.2426,
	"step": 10000
	},
	{
	"epoch": 0.78,
	"eval_bleu": 46.2793,
	"eval_gen_len": 28.6532,
	"eval_loss": 0.8300400972366333,
	"eval_runtime": 100.4495,
	"eval_samples_per_second": 8.84,
	"eval_steps_per_second": 1.105,
	"step": 10000
	},
	{
	"epoch": 0.85,
	"grad_norm": 1.8507146835327148,
	"learning_rate": 0.0002,
	"loss": 1.2154,
	"step": 11000
	},
	{
	"epoch": 0.93,
	"grad_norm": 1.629703164100647,
	"learning_rate": 0.0002,
	"loss": 1.1822,
	"step": 12000
	},
	{
	"epoch": 1.01,
	"grad_norm": 1.9470340013504028,
	"learning_rate": 0.0002,
	"loss": 1.1505,
	"step": 13000
	},
	{
	"epoch": 1.09,
	"grad_norm": 1.733299970626831,
	"learning_rate": 0.0002,
	"loss": 1.0877,
	"step": 14000
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.5334522724151611,
	"learning_rate": 0.0002,
	"loss": 1.0647,
	"step": 15000
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.8881198167800903,
	"learning_rate": 0.0002,
	"loss": 1.0595,
	"step": 16000
	},
	{
	"epoch": 1.32,
	"grad_norm": 2.1781082153320312,
	"learning_rate": 0.0002,
	"loss": 1.0441,
	"step": 17000
	},
	{
	"epoch": 1.4,
	"grad_norm": 1.509994387626648,
	"learning_rate": 0.0002,
	"loss": 1.0307,
	"step": 18000
	},
	{
	"epoch": 1.47,
	"grad_norm": 2.5609610080718994,
	"learning_rate": 0.0002,
	"loss": 1.0165,
	"step": 19000
	},
	{
	"epoch": 1.55,
	"grad_norm": 1.512005090713501,
	"learning_rate": 0.0002,
	"loss": 0.9931,
	"step": 20000
	},
	{
	"epoch": 1.55,
	"eval_bleu": 52.2709,
	"eval_gen_len": 28.6441,
	"eval_loss": 0.6755661368370056,
	"eval_runtime": 99.4907,
	"eval_samples_per_second": 8.925,
	"eval_steps_per_second": 1.116,
	"step": 20000
	},
	{
	"epoch": 1.63,
	"grad_norm": 1.4830211400985718,
	"learning_rate": 0.0002,
	"loss": 0.9854,
	"step": 21000
	},
	{
	"epoch": 1.71,
	"grad_norm": 1.8581557273864746,
	"learning_rate": 0.0002,
	"loss": 0.9736,
	"step": 22000
	},
	{
	"epoch": 1.79,
	"grad_norm": 1.589917778968811,
	"learning_rate": 0.0002,
	"loss": 0.9642,
	"step": 23000
	},
	{
	"epoch": 1.86,
	"grad_norm": 2.332538604736328,
	"learning_rate": 0.0002,
	"loss": 0.9476,
	"step": 24000
	},
	{
	"epoch": 1.94,
	"grad_norm": 1.61520516872406,
	"learning_rate": 0.0002,
	"loss": 0.943,
	"step": 25000
	},
	{
	"epoch": 2.02,
	"grad_norm": 1.2320265769958496,
	"learning_rate": 0.0002,
	"loss": 0.9135,
	"step": 26000
	},
	{
	"epoch": 2.1,
	"grad_norm": 1.543626308441162,
	"learning_rate": 0.0002,
	"loss": 0.8763,
	"step": 27000
	},
	{
	"epoch": 2.17,
	"grad_norm": 1.7634472846984863,
	"learning_rate": 0.0002,
	"loss": 0.8664,
	"step": 28000
	},
	{
	"epoch": 2.25,
	"grad_norm": 1.1254847049713135,
	"learning_rate": 0.0002,
	"loss": 0.8625,
	"step": 29000
	},
	{
	"epoch": 2.33,
	"grad_norm": 1.390243649482727,
	"learning_rate": 0.0002,
	"loss": 0.8573,
	"step": 30000
	},
	{
	"epoch": 2.33,
	"eval_bleu": 55.8294,
	"eval_gen_len": 28.5405,
	"eval_loss": 0.6142958998680115,
	"eval_runtime": 100.5081,
	"eval_samples_per_second": 8.835,
	"eval_steps_per_second": 1.104,
	"step": 30000
	},
	{
	"epoch": 2.41,
	"grad_norm": 1.592313289642334,
	"learning_rate": 0.0002,
	"loss": 0.855,
	"step": 31000
	},
	{
	"epoch": 2.48,
	"grad_norm": 1.1361020803451538,
	"learning_rate": 0.0002,
	"loss": 0.8487,
	"step": 32000
	},
	{
	"epoch": 2.56,
	"grad_norm": 1.2688100337982178,
	"learning_rate": 0.0002,
	"loss": 0.8417,
	"step": 33000
	},
	{
	"epoch": 2.64,
	"grad_norm": 1.3345963954925537,
	"learning_rate": 0.0002,
	"loss": 0.829,
	"step": 34000
	},
	{
	"epoch": 2.72,
	"grad_norm": 1.4640212059020996,
	"learning_rate": 0.0002,
	"loss": 0.8264,
	"step": 35000
	},
	{
	"epoch": 2.79,
	"grad_norm": 1.4818629026412964,
	"learning_rate": 0.0002,
	"loss": 0.8207,
	"step": 36000
	},
	{
	"epoch": 2.87,
	"grad_norm": 1.4580553770065308,
	"learning_rate": 0.0002,
	"loss": 0.8155,
	"step": 37000
	},
	{
	"epoch": 2.95,
	"grad_norm": 1.8713078498840332,
	"learning_rate": 0.0002,
	"loss": 0.8134,
	"step": 38000
	},
	{
	"epoch": 3.03,
	"grad_norm": 1.295332670211792,
	"learning_rate": 0.0002,
	"loss": 0.787,
	"step": 39000
	},
	{
	"epoch": 3.11,
	"grad_norm": 1.532378077507019,
	"learning_rate": 0.0002,
	"loss": 0.762,
	"step": 40000
	},
	{
	"epoch": 3.11,
	"eval_bleu": 57.5135,
	"eval_gen_len": 28.366,
	"eval_loss": 0.581108570098877,
	"eval_runtime": 98.8348,
	"eval_samples_per_second": 8.985,
	"eval_steps_per_second": 1.123,
	"step": 40000
	},
	{
	"epoch": 3.18,
	"grad_norm": 1.3924858570098877,
	"learning_rate": 0.0002,
	"loss": 0.7577,
	"step": 41000
	},
	{
	"epoch": 3.26,
	"grad_norm": 1.4161888360977173,
	"learning_rate": 0.0002,
	"loss": 0.7482,
	"step": 42000
	},
	{
	"epoch": 3.34,
	"grad_norm": 1.639460802078247,
	"learning_rate": 0.0002,
	"loss": 0.7582,
	"step": 43000
	},
	{
	"epoch": 3.42,
	"grad_norm": 1.3779182434082031,
	"learning_rate": 0.0002,
	"loss": 0.7474,
	"step": 44000
	},
	{
	"epoch": 3.49,
	"grad_norm": 1.8350883722305298,
	"learning_rate": 0.0002,
	"loss": 0.751,
	"step": 45000
	},
	{
	"epoch": 3.57,
	"grad_norm": 1.2075496912002563,
	"learning_rate": 0.0002,
	"loss": 0.7371,
	"step": 46000
	},
	{
	"epoch": 3.65,
	"grad_norm": 1.3083984851837158,
	"learning_rate": 0.0002,
	"loss": 0.7318,
	"step": 47000
	},
	{
	"epoch": 3.73,
	"grad_norm": 1.5021324157714844,
	"learning_rate": 0.0002,
	"loss": 0.7376,
	"step": 48000
	},
	{
	"epoch": 3.8,
	"grad_norm": 1.1597286462783813,
	"learning_rate": 0.0002,
	"loss": 0.7336,
	"step": 49000
	},
	{
	"epoch": 3.88,
	"grad_norm": 1.3814338445663452,
	"learning_rate": 0.0002,
	"loss": 0.734,
	"step": 50000
	},
	{
	"epoch": 3.88,
	"eval_bleu": 58.6125,
	"eval_gen_len": 28.5101,
	"eval_loss": 0.5499288439750671,
	"eval_runtime": 99.2548,
	"eval_samples_per_second": 8.947,
	"eval_steps_per_second": 1.118,
	"step": 50000
	},
	{
	"epoch": 3.96,
	"grad_norm": 1.0968077182769775,
	"learning_rate": 0.0002,
	"loss": 0.7288,
	"step": 51000
	},
	{
	"epoch": 4.04,
	"grad_norm": 1.9418740272521973,
	"learning_rate": 0.0002,
	"loss": 0.7057,
	"step": 52000
	},
	{
	"epoch": 4.11,
	"grad_norm": 1.1883801221847534,
	"learning_rate": 0.0002,
	"loss": 0.6761,
	"step": 53000
	},
	{
	"epoch": 4.19,
	"grad_norm": 1.1581670045852661,
	"learning_rate": 0.0002,
	"loss": 0.6812,
	"step": 54000
	},
	{
	"epoch": 4.27,
	"grad_norm": 1.4657800197601318,
	"learning_rate": 0.0002,
	"loss": 0.6783,
	"step": 55000
	},
	{
	"epoch": 4.35,
	"grad_norm": 1.1991990804672241,
	"learning_rate": 0.0002,
	"loss": 0.6764,
	"step": 56000
	},
	{
	"epoch": 4.42,
	"grad_norm": 1.5376391410827637,
	"learning_rate": 0.0002,
	"loss": 0.6805,
	"step": 57000
	},
	{
	"epoch": 4.5,
	"grad_norm": 1.228727102279663,
	"learning_rate": 0.0002,
	"loss": 0.6734,
	"step": 58000
	},
	{
	"epoch": 4.58,
	"grad_norm": 0.949891984462738,
	"learning_rate": 0.0002,
	"loss": 0.6702,
	"step": 59000
	},
	{
	"epoch": 4.66,
	"grad_norm": 1.5632683038711548,
	"learning_rate": 0.0002,
	"loss": 0.6722,
	"step": 60000
	},
	{
	"epoch": 4.66,
	"eval_bleu": 59.6427,
	"eval_gen_len": 28.8356,
	"eval_loss": 0.522808849811554,
	"eval_runtime": 101.7798,
	"eval_samples_per_second": 8.725,
	"eval_steps_per_second": 1.091,
	"step": 60000
	},
	{
	"epoch": 4.74,
	"grad_norm": 1.2885149717330933,
	"learning_rate": 0.0002,
	"loss": 0.67,
	"step": 61000
	},
	{
	"epoch": 4.81,
	"grad_norm": 1.7992392778396606,
	"learning_rate": 0.0002,
	"loss": 0.6686,
	"step": 62000
	},
	{
	"epoch": 4.89,
	"grad_norm": 1.7027188539505005,
	"learning_rate": 0.0002,
	"loss": 0.6682,
	"step": 63000
	},
	{
	"epoch": 4.97,
	"grad_norm": 1.2083909511566162,
	"learning_rate": 0.0002,
	"loss": 0.6545,
	"step": 64000
	},
	{
	"epoch": 5.05,
	"grad_norm": 1.1508337259292603,
	"learning_rate": 0.0002,
	"loss": 0.6308,
	"step": 65000
	},
	{
	"epoch": 5.12,
	"grad_norm": 1.0901002883911133,
	"learning_rate": 0.0002,
	"loss": 0.6192,
	"step": 66000
	},
	{
	"epoch": 5.2,
	"grad_norm": 1.3939250707626343,
	"learning_rate": 0.0002,
	"loss": 0.6217,
	"step": 67000
	},
	{
	"epoch": 5.28,
	"grad_norm": 0.9105481505393982,
	"learning_rate": 0.0002,
	"loss": 0.6177,
	"step": 68000
	},
	{
	"epoch": 5.36,
	"grad_norm": 0.944652795791626,
	"learning_rate": 0.0002,
	"loss": 0.6227,
	"step": 69000
	},
	{
	"epoch": 5.43,
	"grad_norm": 1.1488838195800781,
	"learning_rate": 0.0002,
	"loss": 0.6215,
	"step": 70000
	},
	{
	"epoch": 5.43,
	"eval_bleu": 60.4701,
	"eval_gen_len": 28.7534,
	"eval_loss": 0.5161064863204956,
	"eval_runtime": 100.914,
	"eval_samples_per_second": 8.8,
	"eval_steps_per_second": 1.1,
	"step": 70000
	},
	{
	"epoch": 5.51,
	"grad_norm": 1.0799453258514404,
	"learning_rate": 0.0002,
	"loss": 0.6173,
	"step": 71000
	},
	{
	"epoch": 5.59,
	"grad_norm": 1.2405527830123901,
	"learning_rate": 0.0002,
	"loss": 0.6229,
	"step": 72000
	},
	{
	"epoch": 5.67,
	"grad_norm": 1.045590877532959,
	"learning_rate": 0.0002,
	"loss": 0.6183,
	"step": 73000
	},
	{
	"epoch": 5.74,
	"grad_norm": 1.4318771362304688,
	"learning_rate": 0.0002,
	"loss": 0.6146,
	"step": 74000
	},
	{
	"epoch": 5.82,
	"grad_norm": 1.0059374570846558,
	"learning_rate": 0.0002,
	"loss": 0.6175,
	"step": 75000
	},
	{
	"epoch": 5.9,
	"grad_norm": 1.0831586122512817,
	"learning_rate": 0.0002,
	"loss": 0.6165,
	"step": 76000
	},
	{
	"epoch": 5.98,
	"grad_norm": 1.4094606637954712,
	"learning_rate": 0.0002,
	"loss": 0.6158,
	"step": 77000
	},
	{
	"epoch": 6.05,
	"grad_norm": 1.2640748023986816,
	"learning_rate": 0.0002,
	"loss": 0.5827,
	"step": 78000
	},
	{
	"epoch": 6.13,
	"grad_norm": 1.0088295936584473,
	"learning_rate": 0.0002,
	"loss": 0.5699,
	"step": 79000
	},
	{
	"epoch": 6.21,
	"grad_norm": 0.9942078590393066,
	"learning_rate": 0.0002,
	"loss": 0.5756,
	"step": 80000
	},
	{
	"epoch": 6.21,
	"eval_bleu": 62.0864,
	"eval_gen_len": 28.6498,
	"eval_loss": 0.5067651867866516,
	"eval_runtime": 99.2392,
	"eval_samples_per_second": 8.948,
	"eval_steps_per_second": 1.119,
	"step": 80000
	},
	{
	"epoch": 6.29,
	"grad_norm": 1.838376522064209,
	"learning_rate": 0.0002,
	"loss": 0.5784,
	"step": 81000
	},
	{
	"epoch": 6.37,
	"grad_norm": 1.477137804031372,
	"learning_rate": 0.0002,
	"loss": 0.5743,
	"step": 82000
	},
	{
	"epoch": 6.44,
	"grad_norm": 1.1481742858886719,
	"learning_rate": 0.0002,
	"loss": 0.578,
	"step": 83000
	},
	{
	"epoch": 6.52,
	"grad_norm": 1.1412264108657837,
	"learning_rate": 0.0002,
	"loss": 0.5785,
	"step": 84000
	},
	{
	"epoch": 6.6,
	"grad_norm": 0.9707184433937073,
	"learning_rate": 0.0002,
	"loss": 0.5746,
	"step": 85000
	},
	{
	"epoch": 6.68,
	"grad_norm": 0.9683183431625366,
	"learning_rate": 0.0002,
	"loss": 0.5794,
	"step": 86000
	},
	{
	"epoch": 6.75,
	"grad_norm": 1.2322285175323486,
	"learning_rate": 0.0002,
	"loss": 0.5765,
	"step": 87000
	},
	{
	"epoch": 6.83,
	"grad_norm": 1.1276684999465942,
	"learning_rate": 0.0002,
	"loss": 0.5767,
	"step": 88000
	},
	{
	"epoch": 6.91,
	"grad_norm": 1.4353203773498535,
	"learning_rate": 0.0002,
	"loss": 0.5776,
	"step": 89000
	},
	{
	"epoch": 6.99,
	"grad_norm": 1.116827368736267,
	"learning_rate": 0.0002,
	"loss": 0.5738,
	"step": 90000
	},
	{
	"epoch": 6.99,
	"eval_bleu": 61.9714,
	"eval_gen_len": 28.5788,
	"eval_loss": 0.5005396008491516,
	"eval_runtime": 98.6774,
	"eval_samples_per_second": 8.999,
	"eval_steps_per_second": 1.125,
	"step": 90000
	},
	{
	"epoch": 7.06,
	"grad_norm": 1.0088461637496948,
	"learning_rate": 0.0002,
	"loss": 0.538,
	"step": 91000
	},
	{
	"epoch": 7.14,
	"grad_norm": 1.1016899347305298,
	"learning_rate": 0.0002,
	"loss": 0.5349,
	"step": 92000
	},
	{
	"epoch": 7.22,
	"grad_norm": 1.4406321048736572,
	"learning_rate": 0.0002,
	"loss": 0.5408,
	"step": 93000
	},
	{
	"epoch": 7.3,
	"grad_norm": 1.1226301193237305,
	"learning_rate": 0.0002,
	"loss": 0.5362,
	"step": 94000
	},
	{
	"epoch": 7.37,
	"grad_norm": 1.4062280654907227,
	"learning_rate": 0.0002,
	"loss": 0.5381,
	"step": 95000
	},
	{
	"epoch": 7.45,
	"grad_norm": 1.2851547002792358,
	"learning_rate": 0.0002,
	"loss": 0.5438,
	"step": 96000
	},
	{
	"epoch": 7.53,
	"grad_norm": 0.9344896078109741,
	"learning_rate": 0.0002,
	"loss": 0.5442,
	"step": 97000
	},
	{
	"epoch": 7.61,
	"grad_norm": 1.7169030904769897,
	"learning_rate": 0.0002,
	"loss": 0.539,
	"step": 98000
	},
	{
	"epoch": 7.69,
	"grad_norm": 1.1855800151824951,
	"learning_rate": 0.0002,
	"loss": 0.543,
	"step": 99000
	},
	{
	"epoch": 7.76,
	"grad_norm": 1.093122959136963,
	"learning_rate": 0.0002,
	"loss": 0.5384,
	"step": 100000
	},
	{
	"epoch": 7.76,
	"eval_bleu": 62.407,
	"eval_gen_len": 28.5282,
	"eval_loss": 0.49085742235183716,
	"eval_runtime": 98.8889,
	"eval_samples_per_second": 8.98,
	"eval_steps_per_second": 1.122,
	"step": 100000
	},
	{
	"epoch": 7.84,
	"grad_norm": 1.3849202394485474,
	"learning_rate": 0.0002,
	"loss": 0.5381,
	"step": 101000
	},
	{
	"epoch": 7.92,
	"grad_norm": 1.12773859500885,
	"learning_rate": 0.0002,
	"loss": 0.544,
	"step": 102000
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.9132428169250488,
	"learning_rate": 0.0002,
	"loss": 0.5371,
	"step": 103000
	},
	{
	"epoch": 8.07,
	"grad_norm": 1.5978176593780518,
	"learning_rate": 0.0002,
	"loss": 0.5015,
	"step": 104000
	},
	{
	"epoch": 8.15,
	"grad_norm": 1.028082013130188,
	"learning_rate": 0.0002,
	"loss": 0.4956,
	"step": 105000
	},
	{
	"epoch": 8.23,
	"grad_norm": 1.0597223043441772,
	"learning_rate": 0.0002,
	"loss": 0.5074,
	"step": 106000
	},
	{
	"epoch": 8.31,
	"grad_norm": 1.47709059715271,
	"learning_rate": 0.0002,
	"loss": 0.5022,
	"step": 107000
	},
	{
	"epoch": 8.38,
	"grad_norm": 1.1731916666030884,
	"learning_rate": 0.0002,
	"loss": 0.5039,
	"step": 108000
	},
	{
	"epoch": 8.46,
	"grad_norm": 1.2147469520568848,
	"learning_rate": 0.0002,
	"loss": 0.5121,
	"step": 109000
	},
	{
	"epoch": 8.54,
	"grad_norm": 0.8521010279655457,
	"learning_rate": 0.0002,
	"loss": 0.5109,
	"step": 110000
	},
	{
	"epoch": 8.54,
	"eval_bleu": 62.1452,
	"eval_gen_len": 28.4617,
	"eval_loss": 0.4901648759841919,
	"eval_runtime": 98.4744,
	"eval_samples_per_second": 9.018,
	"eval_steps_per_second": 1.127,
	"step": 110000
	},
	{
	"epoch": 8.62,
	"grad_norm": 1.250752568244934,
	"learning_rate": 0.0002,
	"loss": 0.5072,
	"step": 111000
	},
	{
	"epoch": 8.69,
	"grad_norm": 1.2694823741912842,
	"learning_rate": 0.0002,
	"loss": 0.5126,
	"step": 112000
	},
	{
	"epoch": 8.77,
	"grad_norm": 1.0290015935897827,
	"learning_rate": 0.0002,
	"loss": 0.5065,
	"step": 113000
	},
	{
	"epoch": 8.85,
	"grad_norm": 1.222034215927124,
	"learning_rate": 0.0002,
	"loss": 0.514,
	"step": 114000
	},
	{
	"epoch": 8.93,
	"grad_norm": 1.0359649658203125,
	"learning_rate": 0.0002,
	"loss": 0.5127,
	"step": 115000
	},
	{
	"epoch": 9.0,
	"grad_norm": 1.19712495803833,
	"learning_rate": 0.0002,
	"loss": 0.5114,
	"step": 116000
	},
	{
	"epoch": 9.08,
	"grad_norm": 1.1766573190689087,
	"learning_rate": 0.0002,
	"loss": 0.4698,
	"step": 117000
	},
	{
	"epoch": 9.16,
	"grad_norm": 1.2681427001953125,
	"learning_rate": 0.0002,
	"loss": 0.4755,
	"step": 118000
	},
	{
	"epoch": 9.24,
	"grad_norm": 1.2988672256469727,
	"learning_rate": 0.0002,
	"loss": 0.4772,
	"step": 119000
	},
	{
	"epoch": 9.32,
	"grad_norm": 1.440721035003662,
	"learning_rate": 0.0002,
	"loss": 0.4816,
	"step": 120000
	},
	{
	"epoch": 9.32,
	"eval_bleu": 62.6499,
	"eval_gen_len": 28.5518,
	"eval_loss": 0.48750796914100647,
	"eval_runtime": 99.0223,
	"eval_samples_per_second": 8.968,
	"eval_steps_per_second": 1.121,
	"step": 120000
	},
	{
	"epoch": 9.39,
	"grad_norm": 1.038442611694336,
	"learning_rate": 0.0002,
	"loss": 0.4792,
	"step": 121000
	},
	{
	"epoch": 9.47,
	"grad_norm": 1.3428473472595215,
	"learning_rate": 0.0002,
	"loss": 0.4827,
	"step": 122000
	},
	{
	"epoch": 9.55,
	"grad_norm": 1.4756362438201904,
	"learning_rate": 0.0002,
	"loss": 0.4832,
	"step": 123000
	},
	{
	"epoch": 9.63,
	"grad_norm": 1.2109817266464233,
	"learning_rate": 0.0002,
	"loss": 0.481,
	"step": 124000
	},
	{
	"epoch": 9.7,
	"grad_norm": 1.2007863521575928,
	"learning_rate": 0.0002,
	"loss": 0.4815,
	"step": 125000
	},
	{
	"epoch": 9.78,
	"grad_norm": 1.1711379289627075,
	"learning_rate": 0.0002,
	"loss": 0.488,
	"step": 126000
	},
	{
	"epoch": 9.86,
	"grad_norm": 1.1571533679962158,
	"learning_rate": 0.0002,
	"loss": 0.4827,
	"step": 127000
	},
	{
	"epoch": 9.94,
	"grad_norm": 1.2341859340667725,
	"learning_rate": 0.0002,
	"loss": 0.4844,
	"step": 128000
	},
	{
	"epoch": 10.01,
	"grad_norm": 1.5796501636505127,
	"learning_rate": 0.0002,
	"loss": 0.4741,
	"step": 129000
	},
	{
	"epoch": 10.09,
	"grad_norm": 0.8122438788414001,
	"learning_rate": 0.0002,
	"loss": 0.4493,
	"step": 130000
	},
	{
	"epoch": 10.09,
	"eval_bleu": 62.6694,
	"eval_gen_len": 28.6993,
	"eval_loss": 0.4866686761379242,
	"eval_runtime": 100.7784,
	"eval_samples_per_second": 8.811,
	"eval_steps_per_second": 1.101,
	"step": 130000
	},
	{
	"epoch": 10.17,
	"grad_norm": 1.1835366487503052,
	"learning_rate": 0.0002,
	"loss": 0.448,
	"step": 131000
	},
	{
	"epoch": 10.25,
	"grad_norm": 1.0868804454803467,
	"learning_rate": 0.0002,
	"loss": 0.4517,
	"step": 132000
	},
	{
	"epoch": 10.32,
	"grad_norm": 0.9316431283950806,
	"learning_rate": 0.0002,
	"loss": 0.454,
	"step": 133000
	},
	{
	"epoch": 10.4,
	"grad_norm": 1.5438517332077026,
	"learning_rate": 0.0002,
	"loss": 0.4526,
	"step": 134000
	},
	{
	"epoch": 10.48,
	"grad_norm": 1.5842955112457275,
	"learning_rate": 0.0002,
	"loss": 0.4576,
	"step": 135000
	},
	{
	"epoch": 10.56,
	"grad_norm": 1.450462818145752,
	"learning_rate": 0.0002,
	"loss": 0.463,
	"step": 136000
	},
	{
	"epoch": 10.63,
	"grad_norm": 0.8578802347183228,
	"learning_rate": 0.0002,
	"loss": 0.4588,
	"step": 137000
	},
	{
	"epoch": 10.71,
	"grad_norm": 1.1508352756500244,
	"learning_rate": 0.0002,
	"loss": 0.4542,
	"step": 138000
	},
	{
	"epoch": 10.79,
	"grad_norm": 1.1183589696884155,
	"learning_rate": 0.0002,
	"loss": 0.4601,
	"step": 139000
	},
	{
	"epoch": 10.87,
	"grad_norm": 0.9286684393882751,
	"learning_rate": 0.0002,
	"loss": 0.4648,
	"step": 140000
	},
	{
	"epoch": 10.87,
	"eval_bleu": 63.3179,
	"eval_gen_len": 28.5495,
	"eval_loss": 0.4774705469608307,
	"eval_runtime": 98.6639,
	"eval_samples_per_second": 9.0,
	"eval_steps_per_second": 1.125,
	"step": 140000
	},
	{
	"epoch": 10.95,
	"grad_norm": 1.3315681219100952,
	"learning_rate": 0.0002,
	"loss": 0.4627,
	"step": 141000
	},
	{
	"epoch": 11.02,
	"grad_norm": 1.204750418663025,
	"learning_rate": 0.0002,
	"loss": 0.4497,
	"step": 142000
	},
	{
	"epoch": 11.1,
	"grad_norm": 1.0254498720169067,
	"learning_rate": 0.0002,
	"loss": 0.4242,
	"step": 143000
	},
	{
	"epoch": 11.18,
	"grad_norm": 1.052018404006958,
	"learning_rate": 0.0002,
	"loss": 0.4306,
	"step": 144000
	},
	{
	"epoch": 11.26,
	"grad_norm": 0.9426015019416809,
	"learning_rate": 0.0002,
	"loss": 0.4275,
	"step": 145000
	},
	{
	"epoch": 11.33,
	"grad_norm": 1.079633116722107,
	"learning_rate": 0.0002,
	"loss": 0.4303,
	"step": 146000
	},
	{
	"epoch": 11.41,
	"grad_norm": 1.025631070137024,
	"learning_rate": 0.0002,
	"loss": 0.433,
	"step": 147000
	},
	{
	"epoch": 11.49,
	"grad_norm": 1.21865713596344,
	"learning_rate": 0.0002,
	"loss": 0.4351,
	"step": 148000
	},
	{
	"epoch": 11.57,
	"grad_norm": 1.0304579734802246,
	"learning_rate": 0.0002,
	"loss": 0.4358,
	"step": 149000
	},
	{
	"epoch": 11.64,
	"grad_norm": 1.297282338142395,
	"learning_rate": 0.0002,
	"loss": 0.4414,
	"step": 150000
	},
	{
	"epoch": 11.64,
	"eval_bleu": 63.6928,
	"eval_gen_len": 28.4673,
	"eval_loss": 0.4786856770515442,
	"eval_runtime": 98.6768,
	"eval_samples_per_second": 8.999,
	"eval_steps_per_second": 1.125,
	"step": 150000
	},
	{
	"epoch": 11.72,
	"grad_norm": 0.973185658454895,
	"learning_rate": 0.0002,
	"loss": 0.4375,
	"step": 151000
	},
	{
	"epoch": 11.8,
	"grad_norm": 0.9765141010284424,
	"learning_rate": 0.0002,
	"loss": 0.4398,
	"step": 152000
	},
	{
	"epoch": 11.88,
	"grad_norm": 1.1599891185760498,
	"learning_rate": 0.0002,
	"loss": 0.4422,
	"step": 153000
	},
	{
	"epoch": 11.95,
	"grad_norm": 1.0690301656723022,
	"learning_rate": 0.0002,
	"loss": 0.4396,
	"step": 154000
	},
	{
	"epoch": 12.03,
	"grad_norm": 0.9184726476669312,
	"learning_rate": 0.0002,
	"loss": 0.4232,
	"step": 155000
	},
	{
	"epoch": 12.11,
	"grad_norm": 1.1572961807250977,
	"learning_rate": 0.0002,
	"loss": 0.4038,
	"step": 156000
	},
	{
	"epoch": 12.19,
	"grad_norm": 1.1003015041351318,
	"learning_rate": 0.0002,
	"loss": 0.4088,
	"step": 157000
	},
	{
	"epoch": 12.27,
	"grad_norm": 1.147965908050537,
	"learning_rate": 0.0002,
	"loss": 0.4099,
	"step": 158000
	},
	{
	"epoch": 12.34,
	"grad_norm": 1.3417842388153076,
	"learning_rate": 0.0002,
	"loss": 0.4108,
	"step": 159000
	},
	{
	"epoch": 12.42,
	"grad_norm": 0.9816053509712219,
	"learning_rate": 0.0002,
	"loss": 0.4158,
	"step": 160000
	},
	{
	"epoch": 12.42,
	"eval_bleu": 63.8752,
	"eval_gen_len": 28.5011,
	"eval_loss": 0.47919762134552,
	"eval_runtime": 98.6149,
	"eval_samples_per_second": 9.005,
	"eval_steps_per_second": 1.126,
	"step": 160000
	},
	{
	"epoch": 12.5,
	"grad_norm": 1.1307754516601562,
	"learning_rate": 0.0002,
	"loss": 0.4139,
	"step": 161000
	},
	{
	"epoch": 12.58,
	"grad_norm": 1.2909305095672607,
	"learning_rate": 0.0002,
	"loss": 0.4191,
	"step": 162000
	},
	{
	"epoch": 12.65,
	"grad_norm": 1.0675512552261353,
	"learning_rate": 0.0002,
	"loss": 0.4178,
	"step": 163000
	},
	{
	"epoch": 12.73,
	"grad_norm": 1.062435269355774,
	"learning_rate": 0.0002,
	"loss": 0.4183,
	"step": 164000
	},
	{
	"epoch": 12.81,
	"grad_norm": 1.2755943536758423,
	"learning_rate": 0.0002,
	"loss": 0.42,
	"step": 165000
	},
	{
	"epoch": 12.89,
	"grad_norm": 1.0879075527191162,
	"learning_rate": 0.0002,
	"loss": 0.4231,
	"step": 166000
	},
	{
	"epoch": 12.96,
	"grad_norm": 1.1521817445755005,
	"learning_rate": 0.0002,
	"loss": 0.4231,
	"step": 167000
	},
	{
	"epoch": 13.04,
	"grad_norm": 1.038859486579895,
	"learning_rate": 0.0002,
	"loss": 0.4014,
	"step": 168000
	},
	{
	"epoch": 13.12,
	"grad_norm": 1.001861333847046,
	"learning_rate": 0.0002,
	"loss": 0.3875,
	"step": 169000
	},
	{
	"epoch": 13.2,
	"grad_norm": 0.967998743057251,
	"learning_rate": 0.0002,
	"loss": 0.3895,
	"step": 170000
	},
	{
	"epoch": 13.2,
	"eval_bleu": 63.8429,
	"eval_gen_len": 28.6498,
	"eval_loss": 0.4793872535228729,
	"eval_runtime": 99.8944,
	"eval_samples_per_second": 8.889,
	"eval_steps_per_second": 1.111,
	"step": 170000
	},
	{
	"epoch": 13.27,
	"grad_norm": 1.1491278409957886,
	"learning_rate": 0.0002,
	"loss": 0.3947,
	"step": 171000
	},
	{
	"epoch": 13.35,
	"grad_norm": 1.0739213228225708,
	"learning_rate": 0.0002,
	"loss": 0.3937,
	"step": 172000
	},
	{
	"epoch": 13.43,
	"grad_norm": 1.3349049091339111,
	"learning_rate": 0.0002,
	"loss": 0.3932,
	"step": 173000
	},
	{
	"epoch": 13.51,
	"grad_norm": 1.4266788959503174,
	"learning_rate": 0.0002,
	"loss": 0.4012,
	"step": 174000
	},
	{
	"epoch": 13.58,
	"grad_norm": 1.064070701599121,
	"learning_rate": 0.0002,
	"loss": 0.4,
	"step": 175000
	},
	{
	"epoch": 13.66,
	"grad_norm": 1.930474877357483,
	"learning_rate": 0.0002,
	"loss": 0.399,
	"step": 176000
	},
	{
	"epoch": 13.74,
	"grad_norm": 0.994195282459259,
	"learning_rate": 0.0002,
	"loss": 0.4026,
	"step": 177000
	},
	{
	"epoch": 13.82,
	"grad_norm": 0.9755762815475464,
	"learning_rate": 0.0002,
	"loss": 0.4019,
	"step": 178000
	},
	{
	"epoch": 13.9,
	"grad_norm": 1.0802558660507202,
	"learning_rate": 0.0002,
	"loss": 0.4027,
	"step": 179000
	},
	{
	"epoch": 13.97,
	"grad_norm": 1.4257205724716187,
	"learning_rate": 0.0002,
	"loss": 0.4031,
	"step": 180000
	},
	{
	"epoch": 13.97,
	"eval_bleu": 63.9496,
	"eval_gen_len": 28.7264,
	"eval_loss": 0.4756912291049957,
	"eval_runtime": 100.6936,
	"eval_samples_per_second": 8.819,
	"eval_steps_per_second": 1.102,
	"step": 180000
	},
	{
	"epoch": 14.05,
	"grad_norm": 1.0172358751296997,
	"learning_rate": 0.0002,
	"loss": 0.3785,
	"step": 181000
	},
	{
	"epoch": 14.13,
	"grad_norm": 0.9525344967842102,
	"learning_rate": 0.0002,
	"loss": 0.367,
	"step": 182000
	},
	{
	"epoch": 14.21,
	"grad_norm": 1.0674399137496948,
	"learning_rate": 0.0002,
	"loss": 0.3723,
	"step": 183000
	},
	{
	"epoch": 14.28,
	"grad_norm": 1.311464548110962,
	"learning_rate": 0.0002,
	"loss": 0.3743,
	"step": 184000
	},
	{
	"epoch": 14.36,
	"grad_norm": 1.020115613937378,
	"learning_rate": 0.0002,
	"loss": 0.3743,
	"step": 185000
	},
	{
	"epoch": 14.44,
	"grad_norm": 0.9766080379486084,
	"learning_rate": 0.0002,
	"loss": 0.3751,
	"step": 186000
	},
	{
	"epoch": 14.52,
	"grad_norm": 1.0636546611785889,
	"learning_rate": 0.0002,
	"loss": 0.3839,
	"step": 187000
	},
	{
	"epoch": 14.59,
	"grad_norm": 1.5485342741012573,
	"learning_rate": 0.0002,
	"loss": 0.3864,
	"step": 188000
	},
	{
	"epoch": 14.67,
	"grad_norm": 1.189011812210083,
	"learning_rate": 0.0002,
	"loss": 0.3836,
	"step": 189000
	},
	{
	"epoch": 14.75,
	"grad_norm": 1.2171902656555176,
	"learning_rate": 0.0002,
	"loss": 0.3844,
	"step": 190000
	},
	{
	"epoch": 14.75,
	"eval_bleu": 63.7498,
	"eval_gen_len": 28.8288,
	"eval_loss": 0.48547232151031494,
	"eval_runtime": 102.2105,
	"eval_samples_per_second": 8.688,
	"eval_steps_per_second": 1.086,
	"step": 190000
	},
	{
	"epoch": 14.83,
	"grad_norm": 0.9004954695701599,
	"learning_rate": 0.0002,
	"loss": 0.3821,
	"step": 191000
	},
	{
	"epoch": 14.9,
	"grad_norm": 1.2197577953338623,
	"learning_rate": 0.0002,
	"loss": 0.3871,
	"step": 192000
	},
	{
	"epoch": 14.98,
	"grad_norm": 1.0094869136810303,
	"learning_rate": 0.0002,
	"loss": 0.3924,
	"step": 193000
	},
	{
	"epoch": 15.06,
	"grad_norm": 1.1337696313858032,
	"learning_rate": 0.0002,
	"loss": 0.3602,
	"step": 194000
	},
	{
	"epoch": 15.14,
	"grad_norm": 1.5074607133865356,
	"learning_rate": 0.0002,
	"loss": 0.3548,
	"step": 195000
	},
	{
	"epoch": 15.22,
	"grad_norm": 0.9171730279922485,
	"learning_rate": 0.0002,
	"loss": 0.3586,
	"step": 196000
	},
	{
	"epoch": 15.29,
	"grad_norm": 0.8581980466842651,
	"learning_rate": 0.0002,
	"loss": 0.3609,
	"step": 197000
	},
	{
	"epoch": 15.37,
	"grad_norm": 0.8790922164916992,
	"learning_rate": 0.0002,
	"loss": 0.363,
	"step": 198000
	},
	{
	"epoch": 15.45,
	"grad_norm": 1.012073278427124,
	"learning_rate": 0.0002,
	"loss": 0.3618,
	"step": 199000
	},
	{
	"epoch": 15.53,
	"grad_norm": 0.9808474183082581,
	"learning_rate": 0.0002,
	"loss": 0.3637,
	"step": 200000
	},
	{
	"epoch": 15.53,
	"eval_bleu": 64.2277,
	"eval_gen_len": 28.661,
	"eval_loss": 0.4799739420413971,
	"eval_runtime": 99.1042,
	"eval_samples_per_second": 8.96,
	"eval_steps_per_second": 1.12,
	"step": 200000
	},
	{
	"epoch": 15.6,
	"grad_norm": 0.995276689529419,
	"learning_rate": 0.0002,
	"loss": 0.3676,
	"step": 201000
	},
	{
	"epoch": 15.68,
	"grad_norm": 1.2943910360336304,
	"learning_rate": 0.0002,
	"loss": 0.3705,
	"step": 202000
	},
	{
	"epoch": 15.76,
	"grad_norm": 0.9539749026298523,
	"learning_rate": 0.0002,
	"loss": 0.3706,
	"step": 203000
	},
	{
	"epoch": 15.84,
	"grad_norm": 0.9351176619529724,
	"learning_rate": 0.0002,
	"loss": 0.3706,
	"step": 204000
	},
	{
	"epoch": 15.91,
	"grad_norm": 1.087781310081482,
	"learning_rate": 0.0002,
	"loss": 0.3713,
	"step": 205000
	},
	{
	"epoch": 15.99,
	"grad_norm": 1.2164143323898315,
	"learning_rate": 0.0002,
	"loss": 0.3729,
	"step": 206000
	},
	{
	"epoch": 16.07,
	"grad_norm": 1.1458275318145752,
	"learning_rate": 0.0002,
	"loss": 0.3417,
	"step": 207000
	},
	{
	"epoch": 16.15,
	"grad_norm": 0.9169874787330627,
	"learning_rate": 0.0002,
	"loss": 0.339,
	"step": 208000
	},
	{
	"epoch": 16.22,
	"grad_norm": 1.1594195365905762,
	"learning_rate": 0.0002,
	"loss": 0.3426,
	"step": 209000
	},
	{
	"epoch": 16.3,
	"grad_norm": 0.8710166215896606,
	"learning_rate": 0.0002,
	"loss": 0.3473,
	"step": 210000
	},
	{
	"epoch": 16.3,
	"eval_bleu": 64.4683,
	"eval_gen_len": 28.786,
	"eval_loss": 0.4854079782962799,
	"eval_runtime": 99.2915,
	"eval_samples_per_second": 8.943,
	"eval_steps_per_second": 1.118,
	"step": 210000
	},
	{
	"epoch": 16.38,
	"grad_norm": 1.1366904973983765,
	"learning_rate": 0.0002,
	"loss": 0.3483,
	"step": 211000
	},
	{
	"epoch": 16.46,
	"grad_norm": 1.135487675666809,
	"learning_rate": 0.0002,
	"loss": 0.3509,
	"step": 212000
	},
	{
	"epoch": 16.53,
	"grad_norm": 0.9458820819854736,
	"learning_rate": 0.0002,
	"loss": 0.3519,
	"step": 213000
	},
	{
	"epoch": 16.61,
	"grad_norm": 0.8842834830284119,
	"learning_rate": 0.0002,
	"loss": 0.3551,
	"step": 214000
	},
	{
	"epoch": 16.69,
	"grad_norm": 1.2772917747497559,
	"learning_rate": 0.0002,
	"loss": 0.3572,
	"step": 215000
	},
	{
	"epoch": 16.77,
	"grad_norm": 1.5344486236572266,
	"learning_rate": 0.0002,
	"loss": 0.3567,
	"step": 216000
	},
	{
	"epoch": 16.85,
	"grad_norm": 1.4000177383422852,
	"learning_rate": 0.0002,
	"loss": 0.3605,
	"step": 217000
	},
	{
	"epoch": 16.92,
	"grad_norm": 1.5617576837539673,
	"learning_rate": 0.0002,
	"loss": 0.3577,
	"step": 218000
	},
	{
	"epoch": 17.0,
	"grad_norm": 1.4207055568695068,
	"learning_rate": 0.0002,
	"loss": 0.3581,
	"step": 219000
	},
	{
	"epoch": 17.08,
	"grad_norm": 1.6633687019348145,
	"learning_rate": 0.0002,
	"loss": 0.3243,
	"step": 220000
	},
	{
	"epoch": 17.08,
	"eval_bleu": 64.7805,
	"eval_gen_len": 28.6791,
	"eval_loss": 0.490304172039032,
	"eval_runtime": 99.3675,
	"eval_samples_per_second": 8.937,
	"eval_steps_per_second": 1.117,
	"step": 220000
	},
	{
	"epoch": 17.16,
	"grad_norm": 1.1573091745376587,
	"learning_rate": 0.0002,
	"loss": 0.3298,
	"step": 221000
	},
	{
	"epoch": 17.23,
	"grad_norm": 1.046479344367981,
	"learning_rate": 0.0002,
	"loss": 0.3312,
	"step": 222000
	},
	{
	"epoch": 17.31,
	"grad_norm": 1.2901638746261597,
	"learning_rate": 0.0002,
	"loss": 0.3325,
	"step": 223000
	},
	{
	"epoch": 17.39,
	"grad_norm": 1.0912984609603882,
	"learning_rate": 0.0002,
	"loss": 0.3351,
	"step": 224000
	},
	{
	"epoch": 17.47,
	"grad_norm": 1.5278785228729248,
	"learning_rate": 0.0002,
	"loss": 0.3382,
	"step": 225000
	},
	{
	"epoch": 17.54,
	"grad_norm": 1.013113021850586,
	"learning_rate": 0.0002,
	"loss": 0.3386,
	"step": 226000
	},
	{
	"epoch": 17.62,
	"grad_norm": 1.254299283027649,
	"learning_rate": 0.0002,
	"loss": 0.3393,
	"step": 227000
	},
	{
	"epoch": 17.7,
	"grad_norm": 0.8990402221679688,
	"learning_rate": 0.0002,
	"loss": 0.3404,
	"step": 228000
	},
	{
	"epoch": 17.78,
	"grad_norm": 1.2247493267059326,
	"learning_rate": 0.0002,
	"loss": 0.3451,
	"step": 229000
	},
	{
	"epoch": 17.85,
	"grad_norm": 1.454061508178711,
	"learning_rate": 0.0002,
	"loss": 0.3426,
	"step": 230000
	},
	{
	"epoch": 17.85,
	"eval_bleu": 64.679,
	"eval_gen_len": 28.4809,
	"eval_loss": 0.4818822741508484,
	"eval_runtime": 98.7347,
	"eval_samples_per_second": 8.994,
	"eval_steps_per_second": 1.124,
	"step": 230000
	},
	{
	"epoch": 17.93,
	"grad_norm": 1.4103410243988037,
	"learning_rate": 0.0002,
	"loss": 0.3457,
	"step": 231000
	},
	{
	"epoch": 18.01,
	"grad_norm": 1.0248557329177856,
	"learning_rate": 0.0002,
	"loss": 0.3449,
	"step": 232000
	},
	{
	"epoch": 18.09,
	"grad_norm": 1.421231985092163,
	"learning_rate": 0.0002,
	"loss": 0.3115,
	"step": 233000
	},
	{
	"epoch": 18.16,
	"grad_norm": 1.0739413499832153,
	"learning_rate": 0.0002,
	"loss": 0.314,
	"step": 234000
	},
	{
	"epoch": 18.24,
	"grad_norm": 1.0976619720458984,
	"learning_rate": 0.0002,
	"loss": 0.3214,
	"step": 235000
	},
	{
	"epoch": 18.32,
	"grad_norm": 1.480944037437439,
	"learning_rate": 0.0002,
	"loss": 0.3173,
	"step": 236000
	},
	{
	"epoch": 18.4,
	"grad_norm": 1.249569296836853,
	"learning_rate": 0.0002,
	"loss": 0.3227,
	"step": 237000
	},
	{
	"epoch": 18.48,
	"grad_norm": 1.1228398084640503,
	"learning_rate": 0.0002,
	"loss": 0.3263,
	"step": 238000
	},
	{
	"epoch": 18.55,
	"grad_norm": 1.318242073059082,
	"learning_rate": 0.0002,
	"loss": 0.327,
	"step": 239000
	},
	{
	"epoch": 18.63,
	"grad_norm": 1.1360143423080444,
	"learning_rate": 0.0002,
	"loss": 0.3295,
	"step": 240000
	},
	{
	"epoch": 18.63,
	"eval_bleu": 65.3735,
	"eval_gen_len": 28.6014,
	"eval_loss": 0.4851875603199005,
	"eval_runtime": 98.572,
	"eval_samples_per_second": 9.009,
	"eval_steps_per_second": 1.126,
	"step": 240000
	},
	{
	"epoch": 18.71,
	"grad_norm": 1.4588408470153809,
	"learning_rate": 0.0002,
	"loss": 0.3268,
	"step": 241000
	},
	{
	"epoch": 18.79,
	"grad_norm": 1.1620702743530273,
	"learning_rate": 0.0002,
	"loss": 0.3341,
	"step": 242000
	},
	{
	"epoch": 18.86,
	"grad_norm": 1.0640859603881836,
	"learning_rate": 0.0002,
	"loss": 0.3346,
	"step": 243000
	},
	{
	"epoch": 18.94,
	"grad_norm": 1.096739649772644,
	"learning_rate": 0.0002,
	"loss": 0.3334,
	"step": 244000
	},
	{
	"epoch": 19.02,
	"grad_norm": 1.23462975025177,
	"learning_rate": 0.0002,
	"loss": 0.3273,
	"step": 245000
	},
	{
	"epoch": 19.1,
	"grad_norm": 0.9026219248771667,
	"learning_rate": 0.0002,
	"loss": 0.3003,
	"step": 246000
	},
	{
	"epoch": 19.17,
	"grad_norm": 1.0630195140838623,
	"learning_rate": 0.0002,
	"loss": 0.3042,
	"step": 247000
	},
	{
	"epoch": 19.25,
	"grad_norm": 1.0800952911376953,
	"learning_rate": 0.0002,
	"loss": 0.306,
	"step": 248000
	},
	{
	"epoch": 19.33,
	"grad_norm": 1.2505557537078857,
	"learning_rate": 0.0002,
	"loss": 0.311,
	"step": 249000
	},
	{
	"epoch": 19.41,
	"grad_norm": 0.822533369064331,
	"learning_rate": 0.0002,
	"loss": 0.3124,
	"step": 250000
	},
	{
	"epoch": 19.41,
	"eval_bleu": 64.5641,
	"eval_gen_len": 28.6745,
	"eval_loss": 0.4947471022605896,
	"eval_runtime": 99.0725,
	"eval_samples_per_second": 8.963,
	"eval_steps_per_second": 1.12,
	"step": 250000
	},
	{
	"epoch": 19.48,
	"grad_norm": 1.2964988946914673,
	"learning_rate": 0.0002,
	"loss": 0.312,
	"step": 251000
	},
	{
	"epoch": 19.56,
	"grad_norm": 1.0119915008544922,
	"learning_rate": 0.0002,
	"loss": 0.3151,
	"step": 252000
	},
	{
	"epoch": 19.64,
	"grad_norm": 1.2384612560272217,
	"learning_rate": 0.0002,
	"loss": 0.3171,
	"step": 253000
	},
	{
	"epoch": 19.72,
	"grad_norm": 1.7689512968063354,
	"learning_rate": 0.0002,
	"loss": 0.3177,
	"step": 254000
	},
	{
	"epoch": 19.8,
	"grad_norm": 1.3058741092681885,
	"learning_rate": 0.0002,
	"loss": 0.3195,
	"step": 255000
	},
	{
	"epoch": 19.87,
	"grad_norm": 1.2293740510940552,
	"learning_rate": 0.0002,
	"loss": 0.3226,
	"step": 256000
	},
	{
	"epoch": 19.95,
	"grad_norm": 1.398077368736267,
	"learning_rate": 0.0002,
	"loss": 0.3222,
	"step": 257000
	},
	{
	"epoch": 20.03,
	"grad_norm": 0.9053579568862915,
	"learning_rate": 0.0002,
	"loss": 0.3122,
	"step": 258000
	},
	{
	"epoch": 20.11,
	"grad_norm": 1.2684714794158936,
	"learning_rate": 0.0002,
	"loss": 0.2891,
	"step": 259000
	},
	{
	"epoch": 20.18,
	"grad_norm": 0.9774475693702698,
	"learning_rate": 0.0002,
	"loss": 0.2933,
	"step": 260000
	},
	{
	"epoch": 20.18,
	"eval_bleu": 65.1364,
	"eval_gen_len": 28.6419,
	"eval_loss": 0.49722200632095337,
	"eval_runtime": 99.0096,
	"eval_samples_per_second": 8.969,
	"eval_steps_per_second": 1.121,
	"step": 260000
	},
	{
	"epoch": 20.26,
	"grad_norm": 1.2156912088394165,
	"learning_rate": 0.0002,
	"loss": 0.296,
	"step": 261000
	},
	{
	"epoch": 20.34,
	"grad_norm": 1.221637487411499,
	"learning_rate": 0.0002,
	"loss": 0.2981,
	"step": 262000
	},
	{
	"epoch": 20.42,
	"grad_norm": 0.9357077479362488,
	"learning_rate": 0.0002,
	"loss": 0.3018,
	"step": 263000
	},
	{
	"epoch": 20.49,
	"grad_norm": 0.9926024079322815,
	"learning_rate": 0.0002,
	"loss": 0.3012,
	"step": 264000
	},
	{
	"epoch": 20.57,
	"grad_norm": 1.6473757028579712,
	"learning_rate": 0.0002,
	"loss": 0.3049,
	"step": 265000
	},
	{
	"epoch": 20.65,
	"grad_norm": 1.1541528701782227,
	"learning_rate": 0.0002,
	"loss": 0.3039,
	"step": 266000
	},
	{
	"epoch": 20.73,
	"grad_norm": 1.220951795578003,
	"learning_rate": 0.0002,
	"loss": 0.3074,
	"step": 267000
	},
	{
	"epoch": 20.8,
	"grad_norm": 1.074318289756775,
	"learning_rate": 0.0002,
	"loss": 0.3119,
	"step": 268000
	},
	{
	"epoch": 20.88,
	"grad_norm": 1.015864372253418,
	"learning_rate": 0.0002,
	"loss": 0.3116,
	"step": 269000
	},
	{
	"epoch": 20.96,
	"grad_norm": 1.0277948379516602,
	"learning_rate": 0.0002,
	"loss": 0.3101,
	"step": 270000
	},
	{
	"epoch": 20.96,
	"eval_bleu": 64.6747,
	"eval_gen_len": 28.6802,
	"eval_loss": 0.4901565611362457,
	"eval_runtime": 100.085,
	"eval_samples_per_second": 8.872,
	"eval_steps_per_second": 1.109,
	"step": 270000
	},
	{
	"epoch": 21.04,
	"grad_norm": 0.9389250874519348,
	"learning_rate": 0.0002,
	"loss": 0.2942,
	"step": 271000
	},
	{
	"epoch": 21.11,
	"grad_norm": 1.2478715181350708,
	"learning_rate": 0.0002,
	"loss": 0.2806,
	"step": 272000
	},
	{
	"epoch": 21.19,
	"grad_norm": 0.9297951459884644,
	"learning_rate": 0.0002,
	"loss": 0.2833,
	"step": 273000
	},
	{
	"epoch": 21.27,
	"grad_norm": 0.9602841734886169,
	"learning_rate": 0.0002,
	"loss": 0.2876,
	"step": 274000
	},
	{
	"epoch": 21.35,
	"grad_norm": 0.9561505317687988,
	"learning_rate": 0.0002,
	"loss": 0.2898,
	"step": 275000
	},
	{
	"epoch": 21.43,
	"grad_norm": 1.0724116563796997,
	"learning_rate": 0.0002,
	"loss": 0.2897,
	"step": 276000
	},
	{
	"epoch": 21.5,
	"grad_norm": 0.9960470199584961,
	"learning_rate": 0.0002,
	"loss": 0.2942,
	"step": 277000
	},
	{
	"epoch": 21.58,
	"grad_norm": 1.1480662822723389,
	"learning_rate": 0.0002,
	"loss": 0.2915,
	"step": 278000
	},
	{
	"epoch": 21.66,
	"grad_norm": 1.1175373792648315,
	"learning_rate": 0.0002,
	"loss": 0.2991,
	"step": 279000
	},
	{
	"epoch": 21.74,
	"grad_norm": 1.6251972913742065,
	"learning_rate": 0.0002,
	"loss": 0.2991,
	"step": 280000
	},
	{
	"epoch": 21.74,
	"eval_bleu": 64.9732,
	"eval_gen_len": 28.5653,
	"eval_loss": 0.4907251298427582,
	"eval_runtime": 98.6604,
	"eval_samples_per_second": 9.001,
	"eval_steps_per_second": 1.125,
	"step": 280000
	},
	{
	"epoch": 21.81,
	"grad_norm": 0.8608353137969971,
	"learning_rate": 0.0002,
	"loss": 0.2994,
	"step": 281000
	},
	{
	"epoch": 21.89,
	"grad_norm": 1.077614426612854,
	"learning_rate": 0.0002,
	"loss": 0.3012,
	"step": 282000
	},
	{
	"epoch": 21.97,
	"grad_norm": 1.6897170543670654,
	"learning_rate": 0.0002,
	"loss": 0.3012,
	"step": 283000
	},
	{
	"epoch": 22.05,
	"grad_norm": 1.3074902296066284,
	"learning_rate": 0.0002,
	"loss": 0.2814,
	"step": 284000
	},
	{
	"epoch": 22.12,
	"grad_norm": 0.9641602039337158,
	"learning_rate": 0.0002,
	"loss": 0.2717,
	"step": 285000
	},
	{
	"epoch": 22.2,
	"grad_norm": 1.634346842765808,
	"learning_rate": 0.0002,
	"loss": 0.2747,
	"step": 286000
	},
	{
	"epoch": 22.28,
	"grad_norm": 1.4014965295791626,
	"learning_rate": 0.0002,
	"loss": 0.2783,
	"step": 287000
	},
	{
	"epoch": 22.36,
	"grad_norm": 1.3981196880340576,
	"learning_rate": 0.0002,
	"loss": 0.2831,
	"step": 288000
	},
	{
	"epoch": 22.43,
	"grad_norm": 0.8403178453445435,
	"learning_rate": 0.0002,
	"loss": 0.2801,
	"step": 289000
	},
	{
	"epoch": 22.51,
	"grad_norm": 0.879589319229126,
	"learning_rate": 0.0002,
	"loss": 0.2828,
	"step": 290000
	},
	{
	"epoch": 22.51,
	"eval_bleu": 64.7552,
	"eval_gen_len": 28.6261,
	"eval_loss": 0.5037782192230225,
	"eval_runtime": 98.7235,
	"eval_samples_per_second": 8.995,
	"eval_steps_per_second": 1.124,
	"step": 290000
	},
	{
	"epoch": 22.59,
	"grad_norm": 1.751582145690918,
	"learning_rate": 0.0002,
	"loss": 0.2846,
	"step": 291000
	},
	{
	"epoch": 22.67,
	"grad_norm": 1.2374579906463623,
	"learning_rate": 0.0002,
	"loss": 0.2855,
	"step": 292000
	},
	{
	"epoch": 22.74,
	"grad_norm": 1.152079463005066,
	"learning_rate": 0.0002,
	"loss": 0.2916,
	"step": 293000
	},
	{
	"epoch": 22.82,
	"grad_norm": 1.2837114334106445,
	"learning_rate": 0.0002,
	"loss": 0.2889,
	"step": 294000
	},
	{
	"epoch": 22.9,
	"grad_norm": 1.161375880241394,
	"learning_rate": 0.0002,
	"loss": 0.2894,
	"step": 295000
	},
	{
	"epoch": 22.98,
	"grad_norm": 0.8594853281974792,
	"learning_rate": 0.0002,
	"loss": 0.2936,
	"step": 296000
	},
	{
	"epoch": 23.06,
	"grad_norm": 0.9489020705223083,
	"learning_rate": 0.0002,
	"loss": 0.2733,
	"step": 297000
	},
	{
	"epoch": 23.13,
	"grad_norm": 1.2100919485092163,
	"learning_rate": 0.0002,
	"loss": 0.263,
	"step": 298000
	},
	{
	"epoch": 23.21,
	"grad_norm": 2.140540361404419,
	"learning_rate": 0.0002,
	"loss": 0.2666,
	"step": 299000
	},
	{
	"epoch": 23.29,
	"grad_norm": 1.070940375328064,
	"learning_rate": 0.0002,
	"loss": 0.2688,
	"step": 300000
	},
	{
	"epoch": 23.29,
	"eval_bleu": 65.0702,
	"eval_gen_len": 28.7534,
	"eval_loss": 0.5042341351509094,
	"eval_runtime": 99.9941,
	"eval_samples_per_second": 8.881,
	"eval_steps_per_second": 1.11,
	"step": 300000
	},
	{
	"epoch": 23.37,
	"grad_norm": 1.0847973823547363,
	"learning_rate": 0.0002,
	"loss": 0.2692,
	"step": 301000
	},
	{
	"epoch": 23.44,
	"grad_norm": 1.098399043083191,
	"learning_rate": 0.0002,
	"loss": 0.2721,
	"step": 302000
	},
	{
	"epoch": 23.52,
	"grad_norm": 0.9735555648803711,
	"learning_rate": 0.0002,
	"loss": 0.2725,
	"step": 303000
	},
	{
	"epoch": 23.6,
	"grad_norm": 1.2928968667984009,
	"learning_rate": 0.0002,
	"loss": 0.2772,
	"step": 304000
	},
	{
	"epoch": 23.68,
	"grad_norm": 1.1871669292449951,
	"learning_rate": 0.0002,
	"loss": 0.2766,
	"step": 305000
	},
	{
	"epoch": 23.75,
	"grad_norm": 0.9379162788391113,
	"learning_rate": 0.0002,
	"loss": 0.2797,
	"step": 306000
	},
	{
	"epoch": 23.83,
	"grad_norm": 0.8844149112701416,
	"learning_rate": 0.0002,
	"loss": 0.2813,
	"step": 307000
	},
	{
	"epoch": 23.91,
	"grad_norm": 1.0218191146850586,
	"learning_rate": 0.0002,
	"loss": 0.2834,
	"step": 308000
	},
	{
	"epoch": 23.99,
	"grad_norm": 1.234649896621704,
	"learning_rate": 0.0002,
	"loss": 0.2827,
	"step": 309000
	},
	{
	"epoch": 24.06,
	"grad_norm": 0.8998326659202576,
	"learning_rate": 0.0002,
	"loss": 0.2555,
	"step": 310000
	},
	{
	"epoch": 24.06,
	"eval_bleu": 65.0378,
	"eval_gen_len": 29.089,
	"eval_loss": 0.5101344585418701,
	"eval_runtime": 101.77,
	"eval_samples_per_second": 8.726,
	"eval_steps_per_second": 1.091,
	"step": 310000
	},
	{
	"epoch": 24.14,
	"grad_norm": 0.9993298053741455,
	"learning_rate": 0.0002,
	"loss": 0.2575,
	"step": 311000
	},
	{
	"epoch": 24.22,
	"grad_norm": 1.078316569328308,
	"learning_rate": 0.0002,
	"loss": 0.2577,
	"step": 312000
	},
	{
	"epoch": 24.3,
	"grad_norm": 1.0775636434555054,
	"learning_rate": 0.0002,
	"loss": 0.2603,
	"step": 313000
	},
	{
	"epoch": 24.38,
	"grad_norm": 1.0711839199066162,
	"learning_rate": 0.0002,
	"loss": 0.2641,
	"step": 314000
	},
	{
	"epoch": 24.45,
	"grad_norm": 1.1953543424606323,
	"learning_rate": 0.0002,
	"loss": 0.2666,
	"step": 315000
	},
	{
	"epoch": 24.53,
	"grad_norm": 0.7338001132011414,
	"learning_rate": 0.0002,
	"loss": 0.2662,
	"step": 316000
	},
	{
	"epoch": 24.61,
	"grad_norm": 1.651564121246338,
	"learning_rate": 0.0002,
	"loss": 0.2658,
	"step": 317000
	},
	{
	"epoch": 24.69,
	"grad_norm": 0.8356152176856995,
	"learning_rate": 0.0002,
	"loss": 0.2706,
	"step": 318000
	},
	{
	"epoch": 24.76,
	"grad_norm": 0.8503906726837158,
	"learning_rate": 0.0002,
	"loss": 0.2715,
	"step": 319000
	},
	{
	"epoch": 24.84,
	"grad_norm": 0.9122622609138489,
	"learning_rate": 0.0002,
	"loss": 0.2692,
	"step": 320000
	},
	{
	"epoch": 24.84,
	"eval_bleu": 64.9991,
	"eval_gen_len": 28.6937,
	"eval_loss": 0.5021673440933228,
	"eval_runtime": 99.2776,
	"eval_samples_per_second": 8.945,
	"eval_steps_per_second": 1.118,
	"step": 320000
	},
	{
	"epoch": 24.92,
	"grad_norm": 1.0263617038726807,
	"learning_rate": 0.0002,
	"loss": 0.2725,
	"step": 321000
	},
	{
	"epoch": 25.0,
	"grad_norm": 1.140886902809143,
	"learning_rate": 0.0002,
	"loss": 0.2748,
	"step": 322000
	},
	{
	"epoch": 25.07,
	"grad_norm": 0.9275480508804321,
	"learning_rate": 0.0002,
	"loss": 0.2467,
	"step": 323000
	},
	{
	"epoch": 25.15,
	"grad_norm": 1.170021653175354,
	"learning_rate": 0.0002,
	"loss": 0.2465,
	"step": 324000
	},
	{
	"epoch": 25.23,
	"grad_norm": 1.1251965761184692,
	"learning_rate": 0.0002,
	"loss": 0.2492,
	"step": 325000
	},
	{
	"epoch": 25.31,
	"grad_norm": 1.0885039567947388,
	"learning_rate": 0.0002,
	"loss": 0.2518,
	"step": 326000
	},
	{
	"epoch": 25.38,
	"grad_norm": 1.2162927389144897,
	"learning_rate": 0.0002,
	"loss": 0.2535,
	"step": 327000
	},
	{
	"epoch": 25.46,
	"grad_norm": 1.0869230031967163,
	"learning_rate": 0.0002,
	"loss": 0.2534,
	"step": 328000
	},
	{
	"epoch": 25.54,
	"grad_norm": 0.9775025248527527,
	"learning_rate": 0.0002,
	"loss": 0.2586,
	"step": 329000
	},
	{
	"epoch": 25.62,
	"grad_norm": 0.8145058155059814,
	"learning_rate": 0.0002,
	"loss": 0.2593,
	"step": 330000
	},
	{
	"epoch": 25.62,
	"eval_bleu": 65.2478,
	"eval_gen_len": 28.6137,
	"eval_loss": 0.508499026298523,
	"eval_runtime": 98.6428,
	"eval_samples_per_second": 9.002,
	"eval_steps_per_second": 1.125,
	"step": 330000
	},
	{
	"epoch": 25.69,
	"grad_norm": 1.270075798034668,
	"learning_rate": 0.0002,
	"loss": 0.2613,
	"step": 331000
	},
	{
	"epoch": 25.77,
	"grad_norm": 1.431252121925354,
	"learning_rate": 0.0002,
	"loss": 0.2628,
	"step": 332000
	},
	{
	"epoch": 25.85,
	"grad_norm": 1.3506394624710083,
	"learning_rate": 0.0002,
	"loss": 0.2651,
	"step": 333000
	},
	{
	"epoch": 25.93,
	"grad_norm": 1.0612725019454956,
	"learning_rate": 0.0002,
	"loss": 0.2628,
	"step": 334000
	},
	{
	"epoch": 26.01,
	"grad_norm": 0.8760356307029724,
	"learning_rate": 0.0002,
	"loss": 0.2654,
	"step": 335000
	},
	{
	"epoch": 26.08,
	"grad_norm": 1.0780360698699951,
	"learning_rate": 0.0002,
	"loss": 0.2363,
	"step": 336000
	},
	{
	"epoch": 26.16,
	"grad_norm": 1.4022656679153442,
	"learning_rate": 0.0002,
	"loss": 0.2404,
	"step": 337000
	},
	{
	"epoch": 26.24,
	"grad_norm": 1.1530039310455322,
	"learning_rate": 0.0002,
	"loss": 0.2416,
	"step": 338000
	},
	{
	"epoch": 26.32,
	"grad_norm": 1.028208613395691,
	"learning_rate": 0.0002,
	"loss": 0.2453,
	"step": 339000
	},
	{
	"epoch": 26.39,
	"grad_norm": 0.8168412446975708,
	"learning_rate": 0.0002,
	"loss": 0.2439,
	"step": 340000
	},
	{
	"epoch": 26.39,
	"eval_bleu": 64.863,
	"eval_gen_len": 28.6464,
	"eval_loss": 0.5152307748794556,
	"eval_runtime": 99.207,
	"eval_samples_per_second": 8.951,
	"eval_steps_per_second": 1.119,
	"step": 340000
	},
	{
	"epoch": 26.47,
	"grad_norm": 1.415486216545105,
	"learning_rate": 0.0002,
	"loss": 0.2481,
	"step": 341000
	},
	{
	"epoch": 26.55,
	"grad_norm": 1.016444444656372,
	"learning_rate": 0.0002,
	"loss": 0.2515,
	"step": 342000
	},
	{
	"epoch": 26.63,
	"grad_norm": 1.0151183605194092,
	"learning_rate": 0.0002,
	"loss": 0.2519,
	"step": 343000
	},
	{
	"epoch": 26.7,
	"grad_norm": 0.8286064267158508,
	"learning_rate": 0.0002,
	"loss": 0.2528,
	"step": 344000
	},
	{
	"epoch": 26.78,
	"grad_norm": 1.0916731357574463,
	"learning_rate": 0.0002,
	"loss": 0.2529,
	"step": 345000
	},
	{
	"epoch": 26.86,
	"grad_norm": 1.0001248121261597,
	"learning_rate": 0.0002,
	"loss": 0.256,
	"step": 346000
	},
	{
	"epoch": 26.94,
	"grad_norm": 0.8120971322059631,
	"learning_rate": 0.0002,
	"loss": 0.2575,
	"step": 347000
	},
	{
	"epoch": 27.01,
	"grad_norm": 0.9800658822059631,
	"learning_rate": 0.0002,
	"loss": 0.2522,
	"step": 348000
	},
	{
	"epoch": 27.09,
	"grad_norm": 1.0135070085525513,
	"learning_rate": 0.0002,
	"loss": 0.2298,
	"step": 349000
	},
	{
	"epoch": 27.17,
	"grad_norm": 1.1721863746643066,
	"learning_rate": 0.0002,
	"loss": 0.2327,
	"step": 350000
	},
	{
	"epoch": 27.17,
	"eval_bleu": 65.0748,
	"eval_gen_len": 28.7286,
	"eval_loss": 0.5164603590965271,
	"eval_runtime": 99.7391,
	"eval_samples_per_second": 8.903,
	"eval_steps_per_second": 1.113,
	"step": 350000
	},
	{
	"epoch": 27.25,
	"grad_norm": 0.7238809466362,
	"learning_rate": 0.0002,
	"loss": 0.2337,
	"step": 351000
	},
	{
	"epoch": 27.32,
	"grad_norm": 0.8267261385917664,
	"learning_rate": 0.0002,
	"loss": 0.2357,
	"step": 352000
	},
	{
	"epoch": 27.4,
	"grad_norm": 1.0274128913879395,
	"learning_rate": 0.0002,
	"loss": 0.2398,
	"step": 353000
	},
	{
	"epoch": 27.48,
	"grad_norm": 0.9916879534721375,
	"learning_rate": 0.0002,
	"loss": 0.2401,
	"step": 354000
	},
	{
	"epoch": 27.56,
	"grad_norm": 1.095639944076538,
	"learning_rate": 0.0002,
	"loss": 0.2428,
	"step": 355000
	},
	{
	"epoch": 27.64,
	"grad_norm": 0.8598717451095581,
	"learning_rate": 0.0002,
	"loss": 0.2432,
	"step": 356000
	},
	{
	"epoch": 27.71,
	"grad_norm": 0.8891191482543945,
	"learning_rate": 0.0002,
	"loss": 0.2431,
	"step": 357000
	},
	{
	"epoch": 27.79,
	"grad_norm": 0.9431182146072388,
	"learning_rate": 0.0002,
	"loss": 0.2468,
	"step": 358000
	},
	{
	"epoch": 27.87,
	"grad_norm": 1.3781706094741821,
	"learning_rate": 0.0002,
	"loss": 0.2498,
	"step": 359000
	},
	{
	"epoch": 27.95,
	"grad_norm": 0.9336220622062683,
	"learning_rate": 0.0002,
	"loss": 0.249,
	"step": 360000
	},
	{
	"epoch": 27.95,
	"eval_bleu": 64.7249,
	"eval_gen_len": 28.6137,
	"eval_loss": 0.5116418600082397,
	"eval_runtime": 98.8178,
	"eval_samples_per_second": 8.986,
	"eval_steps_per_second": 1.123,
	"step": 360000
	},
	{
	"epoch": 28.02,
	"grad_norm": 1.2862168550491333,
	"learning_rate": 0.0002,
	"loss": 0.2416,
	"step": 361000
	},
	{
	"epoch": 28.1,
	"grad_norm": 0.8687452077865601,
	"learning_rate": 0.0002,
	"loss": 0.2204,
	"step": 362000
	},
	{
	"epoch": 28.18,
	"grad_norm": 1.8673216104507446,
	"learning_rate": 0.0002,
	"loss": 0.2254,
	"step": 363000
	},
	{
	"epoch": 28.26,
	"grad_norm": 0.9244999885559082,
	"learning_rate": 0.0002,
	"loss": 0.227,
	"step": 364000
	},
	{
	"epoch": 28.33,
	"grad_norm": 0.7414880990982056,
	"learning_rate": 0.0002,
	"loss": 0.2302,
	"step": 365000
	},
	{
	"epoch": 28.41,
	"grad_norm": 1.0677781105041504,
	"learning_rate": 0.0002,
	"loss": 0.2311,
	"step": 366000
	},
	{
	"epoch": 28.49,
	"grad_norm": 1.0712281465530396,
	"learning_rate": 0.0002,
	"loss": 0.2354,
	"step": 367000
	},
	{
	"epoch": 28.57,
	"grad_norm": 1.0177695751190186,
	"learning_rate": 0.0002,
	"loss": 0.2349,
	"step": 368000
	},
	{
	"epoch": 28.64,
	"grad_norm": 1.2082629203796387,
	"learning_rate": 0.0002,
	"loss": 0.2343,
	"step": 369000
	},
	{
	"epoch": 28.72,
	"grad_norm": 0.9800160527229309,
	"learning_rate": 0.0002,
	"loss": 0.238,
	"step": 370000
	},
	{
	"epoch": 28.72,
	"eval_bleu": 64.7651,
	"eval_gen_len": 28.5968,
	"eval_loss": 0.5202394723892212,
	"eval_runtime": 98.8503,
	"eval_samples_per_second": 8.983,
	"eval_steps_per_second": 1.123,
	"step": 370000
	},
	{
	"epoch": 28.8,
	"grad_norm": 1.4668409824371338,
	"learning_rate": 0.0002,
	"loss": 0.2417,
	"step": 371000
	},
	{
	"epoch": 28.88,
	"grad_norm": 0.9679712653160095,
	"learning_rate": 0.0002,
	"loss": 0.2397,
	"step": 372000
	},
	{
	"epoch": 28.96,
	"grad_norm": 1.0757184028625488,
	"learning_rate": 0.0002,
	"loss": 0.2419,
	"step": 373000
	},
	{
	"epoch": 29.03,
	"grad_norm": 1.3961704969406128,
	"learning_rate": 0.0002,
	"loss": 0.2326,
	"step": 374000
	},
	{
	"epoch": 29.11,
	"grad_norm": 1.4827901124954224,
	"learning_rate": 0.0002,
	"loss": 0.2159,
	"step": 375000
	},
	{
	"epoch": 29.19,
	"grad_norm": 1.065645456314087,
	"learning_rate": 0.0002,
	"loss": 0.2195,
	"step": 376000
	},
	{
	"epoch": 29.27,
	"grad_norm": 0.8756958842277527,
	"learning_rate": 0.0002,
	"loss": 0.2229,
	"step": 377000
	},
	{
	"epoch": 29.34,
	"grad_norm": 1.2630327939987183,
	"learning_rate": 0.0002,
	"loss": 0.2251,
	"step": 378000
	},
	{
	"epoch": 29.42,
	"grad_norm": 0.9434683322906494,
	"learning_rate": 0.0002,
	"loss": 0.2267,
	"step": 379000
	},
	{
	"epoch": 29.5,
	"grad_norm": 0.8589434623718262,
	"learning_rate": 0.0002,
	"loss": 0.2297,
	"step": 380000
	},
	{
	"epoch": 29.5,
	"eval_bleu": 65.3334,
	"eval_gen_len": 28.7005,
	"eval_loss": 0.5242559909820557,
	"eval_runtime": 99.2088,
	"eval_samples_per_second": 8.951,
	"eval_steps_per_second": 1.119,
	"step": 380000
	},
	{
	"epoch": 29.58,
	"grad_norm": 1.0252753496170044,
	"learning_rate": 0.0002,
	"loss": 0.229,
	"step": 381000
	},
	{
	"epoch": 29.65,
	"grad_norm": 1.4881134033203125,
	"learning_rate": 0.0002,
	"loss": 0.2301,
	"step": 382000
	},
	{
	"epoch": 29.73,
	"grad_norm": 1.0281462669372559,
	"learning_rate": 0.0002,
	"loss": 0.2307,
	"step": 383000
	},
	{
	"epoch": 29.81,
	"grad_norm": 1.1244617700576782,
	"learning_rate": 0.0002,
	"loss": 0.2335,
	"step": 384000
	},
	{
	"epoch": 29.89,
	"grad_norm": 1.1461416482925415,
	"learning_rate": 0.0002,
	"loss": 0.2355,
	"step": 385000
	},
	{
	"epoch": 29.96,
	"grad_norm": 1.742311716079712,
	"learning_rate": 0.0002,
	"loss": 0.2341,
	"step": 386000
	},
	{
	"epoch": 30.04,
	"grad_norm": 0.8539097309112549,
	"learning_rate": 0.0002,
	"loss": 0.2196,
	"step": 387000
	},
	{
	"epoch": 30.12,
	"grad_norm": 0.9865394830703735,
	"learning_rate": 0.0002,
	"loss": 0.2118,
	"step": 388000
	},
	{
	"epoch": 30.2,
	"grad_norm": 1.2487947940826416,
	"learning_rate": 0.0002,
	"loss": 0.2111,
	"step": 389000
	},
	{
	"epoch": 30.27,
	"grad_norm": 0.9401417970657349,
	"learning_rate": 0.0002,
	"loss": 0.2152,
	"step": 390000
	},
	{
	"epoch": 30.27,
	"eval_bleu": 64.9364,
	"eval_gen_len": 28.6081,
	"eval_loss": 0.533649206161499,
	"eval_runtime": 99.1874,
	"eval_samples_per_second": 8.953,
	"eval_steps_per_second": 1.119,
	"step": 390000
	},
	{
	"epoch": 30.35,
	"grad_norm": 1.5141676664352417,
	"learning_rate": 0.0002,
	"loss": 0.2185,
	"step": 391000
	},
	{
	"epoch": 30.43,
	"grad_norm": 1.4947956800460815,
	"learning_rate": 0.0002,
	"loss": 0.221,
	"step": 392000
	},
	{
	"epoch": 30.51,
	"grad_norm": 0.8870178461074829,
	"learning_rate": 0.0002,
	"loss": 0.2221,
	"step": 393000
	},
	{
	"epoch": 30.59,
	"grad_norm": 1.013377070426941,
	"learning_rate": 0.0002,
	"loss": 0.2223,
	"step": 394000
	},
	{
	"epoch": 30.66,
	"grad_norm": 1.2745546102523804,
	"learning_rate": 0.0002,
	"loss": 0.2242,
	"step": 395000
	},
	{
	"epoch": 30.74,
	"grad_norm": 1.3159047365188599,
	"learning_rate": 0.0002,
	"loss": 0.2286,
	"step": 396000
	},
	{
	"epoch": 30.82,
	"grad_norm": 0.8441556096076965,
	"learning_rate": 0.0002,
	"loss": 0.2269,
	"step": 397000
	},
	{
	"epoch": 30.9,
	"grad_norm": 1.0391247272491455,
	"learning_rate": 0.0002,
	"loss": 0.2297,
	"step": 398000
	},
	{
	"epoch": 30.97,
	"grad_norm": 1.0133869647979736,
	"learning_rate": 0.0002,
	"loss": 0.2277,
	"step": 399000
	},
	{
	"epoch": 31.05,
	"grad_norm": 1.5093469619750977,
	"learning_rate": 0.0002,
	"loss": 0.2106,
	"step": 400000
	},
	{
	"epoch": 31.05,
	"eval_bleu": 65.117,
	"eval_gen_len": 28.6745,
	"eval_loss": 0.540839433670044,
	"eval_runtime": 98.9473,
	"eval_samples_per_second": 8.974,
	"eval_steps_per_second": 1.122,
	"step": 400000
	},
	{
	"epoch": 31.13,
	"grad_norm": 1.0606015920639038,
	"learning_rate": 0.0002,
	"loss": 0.2031,
	"step": 401000
	},
	{
	"epoch": 31.21,
	"grad_norm": 1.4048112630844116,
	"learning_rate": 0.0002,
	"loss": 0.2043,
	"step": 402000
	},
	{
	"epoch": 31.28,
	"grad_norm": 1.1232408285140991,
	"learning_rate": 0.0002,
	"loss": 0.211,
	"step": 403000
	},
	{
	"epoch": 31.36,
	"grad_norm": 1.2367199659347534,
	"learning_rate": 0.0002,
	"loss": 0.2107,
	"step": 404000
	},
	{
	"epoch": 31.44,
	"grad_norm": 1.1147772073745728,
	"learning_rate": 0.0002,
	"loss": 0.2116,
	"step": 405000
	},
	{
	"epoch": 31.52,
	"grad_norm": 0.9711781740188599,
	"learning_rate": 0.0002,
	"loss": 0.2147,
	"step": 406000
	},
	{
	"epoch": 31.59,
	"grad_norm": 1.4205774068832397,
	"learning_rate": 0.0002,
	"loss": 0.2158,
	"step": 407000
	},
	{
	"epoch": 31.67,
	"grad_norm": 1.303250789642334,
	"learning_rate": 0.0002,
	"loss": 0.2187,
	"step": 408000
	},
	{
	"epoch": 31.75,
	"grad_norm": 2.3327102661132812,
	"learning_rate": 0.0002,
	"loss": 0.2196,
	"step": 409000
	},
	{
	"epoch": 31.83,
	"grad_norm": 1.9003146886825562,
	"learning_rate": 0.0002,
	"loss": 0.2234,
	"step": 410000
	},
	{
	"epoch": 31.83,
	"eval_bleu": 64.8926,
	"eval_gen_len": 28.6318,
	"eval_loss": 0.5249429941177368,
	"eval_runtime": 98.7286,
	"eval_samples_per_second": 8.994,
	"eval_steps_per_second": 1.124,
	"step": 410000
	},
	{
	"epoch": 31.9,
	"grad_norm": 0.9950889348983765,
	"learning_rate": 0.0002,
	"loss": 0.2232,
	"step": 411000
	},
	{
	"epoch": 31.98,
	"grad_norm": 0.8693845272064209,
	"learning_rate": 0.0002,
	"loss": 0.2236,
	"step": 412000
	},
	{
	"epoch": 32.06,
	"grad_norm": 0.9227551817893982,
	"learning_rate": 0.0002,
	"loss": 0.204,
	"step": 413000
	},
	{
	"epoch": 32.14,
	"grad_norm": 1.0269570350646973,
	"learning_rate": 0.0002,
	"loss": 0.2019,
	"step": 414000
	},
	{
	"epoch": 32.22,
	"grad_norm": 1.0199569463729858,
	"learning_rate": 0.0002,
	"loss": 0.2015,
	"step": 415000
	},
	{
	"epoch": 32.29,
	"grad_norm": 1.4488086700439453,
	"learning_rate": 0.0002,
	"loss": 0.2036,
	"step": 416000
	},
	{
	"epoch": 32.37,
	"grad_norm": 0.8843773007392883,
	"learning_rate": 0.0002,
	"loss": 0.2049,
	"step": 417000
	},
	{
	"epoch": 32.45,
	"grad_norm": 1.3630881309509277,
	"learning_rate": 0.0002,
	"loss": 0.2085,
	"step": 418000
	},
	{
	"epoch": 32.53,
	"grad_norm": 0.9767336845397949,
	"learning_rate": 0.0002,
	"loss": 0.2097,
	"step": 419000
	},
	{
	"epoch": 32.6,
	"grad_norm": 0.9147652983665466,
	"learning_rate": 0.0002,
	"loss": 0.2085,
	"step": 420000
	},
	{
	"epoch": 32.6,
	"eval_bleu": 65.5715,
	"eval_gen_len": 28.7984,
	"eval_loss": 0.5305626392364502,
	"eval_runtime": 100.0595,
	"eval_samples_per_second": 8.875,
	"eval_steps_per_second": 1.109,
	"step": 420000
	},
	{
	"epoch": 32.68,
	"grad_norm": 1.4235540628433228,
	"learning_rate": 0.0002,
	"loss": 0.212,
	"step": 421000
	},
	{
	"epoch": 32.76,
	"grad_norm": 0.9653807282447815,
	"learning_rate": 0.0002,
	"loss": 0.2129,
	"step": 422000
	},
	{
	"epoch": 32.84,
	"grad_norm": 1.0437246561050415,
	"learning_rate": 0.0002,
	"loss": 0.2153,
	"step": 423000
	},
	{
	"epoch": 32.91,
	"grad_norm": 1.0093231201171875,
	"learning_rate": 0.0002,
	"loss": 0.2146,
	"step": 424000
	},
	{
	"epoch": 32.99,
	"grad_norm": 0.9372303485870361,
	"learning_rate": 0.0002,
	"loss": 0.2176,
	"step": 425000
	},
	{
	"epoch": 33.07,
	"grad_norm": 0.990990161895752,
	"learning_rate": 0.0002,
	"loss": 0.1946,
	"step": 426000
	},
	{
	"epoch": 33.15,
	"grad_norm": 1.221752405166626,
	"learning_rate": 0.0002,
	"loss": 0.1937,
	"step": 427000
	},
	{
	"epoch": 33.22,
	"grad_norm": 1.0376135110855103,
	"learning_rate": 0.0002,
	"loss": 0.1971,
	"step": 428000
	},
	{
	"epoch": 33.3,
	"grad_norm": 1.2878087759017944,
	"learning_rate": 0.0002,
	"loss": 0.1993,
	"step": 429000
	},
	{
	"epoch": 33.38,
	"grad_norm": 1.702043890953064,
	"learning_rate": 0.0002,
	"loss": 0.2018,
	"step": 430000
	},
	{
	"epoch": 33.38,
	"eval_bleu": 64.9154,
	"eval_gen_len": 28.6351,
	"eval_loss": 0.5428734421730042,
	"eval_runtime": 99.9626,
	"eval_samples_per_second": 8.883,
	"eval_steps_per_second": 1.11,
	"step": 430000
	},
	{
	"epoch": 33.46,
	"grad_norm": 1.171934723854065,
	"learning_rate": 0.0002,
	"loss": 0.2042,
	"step": 431000
	},
	{
	"epoch": 33.54,
	"grad_norm": 0.9023895859718323,
	"learning_rate": 0.0002,
	"loss": 0.2032,
	"step": 432000
	},
	{
	"epoch": 33.61,
	"grad_norm": 1.5410844087600708,
	"learning_rate": 0.0002,
	"loss": 0.204,
	"step": 433000
	},
	{
	"epoch": 33.69,
	"grad_norm": 1.297434687614441,
	"learning_rate": 0.0002,
	"loss": 0.2057,
	"step": 434000
	},
	{
	"epoch": 33.77,
	"grad_norm": 1.636635422706604,
	"learning_rate": 0.0002,
	"loss": 0.2085,
	"step": 435000
	},
	{
	"epoch": 33.85,
	"grad_norm": 1.3059121370315552,
	"learning_rate": 0.0002,
	"loss": 0.2099,
	"step": 436000
	},
	{
	"epoch": 33.92,
	"grad_norm": 1.1616836786270142,
	"learning_rate": 0.0002,
	"loss": 0.2098,
	"step": 437000
	},
	{
	"epoch": 34.0,
	"grad_norm": 0.9708386063575745,
	"learning_rate": 0.0002,
	"loss": 0.2103,
	"step": 438000
	},
	{
	"epoch": 34.08,
	"grad_norm": 1.1958973407745361,
	"learning_rate": 0.0002,
	"loss": 0.1868,
	"step": 439000
	},
	{
	"epoch": 34.16,
	"grad_norm": 0.9669882655143738,
	"learning_rate": 0.0002,
	"loss": 0.1885,
	"step": 440000
	},
	{
	"epoch": 34.16,
	"eval_bleu": 65.0538,
	"eval_gen_len": 28.8525,
	"eval_loss": 0.5453199148178101,
	"eval_runtime": 98.9637,
	"eval_samples_per_second": 8.973,
	"eval_steps_per_second": 1.122,
	"step": 440000
	},
	{
	"epoch": 34.23,
	"grad_norm": 1.3960009813308716,
	"learning_rate": 0.0002,
	"loss": 0.192,
	"step": 441000
	},
	{
	"epoch": 34.31,
	"grad_norm": 1.1039202213287354,
	"learning_rate": 0.0002,
	"loss": 0.1928,
	"step": 442000
	},
	{
	"epoch": 34.39,
	"grad_norm": 1.4681973457336426,
	"learning_rate": 0.0002,
	"loss": 0.1963,
	"step": 443000
	},
	{
	"epoch": 34.47,
	"grad_norm": 1.1876535415649414,
	"learning_rate": 0.0002,
	"loss": 0.1955,
	"step": 444000
	},
	{
	"epoch": 34.54,
	"grad_norm": 1.0030099153518677,
	"learning_rate": 0.0002,
	"loss": 0.197,
	"step": 445000
	},
	{
	"epoch": 34.62,
	"grad_norm": 1.262609839439392,
	"learning_rate": 0.0002,
	"loss": 0.1965,
	"step": 446000
	},
	{
	"epoch": 34.7,
	"grad_norm": 4.133481979370117,
	"learning_rate": 0.0002,
	"loss": 0.2009,
	"step": 447000
	},
	{
	"epoch": 34.78,
	"grad_norm": 1.3214054107666016,
	"learning_rate": 0.0002,
	"loss": 0.2011,
	"step": 448000
	},
	{
	"epoch": 34.85,
	"grad_norm": 1.061333417892456,
	"learning_rate": 0.0002,
	"loss": 0.205,
	"step": 449000
	},
	{
	"epoch": 34.93,
	"grad_norm": 1.487025260925293,
	"learning_rate": 0.0002,
	"loss": 0.2049,
	"step": 450000
	},
	{
	"epoch": 34.93,
	"eval_bleu": 65.2857,
	"eval_gen_len": 28.7207,
	"eval_loss": 0.5434128046035767,
	"eval_runtime": 98.7363,
	"eval_samples_per_second": 8.994,
	"eval_steps_per_second": 1.124,
	"step": 450000
	},
	{
	"epoch": 35.01,
	"grad_norm": 1.3061411380767822,
	"learning_rate": 0.0002,
	"loss": 0.2042,
	"step": 451000
	},
	{
	"epoch": 35.09,
	"grad_norm": 0.9900358319282532,
	"learning_rate": 0.0002,
	"loss": 0.1803,
	"step": 452000
	},
	{
	"epoch": 35.17,
	"grad_norm": 1.2118251323699951,
	"learning_rate": 0.0002,
	"loss": 0.183,
	"step": 453000
	},
	{
	"epoch": 35.24,
	"grad_norm": 1.1625529527664185,
	"learning_rate": 0.0002,
	"loss": 0.1879,
	"step": 454000
	},
	{
	"epoch": 35.32,
	"grad_norm": 1.0669846534729004,
	"learning_rate": 0.0002,
	"loss": 0.1888,
	"step": 455000
	},
	{
	"epoch": 35.4,
	"grad_norm": 1.285409688949585,
	"learning_rate": 0.0002,
	"loss": 0.1908,
	"step": 456000
	},
	{
	"epoch": 35.48,
	"grad_norm": 1.292738914489746,
	"learning_rate": 0.0002,
	"loss": 0.1944,
	"step": 457000
	},
	{
	"epoch": 35.55,
	"grad_norm": 0.9169420599937439,
	"learning_rate": 0.0002,
	"loss": 0.1924,
	"step": 458000
	},
	{
	"epoch": 35.63,
	"grad_norm": 1.1117466688156128,
	"learning_rate": 0.0002,
	"loss": 0.1944,
	"step": 459000
	},
	{
	"epoch": 35.71,
	"grad_norm": 1.400664210319519,
	"learning_rate": 0.0002,
	"loss": 0.1957,
	"step": 460000
	},
	{
	"epoch": 35.71,
	"eval_bleu": 65.3436,
	"eval_gen_len": 28.714,
	"eval_loss": 0.549137532711029,
	"eval_runtime": 99.1079,
	"eval_samples_per_second": 8.96,
	"eval_steps_per_second": 1.12,
	"step": 460000
	},
	{
	"epoch": 35.79,
	"grad_norm": 1.1465002298355103,
	"learning_rate": 0.0002,
	"loss": 0.1974,
	"step": 461000
	},
	{
	"epoch": 35.86,
	"grad_norm": 0.9425164461135864,
	"learning_rate": 0.0002,
	"loss": 0.1967,
	"step": 462000
	},
	{
	"epoch": 35.94,
	"grad_norm": 1.0649182796478271,
	"learning_rate": 0.0002,
	"loss": 0.1974,
	"step": 463000
	},
	{
	"epoch": 36.02,
	"grad_norm": 0.9610468149185181,
	"learning_rate": 0.0002,
	"loss": 0.1943,
	"step": 464000
	},
	{
	"epoch": 36.1,
	"grad_norm": 1.0697602033615112,
	"learning_rate": 0.0002,
	"loss": 0.1785,
	"step": 465000
	},
	{
	"epoch": 36.17,
	"grad_norm": 0.8167102336883545,
	"learning_rate": 0.0002,
	"loss": 0.181,
	"step": 466000
	},
	{
	"epoch": 36.25,
	"grad_norm": 1.155148983001709,
	"learning_rate": 0.0002,
	"loss": 0.1804,
	"step": 467000
	},
	{
	"epoch": 36.33,
	"grad_norm": 1.036157250404358,
	"learning_rate": 0.0002,
	"loss": 0.1811,
	"step": 468000
	},
	{
	"epoch": 36.41,
	"grad_norm": 0.9966660141944885,
	"learning_rate": 0.0002,
	"loss": 0.1825,
	"step": 469000
	},
	{
	"epoch": 36.49,
	"grad_norm": 1.3554514646530151,
	"learning_rate": 0.0002,
	"loss": 0.1867,
	"step": 470000
	},
	{
	"epoch": 36.49,
	"eval_bleu": 65.4934,
	"eval_gen_len": 28.7939,
	"eval_loss": 0.5535929203033447,
	"eval_runtime": 99.8585,
	"eval_samples_per_second": 8.893,
	"eval_steps_per_second": 1.112,
	"step": 470000
	},
	{
	"epoch": 36.56,
	"grad_norm": 1.1400065422058105,
	"learning_rate": 0.0002,
	"loss": 0.1889,
	"step": 471000
	},
	{
	"epoch": 36.64,
	"grad_norm": 1.2936526536941528,
	"learning_rate": 0.0002,
	"loss": 0.1892,
	"step": 472000
	},
	{
	"epoch": 36.72,
	"grad_norm": 1.3375158309936523,
	"learning_rate": 0.0002,
	"loss": 0.1932,
	"step": 473000
	},
	{
	"epoch": 36.8,
	"grad_norm": 1.3976365327835083,
	"learning_rate": 0.0002,
	"loss": 0.1931,
	"step": 474000
	},
	{
	"epoch": 36.87,
	"grad_norm": 1.2075397968292236,
	"learning_rate": 0.0002,
	"loss": 0.1938,
	"step": 475000
	},
	{
	"epoch": 36.95,
	"grad_norm": 1.2333601713180542,
	"learning_rate": 0.0002,
	"loss": 0.1918,
	"step": 476000
	},
	{
	"epoch": 37.03,
	"grad_norm": 0.9724763631820679,
	"learning_rate": 0.0002,
	"loss": 0.1857,
	"step": 477000
	},
	{
	"epoch": 37.11,
	"grad_norm": 1.305141568183899,
	"learning_rate": 0.0002,
	"loss": 0.1741,
	"step": 478000
	},
	{
	"epoch": 37.18,
	"grad_norm": 1.2358112335205078,
	"learning_rate": 0.0002,
	"loss": 0.1727,
	"step": 479000
	},
	{
	"epoch": 37.26,
	"grad_norm": 1.040460228919983,
	"learning_rate": 0.0002,
	"loss": 0.1765,
	"step": 480000
	},
	{
	"epoch": 37.26,
	"eval_bleu": 65.5595,
	"eval_gen_len": 28.8255,
	"eval_loss": 0.5582976341247559,
	"eval_runtime": 99.6921,
	"eval_samples_per_second": 8.907,
	"eval_steps_per_second": 1.113,
	"step": 480000
	},
	{
	"epoch": 37.34,
	"grad_norm": 1.0049262046813965,
	"learning_rate": 0.0002,
	"loss": 0.1801,
	"step": 481000
	},
	{
	"epoch": 37.42,
	"grad_norm": 0.9716454148292542,
	"learning_rate": 0.0002,
	"loss": 0.1806,
	"step": 482000
	},
	{
	"epoch": 37.49,
	"grad_norm": 1.2684077024459839,
	"learning_rate": 0.0002,
	"loss": 0.1809,
	"step": 483000
	},
	{
	"epoch": 37.57,
	"grad_norm": 1.4772919416427612,
	"learning_rate": 0.0002,
	"loss": 0.1798,
	"step": 484000
	},
	{
	"epoch": 37.65,
	"grad_norm": 0.8240026831626892,
	"learning_rate": 0.0002,
	"loss": 0.1849,
	"step": 485000
	},
	{
	"epoch": 37.73,
	"grad_norm": 1.2247587442398071,
	"learning_rate": 0.0002,
	"loss": 0.1872,
	"step": 486000
	},
	{
	"epoch": 37.8,
	"grad_norm": 1.4645825624465942,
	"learning_rate": 0.0002,
	"loss": 0.1889,
	"step": 487000
	},
	{
	"epoch": 37.88,
	"grad_norm": 1.0552102327346802,
	"learning_rate": 0.0002,
	"loss": 0.1866,
	"step": 488000
	},
	{
	"epoch": 37.96,
	"grad_norm": 1.2899285554885864,
	"learning_rate": 0.0002,
	"loss": 0.1897,
	"step": 489000
	},
	{
	"epoch": 38.04,
	"grad_norm": 1.0461792945861816,
	"learning_rate": 0.0002,
	"loss": 0.1786,
	"step": 490000
	},
	{
	"epoch": 38.04,
	"eval_bleu": 65.6358,
	"eval_gen_len": 28.7691,
	"eval_loss": 0.5611980557441711,
	"eval_runtime": 99.4338,
	"eval_samples_per_second": 8.931,
	"eval_steps_per_second": 1.116,
	"step": 490000
	},
	{
	"epoch": 38.12,
	"grad_norm": 1.1956135034561157,
	"learning_rate": 0.0002,
	"loss": 0.1708,
	"step": 491000
	},
	{
	"epoch": 38.19,
	"grad_norm": 1.903419852256775,
	"learning_rate": 0.0002,
	"loss": 0.1726,
	"step": 492000
	},
	{
	"epoch": 38.27,
	"grad_norm": 1.4714049100875854,
	"learning_rate": 0.0002,
	"loss": 0.174,
	"step": 493000
	},
	{
	"epoch": 38.35,
	"grad_norm": 1.117650032043457,
	"learning_rate": 0.0002,
	"loss": 0.1753,
	"step": 494000
	},
	{
	"epoch": 38.43,
	"grad_norm": 0.9286689162254333,
	"learning_rate": 0.0002,
	"loss": 0.1766,
	"step": 495000
	},
	{
	"epoch": 38.5,
	"grad_norm": 1.0359840393066406,
	"learning_rate": 0.0002,
	"loss": 0.1774,
	"step": 496000
	},
	{
	"epoch": 38.58,
	"grad_norm": 0.9324952363967896,
	"learning_rate": 0.0002,
	"loss": 0.1795,
	"step": 497000
	},
	{
	"epoch": 38.66,
	"grad_norm": 1.2552545070648193,
	"learning_rate": 0.0002,
	"loss": 0.1795,
	"step": 498000
	},
	{
	"epoch": 38.74,
	"grad_norm": 0.9712297916412354,
	"learning_rate": 0.0002,
	"loss": 0.1798,
	"step": 499000
	},
	{
	"epoch": 38.81,
	"grad_norm": 1.3964751958847046,
	"learning_rate": 0.0002,
	"loss": 0.1809,
	"step": 500000
	},
	{
	"epoch": 38.81,
	"eval_bleu": 65.0266,
	"eval_gen_len": 28.7455,
	"eval_loss": 0.5573469996452332,
	"eval_runtime": 99.5788,
	"eval_samples_per_second": 8.918,
	"eval_steps_per_second": 1.115,
	"step": 500000
	},
	{
	"epoch": 38.81,
	"step": 500000,
	"total_flos": 5.131418179149005e+17,
	"train_loss": 0.40471466763305664,
	"train_runtime": 141171.7116,
	"train_samples_per_second": 56.669,
	"train_steps_per_second": 3.542
	}
	],
	"logging_steps": 1000,
	"max_steps": 500000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 39,
	"save_steps": 10000,
	"total_flos": 5.131418179149005e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}