End of training

Browse files

Files changed (6) hide show

README.md +20 -5
all_results.json +15 -0
eval_results.json +10 -0
runs/May05_21-24-23_nlpg02.cs.washington.edu/events.out.tfevents.1715110790.nlpg02.cs.washington.edu.1176883.1 +3 -0
train_results.json +8 -0
trainer_state.json +4030 -0

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 license: apache-2.0
 base_model: google/mt5-small
 tags:
 - generated_from_trainer
 metrics:
 - bleu
 model-index:
 - name: iwslt_aligned_smallT5_cont0
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,11 +30,11 @@ should probably proofread and complete it, then remove this comment. -->
 # iwslt_aligned_smallT5_cont0
-This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5573
-- Bleu: 65.0266
-- Gen Len: 28.7455
 ## Model description

 ---
+language:
+- de
+- en
 license: apache-2.0
 base_model: google/mt5-small
 tags:
 - generated_from_trainer
+datasets:
+- paulh27/alignment_iwslt2017_de_en
 metrics:
 - bleu
 model-index:
 - name: iwslt_aligned_smallT5_cont0
+  results:
+  - task:
+      name: Translation
+      type: translation
+    dataset:
+      name: paulh27/alignment_iwslt2017_de_en
+      type: paulh27/alignment_iwslt2017_de_en
+    metrics:
+    - name: Bleu
+      type: bleu
+      value: 65.6358
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # iwslt_aligned_smallT5_cont0
+This model is a fine-tuned version of [google/mt5-small](https://huggingface.co/google/mt5-small) on the paulh27/alignment_iwslt2017_de_en dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5612
+- Bleu: 65.6358
+- Gen Len: 28.7691
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 38.81,
+    "eval_bleu": 65.6358,
+    "eval_gen_len": 28.7691,
+    "eval_loss": 0.5611980557441711,
+    "eval_runtime": 99.4148,
+    "eval_samples": 888,
+    "eval_samples_per_second": 8.932,
+    "eval_steps_per_second": 1.117,
+    "train_loss": 0.40471466763305664,
+    "train_runtime": 141171.7116,
+    "train_samples": 206112,
+    "train_samples_per_second": 56.669,
+    "train_steps_per_second": 3.542
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 38.81,
+    "eval_bleu": 65.6358,
+    "eval_gen_len": 28.7691,
+    "eval_loss": 0.5611980557441711,
+    "eval_runtime": 99.4148,
+    "eval_samples": 888,
+    "eval_samples_per_second": 8.932,
+    "eval_steps_per_second": 1.117
+}

runs/May05_21-24-23_nlpg02.cs.washington.edu/events.out.tfevents.1715110790.nlpg02.cs.washington.edu.1176883.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c3472ca42a0847a54326cbcce566ea93092a7d02eaac4ceaa565b7b1694f6f8
+size 465

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 38.81,
+    "train_loss": 0.40471466763305664,
+    "train_runtime": 141171.7116,
+    "train_samples": 206112,
+    "train_samples_per_second": 56.669,
+    "train_steps_per_second": 3.542
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,4030 @@

+{
+  "best_metric": 65.6358,
+  "best_model_checkpoint": "/tmp/finetuned_models/iwslt_aligned_smallT5_cont0/checkpoint-490000",
+  "epoch": 38.81384878124515,
+  "eval_steps": 10000,
+  "global_step": 500000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.0081684589385986,
+      "learning_rate": 0.0002,
+      "loss": 3.3371,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.347439765930176,
+      "learning_rate": 0.0002,
+      "loss": 1.9825,
+      "step": 2000
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 3.2636098861694336,
+      "learning_rate": 0.0002,
+      "loss": 1.7503,
+      "step": 3000
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 2.1704177856445312,
+      "learning_rate": 0.0002,
+      "loss": 1.6063,
+      "step": 4000
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.8257893323898315,
+      "learning_rate": 0.0002,
+      "loss": 1.5193,
+      "step": 5000
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 2.1923136711120605,
+      "learning_rate": 0.0002,
+      "loss": 1.4439,
+      "step": 6000
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.198930501937866,
+      "learning_rate": 0.0002,
+      "loss": 1.3742,
+      "step": 7000
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.8519206047058105,
+      "learning_rate": 0.0002,
+      "loss": 1.3327,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 2.371457576751709,
+      "learning_rate": 0.0002,
+      "loss": 1.2872,
+      "step": 9000
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.2528538703918457,
+      "learning_rate": 0.0002,
+      "loss": 1.2426,
+      "step": 10000
+    },
+    {
+      "epoch": 0.78,
+      "eval_bleu": 46.2793,
+      "eval_gen_len": 28.6532,
+      "eval_loss": 0.8300400972366333,
+      "eval_runtime": 100.4495,
+      "eval_samples_per_second": 8.84,
+      "eval_steps_per_second": 1.105,
+      "step": 10000
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.8507146835327148,
+      "learning_rate": 0.0002,
+      "loss": 1.2154,
+      "step": 11000
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.629703164100647,
+      "learning_rate": 0.0002,
+      "loss": 1.1822,
+      "step": 12000
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 1.9470340013504028,
+      "learning_rate": 0.0002,
+      "loss": 1.1505,
+      "step": 13000
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 1.733299970626831,
+      "learning_rate": 0.0002,
+      "loss": 1.0877,
+      "step": 14000
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 1.5334522724151611,
+      "learning_rate": 0.0002,
+      "loss": 1.0647,
+      "step": 15000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 1.8881198167800903,
+      "learning_rate": 0.0002,
+      "loss": 1.0595,
+      "step": 16000
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 2.1781082153320312,
+      "learning_rate": 0.0002,
+      "loss": 1.0441,
+      "step": 17000
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 1.509994387626648,
+      "learning_rate": 0.0002,
+      "loss": 1.0307,
+      "step": 18000
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 2.5609610080718994,
+      "learning_rate": 0.0002,
+      "loss": 1.0165,
+      "step": 19000
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 1.512005090713501,
+      "learning_rate": 0.0002,
+      "loss": 0.9931,
+      "step": 20000
+    },
+    {
+      "epoch": 1.55,
+      "eval_bleu": 52.2709,
+      "eval_gen_len": 28.6441,
+      "eval_loss": 0.6755661368370056,
+      "eval_runtime": 99.4907,
+      "eval_samples_per_second": 8.925,
+      "eval_steps_per_second": 1.116,
+      "step": 20000
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 1.4830211400985718,
+      "learning_rate": 0.0002,
+      "loss": 0.9854,
+      "step": 21000
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 1.8581557273864746,
+      "learning_rate": 0.0002,
+      "loss": 0.9736,
+      "step": 22000
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 1.589917778968811,
+      "learning_rate": 0.0002,
+      "loss": 0.9642,
+      "step": 23000
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 2.332538604736328,
+      "learning_rate": 0.0002,
+      "loss": 0.9476,
+      "step": 24000
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 1.61520516872406,
+      "learning_rate": 0.0002,
+      "loss": 0.943,
+      "step": 25000
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 1.2320265769958496,
+      "learning_rate": 0.0002,
+      "loss": 0.9135,
+      "step": 26000
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 1.543626308441162,
+      "learning_rate": 0.0002,
+      "loss": 0.8763,
+      "step": 27000
+    },
+    {
+      "epoch": 2.17,
+      "grad_norm": 1.7634472846984863,
+      "learning_rate": 0.0002,
+      "loss": 0.8664,
+      "step": 28000
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 1.1254847049713135,
+      "learning_rate": 0.0002,
+      "loss": 0.8625,
+      "step": 29000
+    },
+    {
+      "epoch": 2.33,
+      "grad_norm": 1.390243649482727,
+      "learning_rate": 0.0002,
+      "loss": 0.8573,
+      "step": 30000
+    },
+    {
+      "epoch": 2.33,
+      "eval_bleu": 55.8294,
+      "eval_gen_len": 28.5405,
+      "eval_loss": 0.6142958998680115,
+      "eval_runtime": 100.5081,
+      "eval_samples_per_second": 8.835,
+      "eval_steps_per_second": 1.104,
+      "step": 30000
+    },
+    {
+      "epoch": 2.41,
+      "grad_norm": 1.592313289642334,
+      "learning_rate": 0.0002,
+      "loss": 0.855,
+      "step": 31000
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 1.1361020803451538,
+      "learning_rate": 0.0002,
+      "loss": 0.8487,
+      "step": 32000
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 1.2688100337982178,
+      "learning_rate": 0.0002,
+      "loss": 0.8417,
+      "step": 33000
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 1.3345963954925537,
+      "learning_rate": 0.0002,
+      "loss": 0.829,
+      "step": 34000
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 1.4640212059020996,
+      "learning_rate": 0.0002,
+      "loss": 0.8264,
+      "step": 35000
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 1.4818629026412964,
+      "learning_rate": 0.0002,
+      "loss": 0.8207,
+      "step": 36000
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 1.4580553770065308,
+      "learning_rate": 0.0002,
+      "loss": 0.8155,
+      "step": 37000
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 1.8713078498840332,
+      "learning_rate": 0.0002,
+      "loss": 0.8134,
+      "step": 38000
+    },
+    {
+      "epoch": 3.03,
+      "grad_norm": 1.295332670211792,
+      "learning_rate": 0.0002,
+      "loss": 0.787,
+      "step": 39000
+    },
+    {
+      "epoch": 3.11,
+      "grad_norm": 1.532378077507019,
+      "learning_rate": 0.0002,
+      "loss": 0.762,
+      "step": 40000
+    },
+    {
+      "epoch": 3.11,
+      "eval_bleu": 57.5135,
+      "eval_gen_len": 28.366,
+      "eval_loss": 0.581108570098877,
+      "eval_runtime": 98.8348,
+      "eval_samples_per_second": 8.985,
+      "eval_steps_per_second": 1.123,
+      "step": 40000
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 1.3924858570098877,
+      "learning_rate": 0.0002,
+      "loss": 0.7577,
+      "step": 41000
+    },
+    {
+      "epoch": 3.26,
+      "grad_norm": 1.4161888360977173,
+      "learning_rate": 0.0002,
+      "loss": 0.7482,
+      "step": 42000
+    },
+    {
+      "epoch": 3.34,
+      "grad_norm": 1.639460802078247,
+      "learning_rate": 0.0002,
+      "loss": 0.7582,
+      "step": 43000
+    },
+    {
+      "epoch": 3.42,
+      "grad_norm": 1.3779182434082031,
+      "learning_rate": 0.0002,
+      "loss": 0.7474,
+      "step": 44000
+    },
+    {
+      "epoch": 3.49,
+      "grad_norm": 1.8350883722305298,
+      "learning_rate": 0.0002,
+      "loss": 0.751,
+      "step": 45000
+    },
+    {
+      "epoch": 3.57,
+      "grad_norm": 1.2075496912002563,
+      "learning_rate": 0.0002,
+      "loss": 0.7371,
+      "step": 46000
+    },
+    {
+      "epoch": 3.65,
+      "grad_norm": 1.3083984851837158,
+      "learning_rate": 0.0002,
+      "loss": 0.7318,
+      "step": 47000
+    },
+    {
+      "epoch": 3.73,
+      "grad_norm": 1.5021324157714844,
+      "learning_rate": 0.0002,
+      "loss": 0.7376,
+      "step": 48000
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 1.1597286462783813,
+      "learning_rate": 0.0002,
+      "loss": 0.7336,
+      "step": 49000
+    },
+    {
+      "epoch": 3.88,
+      "grad_norm": 1.3814338445663452,
+      "learning_rate": 0.0002,
+      "loss": 0.734,
+      "step": 50000
+    },
+    {
+      "epoch": 3.88,
+      "eval_bleu": 58.6125,
+      "eval_gen_len": 28.5101,
+      "eval_loss": 0.5499288439750671,
+      "eval_runtime": 99.2548,
+      "eval_samples_per_second": 8.947,
+      "eval_steps_per_second": 1.118,
+      "step": 50000
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 1.0968077182769775,
+      "learning_rate": 0.0002,
+      "loss": 0.7288,
+      "step": 51000
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 1.9418740272521973,
+      "learning_rate": 0.0002,
+      "loss": 0.7057,
+      "step": 52000
+    },
+    {
+      "epoch": 4.11,
+      "grad_norm": 1.1883801221847534,
+      "learning_rate": 0.0002,
+      "loss": 0.6761,
+      "step": 53000
+    },
+    {
+      "epoch": 4.19,
+      "grad_norm": 1.1581670045852661,
+      "learning_rate": 0.0002,
+      "loss": 0.6812,
+      "step": 54000
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 1.4657800197601318,
+      "learning_rate": 0.0002,
+      "loss": 0.6783,
+      "step": 55000
+    },
+    {
+      "epoch": 4.35,
+      "grad_norm": 1.1991990804672241,
+      "learning_rate": 0.0002,
+      "loss": 0.6764,
+      "step": 56000
+    },
+    {
+      "epoch": 4.42,
+      "grad_norm": 1.5376391410827637,
+      "learning_rate": 0.0002,
+      "loss": 0.6805,
+      "step": 57000
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 1.228727102279663,
+      "learning_rate": 0.0002,
+      "loss": 0.6734,
+      "step": 58000
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.949891984462738,
+      "learning_rate": 0.0002,
+      "loss": 0.6702,
+      "step": 59000
+    },
+    {
+      "epoch": 4.66,
+      "grad_norm": 1.5632683038711548,
+      "learning_rate": 0.0002,
+      "loss": 0.6722,
+      "step": 60000
+    },
+    {
+      "epoch": 4.66,
+      "eval_bleu": 59.6427,
+      "eval_gen_len": 28.8356,
+      "eval_loss": 0.522808849811554,
+      "eval_runtime": 101.7798,
+      "eval_samples_per_second": 8.725,
+      "eval_steps_per_second": 1.091,
+      "step": 60000
+    },
+    {
+      "epoch": 4.74,
+      "grad_norm": 1.2885149717330933,
+      "learning_rate": 0.0002,
+      "loss": 0.67,
+      "step": 61000
+    },
+    {
+      "epoch": 4.81,
+      "grad_norm": 1.7992392778396606,
+      "learning_rate": 0.0002,
+      "loss": 0.6686,
+      "step": 62000
+    },
+    {
+      "epoch": 4.89,
+      "grad_norm": 1.7027188539505005,
+      "learning_rate": 0.0002,
+      "loss": 0.6682,
+      "step": 63000
+    },
+    {
+      "epoch": 4.97,
+      "grad_norm": 1.2083909511566162,
+      "learning_rate": 0.0002,
+      "loss": 0.6545,
+      "step": 64000
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 1.1508337259292603,
+      "learning_rate": 0.0002,
+      "loss": 0.6308,
+      "step": 65000
+    },
+    {
+      "epoch": 5.12,
+      "grad_norm": 1.0901002883911133,
+      "learning_rate": 0.0002,
+      "loss": 0.6192,
+      "step": 66000
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 1.3939250707626343,
+      "learning_rate": 0.0002,
+      "loss": 0.6217,
+      "step": 67000
+    },
+    {
+      "epoch": 5.28,
+      "grad_norm": 0.9105481505393982,
+      "learning_rate": 0.0002,
+      "loss": 0.6177,
+      "step": 68000
+    },
+    {
+      "epoch": 5.36,
+      "grad_norm": 0.944652795791626,
+      "learning_rate": 0.0002,
+      "loss": 0.6227,
+      "step": 69000
+    },
+    {
+      "epoch": 5.43,
+      "grad_norm": 1.1488838195800781,
+      "learning_rate": 0.0002,
+      "loss": 0.6215,
+      "step": 70000
+    },
+    {
+      "epoch": 5.43,
+      "eval_bleu": 60.4701,
+      "eval_gen_len": 28.7534,
+      "eval_loss": 0.5161064863204956,
+      "eval_runtime": 100.914,
+      "eval_samples_per_second": 8.8,
+      "eval_steps_per_second": 1.1,
+      "step": 70000
+    },
+    {
+      "epoch": 5.51,
+      "grad_norm": 1.0799453258514404,
+      "learning_rate": 0.0002,
+      "loss": 0.6173,
+      "step": 71000
+    },
+    {
+      "epoch": 5.59,
+      "grad_norm": 1.2405527830123901,
+      "learning_rate": 0.0002,
+      "loss": 0.6229,
+      "step": 72000
+    },
+    {
+      "epoch": 5.67,
+      "grad_norm": 1.045590877532959,
+      "learning_rate": 0.0002,
+      "loss": 0.6183,
+      "step": 73000
+    },
+    {
+      "epoch": 5.74,
+      "grad_norm": 1.4318771362304688,
+      "learning_rate": 0.0002,
+      "loss": 0.6146,
+      "step": 74000
+    },
+    {
+      "epoch": 5.82,
+      "grad_norm": 1.0059374570846558,
+      "learning_rate": 0.0002,
+      "loss": 0.6175,
+      "step": 75000
+    },
+    {
+      "epoch": 5.9,
+      "grad_norm": 1.0831586122512817,
+      "learning_rate": 0.0002,
+      "loss": 0.6165,
+      "step": 76000
+    },
+    {
+      "epoch": 5.98,
+      "grad_norm": 1.4094606637954712,
+      "learning_rate": 0.0002,
+      "loss": 0.6158,
+      "step": 77000
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 1.2640748023986816,
+      "learning_rate": 0.0002,
+      "loss": 0.5827,
+      "step": 78000
+    },
+    {
+      "epoch": 6.13,
+      "grad_norm": 1.0088295936584473,
+      "learning_rate": 0.0002,
+      "loss": 0.5699,
+      "step": 79000
+    },
+    {
+      "epoch": 6.21,
+      "grad_norm": 0.9942078590393066,
+      "learning_rate": 0.0002,
+      "loss": 0.5756,
+      "step": 80000
+    },
+    {
+      "epoch": 6.21,
+      "eval_bleu": 62.0864,
+      "eval_gen_len": 28.6498,
+      "eval_loss": 0.5067651867866516,
+      "eval_runtime": 99.2392,
+      "eval_samples_per_second": 8.948,
+      "eval_steps_per_second": 1.119,
+      "step": 80000
+    },
+    {
+      "epoch": 6.29,
+      "grad_norm": 1.838376522064209,
+      "learning_rate": 0.0002,
+      "loss": 0.5784,
+      "step": 81000
+    },
+    {
+      "epoch": 6.37,
+      "grad_norm": 1.477137804031372,
+      "learning_rate": 0.0002,
+      "loss": 0.5743,
+      "step": 82000
+    },
+    {
+      "epoch": 6.44,
+      "grad_norm": 1.1481742858886719,
+      "learning_rate": 0.0002,
+      "loss": 0.578,
+      "step": 83000
+    },
+    {
+      "epoch": 6.52,
+      "grad_norm": 1.1412264108657837,
+      "learning_rate": 0.0002,
+      "loss": 0.5785,
+      "step": 84000
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 0.9707184433937073,
+      "learning_rate": 0.0002,
+      "loss": 0.5746,
+      "step": 85000
+    },
+    {
+      "epoch": 6.68,
+      "grad_norm": 0.9683183431625366,
+      "learning_rate": 0.0002,
+      "loss": 0.5794,
+      "step": 86000
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 1.2322285175323486,
+      "learning_rate": 0.0002,
+      "loss": 0.5765,
+      "step": 87000
+    },
+    {
+      "epoch": 6.83,
+      "grad_norm": 1.1276684999465942,
+      "learning_rate": 0.0002,
+      "loss": 0.5767,
+      "step": 88000
+    },
+    {
+      "epoch": 6.91,
+      "grad_norm": 1.4353203773498535,
+      "learning_rate": 0.0002,
+      "loss": 0.5776,
+      "step": 89000
+    },
+    {
+      "epoch": 6.99,
+      "grad_norm": 1.116827368736267,
+      "learning_rate": 0.0002,
+      "loss": 0.5738,
+      "step": 90000
+    },
+    {
+      "epoch": 6.99,
+      "eval_bleu": 61.9714,
+      "eval_gen_len": 28.5788,
+      "eval_loss": 0.5005396008491516,
+      "eval_runtime": 98.6774,
+      "eval_samples_per_second": 8.999,
+      "eval_steps_per_second": 1.125,
+      "step": 90000
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 1.0088461637496948,
+      "learning_rate": 0.0002,
+      "loss": 0.538,
+      "step": 91000
+    },
+    {
+      "epoch": 7.14,
+      "grad_norm": 1.1016899347305298,
+      "learning_rate": 0.0002,
+      "loss": 0.5349,
+      "step": 92000
+    },
+    {
+      "epoch": 7.22,
+      "grad_norm": 1.4406321048736572,
+      "learning_rate": 0.0002,
+      "loss": 0.5408,
+      "step": 93000
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 1.1226301193237305,
+      "learning_rate": 0.0002,
+      "loss": 0.5362,
+      "step": 94000
+    },
+    {
+      "epoch": 7.37,
+      "grad_norm": 1.4062280654907227,
+      "learning_rate": 0.0002,
+      "loss": 0.5381,
+      "step": 95000
+    },
+    {
+      "epoch": 7.45,
+      "grad_norm": 1.2851547002792358,
+      "learning_rate": 0.0002,
+      "loss": 0.5438,
+      "step": 96000
+    },
+    {
+      "epoch": 7.53,
+      "grad_norm": 0.9344896078109741,
+      "learning_rate": 0.0002,
+      "loss": 0.5442,
+      "step": 97000
+    },
+    {
+      "epoch": 7.61,
+      "grad_norm": 1.7169030904769897,
+      "learning_rate": 0.0002,
+      "loss": 0.539,
+      "step": 98000
+    },
+    {
+      "epoch": 7.69,
+      "grad_norm": 1.1855800151824951,
+      "learning_rate": 0.0002,
+      "loss": 0.543,
+      "step": 99000
+    },
+    {
+      "epoch": 7.76,
+      "grad_norm": 1.093122959136963,
+      "learning_rate": 0.0002,
+      "loss": 0.5384,
+      "step": 100000
+    },
+    {
+      "epoch": 7.76,
+      "eval_bleu": 62.407,
+      "eval_gen_len": 28.5282,
+      "eval_loss": 0.49085742235183716,
+      "eval_runtime": 98.8889,
+      "eval_samples_per_second": 8.98,
+      "eval_steps_per_second": 1.122,
+      "step": 100000
+    },
+    {
+      "epoch": 7.84,
+      "grad_norm": 1.3849202394485474,
+      "learning_rate": 0.0002,
+      "loss": 0.5381,
+      "step": 101000
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 1.12773859500885,
+      "learning_rate": 0.0002,
+      "loss": 0.544,
+      "step": 102000
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.9132428169250488,
+      "learning_rate": 0.0002,
+      "loss": 0.5371,
+      "step": 103000
+    },
+    {
+      "epoch": 8.07,
+      "grad_norm": 1.5978176593780518,
+      "learning_rate": 0.0002,
+      "loss": 0.5015,
+      "step": 104000
+    },
+    {
+      "epoch": 8.15,
+      "grad_norm": 1.028082013130188,
+      "learning_rate": 0.0002,
+      "loss": 0.4956,
+      "step": 105000
+    },
+    {
+      "epoch": 8.23,
+      "grad_norm": 1.0597223043441772,
+      "learning_rate": 0.0002,
+      "loss": 0.5074,
+      "step": 106000
+    },
+    {
+      "epoch": 8.31,
+      "grad_norm": 1.47709059715271,
+      "learning_rate": 0.0002,
+      "loss": 0.5022,
+      "step": 107000
+    },
+    {
+      "epoch": 8.38,
+      "grad_norm": 1.1731916666030884,
+      "learning_rate": 0.0002,
+      "loss": 0.5039,
+      "step": 108000
+    },
+    {
+      "epoch": 8.46,
+      "grad_norm": 1.2147469520568848,
+      "learning_rate": 0.0002,
+      "loss": 0.5121,
+      "step": 109000
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 0.8521010279655457,
+      "learning_rate": 0.0002,
+      "loss": 0.5109,
+      "step": 110000
+    },
+    {
+      "epoch": 8.54,
+      "eval_bleu": 62.1452,
+      "eval_gen_len": 28.4617,
+      "eval_loss": 0.4901648759841919,
+      "eval_runtime": 98.4744,
+      "eval_samples_per_second": 9.018,
+      "eval_steps_per_second": 1.127,
+      "step": 110000
+    },
+    {
+      "epoch": 8.62,
+      "grad_norm": 1.250752568244934,
+      "learning_rate": 0.0002,
+      "loss": 0.5072,
+      "step": 111000
+    },
+    {
+      "epoch": 8.69,
+      "grad_norm": 1.2694823741912842,
+      "learning_rate": 0.0002,
+      "loss": 0.5126,
+      "step": 112000
+    },
+    {
+      "epoch": 8.77,
+      "grad_norm": 1.0290015935897827,
+      "learning_rate": 0.0002,
+      "loss": 0.5065,
+      "step": 113000
+    },
+    {
+      "epoch": 8.85,
+      "grad_norm": 1.222034215927124,
+      "learning_rate": 0.0002,
+      "loss": 0.514,
+      "step": 114000
+    },
+    {
+      "epoch": 8.93,
+      "grad_norm": 1.0359649658203125,
+      "learning_rate": 0.0002,
+      "loss": 0.5127,
+      "step": 115000
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.19712495803833,
+      "learning_rate": 0.0002,
+      "loss": 0.5114,
+      "step": 116000
+    },
+    {
+      "epoch": 9.08,
+      "grad_norm": 1.1766573190689087,
+      "learning_rate": 0.0002,
+      "loss": 0.4698,
+      "step": 117000
+    },
+    {
+      "epoch": 9.16,
+      "grad_norm": 1.2681427001953125,
+      "learning_rate": 0.0002,
+      "loss": 0.4755,
+      "step": 118000
+    },
+    {
+      "epoch": 9.24,
+      "grad_norm": 1.2988672256469727,
+      "learning_rate": 0.0002,
+      "loss": 0.4772,
+      "step": 119000
+    },
+    {
+      "epoch": 9.32,
+      "grad_norm": 1.440721035003662,
+      "learning_rate": 0.0002,
+      "loss": 0.4816,
+      "step": 120000
+    },
+    {
+      "epoch": 9.32,
+      "eval_bleu": 62.6499,
+      "eval_gen_len": 28.5518,
+      "eval_loss": 0.48750796914100647,
+      "eval_runtime": 99.0223,
+      "eval_samples_per_second": 8.968,
+      "eval_steps_per_second": 1.121,
+      "step": 120000
+    },
+    {
+      "epoch": 9.39,
+      "grad_norm": 1.038442611694336,
+      "learning_rate": 0.0002,
+      "loss": 0.4792,
+      "step": 121000
+    },
+    {
+      "epoch": 9.47,
+      "grad_norm": 1.3428473472595215,
+      "learning_rate": 0.0002,
+      "loss": 0.4827,
+      "step": 122000
+    },
+    {
+      "epoch": 9.55,
+      "grad_norm": 1.4756362438201904,
+      "learning_rate": 0.0002,
+      "loss": 0.4832,
+      "step": 123000
+    },
+    {
+      "epoch": 9.63,
+      "grad_norm": 1.2109817266464233,
+      "learning_rate": 0.0002,
+      "loss": 0.481,
+      "step": 124000
+    },
+    {
+      "epoch": 9.7,
+      "grad_norm": 1.2007863521575928,
+      "learning_rate": 0.0002,
+      "loss": 0.4815,
+      "step": 125000
+    },
+    {
+      "epoch": 9.78,
+      "grad_norm": 1.1711379289627075,
+      "learning_rate": 0.0002,
+      "loss": 0.488,
+      "step": 126000
+    },
+    {
+      "epoch": 9.86,
+      "grad_norm": 1.1571533679962158,
+      "learning_rate": 0.0002,
+      "loss": 0.4827,
+      "step": 127000
+    },
+    {
+      "epoch": 9.94,
+      "grad_norm": 1.2341859340667725,
+      "learning_rate": 0.0002,
+      "loss": 0.4844,
+      "step": 128000
+    },
+    {
+      "epoch": 10.01,
+      "grad_norm": 1.5796501636505127,
+      "learning_rate": 0.0002,
+      "loss": 0.4741,
+      "step": 129000
+    },
+    {
+      "epoch": 10.09,
+      "grad_norm": 0.8122438788414001,
+      "learning_rate": 0.0002,
+      "loss": 0.4493,
+      "step": 130000
+    },
+    {
+      "epoch": 10.09,
+      "eval_bleu": 62.6694,
+      "eval_gen_len": 28.6993,
+      "eval_loss": 0.4866686761379242,
+      "eval_runtime": 100.7784,
+      "eval_samples_per_second": 8.811,
+      "eval_steps_per_second": 1.101,
+      "step": 130000
+    },
+    {
+      "epoch": 10.17,
+      "grad_norm": 1.1835366487503052,
+      "learning_rate": 0.0002,
+      "loss": 0.448,
+      "step": 131000
+    },
+    {
+      "epoch": 10.25,
+      "grad_norm": 1.0868804454803467,
+      "learning_rate": 0.0002,
+      "loss": 0.4517,
+      "step": 132000
+    },
+    {
+      "epoch": 10.32,
+      "grad_norm": 0.9316431283950806,
+      "learning_rate": 0.0002,
+      "loss": 0.454,
+      "step": 133000
+    },
+    {
+      "epoch": 10.4,
+      "grad_norm": 1.5438517332077026,
+      "learning_rate": 0.0002,
+      "loss": 0.4526,
+      "step": 134000
+    },
+    {
+      "epoch": 10.48,
+      "grad_norm": 1.5842955112457275,
+      "learning_rate": 0.0002,
+      "loss": 0.4576,
+      "step": 135000
+    },
+    {
+      "epoch": 10.56,
+      "grad_norm": 1.450462818145752,
+      "learning_rate": 0.0002,
+      "loss": 0.463,
+      "step": 136000
+    },
+    {
+      "epoch": 10.63,
+      "grad_norm": 0.8578802347183228,
+      "learning_rate": 0.0002,
+      "loss": 0.4588,
+      "step": 137000
+    },
+    {
+      "epoch": 10.71,
+      "grad_norm": 1.1508352756500244,
+      "learning_rate": 0.0002,
+      "loss": 0.4542,
+      "step": 138000
+    },
+    {
+      "epoch": 10.79,
+      "grad_norm": 1.1183589696884155,
+      "learning_rate": 0.0002,
+      "loss": 0.4601,
+      "step": 139000
+    },
+    {
+      "epoch": 10.87,
+      "grad_norm": 0.9286684393882751,
+      "learning_rate": 0.0002,
+      "loss": 0.4648,
+      "step": 140000
+    },
+    {
+      "epoch": 10.87,
+      "eval_bleu": 63.3179,
+      "eval_gen_len": 28.5495,
+      "eval_loss": 0.4774705469608307,
+      "eval_runtime": 98.6639,
+      "eval_samples_per_second": 9.0,
+      "eval_steps_per_second": 1.125,
+      "step": 140000
+    },
+    {
+      "epoch": 10.95,
+      "grad_norm": 1.3315681219100952,
+      "learning_rate": 0.0002,
+      "loss": 0.4627,
+      "step": 141000
+    },
+    {
+      "epoch": 11.02,
+      "grad_norm": 1.204750418663025,
+      "learning_rate": 0.0002,
+      "loss": 0.4497,
+      "step": 142000
+    },
+    {
+      "epoch": 11.1,
+      "grad_norm": 1.0254498720169067,
+      "learning_rate": 0.0002,
+      "loss": 0.4242,
+      "step": 143000
+    },
+    {
+      "epoch": 11.18,
+      "grad_norm": 1.052018404006958,
+      "learning_rate": 0.0002,
+      "loss": 0.4306,
+      "step": 144000
+    },
+    {
+      "epoch": 11.26,
+      "grad_norm": 0.9426015019416809,
+      "learning_rate": 0.0002,
+      "loss": 0.4275,
+      "step": 145000
+    },
+    {
+      "epoch": 11.33,
+      "grad_norm": 1.079633116722107,
+      "learning_rate": 0.0002,
+      "loss": 0.4303,
+      "step": 146000
+    },
+    {
+      "epoch": 11.41,
+      "grad_norm": 1.025631070137024,
+      "learning_rate": 0.0002,
+      "loss": 0.433,
+      "step": 147000
+    },
+    {
+      "epoch": 11.49,
+      "grad_norm": 1.21865713596344,
+      "learning_rate": 0.0002,
+      "loss": 0.4351,
+      "step": 148000
+    },
+    {
+      "epoch": 11.57,
+      "grad_norm": 1.0304579734802246,
+      "learning_rate": 0.0002,
+      "loss": 0.4358,
+      "step": 149000
+    },
+    {
+      "epoch": 11.64,
+      "grad_norm": 1.297282338142395,
+      "learning_rate": 0.0002,
+      "loss": 0.4414,
+      "step": 150000
+    },
+    {
+      "epoch": 11.64,
+      "eval_bleu": 63.6928,
+      "eval_gen_len": 28.4673,
+      "eval_loss": 0.4786856770515442,
+      "eval_runtime": 98.6768,
+      "eval_samples_per_second": 8.999,
+      "eval_steps_per_second": 1.125,
+      "step": 150000
+    },
+    {
+      "epoch": 11.72,
+      "grad_norm": 0.973185658454895,
+      "learning_rate": 0.0002,
+      "loss": 0.4375,
+      "step": 151000
+    },
+    {
+      "epoch": 11.8,
+      "grad_norm": 0.9765141010284424,
+      "learning_rate": 0.0002,
+      "loss": 0.4398,
+      "step": 152000
+    },
+    {
+      "epoch": 11.88,
+      "grad_norm": 1.1599891185760498,
+      "learning_rate": 0.0002,
+      "loss": 0.4422,
+      "step": 153000
+    },
+    {
+      "epoch": 11.95,
+      "grad_norm": 1.0690301656723022,
+      "learning_rate": 0.0002,
+      "loss": 0.4396,
+      "step": 154000
+    },
+    {
+      "epoch": 12.03,
+      "grad_norm": 0.9184726476669312,
+      "learning_rate": 0.0002,
+      "loss": 0.4232,
+      "step": 155000
+    },
+    {
+      "epoch": 12.11,
+      "grad_norm": 1.1572961807250977,
+      "learning_rate": 0.0002,
+      "loss": 0.4038,
+      "step": 156000
+    },
+    {
+      "epoch": 12.19,
+      "grad_norm": 1.1003015041351318,
+      "learning_rate": 0.0002,
+      "loss": 0.4088,
+      "step": 157000
+    },
+    {
+      "epoch": 12.27,
+      "grad_norm": 1.147965908050537,
+      "learning_rate": 0.0002,
+      "loss": 0.4099,
+      "step": 158000
+    },
+    {
+      "epoch": 12.34,
+      "grad_norm": 1.3417842388153076,
+      "learning_rate": 0.0002,
+      "loss": 0.4108,
+      "step": 159000
+    },
+    {
+      "epoch": 12.42,
+      "grad_norm": 0.9816053509712219,
+      "learning_rate": 0.0002,
+      "loss": 0.4158,
+      "step": 160000
+    },
+    {
+      "epoch": 12.42,
+      "eval_bleu": 63.8752,
+      "eval_gen_len": 28.5011,
+      "eval_loss": 0.47919762134552,
+      "eval_runtime": 98.6149,
+      "eval_samples_per_second": 9.005,
+      "eval_steps_per_second": 1.126,
+      "step": 160000
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 1.1307754516601562,
+      "learning_rate": 0.0002,
+      "loss": 0.4139,
+      "step": 161000
+    },
+    {
+      "epoch": 12.58,
+      "grad_norm": 1.2909305095672607,
+      "learning_rate": 0.0002,
+      "loss": 0.4191,
+      "step": 162000
+    },
+    {
+      "epoch": 12.65,
+      "grad_norm": 1.0675512552261353,
+      "learning_rate": 0.0002,
+      "loss": 0.4178,
+      "step": 163000
+    },
+    {
+      "epoch": 12.73,
+      "grad_norm": 1.062435269355774,
+      "learning_rate": 0.0002,
+      "loss": 0.4183,
+      "step": 164000
+    },
+    {
+      "epoch": 12.81,
+      "grad_norm": 1.2755943536758423,
+      "learning_rate": 0.0002,
+      "loss": 0.42,
+      "step": 165000
+    },
+    {
+      "epoch": 12.89,
+      "grad_norm": 1.0879075527191162,
+      "learning_rate": 0.0002,
+      "loss": 0.4231,
+      "step": 166000
+    },
+    {
+      "epoch": 12.96,
+      "grad_norm": 1.1521817445755005,
+      "learning_rate": 0.0002,
+      "loss": 0.4231,
+      "step": 167000
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 1.038859486579895,
+      "learning_rate": 0.0002,
+      "loss": 0.4014,
+      "step": 168000
+    },
+    {
+      "epoch": 13.12,
+      "grad_norm": 1.001861333847046,
+      "learning_rate": 0.0002,
+      "loss": 0.3875,
+      "step": 169000
+    },
+    {
+      "epoch": 13.2,
+      "grad_norm": 0.967998743057251,
+      "learning_rate": 0.0002,
+      "loss": 0.3895,
+      "step": 170000
+    },
+    {
+      "epoch": 13.2,
+      "eval_bleu": 63.8429,
+      "eval_gen_len": 28.6498,
+      "eval_loss": 0.4793872535228729,
+      "eval_runtime": 99.8944,
+      "eval_samples_per_second": 8.889,
+      "eval_steps_per_second": 1.111,
+      "step": 170000
+    },
+    {
+      "epoch": 13.27,
+      "grad_norm": 1.1491278409957886,
+      "learning_rate": 0.0002,
+      "loss": 0.3947,
+      "step": 171000
+    },
+    {
+      "epoch": 13.35,
+      "grad_norm": 1.0739213228225708,
+      "learning_rate": 0.0002,
+      "loss": 0.3937,
+      "step": 172000
+    },
+    {
+      "epoch": 13.43,
+      "grad_norm": 1.3349049091339111,
+      "learning_rate": 0.0002,
+      "loss": 0.3932,
+      "step": 173000
+    },
+    {
+      "epoch": 13.51,
+      "grad_norm": 1.4266788959503174,
+      "learning_rate": 0.0002,
+      "loss": 0.4012,
+      "step": 174000
+    },
+    {
+      "epoch": 13.58,
+      "grad_norm": 1.064070701599121,
+      "learning_rate": 0.0002,
+      "loss": 0.4,
+      "step": 175000
+    },
+    {
+      "epoch": 13.66,
+      "grad_norm": 1.930474877357483,
+      "learning_rate": 0.0002,
+      "loss": 0.399,
+      "step": 176000
+    },
+    {
+      "epoch": 13.74,
+      "grad_norm": 0.994195282459259,
+      "learning_rate": 0.0002,
+      "loss": 0.4026,
+      "step": 177000
+    },
+    {
+      "epoch": 13.82,
+      "grad_norm": 0.9755762815475464,
+      "learning_rate": 0.0002,
+      "loss": 0.4019,
+      "step": 178000
+    },
+    {
+      "epoch": 13.9,
+      "grad_norm": 1.0802558660507202,
+      "learning_rate": 0.0002,
+      "loss": 0.4027,
+      "step": 179000
+    },
+    {
+      "epoch": 13.97,
+      "grad_norm": 1.4257205724716187,
+      "learning_rate": 0.0002,
+      "loss": 0.4031,
+      "step": 180000
+    },
+    {
+      "epoch": 13.97,
+      "eval_bleu": 63.9496,
+      "eval_gen_len": 28.7264,
+      "eval_loss": 0.4756912291049957,
+      "eval_runtime": 100.6936,
+      "eval_samples_per_second": 8.819,
+      "eval_steps_per_second": 1.102,
+      "step": 180000
+    },
+    {
+      "epoch": 14.05,
+      "grad_norm": 1.0172358751296997,
+      "learning_rate": 0.0002,
+      "loss": 0.3785,
+      "step": 181000
+    },
+    {
+      "epoch": 14.13,
+      "grad_norm": 0.9525344967842102,
+      "learning_rate": 0.0002,
+      "loss": 0.367,
+      "step": 182000
+    },
+    {
+      "epoch": 14.21,
+      "grad_norm": 1.0674399137496948,
+      "learning_rate": 0.0002,
+      "loss": 0.3723,
+      "step": 183000
+    },
+    {
+      "epoch": 14.28,
+      "grad_norm": 1.311464548110962,
+      "learning_rate": 0.0002,
+      "loss": 0.3743,
+      "step": 184000
+    },
+    {
+      "epoch": 14.36,
+      "grad_norm": 1.020115613937378,
+      "learning_rate": 0.0002,
+      "loss": 0.3743,
+      "step": 185000
+    },
+    {
+      "epoch": 14.44,
+      "grad_norm": 0.9766080379486084,
+      "learning_rate": 0.0002,
+      "loss": 0.3751,
+      "step": 186000
+    },
+    {
+      "epoch": 14.52,
+      "grad_norm": 1.0636546611785889,
+      "learning_rate": 0.0002,
+      "loss": 0.3839,
+      "step": 187000
+    },
+    {
+      "epoch": 14.59,
+      "grad_norm": 1.5485342741012573,
+      "learning_rate": 0.0002,
+      "loss": 0.3864,
+      "step": 188000
+    },
+    {
+      "epoch": 14.67,
+      "grad_norm": 1.189011812210083,
+      "learning_rate": 0.0002,
+      "loss": 0.3836,
+      "step": 189000
+    },
+    {
+      "epoch": 14.75,
+      "grad_norm": 1.2171902656555176,
+      "learning_rate": 0.0002,
+      "loss": 0.3844,
+      "step": 190000
+    },
+    {
+      "epoch": 14.75,
+      "eval_bleu": 63.7498,
+      "eval_gen_len": 28.8288,
+      "eval_loss": 0.48547232151031494,
+      "eval_runtime": 102.2105,
+      "eval_samples_per_second": 8.688,
+      "eval_steps_per_second": 1.086,
+      "step": 190000
+    },
+    {
+      "epoch": 14.83,
+      "grad_norm": 0.9004954695701599,
+      "learning_rate": 0.0002,
+      "loss": 0.3821,
+      "step": 191000
+    },
+    {
+      "epoch": 14.9,
+      "grad_norm": 1.2197577953338623,
+      "learning_rate": 0.0002,
+      "loss": 0.3871,
+      "step": 192000
+    },
+    {
+      "epoch": 14.98,
+      "grad_norm": 1.0094869136810303,
+      "learning_rate": 0.0002,
+      "loss": 0.3924,
+      "step": 193000
+    },
+    {
+      "epoch": 15.06,
+      "grad_norm": 1.1337696313858032,
+      "learning_rate": 0.0002,
+      "loss": 0.3602,
+      "step": 194000
+    },
+    {
+      "epoch": 15.14,
+      "grad_norm": 1.5074607133865356,
+      "learning_rate": 0.0002,
+      "loss": 0.3548,
+      "step": 195000
+    },
+    {
+      "epoch": 15.22,
+      "grad_norm": 0.9171730279922485,
+      "learning_rate": 0.0002,
+      "loss": 0.3586,
+      "step": 196000
+    },
+    {
+      "epoch": 15.29,
+      "grad_norm": 0.8581980466842651,
+      "learning_rate": 0.0002,
+      "loss": 0.3609,
+      "step": 197000
+    },
+    {
+      "epoch": 15.37,
+      "grad_norm": 0.8790922164916992,
+      "learning_rate": 0.0002,
+      "loss": 0.363,
+      "step": 198000
+    },
+    {
+      "epoch": 15.45,
+      "grad_norm": 1.012073278427124,
+      "learning_rate": 0.0002,
+      "loss": 0.3618,
+      "step": 199000
+    },
+    {
+      "epoch": 15.53,
+      "grad_norm": 0.9808474183082581,
+      "learning_rate": 0.0002,
+      "loss": 0.3637,
+      "step": 200000
+    },
+    {
+      "epoch": 15.53,
+      "eval_bleu": 64.2277,
+      "eval_gen_len": 28.661,
+      "eval_loss": 0.4799739420413971,
+      "eval_runtime": 99.1042,
+      "eval_samples_per_second": 8.96,
+      "eval_steps_per_second": 1.12,
+      "step": 200000
+    },
+    {
+      "epoch": 15.6,
+      "grad_norm": 0.995276689529419,
+      "learning_rate": 0.0002,
+      "loss": 0.3676,
+      "step": 201000
+    },
+    {
+      "epoch": 15.68,
+      "grad_norm": 1.2943910360336304,
+      "learning_rate": 0.0002,
+      "loss": 0.3705,
+      "step": 202000
+    },
+    {
+      "epoch": 15.76,
+      "grad_norm": 0.9539749026298523,
+      "learning_rate": 0.0002,
+      "loss": 0.3706,
+      "step": 203000
+    },
+    {
+      "epoch": 15.84,
+      "grad_norm": 0.9351176619529724,
+      "learning_rate": 0.0002,
+      "loss": 0.3706,
+      "step": 204000
+    },
+    {
+      "epoch": 15.91,
+      "grad_norm": 1.087781310081482,
+      "learning_rate": 0.0002,
+      "loss": 0.3713,
+      "step": 205000
+    },
+    {
+      "epoch": 15.99,
+      "grad_norm": 1.2164143323898315,
+      "learning_rate": 0.0002,
+      "loss": 0.3729,
+      "step": 206000
+    },
+    {
+      "epoch": 16.07,
+      "grad_norm": 1.1458275318145752,
+      "learning_rate": 0.0002,
+      "loss": 0.3417,
+      "step": 207000
+    },
+    {
+      "epoch": 16.15,
+      "grad_norm": 0.9169874787330627,
+      "learning_rate": 0.0002,
+      "loss": 0.339,
+      "step": 208000
+    },
+    {
+      "epoch": 16.22,
+      "grad_norm": 1.1594195365905762,
+      "learning_rate": 0.0002,
+      "loss": 0.3426,
+      "step": 209000
+    },
+    {
+      "epoch": 16.3,
+      "grad_norm": 0.8710166215896606,
+      "learning_rate": 0.0002,
+      "loss": 0.3473,
+      "step": 210000
+    },
+    {
+      "epoch": 16.3,
+      "eval_bleu": 64.4683,
+      "eval_gen_len": 28.786,
+      "eval_loss": 0.4854079782962799,
+      "eval_runtime": 99.2915,
+      "eval_samples_per_second": 8.943,
+      "eval_steps_per_second": 1.118,
+      "step": 210000
+    },
+    {
+      "epoch": 16.38,
+      "grad_norm": 1.1366904973983765,
+      "learning_rate": 0.0002,
+      "loss": 0.3483,
+      "step": 211000
+    },
+    {
+      "epoch": 16.46,
+      "grad_norm": 1.135487675666809,
+      "learning_rate": 0.0002,
+      "loss": 0.3509,
+      "step": 212000
+    },
+    {
+      "epoch": 16.53,
+      "grad_norm": 0.9458820819854736,
+      "learning_rate": 0.0002,
+      "loss": 0.3519,
+      "step": 213000
+    },
+    {
+      "epoch": 16.61,
+      "grad_norm": 0.8842834830284119,
+      "learning_rate": 0.0002,
+      "loss": 0.3551,
+      "step": 214000
+    },
+    {
+      "epoch": 16.69,
+      "grad_norm": 1.2772917747497559,
+      "learning_rate": 0.0002,
+      "loss": 0.3572,
+      "step": 215000
+    },
+    {
+      "epoch": 16.77,
+      "grad_norm": 1.5344486236572266,
+      "learning_rate": 0.0002,
+      "loss": 0.3567,
+      "step": 216000
+    },
+    {
+      "epoch": 16.85,
+      "grad_norm": 1.4000177383422852,
+      "learning_rate": 0.0002,
+      "loss": 0.3605,
+      "step": 217000
+    },
+    {
+      "epoch": 16.92,
+      "grad_norm": 1.5617576837539673,
+      "learning_rate": 0.0002,
+      "loss": 0.3577,
+      "step": 218000
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 1.4207055568695068,
+      "learning_rate": 0.0002,
+      "loss": 0.3581,
+      "step": 219000
+    },
+    {
+      "epoch": 17.08,
+      "grad_norm": 1.6633687019348145,
+      "learning_rate": 0.0002,
+      "loss": 0.3243,
+      "step": 220000
+    },
+    {
+      "epoch": 17.08,
+      "eval_bleu": 64.7805,
+      "eval_gen_len": 28.6791,
+      "eval_loss": 0.490304172039032,
+      "eval_runtime": 99.3675,
+      "eval_samples_per_second": 8.937,
+      "eval_steps_per_second": 1.117,
+      "step": 220000
+    },
+    {
+      "epoch": 17.16,
+      "grad_norm": 1.1573091745376587,
+      "learning_rate": 0.0002,
+      "loss": 0.3298,
+      "step": 221000
+    },
+    {
+      "epoch": 17.23,
+      "grad_norm": 1.046479344367981,
+      "learning_rate": 0.0002,
+      "loss": 0.3312,
+      "step": 222000
+    },
+    {
+      "epoch": 17.31,
+      "grad_norm": 1.2901638746261597,
+      "learning_rate": 0.0002,
+      "loss": 0.3325,
+      "step": 223000
+    },
+    {
+      "epoch": 17.39,
+      "grad_norm": 1.0912984609603882,
+      "learning_rate": 0.0002,
+      "loss": 0.3351,
+      "step": 224000
+    },
+    {
+      "epoch": 17.47,
+      "grad_norm": 1.5278785228729248,
+      "learning_rate": 0.0002,
+      "loss": 0.3382,
+      "step": 225000
+    },
+    {
+      "epoch": 17.54,
+      "grad_norm": 1.013113021850586,
+      "learning_rate": 0.0002,
+      "loss": 0.3386,
+      "step": 226000
+    },
+    {
+      "epoch": 17.62,
+      "grad_norm": 1.254299283027649,
+      "learning_rate": 0.0002,
+      "loss": 0.3393,
+      "step": 227000
+    },
+    {
+      "epoch": 17.7,
+      "grad_norm": 0.8990402221679688,
+      "learning_rate": 0.0002,
+      "loss": 0.3404,
+      "step": 228000
+    },
+    {
+      "epoch": 17.78,
+      "grad_norm": 1.2247493267059326,
+      "learning_rate": 0.0002,
+      "loss": 0.3451,
+      "step": 229000
+    },
+    {
+      "epoch": 17.85,
+      "grad_norm": 1.454061508178711,
+      "learning_rate": 0.0002,
+      "loss": 0.3426,
+      "step": 230000
+    },
+    {
+      "epoch": 17.85,
+      "eval_bleu": 64.679,
+      "eval_gen_len": 28.4809,
+      "eval_loss": 0.4818822741508484,
+      "eval_runtime": 98.7347,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.124,
+      "step": 230000
+    },
+    {
+      "epoch": 17.93,
+      "grad_norm": 1.4103410243988037,
+      "learning_rate": 0.0002,
+      "loss": 0.3457,
+      "step": 231000
+    },
+    {
+      "epoch": 18.01,
+      "grad_norm": 1.0248557329177856,
+      "learning_rate": 0.0002,
+      "loss": 0.3449,
+      "step": 232000
+    },
+    {
+      "epoch": 18.09,
+      "grad_norm": 1.421231985092163,
+      "learning_rate": 0.0002,
+      "loss": 0.3115,
+      "step": 233000
+    },
+    {
+      "epoch": 18.16,
+      "grad_norm": 1.0739413499832153,
+      "learning_rate": 0.0002,
+      "loss": 0.314,
+      "step": 234000
+    },
+    {
+      "epoch": 18.24,
+      "grad_norm": 1.0976619720458984,
+      "learning_rate": 0.0002,
+      "loss": 0.3214,
+      "step": 235000
+    },
+    {
+      "epoch": 18.32,
+      "grad_norm": 1.480944037437439,
+      "learning_rate": 0.0002,
+      "loss": 0.3173,
+      "step": 236000
+    },
+    {
+      "epoch": 18.4,
+      "grad_norm": 1.249569296836853,
+      "learning_rate": 0.0002,
+      "loss": 0.3227,
+      "step": 237000
+    },
+    {
+      "epoch": 18.48,
+      "grad_norm": 1.1228398084640503,
+      "learning_rate": 0.0002,
+      "loss": 0.3263,
+      "step": 238000
+    },
+    {
+      "epoch": 18.55,
+      "grad_norm": 1.318242073059082,
+      "learning_rate": 0.0002,
+      "loss": 0.327,
+      "step": 239000
+    },
+    {
+      "epoch": 18.63,
+      "grad_norm": 1.1360143423080444,
+      "learning_rate": 0.0002,
+      "loss": 0.3295,
+      "step": 240000
+    },
+    {
+      "epoch": 18.63,
+      "eval_bleu": 65.3735,
+      "eval_gen_len": 28.6014,
+      "eval_loss": 0.4851875603199005,
+      "eval_runtime": 98.572,
+      "eval_samples_per_second": 9.009,
+      "eval_steps_per_second": 1.126,
+      "step": 240000
+    },
+    {
+      "epoch": 18.71,
+      "grad_norm": 1.4588408470153809,
+      "learning_rate": 0.0002,
+      "loss": 0.3268,
+      "step": 241000
+    },
+    {
+      "epoch": 18.79,
+      "grad_norm": 1.1620702743530273,
+      "learning_rate": 0.0002,
+      "loss": 0.3341,
+      "step": 242000
+    },
+    {
+      "epoch": 18.86,
+      "grad_norm": 1.0640859603881836,
+      "learning_rate": 0.0002,
+      "loss": 0.3346,
+      "step": 243000
+    },
+    {
+      "epoch": 18.94,
+      "grad_norm": 1.096739649772644,
+      "learning_rate": 0.0002,
+      "loss": 0.3334,
+      "step": 244000
+    },
+    {
+      "epoch": 19.02,
+      "grad_norm": 1.23462975025177,
+      "learning_rate": 0.0002,
+      "loss": 0.3273,
+      "step": 245000
+    },
+    {
+      "epoch": 19.1,
+      "grad_norm": 0.9026219248771667,
+      "learning_rate": 0.0002,
+      "loss": 0.3003,
+      "step": 246000
+    },
+    {
+      "epoch": 19.17,
+      "grad_norm": 1.0630195140838623,
+      "learning_rate": 0.0002,
+      "loss": 0.3042,
+      "step": 247000
+    },
+    {
+      "epoch": 19.25,
+      "grad_norm": 1.0800952911376953,
+      "learning_rate": 0.0002,
+      "loss": 0.306,
+      "step": 248000
+    },
+    {
+      "epoch": 19.33,
+      "grad_norm": 1.2505557537078857,
+      "learning_rate": 0.0002,
+      "loss": 0.311,
+      "step": 249000
+    },
+    {
+      "epoch": 19.41,
+      "grad_norm": 0.822533369064331,
+      "learning_rate": 0.0002,
+      "loss": 0.3124,
+      "step": 250000
+    },
+    {
+      "epoch": 19.41,
+      "eval_bleu": 64.5641,
+      "eval_gen_len": 28.6745,
+      "eval_loss": 0.4947471022605896,
+      "eval_runtime": 99.0725,
+      "eval_samples_per_second": 8.963,
+      "eval_steps_per_second": 1.12,
+      "step": 250000
+    },
+    {
+      "epoch": 19.48,
+      "grad_norm": 1.2964988946914673,
+      "learning_rate": 0.0002,
+      "loss": 0.312,
+      "step": 251000
+    },
+    {
+      "epoch": 19.56,
+      "grad_norm": 1.0119915008544922,
+      "learning_rate": 0.0002,
+      "loss": 0.3151,
+      "step": 252000
+    },
+    {
+      "epoch": 19.64,
+      "grad_norm": 1.2384612560272217,
+      "learning_rate": 0.0002,
+      "loss": 0.3171,
+      "step": 253000
+    },
+    {
+      "epoch": 19.72,
+      "grad_norm": 1.7689512968063354,
+      "learning_rate": 0.0002,
+      "loss": 0.3177,
+      "step": 254000
+    },
+    {
+      "epoch": 19.8,
+      "grad_norm": 1.3058741092681885,
+      "learning_rate": 0.0002,
+      "loss": 0.3195,
+      "step": 255000
+    },
+    {
+      "epoch": 19.87,
+      "grad_norm": 1.2293740510940552,
+      "learning_rate": 0.0002,
+      "loss": 0.3226,
+      "step": 256000
+    },
+    {
+      "epoch": 19.95,
+      "grad_norm": 1.398077368736267,
+      "learning_rate": 0.0002,
+      "loss": 0.3222,
+      "step": 257000
+    },
+    {
+      "epoch": 20.03,
+      "grad_norm": 0.9053579568862915,
+      "learning_rate": 0.0002,
+      "loss": 0.3122,
+      "step": 258000
+    },
+    {
+      "epoch": 20.11,
+      "grad_norm": 1.2684714794158936,
+      "learning_rate": 0.0002,
+      "loss": 0.2891,
+      "step": 259000
+    },
+    {
+      "epoch": 20.18,
+      "grad_norm": 0.9774475693702698,
+      "learning_rate": 0.0002,
+      "loss": 0.2933,
+      "step": 260000
+    },
+    {
+      "epoch": 20.18,
+      "eval_bleu": 65.1364,
+      "eval_gen_len": 28.6419,
+      "eval_loss": 0.49722200632095337,
+      "eval_runtime": 99.0096,
+      "eval_samples_per_second": 8.969,
+      "eval_steps_per_second": 1.121,
+      "step": 260000
+    },
+    {
+      "epoch": 20.26,
+      "grad_norm": 1.2156912088394165,
+      "learning_rate": 0.0002,
+      "loss": 0.296,
+      "step": 261000
+    },
+    {
+      "epoch": 20.34,
+      "grad_norm": 1.221637487411499,
+      "learning_rate": 0.0002,
+      "loss": 0.2981,
+      "step": 262000
+    },
+    {
+      "epoch": 20.42,
+      "grad_norm": 0.9357077479362488,
+      "learning_rate": 0.0002,
+      "loss": 0.3018,
+      "step": 263000
+    },
+    {
+      "epoch": 20.49,
+      "grad_norm": 0.9926024079322815,
+      "learning_rate": 0.0002,
+      "loss": 0.3012,
+      "step": 264000
+    },
+    {
+      "epoch": 20.57,
+      "grad_norm": 1.6473757028579712,
+      "learning_rate": 0.0002,
+      "loss": 0.3049,
+      "step": 265000
+    },
+    {
+      "epoch": 20.65,
+      "grad_norm": 1.1541528701782227,
+      "learning_rate": 0.0002,
+      "loss": 0.3039,
+      "step": 266000
+    },
+    {
+      "epoch": 20.73,
+      "grad_norm": 1.220951795578003,
+      "learning_rate": 0.0002,
+      "loss": 0.3074,
+      "step": 267000
+    },
+    {
+      "epoch": 20.8,
+      "grad_norm": 1.074318289756775,
+      "learning_rate": 0.0002,
+      "loss": 0.3119,
+      "step": 268000
+    },
+    {
+      "epoch": 20.88,
+      "grad_norm": 1.015864372253418,
+      "learning_rate": 0.0002,
+      "loss": 0.3116,
+      "step": 269000
+    },
+    {
+      "epoch": 20.96,
+      "grad_norm": 1.0277948379516602,
+      "learning_rate": 0.0002,
+      "loss": 0.3101,
+      "step": 270000
+    },
+    {
+      "epoch": 20.96,
+      "eval_bleu": 64.6747,
+      "eval_gen_len": 28.6802,
+      "eval_loss": 0.4901565611362457,
+      "eval_runtime": 100.085,
+      "eval_samples_per_second": 8.872,
+      "eval_steps_per_second": 1.109,
+      "step": 270000
+    },
+    {
+      "epoch": 21.04,
+      "grad_norm": 0.9389250874519348,
+      "learning_rate": 0.0002,
+      "loss": 0.2942,
+      "step": 271000
+    },
+    {
+      "epoch": 21.11,
+      "grad_norm": 1.2478715181350708,
+      "learning_rate": 0.0002,
+      "loss": 0.2806,
+      "step": 272000
+    },
+    {
+      "epoch": 21.19,
+      "grad_norm": 0.9297951459884644,
+      "learning_rate": 0.0002,
+      "loss": 0.2833,
+      "step": 273000
+    },
+    {
+      "epoch": 21.27,
+      "grad_norm": 0.9602841734886169,
+      "learning_rate": 0.0002,
+      "loss": 0.2876,
+      "step": 274000
+    },
+    {
+      "epoch": 21.35,
+      "grad_norm": 0.9561505317687988,
+      "learning_rate": 0.0002,
+      "loss": 0.2898,
+      "step": 275000
+    },
+    {
+      "epoch": 21.43,
+      "grad_norm": 1.0724116563796997,
+      "learning_rate": 0.0002,
+      "loss": 0.2897,
+      "step": 276000
+    },
+    {
+      "epoch": 21.5,
+      "grad_norm": 0.9960470199584961,
+      "learning_rate": 0.0002,
+      "loss": 0.2942,
+      "step": 277000
+    },
+    {
+      "epoch": 21.58,
+      "grad_norm": 1.1480662822723389,
+      "learning_rate": 0.0002,
+      "loss": 0.2915,
+      "step": 278000
+    },
+    {
+      "epoch": 21.66,
+      "grad_norm": 1.1175373792648315,
+      "learning_rate": 0.0002,
+      "loss": 0.2991,
+      "step": 279000
+    },
+    {
+      "epoch": 21.74,
+      "grad_norm": 1.6251972913742065,
+      "learning_rate": 0.0002,
+      "loss": 0.2991,
+      "step": 280000
+    },
+    {
+      "epoch": 21.74,
+      "eval_bleu": 64.9732,
+      "eval_gen_len": 28.5653,
+      "eval_loss": 0.4907251298427582,
+      "eval_runtime": 98.6604,
+      "eval_samples_per_second": 9.001,
+      "eval_steps_per_second": 1.125,
+      "step": 280000
+    },
+    {
+      "epoch": 21.81,
+      "grad_norm": 0.8608353137969971,
+      "learning_rate": 0.0002,
+      "loss": 0.2994,
+      "step": 281000
+    },
+    {
+      "epoch": 21.89,
+      "grad_norm": 1.077614426612854,
+      "learning_rate": 0.0002,
+      "loss": 0.3012,
+      "step": 282000
+    },
+    {
+      "epoch": 21.97,
+      "grad_norm": 1.6897170543670654,
+      "learning_rate": 0.0002,
+      "loss": 0.3012,
+      "step": 283000
+    },
+    {
+      "epoch": 22.05,
+      "grad_norm": 1.3074902296066284,
+      "learning_rate": 0.0002,
+      "loss": 0.2814,
+      "step": 284000
+    },
+    {
+      "epoch": 22.12,
+      "grad_norm": 0.9641602039337158,
+      "learning_rate": 0.0002,
+      "loss": 0.2717,
+      "step": 285000
+    },
+    {
+      "epoch": 22.2,
+      "grad_norm": 1.634346842765808,
+      "learning_rate": 0.0002,
+      "loss": 0.2747,
+      "step": 286000
+    },
+    {
+      "epoch": 22.28,
+      "grad_norm": 1.4014965295791626,
+      "learning_rate": 0.0002,
+      "loss": 0.2783,
+      "step": 287000
+    },
+    {
+      "epoch": 22.36,
+      "grad_norm": 1.3981196880340576,
+      "learning_rate": 0.0002,
+      "loss": 0.2831,
+      "step": 288000
+    },
+    {
+      "epoch": 22.43,
+      "grad_norm": 0.8403178453445435,
+      "learning_rate": 0.0002,
+      "loss": 0.2801,
+      "step": 289000
+    },
+    {
+      "epoch": 22.51,
+      "grad_norm": 0.879589319229126,
+      "learning_rate": 0.0002,
+      "loss": 0.2828,
+      "step": 290000
+    },
+    {
+      "epoch": 22.51,
+      "eval_bleu": 64.7552,
+      "eval_gen_len": 28.6261,
+      "eval_loss": 0.5037782192230225,
+      "eval_runtime": 98.7235,
+      "eval_samples_per_second": 8.995,
+      "eval_steps_per_second": 1.124,
+      "step": 290000
+    },
+    {
+      "epoch": 22.59,
+      "grad_norm": 1.751582145690918,
+      "learning_rate": 0.0002,
+      "loss": 0.2846,
+      "step": 291000
+    },
+    {
+      "epoch": 22.67,
+      "grad_norm": 1.2374579906463623,
+      "learning_rate": 0.0002,
+      "loss": 0.2855,
+      "step": 292000
+    },
+    {
+      "epoch": 22.74,
+      "grad_norm": 1.152079463005066,
+      "learning_rate": 0.0002,
+      "loss": 0.2916,
+      "step": 293000
+    },
+    {
+      "epoch": 22.82,
+      "grad_norm": 1.2837114334106445,
+      "learning_rate": 0.0002,
+      "loss": 0.2889,
+      "step": 294000
+    },
+    {
+      "epoch": 22.9,
+      "grad_norm": 1.161375880241394,
+      "learning_rate": 0.0002,
+      "loss": 0.2894,
+      "step": 295000
+    },
+    {
+      "epoch": 22.98,
+      "grad_norm": 0.8594853281974792,
+      "learning_rate": 0.0002,
+      "loss": 0.2936,
+      "step": 296000
+    },
+    {
+      "epoch": 23.06,
+      "grad_norm": 0.9489020705223083,
+      "learning_rate": 0.0002,
+      "loss": 0.2733,
+      "step": 297000
+    },
+    {
+      "epoch": 23.13,
+      "grad_norm": 1.2100919485092163,
+      "learning_rate": 0.0002,
+      "loss": 0.263,
+      "step": 298000
+    },
+    {
+      "epoch": 23.21,
+      "grad_norm": 2.140540361404419,
+      "learning_rate": 0.0002,
+      "loss": 0.2666,
+      "step": 299000
+    },
+    {
+      "epoch": 23.29,
+      "grad_norm": 1.070940375328064,
+      "learning_rate": 0.0002,
+      "loss": 0.2688,
+      "step": 300000
+    },
+    {
+      "epoch": 23.29,
+      "eval_bleu": 65.0702,
+      "eval_gen_len": 28.7534,
+      "eval_loss": 0.5042341351509094,
+      "eval_runtime": 99.9941,
+      "eval_samples_per_second": 8.881,
+      "eval_steps_per_second": 1.11,
+      "step": 300000
+    },
+    {
+      "epoch": 23.37,
+      "grad_norm": 1.0847973823547363,
+      "learning_rate": 0.0002,
+      "loss": 0.2692,
+      "step": 301000
+    },
+    {
+      "epoch": 23.44,
+      "grad_norm": 1.098399043083191,
+      "learning_rate": 0.0002,
+      "loss": 0.2721,
+      "step": 302000
+    },
+    {
+      "epoch": 23.52,
+      "grad_norm": 0.9735555648803711,
+      "learning_rate": 0.0002,
+      "loss": 0.2725,
+      "step": 303000
+    },
+    {
+      "epoch": 23.6,
+      "grad_norm": 1.2928968667984009,
+      "learning_rate": 0.0002,
+      "loss": 0.2772,
+      "step": 304000
+    },
+    {
+      "epoch": 23.68,
+      "grad_norm": 1.1871669292449951,
+      "learning_rate": 0.0002,
+      "loss": 0.2766,
+      "step": 305000
+    },
+    {
+      "epoch": 23.75,
+      "grad_norm": 0.9379162788391113,
+      "learning_rate": 0.0002,
+      "loss": 0.2797,
+      "step": 306000
+    },
+    {
+      "epoch": 23.83,
+      "grad_norm": 0.8844149112701416,
+      "learning_rate": 0.0002,
+      "loss": 0.2813,
+      "step": 307000
+    },
+    {
+      "epoch": 23.91,
+      "grad_norm": 1.0218191146850586,
+      "learning_rate": 0.0002,
+      "loss": 0.2834,
+      "step": 308000
+    },
+    {
+      "epoch": 23.99,
+      "grad_norm": 1.234649896621704,
+      "learning_rate": 0.0002,
+      "loss": 0.2827,
+      "step": 309000
+    },
+    {
+      "epoch": 24.06,
+      "grad_norm": 0.8998326659202576,
+      "learning_rate": 0.0002,
+      "loss": 0.2555,
+      "step": 310000
+    },
+    {
+      "epoch": 24.06,
+      "eval_bleu": 65.0378,
+      "eval_gen_len": 29.089,
+      "eval_loss": 0.5101344585418701,
+      "eval_runtime": 101.77,
+      "eval_samples_per_second": 8.726,
+      "eval_steps_per_second": 1.091,
+      "step": 310000
+    },
+    {
+      "epoch": 24.14,
+      "grad_norm": 0.9993298053741455,
+      "learning_rate": 0.0002,
+      "loss": 0.2575,
+      "step": 311000
+    },
+    {
+      "epoch": 24.22,
+      "grad_norm": 1.078316569328308,
+      "learning_rate": 0.0002,
+      "loss": 0.2577,
+      "step": 312000
+    },
+    {
+      "epoch": 24.3,
+      "grad_norm": 1.0775636434555054,
+      "learning_rate": 0.0002,
+      "loss": 0.2603,
+      "step": 313000
+    },
+    {
+      "epoch": 24.38,
+      "grad_norm": 1.0711839199066162,
+      "learning_rate": 0.0002,
+      "loss": 0.2641,
+      "step": 314000
+    },
+    {
+      "epoch": 24.45,
+      "grad_norm": 1.1953543424606323,
+      "learning_rate": 0.0002,
+      "loss": 0.2666,
+      "step": 315000
+    },
+    {
+      "epoch": 24.53,
+      "grad_norm": 0.7338001132011414,
+      "learning_rate": 0.0002,
+      "loss": 0.2662,
+      "step": 316000
+    },
+    {
+      "epoch": 24.61,
+      "grad_norm": 1.651564121246338,
+      "learning_rate": 0.0002,
+      "loss": 0.2658,
+      "step": 317000
+    },
+    {
+      "epoch": 24.69,
+      "grad_norm": 0.8356152176856995,
+      "learning_rate": 0.0002,
+      "loss": 0.2706,
+      "step": 318000
+    },
+    {
+      "epoch": 24.76,
+      "grad_norm": 0.8503906726837158,
+      "learning_rate": 0.0002,
+      "loss": 0.2715,
+      "step": 319000
+    },
+    {
+      "epoch": 24.84,
+      "grad_norm": 0.9122622609138489,
+      "learning_rate": 0.0002,
+      "loss": 0.2692,
+      "step": 320000
+    },
+    {
+      "epoch": 24.84,
+      "eval_bleu": 64.9991,
+      "eval_gen_len": 28.6937,
+      "eval_loss": 0.5021673440933228,
+      "eval_runtime": 99.2776,
+      "eval_samples_per_second": 8.945,
+      "eval_steps_per_second": 1.118,
+      "step": 320000
+    },
+    {
+      "epoch": 24.92,
+      "grad_norm": 1.0263617038726807,
+      "learning_rate": 0.0002,
+      "loss": 0.2725,
+      "step": 321000
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 1.140886902809143,
+      "learning_rate": 0.0002,
+      "loss": 0.2748,
+      "step": 322000
+    },
+    {
+      "epoch": 25.07,
+      "grad_norm": 0.9275480508804321,
+      "learning_rate": 0.0002,
+      "loss": 0.2467,
+      "step": 323000
+    },
+    {
+      "epoch": 25.15,
+      "grad_norm": 1.170021653175354,
+      "learning_rate": 0.0002,
+      "loss": 0.2465,
+      "step": 324000
+    },
+    {
+      "epoch": 25.23,
+      "grad_norm": 1.1251965761184692,
+      "learning_rate": 0.0002,
+      "loss": 0.2492,
+      "step": 325000
+    },
+    {
+      "epoch": 25.31,
+      "grad_norm": 1.0885039567947388,
+      "learning_rate": 0.0002,
+      "loss": 0.2518,
+      "step": 326000
+    },
+    {
+      "epoch": 25.38,
+      "grad_norm": 1.2162927389144897,
+      "learning_rate": 0.0002,
+      "loss": 0.2535,
+      "step": 327000
+    },
+    {
+      "epoch": 25.46,
+      "grad_norm": 1.0869230031967163,
+      "learning_rate": 0.0002,
+      "loss": 0.2534,
+      "step": 328000
+    },
+    {
+      "epoch": 25.54,
+      "grad_norm": 0.9775025248527527,
+      "learning_rate": 0.0002,
+      "loss": 0.2586,
+      "step": 329000
+    },
+    {
+      "epoch": 25.62,
+      "grad_norm": 0.8145058155059814,
+      "learning_rate": 0.0002,
+      "loss": 0.2593,
+      "step": 330000
+    },
+    {
+      "epoch": 25.62,
+      "eval_bleu": 65.2478,
+      "eval_gen_len": 28.6137,
+      "eval_loss": 0.508499026298523,
+      "eval_runtime": 98.6428,
+      "eval_samples_per_second": 9.002,
+      "eval_steps_per_second": 1.125,
+      "step": 330000
+    },
+    {
+      "epoch": 25.69,
+      "grad_norm": 1.270075798034668,
+      "learning_rate": 0.0002,
+      "loss": 0.2613,
+      "step": 331000
+    },
+    {
+      "epoch": 25.77,
+      "grad_norm": 1.431252121925354,
+      "learning_rate": 0.0002,
+      "loss": 0.2628,
+      "step": 332000
+    },
+    {
+      "epoch": 25.85,
+      "grad_norm": 1.3506394624710083,
+      "learning_rate": 0.0002,
+      "loss": 0.2651,
+      "step": 333000
+    },
+    {
+      "epoch": 25.93,
+      "grad_norm": 1.0612725019454956,
+      "learning_rate": 0.0002,
+      "loss": 0.2628,
+      "step": 334000
+    },
+    {
+      "epoch": 26.01,
+      "grad_norm": 0.8760356307029724,
+      "learning_rate": 0.0002,
+      "loss": 0.2654,
+      "step": 335000
+    },
+    {
+      "epoch": 26.08,
+      "grad_norm": 1.0780360698699951,
+      "learning_rate": 0.0002,
+      "loss": 0.2363,
+      "step": 336000
+    },
+    {
+      "epoch": 26.16,
+      "grad_norm": 1.4022656679153442,
+      "learning_rate": 0.0002,
+      "loss": 0.2404,
+      "step": 337000
+    },
+    {
+      "epoch": 26.24,
+      "grad_norm": 1.1530039310455322,
+      "learning_rate": 0.0002,
+      "loss": 0.2416,
+      "step": 338000
+    },
+    {
+      "epoch": 26.32,
+      "grad_norm": 1.028208613395691,
+      "learning_rate": 0.0002,
+      "loss": 0.2453,
+      "step": 339000
+    },
+    {
+      "epoch": 26.39,
+      "grad_norm": 0.8168412446975708,
+      "learning_rate": 0.0002,
+      "loss": 0.2439,
+      "step": 340000
+    },
+    {
+      "epoch": 26.39,
+      "eval_bleu": 64.863,
+      "eval_gen_len": 28.6464,
+      "eval_loss": 0.5152307748794556,
+      "eval_runtime": 99.207,
+      "eval_samples_per_second": 8.951,
+      "eval_steps_per_second": 1.119,
+      "step": 340000
+    },
+    {
+      "epoch": 26.47,
+      "grad_norm": 1.415486216545105,
+      "learning_rate": 0.0002,
+      "loss": 0.2481,
+      "step": 341000
+    },
+    {
+      "epoch": 26.55,
+      "grad_norm": 1.016444444656372,
+      "learning_rate": 0.0002,
+      "loss": 0.2515,
+      "step": 342000
+    },
+    {
+      "epoch": 26.63,
+      "grad_norm": 1.0151183605194092,
+      "learning_rate": 0.0002,
+      "loss": 0.2519,
+      "step": 343000
+    },
+    {
+      "epoch": 26.7,
+      "grad_norm": 0.8286064267158508,
+      "learning_rate": 0.0002,
+      "loss": 0.2528,
+      "step": 344000
+    },
+    {
+      "epoch": 26.78,
+      "grad_norm": 1.0916731357574463,
+      "learning_rate": 0.0002,
+      "loss": 0.2529,
+      "step": 345000
+    },
+    {
+      "epoch": 26.86,
+      "grad_norm": 1.0001248121261597,
+      "learning_rate": 0.0002,
+      "loss": 0.256,
+      "step": 346000
+    },
+    {
+      "epoch": 26.94,
+      "grad_norm": 0.8120971322059631,
+      "learning_rate": 0.0002,
+      "loss": 0.2575,
+      "step": 347000
+    },
+    {
+      "epoch": 27.01,
+      "grad_norm": 0.9800658822059631,
+      "learning_rate": 0.0002,
+      "loss": 0.2522,
+      "step": 348000
+    },
+    {
+      "epoch": 27.09,
+      "grad_norm": 1.0135070085525513,
+      "learning_rate": 0.0002,
+      "loss": 0.2298,
+      "step": 349000
+    },
+    {
+      "epoch": 27.17,
+      "grad_norm": 1.1721863746643066,
+      "learning_rate": 0.0002,
+      "loss": 0.2327,
+      "step": 350000
+    },
+    {
+      "epoch": 27.17,
+      "eval_bleu": 65.0748,
+      "eval_gen_len": 28.7286,
+      "eval_loss": 0.5164603590965271,
+      "eval_runtime": 99.7391,
+      "eval_samples_per_second": 8.903,
+      "eval_steps_per_second": 1.113,
+      "step": 350000
+    },
+    {
+      "epoch": 27.25,
+      "grad_norm": 0.7238809466362,
+      "learning_rate": 0.0002,
+      "loss": 0.2337,
+      "step": 351000
+    },
+    {
+      "epoch": 27.32,
+      "grad_norm": 0.8267261385917664,
+      "learning_rate": 0.0002,
+      "loss": 0.2357,
+      "step": 352000
+    },
+    {
+      "epoch": 27.4,
+      "grad_norm": 1.0274128913879395,
+      "learning_rate": 0.0002,
+      "loss": 0.2398,
+      "step": 353000
+    },
+    {
+      "epoch": 27.48,
+      "grad_norm": 0.9916879534721375,
+      "learning_rate": 0.0002,
+      "loss": 0.2401,
+      "step": 354000
+    },
+    {
+      "epoch": 27.56,
+      "grad_norm": 1.095639944076538,
+      "learning_rate": 0.0002,
+      "loss": 0.2428,
+      "step": 355000
+    },
+    {
+      "epoch": 27.64,
+      "grad_norm": 0.8598717451095581,
+      "learning_rate": 0.0002,
+      "loss": 0.2432,
+      "step": 356000
+    },
+    {
+      "epoch": 27.71,
+      "grad_norm": 0.8891191482543945,
+      "learning_rate": 0.0002,
+      "loss": 0.2431,
+      "step": 357000
+    },
+    {
+      "epoch": 27.79,
+      "grad_norm": 0.9431182146072388,
+      "learning_rate": 0.0002,
+      "loss": 0.2468,
+      "step": 358000
+    },
+    {
+      "epoch": 27.87,
+      "grad_norm": 1.3781706094741821,
+      "learning_rate": 0.0002,
+      "loss": 0.2498,
+      "step": 359000
+    },
+    {
+      "epoch": 27.95,
+      "grad_norm": 0.9336220622062683,
+      "learning_rate": 0.0002,
+      "loss": 0.249,
+      "step": 360000
+    },
+    {
+      "epoch": 27.95,
+      "eval_bleu": 64.7249,
+      "eval_gen_len": 28.6137,
+      "eval_loss": 0.5116418600082397,
+      "eval_runtime": 98.8178,
+      "eval_samples_per_second": 8.986,
+      "eval_steps_per_second": 1.123,
+      "step": 360000
+    },
+    {
+      "epoch": 28.02,
+      "grad_norm": 1.2862168550491333,
+      "learning_rate": 0.0002,
+      "loss": 0.2416,
+      "step": 361000
+    },
+    {
+      "epoch": 28.1,
+      "grad_norm": 0.8687452077865601,
+      "learning_rate": 0.0002,
+      "loss": 0.2204,
+      "step": 362000
+    },
+    {
+      "epoch": 28.18,
+      "grad_norm": 1.8673216104507446,
+      "learning_rate": 0.0002,
+      "loss": 0.2254,
+      "step": 363000
+    },
+    {
+      "epoch": 28.26,
+      "grad_norm": 0.9244999885559082,
+      "learning_rate": 0.0002,
+      "loss": 0.227,
+      "step": 364000
+    },
+    {
+      "epoch": 28.33,
+      "grad_norm": 0.7414880990982056,
+      "learning_rate": 0.0002,
+      "loss": 0.2302,
+      "step": 365000
+    },
+    {
+      "epoch": 28.41,
+      "grad_norm": 1.0677781105041504,
+      "learning_rate": 0.0002,
+      "loss": 0.2311,
+      "step": 366000
+    },
+    {
+      "epoch": 28.49,
+      "grad_norm": 1.0712281465530396,
+      "learning_rate": 0.0002,
+      "loss": 0.2354,
+      "step": 367000
+    },
+    {
+      "epoch": 28.57,
+      "grad_norm": 1.0177695751190186,
+      "learning_rate": 0.0002,
+      "loss": 0.2349,
+      "step": 368000
+    },
+    {
+      "epoch": 28.64,
+      "grad_norm": 1.2082629203796387,
+      "learning_rate": 0.0002,
+      "loss": 0.2343,
+      "step": 369000
+    },
+    {
+      "epoch": 28.72,
+      "grad_norm": 0.9800160527229309,
+      "learning_rate": 0.0002,
+      "loss": 0.238,
+      "step": 370000
+    },
+    {
+      "epoch": 28.72,
+      "eval_bleu": 64.7651,
+      "eval_gen_len": 28.5968,
+      "eval_loss": 0.5202394723892212,
+      "eval_runtime": 98.8503,
+      "eval_samples_per_second": 8.983,
+      "eval_steps_per_second": 1.123,
+      "step": 370000
+    },
+    {
+      "epoch": 28.8,
+      "grad_norm": 1.4668409824371338,
+      "learning_rate": 0.0002,
+      "loss": 0.2417,
+      "step": 371000
+    },
+    {
+      "epoch": 28.88,
+      "grad_norm": 0.9679712653160095,
+      "learning_rate": 0.0002,
+      "loss": 0.2397,
+      "step": 372000
+    },
+    {
+      "epoch": 28.96,
+      "grad_norm": 1.0757184028625488,
+      "learning_rate": 0.0002,
+      "loss": 0.2419,
+      "step": 373000
+    },
+    {
+      "epoch": 29.03,
+      "grad_norm": 1.3961704969406128,
+      "learning_rate": 0.0002,
+      "loss": 0.2326,
+      "step": 374000
+    },
+    {
+      "epoch": 29.11,
+      "grad_norm": 1.4827901124954224,
+      "learning_rate": 0.0002,
+      "loss": 0.2159,
+      "step": 375000
+    },
+    {
+      "epoch": 29.19,
+      "grad_norm": 1.065645456314087,
+      "learning_rate": 0.0002,
+      "loss": 0.2195,
+      "step": 376000
+    },
+    {
+      "epoch": 29.27,
+      "grad_norm": 0.8756958842277527,
+      "learning_rate": 0.0002,
+      "loss": 0.2229,
+      "step": 377000
+    },
+    {
+      "epoch": 29.34,
+      "grad_norm": 1.2630327939987183,
+      "learning_rate": 0.0002,
+      "loss": 0.2251,
+      "step": 378000
+    },
+    {
+      "epoch": 29.42,
+      "grad_norm": 0.9434683322906494,
+      "learning_rate": 0.0002,
+      "loss": 0.2267,
+      "step": 379000
+    },
+    {
+      "epoch": 29.5,
+      "grad_norm": 0.8589434623718262,
+      "learning_rate": 0.0002,
+      "loss": 0.2297,
+      "step": 380000
+    },
+    {
+      "epoch": 29.5,
+      "eval_bleu": 65.3334,
+      "eval_gen_len": 28.7005,
+      "eval_loss": 0.5242559909820557,
+      "eval_runtime": 99.2088,
+      "eval_samples_per_second": 8.951,
+      "eval_steps_per_second": 1.119,
+      "step": 380000
+    },
+    {
+      "epoch": 29.58,
+      "grad_norm": 1.0252753496170044,
+      "learning_rate": 0.0002,
+      "loss": 0.229,
+      "step": 381000
+    },
+    {
+      "epoch": 29.65,
+      "grad_norm": 1.4881134033203125,
+      "learning_rate": 0.0002,
+      "loss": 0.2301,
+      "step": 382000
+    },
+    {
+      "epoch": 29.73,
+      "grad_norm": 1.0281462669372559,
+      "learning_rate": 0.0002,
+      "loss": 0.2307,
+      "step": 383000
+    },
+    {
+      "epoch": 29.81,
+      "grad_norm": 1.1244617700576782,
+      "learning_rate": 0.0002,
+      "loss": 0.2335,
+      "step": 384000
+    },
+    {
+      "epoch": 29.89,
+      "grad_norm": 1.1461416482925415,
+      "learning_rate": 0.0002,
+      "loss": 0.2355,
+      "step": 385000
+    },
+    {
+      "epoch": 29.96,
+      "grad_norm": 1.742311716079712,
+      "learning_rate": 0.0002,
+      "loss": 0.2341,
+      "step": 386000
+    },
+    {
+      "epoch": 30.04,
+      "grad_norm": 0.8539097309112549,
+      "learning_rate": 0.0002,
+      "loss": 0.2196,
+      "step": 387000
+    },
+    {
+      "epoch": 30.12,
+      "grad_norm": 0.9865394830703735,
+      "learning_rate": 0.0002,
+      "loss": 0.2118,
+      "step": 388000
+    },
+    {
+      "epoch": 30.2,
+      "grad_norm": 1.2487947940826416,
+      "learning_rate": 0.0002,
+      "loss": 0.2111,
+      "step": 389000
+    },
+    {
+      "epoch": 30.27,
+      "grad_norm": 0.9401417970657349,
+      "learning_rate": 0.0002,
+      "loss": 0.2152,
+      "step": 390000
+    },
+    {
+      "epoch": 30.27,
+      "eval_bleu": 64.9364,
+      "eval_gen_len": 28.6081,
+      "eval_loss": 0.533649206161499,
+      "eval_runtime": 99.1874,
+      "eval_samples_per_second": 8.953,
+      "eval_steps_per_second": 1.119,
+      "step": 390000
+    },
+    {
+      "epoch": 30.35,
+      "grad_norm": 1.5141676664352417,
+      "learning_rate": 0.0002,
+      "loss": 0.2185,
+      "step": 391000
+    },
+    {
+      "epoch": 30.43,
+      "grad_norm": 1.4947956800460815,
+      "learning_rate": 0.0002,
+      "loss": 0.221,
+      "step": 392000
+    },
+    {
+      "epoch": 30.51,
+      "grad_norm": 0.8870178461074829,
+      "learning_rate": 0.0002,
+      "loss": 0.2221,
+      "step": 393000
+    },
+    {
+      "epoch": 30.59,
+      "grad_norm": 1.013377070426941,
+      "learning_rate": 0.0002,
+      "loss": 0.2223,
+      "step": 394000
+    },
+    {
+      "epoch": 30.66,
+      "grad_norm": 1.2745546102523804,
+      "learning_rate": 0.0002,
+      "loss": 0.2242,
+      "step": 395000
+    },
+    {
+      "epoch": 30.74,
+      "grad_norm": 1.3159047365188599,
+      "learning_rate": 0.0002,
+      "loss": 0.2286,
+      "step": 396000
+    },
+    {
+      "epoch": 30.82,
+      "grad_norm": 0.8441556096076965,
+      "learning_rate": 0.0002,
+      "loss": 0.2269,
+      "step": 397000
+    },
+    {
+      "epoch": 30.9,
+      "grad_norm": 1.0391247272491455,
+      "learning_rate": 0.0002,
+      "loss": 0.2297,
+      "step": 398000
+    },
+    {
+      "epoch": 30.97,
+      "grad_norm": 1.0133869647979736,
+      "learning_rate": 0.0002,
+      "loss": 0.2277,
+      "step": 399000
+    },
+    {
+      "epoch": 31.05,
+      "grad_norm": 1.5093469619750977,
+      "learning_rate": 0.0002,
+      "loss": 0.2106,
+      "step": 400000
+    },
+    {
+      "epoch": 31.05,
+      "eval_bleu": 65.117,
+      "eval_gen_len": 28.6745,
+      "eval_loss": 0.540839433670044,
+      "eval_runtime": 98.9473,
+      "eval_samples_per_second": 8.974,
+      "eval_steps_per_second": 1.122,
+      "step": 400000
+    },
+    {
+      "epoch": 31.13,
+      "grad_norm": 1.0606015920639038,
+      "learning_rate": 0.0002,
+      "loss": 0.2031,
+      "step": 401000
+    },
+    {
+      "epoch": 31.21,
+      "grad_norm": 1.4048112630844116,
+      "learning_rate": 0.0002,
+      "loss": 0.2043,
+      "step": 402000
+    },
+    {
+      "epoch": 31.28,
+      "grad_norm": 1.1232408285140991,
+      "learning_rate": 0.0002,
+      "loss": 0.211,
+      "step": 403000
+    },
+    {
+      "epoch": 31.36,
+      "grad_norm": 1.2367199659347534,
+      "learning_rate": 0.0002,
+      "loss": 0.2107,
+      "step": 404000
+    },
+    {
+      "epoch": 31.44,
+      "grad_norm": 1.1147772073745728,
+      "learning_rate": 0.0002,
+      "loss": 0.2116,
+      "step": 405000
+    },
+    {
+      "epoch": 31.52,
+      "grad_norm": 0.9711781740188599,
+      "learning_rate": 0.0002,
+      "loss": 0.2147,
+      "step": 406000
+    },
+    {
+      "epoch": 31.59,
+      "grad_norm": 1.4205774068832397,
+      "learning_rate": 0.0002,
+      "loss": 0.2158,
+      "step": 407000
+    },
+    {
+      "epoch": 31.67,
+      "grad_norm": 1.303250789642334,
+      "learning_rate": 0.0002,
+      "loss": 0.2187,
+      "step": 408000
+    },
+    {
+      "epoch": 31.75,
+      "grad_norm": 2.3327102661132812,
+      "learning_rate": 0.0002,
+      "loss": 0.2196,
+      "step": 409000
+    },
+    {
+      "epoch": 31.83,
+      "grad_norm": 1.9003146886825562,
+      "learning_rate": 0.0002,
+      "loss": 0.2234,
+      "step": 410000
+    },
+    {
+      "epoch": 31.83,
+      "eval_bleu": 64.8926,
+      "eval_gen_len": 28.6318,
+      "eval_loss": 0.5249429941177368,
+      "eval_runtime": 98.7286,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.124,
+      "step": 410000
+    },
+    {
+      "epoch": 31.9,
+      "grad_norm": 0.9950889348983765,
+      "learning_rate": 0.0002,
+      "loss": 0.2232,
+      "step": 411000
+    },
+    {
+      "epoch": 31.98,
+      "grad_norm": 0.8693845272064209,
+      "learning_rate": 0.0002,
+      "loss": 0.2236,
+      "step": 412000
+    },
+    {
+      "epoch": 32.06,
+      "grad_norm": 0.9227551817893982,
+      "learning_rate": 0.0002,
+      "loss": 0.204,
+      "step": 413000
+    },
+    {
+      "epoch": 32.14,
+      "grad_norm": 1.0269570350646973,
+      "learning_rate": 0.0002,
+      "loss": 0.2019,
+      "step": 414000
+    },
+    {
+      "epoch": 32.22,
+      "grad_norm": 1.0199569463729858,
+      "learning_rate": 0.0002,
+      "loss": 0.2015,
+      "step": 415000
+    },
+    {
+      "epoch": 32.29,
+      "grad_norm": 1.4488086700439453,
+      "learning_rate": 0.0002,
+      "loss": 0.2036,
+      "step": 416000
+    },
+    {
+      "epoch": 32.37,
+      "grad_norm": 0.8843773007392883,
+      "learning_rate": 0.0002,
+      "loss": 0.2049,
+      "step": 417000
+    },
+    {
+      "epoch": 32.45,
+      "grad_norm": 1.3630881309509277,
+      "learning_rate": 0.0002,
+      "loss": 0.2085,
+      "step": 418000
+    },
+    {
+      "epoch": 32.53,
+      "grad_norm": 0.9767336845397949,
+      "learning_rate": 0.0002,
+      "loss": 0.2097,
+      "step": 419000
+    },
+    {
+      "epoch": 32.6,
+      "grad_norm": 0.9147652983665466,
+      "learning_rate": 0.0002,
+      "loss": 0.2085,
+      "step": 420000
+    },
+    {
+      "epoch": 32.6,
+      "eval_bleu": 65.5715,
+      "eval_gen_len": 28.7984,
+      "eval_loss": 0.5305626392364502,
+      "eval_runtime": 100.0595,
+      "eval_samples_per_second": 8.875,
+      "eval_steps_per_second": 1.109,
+      "step": 420000
+    },
+    {
+      "epoch": 32.68,
+      "grad_norm": 1.4235540628433228,
+      "learning_rate": 0.0002,
+      "loss": 0.212,
+      "step": 421000
+    },
+    {
+      "epoch": 32.76,
+      "grad_norm": 0.9653807282447815,
+      "learning_rate": 0.0002,
+      "loss": 0.2129,
+      "step": 422000
+    },
+    {
+      "epoch": 32.84,
+      "grad_norm": 1.0437246561050415,
+      "learning_rate": 0.0002,
+      "loss": 0.2153,
+      "step": 423000
+    },
+    {
+      "epoch": 32.91,
+      "grad_norm": 1.0093231201171875,
+      "learning_rate": 0.0002,
+      "loss": 0.2146,
+      "step": 424000
+    },
+    {
+      "epoch": 32.99,
+      "grad_norm": 0.9372303485870361,
+      "learning_rate": 0.0002,
+      "loss": 0.2176,
+      "step": 425000
+    },
+    {
+      "epoch": 33.07,
+      "grad_norm": 0.990990161895752,
+      "learning_rate": 0.0002,
+      "loss": 0.1946,
+      "step": 426000
+    },
+    {
+      "epoch": 33.15,
+      "grad_norm": 1.221752405166626,
+      "learning_rate": 0.0002,
+      "loss": 0.1937,
+      "step": 427000
+    },
+    {
+      "epoch": 33.22,
+      "grad_norm": 1.0376135110855103,
+      "learning_rate": 0.0002,
+      "loss": 0.1971,
+      "step": 428000
+    },
+    {
+      "epoch": 33.3,
+      "grad_norm": 1.2878087759017944,
+      "learning_rate": 0.0002,
+      "loss": 0.1993,
+      "step": 429000
+    },
+    {
+      "epoch": 33.38,
+      "grad_norm": 1.702043890953064,
+      "learning_rate": 0.0002,
+      "loss": 0.2018,
+      "step": 430000
+    },
+    {
+      "epoch": 33.38,
+      "eval_bleu": 64.9154,
+      "eval_gen_len": 28.6351,
+      "eval_loss": 0.5428734421730042,
+      "eval_runtime": 99.9626,
+      "eval_samples_per_second": 8.883,
+      "eval_steps_per_second": 1.11,
+      "step": 430000
+    },
+    {
+      "epoch": 33.46,
+      "grad_norm": 1.171934723854065,
+      "learning_rate": 0.0002,
+      "loss": 0.2042,
+      "step": 431000
+    },
+    {
+      "epoch": 33.54,
+      "grad_norm": 0.9023895859718323,
+      "learning_rate": 0.0002,
+      "loss": 0.2032,
+      "step": 432000
+    },
+    {
+      "epoch": 33.61,
+      "grad_norm": 1.5410844087600708,
+      "learning_rate": 0.0002,
+      "loss": 0.204,
+      "step": 433000
+    },
+    {
+      "epoch": 33.69,
+      "grad_norm": 1.297434687614441,
+      "learning_rate": 0.0002,
+      "loss": 0.2057,
+      "step": 434000
+    },
+    {
+      "epoch": 33.77,
+      "grad_norm": 1.636635422706604,
+      "learning_rate": 0.0002,
+      "loss": 0.2085,
+      "step": 435000
+    },
+    {
+      "epoch": 33.85,
+      "grad_norm": 1.3059121370315552,
+      "learning_rate": 0.0002,
+      "loss": 0.2099,
+      "step": 436000
+    },
+    {
+      "epoch": 33.92,
+      "grad_norm": 1.1616836786270142,
+      "learning_rate": 0.0002,
+      "loss": 0.2098,
+      "step": 437000
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 0.9708386063575745,
+      "learning_rate": 0.0002,
+      "loss": 0.2103,
+      "step": 438000
+    },
+    {
+      "epoch": 34.08,
+      "grad_norm": 1.1958973407745361,
+      "learning_rate": 0.0002,
+      "loss": 0.1868,
+      "step": 439000
+    },
+    {
+      "epoch": 34.16,
+      "grad_norm": 0.9669882655143738,
+      "learning_rate": 0.0002,
+      "loss": 0.1885,
+      "step": 440000
+    },
+    {
+      "epoch": 34.16,
+      "eval_bleu": 65.0538,
+      "eval_gen_len": 28.8525,
+      "eval_loss": 0.5453199148178101,
+      "eval_runtime": 98.9637,
+      "eval_samples_per_second": 8.973,
+      "eval_steps_per_second": 1.122,
+      "step": 440000
+    },
+    {
+      "epoch": 34.23,
+      "grad_norm": 1.3960009813308716,
+      "learning_rate": 0.0002,
+      "loss": 0.192,
+      "step": 441000
+    },
+    {
+      "epoch": 34.31,
+      "grad_norm": 1.1039202213287354,
+      "learning_rate": 0.0002,
+      "loss": 0.1928,
+      "step": 442000
+    },
+    {
+      "epoch": 34.39,
+      "grad_norm": 1.4681973457336426,
+      "learning_rate": 0.0002,
+      "loss": 0.1963,
+      "step": 443000
+    },
+    {
+      "epoch": 34.47,
+      "grad_norm": 1.1876535415649414,
+      "learning_rate": 0.0002,
+      "loss": 0.1955,
+      "step": 444000
+    },
+    {
+      "epoch": 34.54,
+      "grad_norm": 1.0030099153518677,
+      "learning_rate": 0.0002,
+      "loss": 0.197,
+      "step": 445000
+    },
+    {
+      "epoch": 34.62,
+      "grad_norm": 1.262609839439392,
+      "learning_rate": 0.0002,
+      "loss": 0.1965,
+      "step": 446000
+    },
+    {
+      "epoch": 34.7,
+      "grad_norm": 4.133481979370117,
+      "learning_rate": 0.0002,
+      "loss": 0.2009,
+      "step": 447000
+    },
+    {
+      "epoch": 34.78,
+      "grad_norm": 1.3214054107666016,
+      "learning_rate": 0.0002,
+      "loss": 0.2011,
+      "step": 448000
+    },
+    {
+      "epoch": 34.85,
+      "grad_norm": 1.061333417892456,
+      "learning_rate": 0.0002,
+      "loss": 0.205,
+      "step": 449000
+    },
+    {
+      "epoch": 34.93,
+      "grad_norm": 1.487025260925293,
+      "learning_rate": 0.0002,
+      "loss": 0.2049,
+      "step": 450000
+    },
+    {
+      "epoch": 34.93,
+      "eval_bleu": 65.2857,
+      "eval_gen_len": 28.7207,
+      "eval_loss": 0.5434128046035767,
+      "eval_runtime": 98.7363,
+      "eval_samples_per_second": 8.994,
+      "eval_steps_per_second": 1.124,
+      "step": 450000
+    },
+    {
+      "epoch": 35.01,
+      "grad_norm": 1.3061411380767822,
+      "learning_rate": 0.0002,
+      "loss": 0.2042,
+      "step": 451000
+    },
+    {
+      "epoch": 35.09,
+      "grad_norm": 0.9900358319282532,
+      "learning_rate": 0.0002,
+      "loss": 0.1803,
+      "step": 452000
+    },
+    {
+      "epoch": 35.17,
+      "grad_norm": 1.2118251323699951,
+      "learning_rate": 0.0002,
+      "loss": 0.183,
+      "step": 453000
+    },
+    {
+      "epoch": 35.24,
+      "grad_norm": 1.1625529527664185,
+      "learning_rate": 0.0002,
+      "loss": 0.1879,
+      "step": 454000
+    },
+    {
+      "epoch": 35.32,
+      "grad_norm": 1.0669846534729004,
+      "learning_rate": 0.0002,
+      "loss": 0.1888,
+      "step": 455000
+    },
+    {
+      "epoch": 35.4,
+      "grad_norm": 1.285409688949585,
+      "learning_rate": 0.0002,
+      "loss": 0.1908,
+      "step": 456000
+    },
+    {
+      "epoch": 35.48,
+      "grad_norm": 1.292738914489746,
+      "learning_rate": 0.0002,
+      "loss": 0.1944,
+      "step": 457000
+    },
+    {
+      "epoch": 35.55,
+      "grad_norm": 0.9169420599937439,
+      "learning_rate": 0.0002,
+      "loss": 0.1924,
+      "step": 458000
+    },
+    {
+      "epoch": 35.63,
+      "grad_norm": 1.1117466688156128,
+      "learning_rate": 0.0002,
+      "loss": 0.1944,
+      "step": 459000
+    },
+    {
+      "epoch": 35.71,
+      "grad_norm": 1.400664210319519,
+      "learning_rate": 0.0002,
+      "loss": 0.1957,
+      "step": 460000
+    },
+    {
+      "epoch": 35.71,
+      "eval_bleu": 65.3436,
+      "eval_gen_len": 28.714,
+      "eval_loss": 0.549137532711029,
+      "eval_runtime": 99.1079,
+      "eval_samples_per_second": 8.96,
+      "eval_steps_per_second": 1.12,
+      "step": 460000
+    },
+    {
+      "epoch": 35.79,
+      "grad_norm": 1.1465002298355103,
+      "learning_rate": 0.0002,
+      "loss": 0.1974,
+      "step": 461000
+    },
+    {
+      "epoch": 35.86,
+      "grad_norm": 0.9425164461135864,
+      "learning_rate": 0.0002,
+      "loss": 0.1967,
+      "step": 462000
+    },
+    {
+      "epoch": 35.94,
+      "grad_norm": 1.0649182796478271,
+      "learning_rate": 0.0002,
+      "loss": 0.1974,
+      "step": 463000
+    },
+    {
+      "epoch": 36.02,
+      "grad_norm": 0.9610468149185181,
+      "learning_rate": 0.0002,
+      "loss": 0.1943,
+      "step": 464000
+    },
+    {
+      "epoch": 36.1,
+      "grad_norm": 1.0697602033615112,
+      "learning_rate": 0.0002,
+      "loss": 0.1785,
+      "step": 465000
+    },
+    {
+      "epoch": 36.17,
+      "grad_norm": 0.8167102336883545,
+      "learning_rate": 0.0002,
+      "loss": 0.181,
+      "step": 466000
+    },
+    {
+      "epoch": 36.25,
+      "grad_norm": 1.155148983001709,
+      "learning_rate": 0.0002,
+      "loss": 0.1804,
+      "step": 467000
+    },
+    {
+      "epoch": 36.33,
+      "grad_norm": 1.036157250404358,
+      "learning_rate": 0.0002,
+      "loss": 0.1811,
+      "step": 468000
+    },
+    {
+      "epoch": 36.41,
+      "grad_norm": 0.9966660141944885,
+      "learning_rate": 0.0002,
+      "loss": 0.1825,
+      "step": 469000
+    },
+    {
+      "epoch": 36.49,
+      "grad_norm": 1.3554514646530151,
+      "learning_rate": 0.0002,
+      "loss": 0.1867,
+      "step": 470000
+    },
+    {
+      "epoch": 36.49,
+      "eval_bleu": 65.4934,
+      "eval_gen_len": 28.7939,
+      "eval_loss": 0.5535929203033447,
+      "eval_runtime": 99.8585,
+      "eval_samples_per_second": 8.893,
+      "eval_steps_per_second": 1.112,
+      "step": 470000
+    },
+    {
+      "epoch": 36.56,
+      "grad_norm": 1.1400065422058105,
+      "learning_rate": 0.0002,
+      "loss": 0.1889,
+      "step": 471000
+    },
+    {
+      "epoch": 36.64,
+      "grad_norm": 1.2936526536941528,
+      "learning_rate": 0.0002,
+      "loss": 0.1892,
+      "step": 472000
+    },
+    {
+      "epoch": 36.72,
+      "grad_norm": 1.3375158309936523,
+      "learning_rate": 0.0002,
+      "loss": 0.1932,
+      "step": 473000
+    },
+    {
+      "epoch": 36.8,
+      "grad_norm": 1.3976365327835083,
+      "learning_rate": 0.0002,
+      "loss": 0.1931,
+      "step": 474000
+    },
+    {
+      "epoch": 36.87,
+      "grad_norm": 1.2075397968292236,
+      "learning_rate": 0.0002,
+      "loss": 0.1938,
+      "step": 475000
+    },
+    {
+      "epoch": 36.95,
+      "grad_norm": 1.2333601713180542,
+      "learning_rate": 0.0002,
+      "loss": 0.1918,
+      "step": 476000
+    },
+    {
+      "epoch": 37.03,
+      "grad_norm": 0.9724763631820679,
+      "learning_rate": 0.0002,
+      "loss": 0.1857,
+      "step": 477000
+    },
+    {
+      "epoch": 37.11,
+      "grad_norm": 1.305141568183899,
+      "learning_rate": 0.0002,
+      "loss": 0.1741,
+      "step": 478000
+    },
+    {
+      "epoch": 37.18,
+      "grad_norm": 1.2358112335205078,
+      "learning_rate": 0.0002,
+      "loss": 0.1727,
+      "step": 479000
+    },
+    {
+      "epoch": 37.26,
+      "grad_norm": 1.040460228919983,
+      "learning_rate": 0.0002,
+      "loss": 0.1765,
+      "step": 480000
+    },
+    {
+      "epoch": 37.26,
+      "eval_bleu": 65.5595,
+      "eval_gen_len": 28.8255,
+      "eval_loss": 0.5582976341247559,
+      "eval_runtime": 99.6921,
+      "eval_samples_per_second": 8.907,
+      "eval_steps_per_second": 1.113,
+      "step": 480000
+    },
+    {
+      "epoch": 37.34,
+      "grad_norm": 1.0049262046813965,
+      "learning_rate": 0.0002,
+      "loss": 0.1801,
+      "step": 481000
+    },
+    {
+      "epoch": 37.42,
+      "grad_norm": 0.9716454148292542,
+      "learning_rate": 0.0002,
+      "loss": 0.1806,
+      "step": 482000
+    },
+    {
+      "epoch": 37.49,
+      "grad_norm": 1.2684077024459839,
+      "learning_rate": 0.0002,
+      "loss": 0.1809,
+      "step": 483000
+    },
+    {
+      "epoch": 37.57,
+      "grad_norm": 1.4772919416427612,
+      "learning_rate": 0.0002,
+      "loss": 0.1798,
+      "step": 484000
+    },
+    {
+      "epoch": 37.65,
+      "grad_norm": 0.8240026831626892,
+      "learning_rate": 0.0002,
+      "loss": 0.1849,
+      "step": 485000
+    },
+    {
+      "epoch": 37.73,
+      "grad_norm": 1.2247587442398071,
+      "learning_rate": 0.0002,
+      "loss": 0.1872,
+      "step": 486000
+    },
+    {
+      "epoch": 37.8,
+      "grad_norm": 1.4645825624465942,
+      "learning_rate": 0.0002,
+      "loss": 0.1889,
+      "step": 487000
+    },
+    {
+      "epoch": 37.88,
+      "grad_norm": 1.0552102327346802,
+      "learning_rate": 0.0002,
+      "loss": 0.1866,
+      "step": 488000
+    },
+    {
+      "epoch": 37.96,
+      "grad_norm": 1.2899285554885864,
+      "learning_rate": 0.0002,
+      "loss": 0.1897,
+      "step": 489000
+    },
+    {
+      "epoch": 38.04,
+      "grad_norm": 1.0461792945861816,
+      "learning_rate": 0.0002,
+      "loss": 0.1786,
+      "step": 490000
+    },
+    {
+      "epoch": 38.04,
+      "eval_bleu": 65.6358,
+      "eval_gen_len": 28.7691,
+      "eval_loss": 0.5611980557441711,
+      "eval_runtime": 99.4338,
+      "eval_samples_per_second": 8.931,
+      "eval_steps_per_second": 1.116,
+      "step": 490000
+    },
+    {
+      "epoch": 38.12,
+      "grad_norm": 1.1956135034561157,
+      "learning_rate": 0.0002,
+      "loss": 0.1708,
+      "step": 491000
+    },
+    {
+      "epoch": 38.19,
+      "grad_norm": 1.903419852256775,
+      "learning_rate": 0.0002,
+      "loss": 0.1726,
+      "step": 492000
+    },
+    {
+      "epoch": 38.27,
+      "grad_norm": 1.4714049100875854,
+      "learning_rate": 0.0002,
+      "loss": 0.174,
+      "step": 493000
+    },
+    {
+      "epoch": 38.35,
+      "grad_norm": 1.117650032043457,
+      "learning_rate": 0.0002,
+      "loss": 0.1753,
+      "step": 494000
+    },
+    {
+      "epoch": 38.43,
+      "grad_norm": 0.9286689162254333,
+      "learning_rate": 0.0002,
+      "loss": 0.1766,
+      "step": 495000
+    },
+    {
+      "epoch": 38.5,
+      "grad_norm": 1.0359840393066406,
+      "learning_rate": 0.0002,
+      "loss": 0.1774,
+      "step": 496000
+    },
+    {
+      "epoch": 38.58,
+      "grad_norm": 0.9324952363967896,
+      "learning_rate": 0.0002,
+      "loss": 0.1795,
+      "step": 497000
+    },
+    {
+      "epoch": 38.66,
+      "grad_norm": 1.2552545070648193,
+      "learning_rate": 0.0002,
+      "loss": 0.1795,
+      "step": 498000
+    },
+    {
+      "epoch": 38.74,
+      "grad_norm": 0.9712297916412354,
+      "learning_rate": 0.0002,
+      "loss": 0.1798,
+      "step": 499000
+    },
+    {
+      "epoch": 38.81,
+      "grad_norm": 1.3964751958847046,
+      "learning_rate": 0.0002,
+      "loss": 0.1809,
+      "step": 500000
+    },
+    {
+      "epoch": 38.81,
+      "eval_bleu": 65.0266,
+      "eval_gen_len": 28.7455,
+      "eval_loss": 0.5573469996452332,
+      "eval_runtime": 99.5788,
+      "eval_samples_per_second": 8.918,
+      "eval_steps_per_second": 1.115,
+      "step": 500000
+    },
+    {
+      "epoch": 38.81,
+      "step": 500000,
+      "total_flos": 5.131418179149005e+17,
+      "train_loss": 0.40471466763305664,
+      "train_runtime": 141171.7116,
+      "train_samples_per_second": 56.669,
+      "train_steps_per_second": 3.542
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 500000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 39,
+  "save_steps": 10000,
+  "total_flos": 5.131418179149005e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}