Initial commit

Browse files

Files changed (14) hide show

all_results.json +8 -0
config.json +29 -0
flax_model.msgpack +3 -0
pytorch_model.bin +3 -0
runs/Apr26_12-24-19_pg-gpu17/1650968746.6344287/events.out.tfevents.1650968746.pg-gpu17.21019.1 +3 -0
runs/Apr26_12-24-19_pg-gpu17/events.out.tfevents.1650968746.pg-gpu17.21019.0 +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tf_model.h5 +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
train_results.json +8 -0
trainer_state.json +1320 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 7.0,
+    "train_loss": 2.493601185993256,
+    "train_runtime": 53594.8094,
+    "train_samples": 102693,
+    "train_samples_per_second": 13.413,
+    "train_steps_per_second": 1.677
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": ".",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 32,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "torch_dtype": "float32",
+  "transformers_version": "4.15.0",
+  "use_cache": true,
+  "vocab_size": 32100
+}

flax_model.msgpack ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7be0a98101ff985985ff669a29c3e8b1e3ad8c4a6247242141fdbf77c4c382c2
+size 569246164

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaa0ea21cf52c19d65b15b8d56e15056a6991dce40ec0186e6d2f2430ea448b5
+size 569387035

runs/Apr26_12-24-19_pg-gpu17/1650968746.6344287/events.out.tfevents.1650968746.pg-gpu17.21019.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5eba0347ed933674202aff8a9bf6341015fd32eee92495aa4bc50fbf75a72f8
+size 5127

runs/Apr26_12-24-19_pg-gpu17/events.out.tfevents.1650968746.pg-gpu17.21019.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17c905a9e84aad9dd0dec22e1aa29ba80f54d64b9cd21e22f51d45f337f0e26c
+size 41594

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"]}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2dffd01fc009b7e92d98eddff8853983e271b41302ed0d363000e8581df12000
+size 817200

tf_model.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3141082199baf81889949195a4f60fdcc9079cba7e3982f37224d374aadf25c3
+size 569947488

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "special_tokens_map_file": null, "name_or_path": "stefan-it/it5-efficient-small-el32", "sp_model_kwargs": {}, "tokenizer_class": "T5Tokenizer"}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 7.0,
+    "train_loss": 2.493601185993256,
+    "train_runtime": 53594.8094,
+    "train_samples": 102693,
+    "train_samples_per_second": 13.413,
+    "train_steps_per_second": 1.677
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1320 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.0,
+  "global_step": 89859,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002983307181250626,
+      "loss": 3.5314,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00029666143625012515,
+      "loss": 3.2698,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00029499215437518776,
+      "loss": 3.1741,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002933228725002504,
+      "loss": 3.1591,
+      "step": 2000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000291653590625313,
+      "loss": 3.0795,
+      "step": 2500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00028998430875037555,
+      "loss": 3.0526,
+      "step": 3000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00028831502687543816,
+      "loss": 3.0228,
+      "step": 3500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002866457450005008,
+      "loss": 2.9966,
+      "step": 4000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002849764631255634,
+      "loss": 2.9799,
+      "step": 4500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00028330718125062595,
+      "loss": 2.9632,
+      "step": 5000
+    },
+    {
+      "epoch": 0.39,
+      "eval_gen_len": 18.7655,
+      "eval_loss": 2.559084892272949,
+      "eval_rouge1": 25.8521,
+      "eval_rouge2": 11.6024,
+      "eval_rougeL": 21.0887,
+      "eval_rougeLsum": 22.857,
+      "eval_runtime": 625.5093,
+      "eval_samples_per_second": 20.521,
+      "eval_steps_per_second": 2.566,
+      "step": 5000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028163789937568856,
+      "loss": 2.9402,
+      "step": 5500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002799686175007512,
+      "loss": 2.9157,
+      "step": 6000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00027829933562581373,
+      "loss": 2.9143,
+      "step": 6500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00027663005375087635,
+      "loss": 2.8869,
+      "step": 7000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002749607718759389,
+      "loss": 2.9195,
+      "step": 7500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002732914900010015,
+      "loss": 2.8558,
+      "step": 8000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00027162220812606414,
+      "loss": 2.8594,
+      "step": 8500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00026995292625112675,
+      "loss": 2.8485,
+      "step": 9000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0002682836443761893,
+      "loss": 2.8491,
+      "step": 9500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002666143625012519,
+      "loss": 2.8327,
+      "step": 10000
+    },
+    {
+      "epoch": 0.78,
+      "eval_gen_len": 18.8331,
+      "eval_loss": 2.4890213012695312,
+      "eval_rouge1": 26.508,
+      "eval_rouge2": 12.2564,
+      "eval_rougeL": 21.7467,
+      "eval_rougeLsum": 23.5474,
+      "eval_runtime": 624.7506,
+      "eval_samples_per_second": 20.546,
+      "eval_steps_per_second": 2.569,
+      "step": 10000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00026494508062631454,
+      "loss": 2.8157,
+      "step": 10500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00026327579875137715,
+      "loss": 2.8001,
+      "step": 11000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0002616065168764397,
+      "loss": 2.84,
+      "step": 11500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0002599372350015023,
+      "loss": 2.8051,
+      "step": 12000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00025826795312656494,
+      "loss": 2.8138,
+      "step": 12500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00025659867125162755,
+      "loss": 2.7677,
+      "step": 13000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0002549293893766901,
+      "loss": 2.6905,
+      "step": 13500
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0002532601075017527,
+      "loss": 2.709,
+      "step": 14000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00025159082562681534,
+      "loss": 2.7136,
+      "step": 14500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00024992154375187795,
+      "loss": 2.6873,
+      "step": 15000
+    },
+    {
+      "epoch": 1.17,
+      "eval_gen_len": 18.8424,
+      "eval_loss": 2.4520416259765625,
+      "eval_rouge1": 26.8614,
+      "eval_rouge2": 12.7032,
+      "eval_rougeL": 22.0965,
+      "eval_rougeLsum": 23.832,
+      "eval_runtime": 623.6597,
+      "eval_samples_per_second": 20.582,
+      "eval_steps_per_second": 2.574,
+      "step": 15000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002482522618769405,
+      "loss": 2.6962,
+      "step": 15500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0002465829800020031,
+      "loss": 2.6779,
+      "step": 16000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00024491369812706574,
+      "loss": 2.6964,
+      "step": 16500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00024324441625212832,
+      "loss": 2.7048,
+      "step": 17000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00024157513437719094,
+      "loss": 2.6687,
+      "step": 17500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00023990585250225352,
+      "loss": 2.6869,
+      "step": 18000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00023823657062731608,
+      "loss": 2.678,
+      "step": 18500
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0002365672887523787,
+      "loss": 2.6544,
+      "step": 19000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00023489800687744128,
+      "loss": 2.6591,
+      "step": 19500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0002332287250025039,
+      "loss": 2.6572,
+      "step": 20000
+    },
+    {
+      "epoch": 1.56,
+      "eval_gen_len": 18.727,
+      "eval_loss": 2.4031243324279785,
+      "eval_rouge1": 27.0114,
+      "eval_rouge2": 12.8148,
+      "eval_rougeL": 22.2407,
+      "eval_rougeLsum": 24.0602,
+      "eval_runtime": 626.2755,
+      "eval_samples_per_second": 20.496,
+      "eval_steps_per_second": 2.563,
+      "step": 20000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00023155944312756648,
+      "loss": 2.628,
+      "step": 20500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002298901612526291,
+      "loss": 2.6544,
+      "step": 21000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00022822087937769168,
+      "loss": 2.6792,
+      "step": 21500
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0002265515975027543,
+      "loss": 2.6493,
+      "step": 22000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00022488231562781688,
+      "loss": 2.6385,
+      "step": 22500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002232130337528795,
+      "loss": 2.6368,
+      "step": 23000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00022154375187794208,
+      "loss": 2.6319,
+      "step": 23500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0002198744700030047,
+      "loss": 2.6764,
+      "step": 24000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00021820518812806729,
+      "loss": 2.6729,
+      "step": 24500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0002165359062531299,
+      "loss": 2.6461,
+      "step": 25000
+    },
+    {
+      "epoch": 1.95,
+      "eval_gen_len": 18.7416,
+      "eval_loss": 2.391615629196167,
+      "eval_rouge1": 27.2287,
+      "eval_rouge2": 12.9935,
+      "eval_rougeL": 22.4718,
+      "eval_rougeLsum": 24.2517,
+      "eval_runtime": 622.8089,
+      "eval_samples_per_second": 20.61,
+      "eval_steps_per_second": 2.577,
+      "step": 25000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00021486662437819249,
+      "loss": 2.6244,
+      "step": 25500
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0002131973425032551,
+      "loss": 2.5805,
+      "step": 26000
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00021152806062831769,
+      "loss": 2.5407,
+      "step": 26500
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.00020985877875338027,
+      "loss": 2.5537,
+      "step": 27000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00020818949687844289,
+      "loss": 2.5253,
+      "step": 27500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.00020652021500350547,
+      "loss": 2.5401,
+      "step": 28000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00020485093312856809,
+      "loss": 2.5245,
+      "step": 28500
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.00020318165125363067,
+      "loss": 2.547,
+      "step": 29000
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.00020151236937869329,
+      "loss": 2.5377,
+      "step": 29500
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.00019984308750375587,
+      "loss": 2.5374,
+      "step": 30000
+    },
+    {
+      "epoch": 2.34,
+      "eval_gen_len": 18.8003,
+      "eval_loss": 2.3686139583587646,
+      "eval_rouge1": 27.5061,
+      "eval_rouge2": 13.241,
+      "eval_rougeL": 22.6877,
+      "eval_rougeLsum": 24.4465,
+      "eval_runtime": 629.1948,
+      "eval_samples_per_second": 20.401,
+      "eval_steps_per_second": 2.551,
+      "step": 30000
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00019817380562881846,
+      "loss": 2.5457,
+      "step": 30500
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00019650452375388105,
+      "loss": 2.5105,
+      "step": 31000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00019483524187894366,
+      "loss": 2.5367,
+      "step": 31500
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00019316596000400625,
+      "loss": 2.5471,
+      "step": 32000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00019149667812906886,
+      "loss": 2.5488,
+      "step": 32500
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00018982739625413145,
+      "loss": 2.5402,
+      "step": 33000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 0.00018815811437919406,
+      "loss": 2.5437,
+      "step": 33500
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00018648883250425665,
+      "loss": 2.5244,
+      "step": 34000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00018481955062931923,
+      "loss": 2.5389,
+      "step": 34500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00018315026875438185,
+      "loss": 2.5081,
+      "step": 35000
+    },
+    {
+      "epoch": 2.73,
+      "eval_gen_len": 18.7821,
+      "eval_loss": 2.3596315383911133,
+      "eval_rouge1": 27.4715,
+      "eval_rouge2": 13.2862,
+      "eval_rougeL": 22.7022,
+      "eval_rougeLsum": 24.4252,
+      "eval_runtime": 624.9994,
+      "eval_samples_per_second": 20.538,
+      "eval_steps_per_second": 2.568,
+      "step": 35000
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00018148098687944443,
+      "loss": 2.5425,
+      "step": 35500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00017981170500450705,
+      "loss": 2.5245,
+      "step": 36000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00017814242312956963,
+      "loss": 2.506,
+      "step": 36500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00017647314125463225,
+      "loss": 2.542,
+      "step": 37000
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00017480385937969483,
+      "loss": 2.5252,
+      "step": 37500
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00017313457750475745,
+      "loss": 2.5175,
+      "step": 38000
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00017146529562982003,
+      "loss": 2.5091,
+      "step": 38500
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.00016979601375488265,
+      "loss": 2.4468,
+      "step": 39000
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.00016812673187994523,
+      "loss": 2.447,
+      "step": 39500
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.00016645745000500785,
+      "loss": 2.4152,
+      "step": 40000
+    },
+    {
+      "epoch": 3.12,
+      "eval_gen_len": 18.8203,
+      "eval_loss": 2.326728105545044,
+      "eval_rouge1": 27.9595,
+      "eval_rouge2": 13.5813,
+      "eval_rougeL": 23.0493,
+      "eval_rougeLsum": 24.9203,
+      "eval_runtime": 625.9414,
+      "eval_samples_per_second": 20.507,
+      "eval_steps_per_second": 2.564,
+      "step": 40000
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.00016478816813007043,
+      "loss": 2.4379,
+      "step": 40500
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.00016311888625513305,
+      "loss": 2.4489,
+      "step": 41000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.00016144960438019564,
+      "loss": 2.4212,
+      "step": 41500
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 0.00015978032250525825,
+      "loss": 2.4203,
+      "step": 42000
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0001581110406303208,
+      "loss": 2.433,
+      "step": 42500
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 0.0001564417587553834,
+      "loss": 2.432,
+      "step": 43000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.000154772476880446,
+      "loss": 2.4299,
+      "step": 43500
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.0001531031950055086,
+      "loss": 2.4201,
+      "step": 44000
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.0001514339131305712,
+      "loss": 2.4314,
+      "step": 44500
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 0.00014976463125563382,
+      "loss": 2.4387,
+      "step": 45000
+    },
+    {
+      "epoch": 3.51,
+      "eval_gen_len": 18.8376,
+      "eval_loss": 2.317692518234253,
+      "eval_rouge1": 28.1616,
+      "eval_rouge2": 13.668,
+      "eval_rougeL": 23.1738,
+      "eval_rougeLsum": 25.0342,
+      "eval_runtime": 622.4609,
+      "eval_samples_per_second": 20.621,
+      "eval_steps_per_second": 2.578,
+      "step": 45000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.0001480953493806964,
+      "loss": 2.4389,
+      "step": 45500
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.000146426067505759,
+      "loss": 2.4363,
+      "step": 46000
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.0001447567856308216,
+      "loss": 2.4395,
+      "step": 46500
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.0001430875037558842,
+      "loss": 2.4418,
+      "step": 47000
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 0.0001414182218809468,
+      "loss": 2.4201,
+      "step": 47500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 0.0001397489400060094,
+      "loss": 2.4169,
+      "step": 48000
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 0.000138079658131072,
+      "loss": 2.4009,
+      "step": 48500
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 0.0001364103762561346,
+      "loss": 2.4279,
+      "step": 49000
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.0001347410943811972,
+      "loss": 2.4307,
+      "step": 49500
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 0.0001330718125062598,
+      "loss": 2.4387,
+      "step": 50000
+    },
+    {
+      "epoch": 3.89,
+      "eval_gen_len": 18.7872,
+      "eval_loss": 2.3016672134399414,
+      "eval_rouge1": 28.1111,
+      "eval_rouge2": 13.569,
+      "eval_rougeL": 23.1312,
+      "eval_rougeLsum": 24.9912,
+      "eval_runtime": 628.1204,
+      "eval_samples_per_second": 20.436,
+      "eval_steps_per_second": 2.555,
+      "step": 50000
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.0001314025306313224,
+      "loss": 2.4143,
+      "step": 50500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 0.000129733248756385,
+      "loss": 2.4197,
+      "step": 51000
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.00012806396688144758,
+      "loss": 2.4084,
+      "step": 51500
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 0.00012639468500651017,
+      "loss": 2.3544,
+      "step": 52000
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 0.00012472540313157278,
+      "loss": 2.332,
+      "step": 52500
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.00012305612125663537,
+      "loss": 2.3597,
+      "step": 53000
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.00012138683938169798,
+      "loss": 2.3492,
+      "step": 53500
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 0.00011971755750676058,
+      "loss": 2.3679,
+      "step": 54000
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 0.00011804827563182318,
+      "loss": 2.3633,
+      "step": 54500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 0.00011637899375688578,
+      "loss": 2.3467,
+      "step": 55000
+    },
+    {
+      "epoch": 4.28,
+      "eval_gen_len": 18.8334,
+      "eval_loss": 2.3123602867126465,
+      "eval_rouge1": 28.0679,
+      "eval_rouge2": 13.7123,
+      "eval_rougeL": 23.1516,
+      "eval_rougeLsum": 25.0002,
+      "eval_runtime": 622.7792,
+      "eval_samples_per_second": 20.611,
+      "eval_steps_per_second": 2.577,
+      "step": 55000
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 0.00011470971188194838,
+      "loss": 2.3579,
+      "step": 55500
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 0.00011304043000701098,
+      "loss": 2.3501,
+      "step": 56000
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 0.00011137114813207358,
+      "loss": 2.3592,
+      "step": 56500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 0.00010970186625713618,
+      "loss": 2.344,
+      "step": 57000
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 0.00010803258438219876,
+      "loss": 2.3578,
+      "step": 57500
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 0.00010636330250726136,
+      "loss": 2.3407,
+      "step": 58000
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 0.00010469402063232396,
+      "loss": 2.3452,
+      "step": 58500
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 0.00010302473875738656,
+      "loss": 2.3465,
+      "step": 59000
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00010135545688244916,
+      "loss": 2.3687,
+      "step": 59500
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 9.968617500751176e-05,
+      "loss": 2.3367,
+      "step": 60000
+    },
+    {
+      "epoch": 4.67,
+      "eval_gen_len": 18.835,
+      "eval_loss": 2.2966153621673584,
+      "eval_rouge1": 28.293,
+      "eval_rouge2": 13.9084,
+      "eval_rougeL": 23.3359,
+      "eval_rougeLsum": 25.1789,
+      "eval_runtime": 625.9275,
+      "eval_samples_per_second": 20.507,
+      "eval_steps_per_second": 2.564,
+      "step": 60000
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 9.801689313257436e-05,
+      "loss": 2.3306,
+      "step": 60500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 9.634761125763696e-05,
+      "loss": 2.3497,
+      "step": 61000
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 9.467832938269956e-05,
+      "loss": 2.3313,
+      "step": 61500
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 9.300904750776216e-05,
+      "loss": 2.3427,
+      "step": 62000
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 9.133976563282476e-05,
+      "loss": 2.3259,
+      "step": 62500
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 8.967048375788736e-05,
+      "loss": 2.3544,
+      "step": 63000
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 8.800120188294995e-05,
+      "loss": 2.3307,
+      "step": 63500
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 8.633192000801255e-05,
+      "loss": 2.3477,
+      "step": 64000
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 8.466263813307513e-05,
+      "loss": 2.3064,
+      "step": 64500
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 8.299335625813773e-05,
+      "loss": 2.2882,
+      "step": 65000
+    },
+    {
+      "epoch": 5.06,
+      "eval_gen_len": 18.7974,
+      "eval_loss": 2.2921857833862305,
+      "eval_rouge1": 28.3828,
+      "eval_rouge2": 14.0129,
+      "eval_rougeL": 23.443,
+      "eval_rougeLsum": 25.3001,
+      "eval_runtime": 621.9943,
+      "eval_samples_per_second": 20.637,
+      "eval_steps_per_second": 2.58,
+      "step": 65000
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 8.132407438320033e-05,
+      "loss": 2.2733,
+      "step": 65500
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 7.965479250826293e-05,
+      "loss": 2.2869,
+      "step": 66000
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 7.798551063332553e-05,
+      "loss": 2.2904,
+      "step": 66500
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 7.631622875838813e-05,
+      "loss": 2.2516,
+      "step": 67000
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 7.464694688345073e-05,
+      "loss": 2.2835,
+      "step": 67500
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 7.297766500851333e-05,
+      "loss": 2.2802,
+      "step": 68000
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 7.130838313357593e-05,
+      "loss": 2.2779,
+      "step": 68500
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 6.963910125863853e-05,
+      "loss": 2.274,
+      "step": 69000
+    },
+    {
+      "epoch": 5.41,
+      "learning_rate": 6.796981938370112e-05,
+      "loss": 2.2908,
+      "step": 69500
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 6.630053750876372e-05,
+      "loss": 2.2782,
+      "step": 70000
+    },
+    {
+      "epoch": 5.45,
+      "eval_gen_len": 18.8495,
+      "eval_loss": 2.2865357398986816,
+      "eval_rouge1": 28.3987,
+      "eval_rouge2": 13.9705,
+      "eval_rougeL": 23.4227,
+      "eval_rougeLsum": 25.3263,
+      "eval_runtime": 625.1399,
+      "eval_samples_per_second": 20.533,
+      "eval_steps_per_second": 2.567,
+      "step": 70000
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 6.463125563382632e-05,
+      "loss": 2.2882,
+      "step": 70500
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 6.296197375888892e-05,
+      "loss": 2.2802,
+      "step": 71000
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 6.129269188395152e-05,
+      "loss": 2.2774,
+      "step": 71500
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 5.9623410009014114e-05,
+      "loss": 2.31,
+      "step": 72000
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 5.7954128134076714e-05,
+      "loss": 2.2829,
+      "step": 72500
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 5.6284846259139314e-05,
+      "loss": 2.2971,
+      "step": 73000
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 5.4615564384201915e-05,
+      "loss": 2.2824,
+      "step": 73500
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 5.294628250926451e-05,
+      "loss": 2.2754,
+      "step": 74000
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 5.127700063432711e-05,
+      "loss": 2.2893,
+      "step": 74500
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 4.960771875938971e-05,
+      "loss": 2.2788,
+      "step": 75000
+    },
+    {
+      "epoch": 5.84,
+      "eval_gen_len": 18.7967,
+      "eval_loss": 2.278130531311035,
+      "eval_rouge1": 28.4256,
+      "eval_rouge2": 14.0668,
+      "eval_rougeL": 23.4947,
+      "eval_rougeLsum": 25.3403,
+      "eval_runtime": 622.5919,
+      "eval_samples_per_second": 20.617,
+      "eval_steps_per_second": 2.578,
+      "step": 75000
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 4.793843688445231e-05,
+      "loss": 2.2898,
+      "step": 75500
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 4.62691550095149e-05,
+      "loss": 2.281,
+      "step": 76000
+    },
+    {
+      "epoch": 5.96,
+      "learning_rate": 4.45998731345775e-05,
+      "loss": 2.28,
+      "step": 76500
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.2930591259640095e-05,
+      "loss": 2.269,
+      "step": 77000
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 4.1261309384702695e-05,
+      "loss": 2.2428,
+      "step": 77500
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 3.9592027509765295e-05,
+      "loss": 2.2627,
+      "step": 78000
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 3.7922745634827896e-05,
+      "loss": 2.2219,
+      "step": 78500
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 3.625346375989049e-05,
+      "loss": 2.218,
+      "step": 79000
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 3.458418188495309e-05,
+      "loss": 2.2205,
+      "step": 79500
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 3.291490001001569e-05,
+      "loss": 2.239,
+      "step": 80000
+    },
+    {
+      "epoch": 6.23,
+      "eval_gen_len": 18.8384,
+      "eval_loss": 2.2816860675811768,
+      "eval_rouge1": 28.4681,
+      "eval_rouge2": 14.0835,
+      "eval_rougeL": 23.5141,
+      "eval_rougeLsum": 25.4023,
+      "eval_runtime": 624.366,
+      "eval_samples_per_second": 20.558,
+      "eval_steps_per_second": 2.571,
+      "step": 80000
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 3.124561813507828e-05,
+      "loss": 2.2095,
+      "step": 80500
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 2.9576336260140883e-05,
+      "loss": 2.2441,
+      "step": 81000
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 2.7907054385203483e-05,
+      "loss": 2.2292,
+      "step": 81500
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 2.623777251026608e-05,
+      "loss": 2.2482,
+      "step": 82000
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 2.456849063532868e-05,
+      "loss": 2.2243,
+      "step": 82500
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 2.289920876039128e-05,
+      "loss": 2.2177,
+      "step": 83000
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 2.1229926885453873e-05,
+      "loss": 2.2317,
+      "step": 83500
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 1.9560645010516473e-05,
+      "loss": 2.2311,
+      "step": 84000
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 1.7891363135579073e-05,
+      "loss": 2.2446,
+      "step": 84500
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 1.622208126064167e-05,
+      "loss": 2.2324,
+      "step": 85000
+    },
+    {
+      "epoch": 6.62,
+      "eval_gen_len": 18.8369,
+      "eval_loss": 2.27907395362854,
+      "eval_rouge1": 28.5356,
+      "eval_rouge2": 14.1871,
+      "eval_rougeL": 23.5477,
+      "eval_rougeLsum": 25.4279,
+      "eval_runtime": 621.3714,
+      "eval_samples_per_second": 20.658,
+      "eval_steps_per_second": 2.583,
+      "step": 85000
+    },
+    {
+      "epoch": 6.66,
+      "learning_rate": 1.4552799385704269e-05,
+      "loss": 2.241,
+      "step": 85500
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 1.2883517510766869e-05,
+      "loss": 2.2262,
+      "step": 86000
+    },
+    {
+      "epoch": 6.74,
+      "learning_rate": 1.1214235635829465e-05,
+      "loss": 2.2456,
+      "step": 86500
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 9.544953760892062e-06,
+      "loss": 2.2237,
+      "step": 87000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 7.875671885954662e-06,
+      "loss": 2.2294,
+      "step": 87500
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.20639001101726e-06,
+      "loss": 2.2184,
+      "step": 88000
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 4.537108136079858e-06,
+      "loss": 2.2167,
+      "step": 88500
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 2.867826261142456e-06,
+      "loss": 2.2478,
+      "step": 89000
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 1.1985443862050543e-06,
+      "loss": 2.2596,
+      "step": 89500
+    },
+    {
+      "epoch": 7.0,
+      "step": 89859,
+      "total_flos": 2.6510315204815258e+17,
+      "train_loss": 2.493601185993256,
+      "train_runtime": 53594.8094,
+      "train_samples_per_second": 13.413,
+      "train_steps_per_second": 1.677
+    }
+  ],
+  "max_steps": 89859,
+  "num_train_epochs": 7,
+  "total_flos": 2.6510315204815258e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2c27343e796a5535886a9562fd8c08ea59e7a94148f452d945a6e0ed6c70685
+size 3183