ypl commited on Apr 26, 2024

Commit

9784007

verified ·

1 Parent(s): 166ab0f

End of training

Browse files

Files changed (20) hide show

README.md +44 -22
backup_checkpoint-12000/config.json +75 -0
backup_checkpoint-12000/generation_config.json +13 -0
backup_checkpoint-12000/model.safetensors +3 -0
backup_checkpoint-12000/optimizer.pt +3 -0
backup_checkpoint-12000/rng_state.pth +3 -0
backup_checkpoint-12000/scheduler.pt +3 -0
backup_checkpoint-12000/trainer_state.json +939 -0
backup_checkpoint-12000/training_args.bin +3 -0
backup_checkpoint/config.json +75 -0
backup_checkpoint/generation_config.json +13 -0
backup_checkpoint/model.safetensors +3 -0
backup_checkpoint/optimizer.pt +3 -0
backup_checkpoint/rng_state.pth +3 -0
backup_checkpoint/scheduler.pt +3 -0
backup_checkpoint/trainer_state.json +749 -0
backup_checkpoint/training_args.bin +3 -0
config.json +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,4 @@
 ---
-license: apache-2.0
-base_model: facebook/bart-base
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +11,9 @@ should probably proofread and complete it, then remove this comment. -->
 # bart_test_p2
-This model is a fine-tuned version of [facebook/bart-base](https://huggingface.co/facebook/bart-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0481
 ## Model description
@@ -34,32 +32,56 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 5
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 0.1378        | 0.34  | 500  | 0.1011          |
-| 0.0977        | 0.67  | 1000 | 0.0810          |
-| 0.0802        | 1.01  | 1500 | 0.0678          |
-| 0.0533        | 1.35  | 2000 | 0.0639          |
-| 0.0534        | 1.69  | 2500 | 0.0560          |
-| 0.0435        | 2.02  | 3000 | 0.0531          |
-| 0.0303        | 2.36  | 3500 | 0.0544          |
-| 0.0323        | 2.7   | 4000 | 0.0521          |
-| 0.0254        | 3.04  | 4500 | 0.0488          |
-| 0.022         | 3.37  | 5000 | 0.0490          |
-| 0.0199        | 3.71  | 5500 | 0.0480          |
-| 0.0142        | 4.05  | 6000 | 0.0477          |
-| 0.0134        | 4.39  | 6500 | 0.0481          |
-| 0.0113        | 4.72  | 7000 | 0.0481          |
 ### Framework versions

 ---
 tags:
 - generated_from_trainer
 model-index:
 # bart_test_p2
+This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0194
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-05
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 3
 ### Training results
+| Training Loss | Epoch | Step  | Validation Loss |
+|:-------------:|:-----:|:-----:|:---------------:|
+| 0.0273        | 0.08  | 500   | 0.0224          |
+| 0.0255        | 0.16  | 1000  | 0.0215          |
+| 0.0245        | 0.24  | 1500  | 0.0213          |
+| 0.0234        | 0.32  | 2000  | 0.0211          |
+| 0.025         | 0.39  | 2500  | 0.0207          |
+| 0.0243        | 0.47  | 3000  | 0.0208          |
+| 0.0236        | 0.55  | 3500  | 0.0206          |
+| 0.0246        | 0.63  | 4000  | 0.0204          |
+| 0.0235        | 0.71  | 4500  | 0.0202          |
+| 0.0231        | 0.79  | 5000  | 0.0203          |
+| 0.0221        | 0.87  | 5500  | 0.0201          |
+| 0.0239        | 0.95  | 6000  | 0.0199          |
+| 0.0209        | 1.03  | 6500  | 0.0200          |
+| 0.0193        | 1.1   | 7000  | 0.0198          |
+| 0.0207        | 1.18  | 7500  | 0.0199          |
+| 0.0189        | 1.26  | 8000  | 0.0201          |
+| 0.0193        | 1.34  | 8500  | 0.0200          |
+| 0.0186        | 1.42  | 9000  | 0.0197          |
+| 0.0199        | 1.5   | 9500  | 0.0197          |
+| 0.0207        | 1.58  | 10000 | 0.0195          |
+| 0.0199        | 1.66  | 10500 | 0.0196          |
+| 0.0188        | 1.74  | 11000 | 0.0195          |
+| 0.0194        | 1.81  | 11500 | 0.0194          |
+| 0.0201        | 1.89  | 12000 | 0.0195          |
+| 0.0181        | 1.97  | 12500 | 0.0194          |
+| 0.0177        | 2.05  | 13000 | 0.0194          |
+| 0.0161        | 2.13  | 13500 | 0.0196          |
+| 0.0172        | 2.21  | 14000 | 0.0195          |
+| 0.0184        | 2.29  | 14500 | 0.0195          |
+| 0.0168        | 2.37  | 15000 | 0.0195          |
+| 0.0176        | 2.44  | 15500 | 0.0194          |
+| 0.0177        | 2.52  | 16000 | 0.0194          |
+| 0.0158        | 2.6   | 16500 | 0.0194          |
+| 0.0177        | 2.68  | 17000 | 0.0193          |
+| 0.0179        | 2.76  | 17500 | 0.0193          |
+| 0.0167        | 2.84  | 18000 | 0.0194          |
+| 0.0177        | 2.92  | 18500 | 0.0193          |
+| 0.0171        | 3.0   | 19000 | 0.0194          |
 ### Framework versions

backup_checkpoint-12000/config.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "_name_or_path": "facebook/bart-base",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50265
+}

backup_checkpoint-12000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "transformers_version": "4.37.0.dev0"
+}

backup_checkpoint-12000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5990d57924b063382afa18e7f1e8a07e2208b81d4c47b82a69b18a27be4f3a0
+size 557912620

backup_checkpoint-12000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01995ea2be2ccd0fa68c02532530506f317d4b6e7c0734555d85d1b276da1a11
+size 1115579898

backup_checkpoint-12000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad3b281e73f1cb93b0cc5cffda813f0a4ed9d78ba586dc62adf279c06a2b7600
+size 14244

backup_checkpoint-12000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:439eb315d94372a87edf0a17384904142733c05e44126c626d64f9d13dc8e1a9
+size 1064

backup_checkpoint-12000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,939 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.8927444794952681,
+  "eval_steps": 500,
+  "global_step": 12000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.999684542586752e-05,
+      "loss": 12.4787,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.96845425867508e-05,
+      "loss": 1.3146,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.936908517350158e-05,
+      "loss": 0.0928,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.905362776025237e-05,
+      "loss": 0.0903,
+      "step": 300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.873817034700316e-05,
+      "loss": 0.0675,
+      "step": 400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.842271293375394e-05,
+      "loss": 0.0744,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.06298290193080902,
+      "eval_runtime": 191.3725,
+      "eval_samples_per_second": 113.574,
+      "eval_steps_per_second": 14.197,
+      "step": 500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.810725552050474e-05,
+      "loss": 0.0682,
+      "step": 600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.779179810725552e-05,
+      "loss": 0.072,
+      "step": 700
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.747634069400632e-05,
+      "loss": 0.0731,
+      "step": 800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.71608832807571e-05,
+      "loss": 0.0638,
+      "step": 900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.684542586750788e-05,
+      "loss": 0.062,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.056409742683172226,
+      "eval_runtime": 191.8919,
+      "eval_samples_per_second": 113.267,
+      "eval_steps_per_second": 14.159,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.652996845425868e-05,
+      "loss": 0.0663,
+      "step": 1100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.621451104100947e-05,
+      "loss": 0.0598,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.589905362776026e-05,
+      "loss": 0.0625,
+      "step": 1300
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.558359621451105e-05,
+      "loss": 0.0673,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.526813880126184e-05,
+      "loss": 0.0625,
+      "step": 1500
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.05498537793755531,
+      "eval_runtime": 191.898,
+      "eval_samples_per_second": 113.263,
+      "eval_steps_per_second": 14.159,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.495268138801262e-05,
+      "loss": 0.0606,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.463722397476341e-05,
+      "loss": 0.0684,
+      "step": 1700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.43217665615142e-05,
+      "loss": 0.0607,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.400630914826499e-05,
+      "loss": 0.0679,
+      "step": 1900
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.369085173501577e-05,
+      "loss": 0.0633,
+      "step": 2000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.052233804017305374,
+      "eval_runtime": 191.8762,
+      "eval_samples_per_second": 113.276,
+      "eval_steps_per_second": 14.16,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.337539432176656e-05,
+      "loss": 0.061,
+      "step": 2100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.305993690851735e-05,
+      "loss": 0.0715,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.274447949526815e-05,
+      "loss": 0.0586,
+      "step": 2300
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.242902208201893e-05,
+      "loss": 0.0581,
+      "step": 2400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.211356466876973e-05,
+      "loss": 0.0588,
+      "step": 2500
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.05040860176086426,
+      "eval_runtime": 191.6049,
+      "eval_samples_per_second": 113.437,
+      "eval_steps_per_second": 14.18,
+      "step": 2500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.179810725552051e-05,
+      "loss": 0.0572,
+      "step": 2600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.148264984227129e-05,
+      "loss": 0.0555,
+      "step": 2700
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.116719242902209e-05,
+      "loss": 0.0547,
+      "step": 2800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.085173501577287e-05,
+      "loss": 0.0596,
+      "step": 2900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.053627760252367e-05,
+      "loss": 0.0593,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.04637610912322998,
+      "eval_runtime": 192.1829,
+      "eval_samples_per_second": 113.095,
+      "eval_steps_per_second": 14.138,
+      "step": 3000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.022082018927446e-05,
+      "loss": 0.0536,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.990536277602523e-05,
+      "loss": 0.0506,
+      "step": 3200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.958990536277603e-05,
+      "loss": 0.0601,
+      "step": 3300
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.927444794952682e-05,
+      "loss": 0.05,
+      "step": 3400
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.89589905362776e-05,
+      "loss": 0.0492,
+      "step": 3500
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.0455920547246933,
+      "eval_runtime": 192.0796,
+      "eval_samples_per_second": 113.156,
+      "eval_steps_per_second": 14.145,
+      "step": 3500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.86435331230284e-05,
+      "loss": 0.0547,
+      "step": 3600
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.832807570977918e-05,
+      "loss": 0.0582,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.801261829652997e-05,
+      "loss": 0.0535,
+      "step": 3800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.769716088328076e-05,
+      "loss": 0.0554,
+      "step": 3900
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 8.738170347003154e-05,
+      "loss": 0.0506,
+      "step": 4000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.04419832304120064,
+      "eval_runtime": 192.193,
+      "eval_samples_per_second": 113.089,
+      "eval_steps_per_second": 14.137,
+      "step": 4000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 8.706624605678234e-05,
+      "loss": 0.0508,
+      "step": 4100
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.675078864353314e-05,
+      "loss": 0.0566,
+      "step": 4200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.64353312302839e-05,
+      "loss": 0.0556,
+      "step": 4300
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 8.61198738170347e-05,
+      "loss": 0.0595,
+      "step": 4400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 8.58044164037855e-05,
+      "loss": 0.0584,
+      "step": 4500
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.043363627046346664,
+      "eval_runtime": 191.6803,
+      "eval_samples_per_second": 113.392,
+      "eval_steps_per_second": 14.175,
+      "step": 4500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 8.548895899053628e-05,
+      "loss": 0.0546,
+      "step": 4600
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.517350157728708e-05,
+      "loss": 0.0457,
+      "step": 4700
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.485804416403787e-05,
+      "loss": 0.0531,
+      "step": 4800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.454258675078864e-05,
+      "loss": 0.0506,
+      "step": 4900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 8.422712933753944e-05,
+      "loss": 0.0455,
+      "step": 5000
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.04175921157002449,
+      "eval_runtime": 192.0012,
+      "eval_samples_per_second": 113.202,
+      "eval_steps_per_second": 14.151,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 8.391167192429022e-05,
+      "loss": 0.053,
+      "step": 5100
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.359621451104101e-05,
+      "loss": 0.0499,
+      "step": 5200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.328075709779181e-05,
+      "loss": 0.0407,
+      "step": 5300
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 8.296529968454258e-05,
+      "loss": 0.0559,
+      "step": 5400
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.264984227129337e-05,
+      "loss": 0.0477,
+      "step": 5500
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.042047169059515,
+      "eval_runtime": 192.1,
+      "eval_samples_per_second": 113.144,
+      "eval_steps_per_second": 14.144,
+      "step": 5500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 8.233438485804417e-05,
+      "loss": 0.0488,
+      "step": 5600
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 8.201892744479495e-05,
+      "loss": 0.0537,
+      "step": 5700
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 8.170347003154575e-05,
+      "loss": 0.0515,
+      "step": 5800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.138801261829655e-05,
+      "loss": 0.0511,
+      "step": 5900
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 8.107255520504731e-05,
+      "loss": 0.0548,
+      "step": 6000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.039724551141262054,
+      "eval_runtime": 191.9769,
+      "eval_samples_per_second": 113.217,
+      "eval_steps_per_second": 14.153,
+      "step": 6000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.075709779179811e-05,
+      "loss": 0.0482,
+      "step": 6100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.04416403785489e-05,
+      "loss": 0.0474,
+      "step": 6200
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 8.012618296529969e-05,
+      "loss": 0.0488,
+      "step": 6300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 7.981072555205048e-05,
+      "loss": 0.0346,
+      "step": 6400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.949526813880127e-05,
+      "loss": 0.035,
+      "step": 6500
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.039325978606939316,
+      "eval_runtime": 191.6608,
+      "eval_samples_per_second": 113.403,
+      "eval_steps_per_second": 14.176,
+      "step": 6500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 7.917981072555205e-05,
+      "loss": 0.0355,
+      "step": 6600
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.886435331230284e-05,
+      "loss": 0.0363,
+      "step": 6700
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.854889589905363e-05,
+      "loss": 0.0407,
+      "step": 6800
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.823343848580442e-05,
+      "loss": 0.0385,
+      "step": 6900
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 7.791798107255522e-05,
+      "loss": 0.0347,
+      "step": 7000
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.03924637660384178,
+      "eval_runtime": 192.1827,
+      "eval_samples_per_second": 113.096,
+      "eval_steps_per_second": 14.138,
+      "step": 7000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.760252365930599e-05,
+      "loss": 0.0357,
+      "step": 7100
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.728706624605678e-05,
+      "loss": 0.041,
+      "step": 7200
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.697160883280758e-05,
+      "loss": 0.0313,
+      "step": 7300
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.665615141955836e-05,
+      "loss": 0.0336,
+      "step": 7400
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.634069400630916e-05,
+      "loss": 0.0303,
+      "step": 7500
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.03979608044028282,
+      "eval_runtime": 192.103,
+      "eval_samples_per_second": 113.142,
+      "eval_steps_per_second": 14.143,
+      "step": 7500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.602523659305994e-05,
+      "loss": 0.0356,
+      "step": 7600
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.570977917981072e-05,
+      "loss": 0.0379,
+      "step": 7700
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 7.539432176656152e-05,
+      "loss": 0.0365,
+      "step": 7800
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.50788643533123e-05,
+      "loss": 0.0393,
+      "step": 7900
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 7.47634069400631e-05,
+      "loss": 0.0374,
+      "step": 8000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.038463614881038666,
+      "eval_runtime": 192.1601,
+      "eval_samples_per_second": 113.109,
+      "eval_steps_per_second": 14.139,
+      "step": 8000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 7.444794952681389e-05,
+      "loss": 0.0303,
+      "step": 8100
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 7.413249211356468e-05,
+      "loss": 0.0384,
+      "step": 8200
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 7.381703470031546e-05,
+      "loss": 0.0383,
+      "step": 8300
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 7.350157728706625e-05,
+      "loss": 0.0378,
+      "step": 8400
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 7.318611987381704e-05,
+      "loss": 0.0343,
+      "step": 8500
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.03961439058184624,
+      "eval_runtime": 192.1114,
+      "eval_samples_per_second": 113.137,
+      "eval_steps_per_second": 14.143,
+      "step": 8500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 7.287066246056783e-05,
+      "loss": 0.0362,
+      "step": 8600
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.255520504731861e-05,
+      "loss": 0.0435,
+      "step": 8700
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 7.22397476340694e-05,
+      "loss": 0.0382,
+      "step": 8800
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 7.192429022082019e-05,
+      "loss": 0.0439,
+      "step": 8900
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 7.160883280757098e-05,
+      "loss": 0.0374,
+      "step": 9000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.037410151213407516,
+      "eval_runtime": 192.1572,
+      "eval_samples_per_second": 113.111,
+      "eval_steps_per_second": 14.139,
+      "step": 9000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.129337539432177e-05,
+      "loss": 0.0342,
+      "step": 9100
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 7.097791798107257e-05,
+      "loss": 0.0337,
+      "step": 9200
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.066246056782335e-05,
+      "loss": 0.0358,
+      "step": 9300
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.034700315457413e-05,
+      "loss": 0.0301,
+      "step": 9400
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.003154574132493e-05,
+      "loss": 0.0362,
+      "step": 9500
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.03637044504284859,
+      "eval_runtime": 192.1621,
+      "eval_samples_per_second": 113.108,
+      "eval_steps_per_second": 14.139,
+      "step": 9500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 6.971608832807571e-05,
+      "loss": 0.037,
+      "step": 9600
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 6.94006309148265e-05,
+      "loss": 0.0374,
+      "step": 9700
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 6.908517350157729e-05,
+      "loss": 0.0379,
+      "step": 9800
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 6.876971608832808e-05,
+      "loss": 0.0328,
+      "step": 9900
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 6.845425867507887e-05,
+      "loss": 0.0315,
+      "step": 10000
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.03636159375309944,
+      "eval_runtime": 192.0641,
+      "eval_samples_per_second": 113.165,
+      "eval_steps_per_second": 14.146,
+      "step": 10000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 6.813880126182965e-05,
+      "loss": 0.0328,
+      "step": 10100
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 6.782334384858045e-05,
+      "loss": 0.0355,
+      "step": 10200
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 6.750788643533124e-05,
+      "loss": 0.0398,
+      "step": 10300
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 6.719242902208202e-05,
+      "loss": 0.0372,
+      "step": 10400
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 6.68769716088328e-05,
+      "loss": 0.0399,
+      "step": 10500
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.03677404299378395,
+      "eval_runtime": 191.6576,
+      "eval_samples_per_second": 113.405,
+      "eval_steps_per_second": 14.176,
+      "step": 10500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 6.65615141955836e-05,
+      "loss": 0.0394,
+      "step": 10600
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 6.624605678233438e-05,
+      "loss": 0.0355,
+      "step": 10700
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 6.593059936908518e-05,
+      "loss": 0.0326,
+      "step": 10800
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 6.561514195583596e-05,
+      "loss": 0.0307,
+      "step": 10900
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 6.529968454258676e-05,
+      "loss": 0.0372,
+      "step": 11000
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.03506915271282196,
+      "eval_runtime": 192.4202,
+      "eval_samples_per_second": 112.956,
+      "eval_steps_per_second": 14.12,
+      "step": 11000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 6.498422712933754e-05,
+      "loss": 0.0321,
+      "step": 11100
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 6.466876971608832e-05,
+      "loss": 0.0272,
+      "step": 11200
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 6.435331230283912e-05,
+      "loss": 0.0322,
+      "step": 11300
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 6.403785488958992e-05,
+      "loss": 0.0355,
+      "step": 11400
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 6.37223974763407e-05,
+      "loss": 0.0324,
+      "step": 11500
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.034638404846191406,
+      "eval_runtime": 192.5205,
+      "eval_samples_per_second": 112.897,
+      "eval_steps_per_second": 14.113,
+      "step": 11500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 6.34069400630915e-05,
+      "loss": 0.0362,
+      "step": 11600
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 6.309148264984228e-05,
+      "loss": 0.03,
+      "step": 11700
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 6.277602523659306e-05,
+      "loss": 0.0313,
+      "step": 11800
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.246056782334385e-05,
+      "loss": 0.0348,
+      "step": 11900
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 6.214511041009464e-05,
+      "loss": 0.0351,
+      "step": 12000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.03646688908338547,
+      "eval_runtime": 192.2872,
+      "eval_samples_per_second": 113.034,
+      "eval_steps_per_second": 14.13,
+      "step": 12000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 31700,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 4226972988026880.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

backup_checkpoint-12000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:266031b962f594171a699a315d204ad9c02913dc636256066f9f3f3625b85451
+size 4664

backup_checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "_name_or_path": "facebook/bart-base",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50265
+}

backup_checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "transformers_version": "4.37.0.dev0"
+}

backup_checkpoint/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acc561d99f17d9573b5d2c97086c82ccd1e57e20c82f54bfb6c055c5dae1a3cb
+size 557912620

backup_checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d53e4853b78131aa2fd3dba9e24dcfc369ab8bb95af928a52af89426571012
+size 1115579898

backup_checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a73c6f1e1eb77013e5ab142cf4e8d03715ff991905e41d762946a7eb2154ef3f
+size 14244

backup_checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51c6bfad6b9ed7f7b64c27c27fdb69168a5257375021c87f904bde03904fc246
+size 1064

backup_checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,749 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.498422712933754,
+  "eval_steps": 500,
+  "global_step": 9500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.999684542586752e-05,
+      "loss": 12.4787,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.96845425867508e-05,
+      "loss": 1.3146,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.936908517350158e-05,
+      "loss": 0.0928,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.905362776025237e-05,
+      "loss": 0.0903,
+      "step": 300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.873817034700316e-05,
+      "loss": 0.0675,
+      "step": 400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.842271293375394e-05,
+      "loss": 0.0744,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.06298290193080902,
+      "eval_runtime": 191.3725,
+      "eval_samples_per_second": 113.574,
+      "eval_steps_per_second": 14.197,
+      "step": 500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.810725552050474e-05,
+      "loss": 0.0682,
+      "step": 600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.779179810725552e-05,
+      "loss": 0.072,
+      "step": 700
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.747634069400632e-05,
+      "loss": 0.0731,
+      "step": 800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.71608832807571e-05,
+      "loss": 0.0638,
+      "step": 900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.684542586750788e-05,
+      "loss": 0.062,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.056409742683172226,
+      "eval_runtime": 191.8919,
+      "eval_samples_per_second": 113.267,
+      "eval_steps_per_second": 14.159,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 9.652996845425868e-05,
+      "loss": 0.0663,
+      "step": 1100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 9.621451104100947e-05,
+      "loss": 0.0598,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.589905362776026e-05,
+      "loss": 0.0625,
+      "step": 1300
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 9.558359621451105e-05,
+      "loss": 0.0673,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.526813880126184e-05,
+      "loss": 0.0625,
+      "step": 1500
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.05498537793755531,
+      "eval_runtime": 191.898,
+      "eval_samples_per_second": 113.263,
+      "eval_steps_per_second": 14.159,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 9.495268138801262e-05,
+      "loss": 0.0606,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 9.463722397476341e-05,
+      "loss": 0.0684,
+      "step": 1700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.43217665615142e-05,
+      "loss": 0.0607,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 9.400630914826499e-05,
+      "loss": 0.0679,
+      "step": 1900
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 9.369085173501577e-05,
+      "loss": 0.0633,
+      "step": 2000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.052233804017305374,
+      "eval_runtime": 191.8762,
+      "eval_samples_per_second": 113.276,
+      "eval_steps_per_second": 14.16,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.337539432176656e-05,
+      "loss": 0.061,
+      "step": 2100
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 9.305993690851735e-05,
+      "loss": 0.0715,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.274447949526815e-05,
+      "loss": 0.0586,
+      "step": 2300
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 9.242902208201893e-05,
+      "loss": 0.0581,
+      "step": 2400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.211356466876973e-05,
+      "loss": 0.0588,
+      "step": 2500
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.05040860176086426,
+      "eval_runtime": 191.6049,
+      "eval_samples_per_second": 113.437,
+      "eval_steps_per_second": 14.18,
+      "step": 2500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.179810725552051e-05,
+      "loss": 0.0572,
+      "step": 2600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 9.148264984227129e-05,
+      "loss": 0.0555,
+      "step": 2700
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.116719242902209e-05,
+      "loss": 0.0547,
+      "step": 2800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.085173501577287e-05,
+      "loss": 0.0596,
+      "step": 2900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.053627760252367e-05,
+      "loss": 0.0593,
+      "step": 3000
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.04637610912322998,
+      "eval_runtime": 192.1829,
+      "eval_samples_per_second": 113.095,
+      "eval_steps_per_second": 14.138,
+      "step": 3000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.022082018927446e-05,
+      "loss": 0.0536,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 8.990536277602523e-05,
+      "loss": 0.0506,
+      "step": 3200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 8.958990536277603e-05,
+      "loss": 0.0601,
+      "step": 3300
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 8.927444794952682e-05,
+      "loss": 0.05,
+      "step": 3400
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 8.89589905362776e-05,
+      "loss": 0.0492,
+      "step": 3500
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.0455920547246933,
+      "eval_runtime": 192.0796,
+      "eval_samples_per_second": 113.156,
+      "eval_steps_per_second": 14.145,
+      "step": 3500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 8.86435331230284e-05,
+      "loss": 0.0547,
+      "step": 3600
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 8.832807570977918e-05,
+      "loss": 0.0582,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 8.801261829652997e-05,
+      "loss": 0.0535,
+      "step": 3800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 8.769716088328076e-05,
+      "loss": 0.0554,
+      "step": 3900
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 8.738170347003154e-05,
+      "loss": 0.0506,
+      "step": 4000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.04419832304120064,
+      "eval_runtime": 192.193,
+      "eval_samples_per_second": 113.089,
+      "eval_steps_per_second": 14.137,
+      "step": 4000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 8.706624605678234e-05,
+      "loss": 0.0508,
+      "step": 4100
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 8.675078864353314e-05,
+      "loss": 0.0566,
+      "step": 4200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 8.64353312302839e-05,
+      "loss": 0.0556,
+      "step": 4300
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 8.61198738170347e-05,
+      "loss": 0.0595,
+      "step": 4400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 8.58044164037855e-05,
+      "loss": 0.0584,
+      "step": 4500
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.043363627046346664,
+      "eval_runtime": 191.6803,
+      "eval_samples_per_second": 113.392,
+      "eval_steps_per_second": 14.175,
+      "step": 4500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 8.548895899053628e-05,
+      "loss": 0.0546,
+      "step": 4600
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 8.517350157728708e-05,
+      "loss": 0.0457,
+      "step": 4700
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.485804416403787e-05,
+      "loss": 0.0531,
+      "step": 4800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 8.454258675078864e-05,
+      "loss": 0.0506,
+      "step": 4900
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 8.422712933753944e-05,
+      "loss": 0.0455,
+      "step": 5000
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.04175921157002449,
+      "eval_runtime": 192.0012,
+      "eval_samples_per_second": 113.202,
+      "eval_steps_per_second": 14.151,
+      "step": 5000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 8.391167192429022e-05,
+      "loss": 0.053,
+      "step": 5100
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.359621451104101e-05,
+      "loss": 0.0499,
+      "step": 5200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.328075709779181e-05,
+      "loss": 0.0407,
+      "step": 5300
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 8.296529968454258e-05,
+      "loss": 0.0559,
+      "step": 5400
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 8.264984227129337e-05,
+      "loss": 0.0477,
+      "step": 5500
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.042047169059515,
+      "eval_runtime": 192.1,
+      "eval_samples_per_second": 113.144,
+      "eval_steps_per_second": 14.144,
+      "step": 5500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 8.233438485804417e-05,
+      "loss": 0.0488,
+      "step": 5600
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 8.201892744479495e-05,
+      "loss": 0.0537,
+      "step": 5700
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 8.170347003154575e-05,
+      "loss": 0.0515,
+      "step": 5800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 8.138801261829655e-05,
+      "loss": 0.0511,
+      "step": 5900
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 8.107255520504731e-05,
+      "loss": 0.0548,
+      "step": 6000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.039724551141262054,
+      "eval_runtime": 191.9769,
+      "eval_samples_per_second": 113.217,
+      "eval_steps_per_second": 14.153,
+      "step": 6000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 8.075709779179811e-05,
+      "loss": 0.0482,
+      "step": 6100
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.04416403785489e-05,
+      "loss": 0.0474,
+      "step": 6200
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 8.012618296529969e-05,
+      "loss": 0.0488,
+      "step": 6300
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 7.981072555205048e-05,
+      "loss": 0.0346,
+      "step": 6400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 7.949526813880127e-05,
+      "loss": 0.035,
+      "step": 6500
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.039325978606939316,
+      "eval_runtime": 191.6608,
+      "eval_samples_per_second": 113.403,
+      "eval_steps_per_second": 14.176,
+      "step": 6500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 7.917981072555205e-05,
+      "loss": 0.0355,
+      "step": 6600
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 7.886435331230284e-05,
+      "loss": 0.0363,
+      "step": 6700
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 7.854889589905363e-05,
+      "loss": 0.0407,
+      "step": 6800
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 7.823343848580442e-05,
+      "loss": 0.0385,
+      "step": 6900
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 7.791798107255522e-05,
+      "loss": 0.0347,
+      "step": 7000
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 0.03924637660384178,
+      "eval_runtime": 192.1827,
+      "eval_samples_per_second": 113.096,
+      "eval_steps_per_second": 14.138,
+      "step": 7000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 7.760252365930599e-05,
+      "loss": 0.0357,
+      "step": 7100
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.728706624605678e-05,
+      "loss": 0.041,
+      "step": 7200
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.697160883280758e-05,
+      "loss": 0.0313,
+      "step": 7300
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 7.665615141955836e-05,
+      "loss": 0.0336,
+      "step": 7400
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 7.634069400630916e-05,
+      "loss": 0.0303,
+      "step": 7500
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.03979608044028282,
+      "eval_runtime": 192.103,
+      "eval_samples_per_second": 113.142,
+      "eval_steps_per_second": 14.143,
+      "step": 7500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 7.602523659305994e-05,
+      "loss": 0.0356,
+      "step": 7600
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 7.570977917981072e-05,
+      "loss": 0.0379,
+      "step": 7700
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 7.539432176656152e-05,
+      "loss": 0.0365,
+      "step": 7800
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 7.50788643533123e-05,
+      "loss": 0.0393,
+      "step": 7900
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 7.47634069400631e-05,
+      "loss": 0.0374,
+      "step": 8000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.038463614881038666,
+      "eval_runtime": 192.1601,
+      "eval_samples_per_second": 113.109,
+      "eval_steps_per_second": 14.139,
+      "step": 8000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 7.444794952681389e-05,
+      "loss": 0.0303,
+      "step": 8100
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 7.413249211356468e-05,
+      "loss": 0.0384,
+      "step": 8200
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 7.381703470031546e-05,
+      "loss": 0.0383,
+      "step": 8300
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 7.350157728706625e-05,
+      "loss": 0.0378,
+      "step": 8400
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 7.318611987381704e-05,
+      "loss": 0.0343,
+      "step": 8500
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.03961439058184624,
+      "eval_runtime": 192.1114,
+      "eval_samples_per_second": 113.137,
+      "eval_steps_per_second": 14.143,
+      "step": 8500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 7.287066246056783e-05,
+      "loss": 0.0362,
+      "step": 8600
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 7.255520504731861e-05,
+      "loss": 0.0435,
+      "step": 8700
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 7.22397476340694e-05,
+      "loss": 0.0382,
+      "step": 8800
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 7.192429022082019e-05,
+      "loss": 0.0439,
+      "step": 8900
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 7.160883280757098e-05,
+      "loss": 0.0374,
+      "step": 9000
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.037410151213407516,
+      "eval_runtime": 192.1572,
+      "eval_samples_per_second": 113.111,
+      "eval_steps_per_second": 14.139,
+      "step": 9000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 7.129337539432177e-05,
+      "loss": 0.0342,
+      "step": 9100
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 7.097791798107257e-05,
+      "loss": 0.0337,
+      "step": 9200
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 7.066246056782335e-05,
+      "loss": 0.0358,
+      "step": 9300
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 7.034700315457413e-05,
+      "loss": 0.0301,
+      "step": 9400
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 7.003154574132493e-05,
+      "loss": 0.0362,
+      "step": 9500
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.03637044504284859,
+      "eval_runtime": 192.1621,
+      "eval_samples_per_second": 113.108,
+      "eval_steps_per_second": 14.139,
+      "step": 9500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 31700,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 3348871507537920.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

backup_checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:266031b962f594171a699a315d204ad9c02913dc636256066f9f3f3625b85451
+size 4664

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/bart-base",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,

 {
+  "_name_or_path": "./bart_test_p2/backup_checkpoint-12000",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63a52d6d98a3375c580bc5ffac8d45a114f4a730d1feeecf10b875a6bc899bcf
 size 557912620

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd2d4cc6d9060405892bbe3e531d4520c68bd9a3a2fbf019f9e89cb820504c2f
 size 557912620

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d64fe19098eb8c4aceccd9b112bb8997186b2065d41f670050189a9a7aeb2b2b
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:da19c72832637aa9b262dfd4f56dcc1ff2faa4b4d65254eee1a7a257ba33f327
 size 4664