ypl/bart_game_clean_final

Browse files

Files changed (12) hide show

README.md +19 -21
backup_good_checkpoint-8500/config.json +75 -0
backup_good_checkpoint-8500/generation_config.json +13 -0
backup_good_checkpoint-8500/model.safetensors +3 -0
backup_good_checkpoint-8500/optimizer.pt +3 -0
backup_good_checkpoint-8500/rng_state.pth +3 -0
backup_good_checkpoint-8500/scheduler.pt +3 -0
backup_good_checkpoint-8500/trainer_state.json +265 -0
backup_good_checkpoint-8500/training_args.bin +3 -0
config.json +1 -1
model.safetensors +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,4 @@
 ---
-license: apache-2.0
-base_model: facebook/bart-base
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +11,9 @@ should probably proofread and complete it, then remove this comment. -->
 # bart_test_p2
-This model is a fine-tuned version of [facebook/bart-base](https://huggingface.co/facebook/bart-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0192
 ## Model description
@@ -46,23 +44,23 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.032         | 0.18  | 500  | 0.0316          |
-| 0.0262        | 0.35  | 1000 | 0.0301          |
-| 0.0269        | 0.53  | 1500 | 0.0280          |
-| 0.0219        | 0.7   | 2000 | 0.0270          |
-| 0.0218        | 0.88  | 2500 | 0.0255          |
-| 0.0213        | 1.05  | 3000 | 0.0246          |
-| 0.0191        | 1.23  | 3500 | 0.0236          |
-| 0.0168        | 1.4   | 4000 | 0.0230          |
-| 0.0174        | 1.58  | 4500 | 0.0222          |
-| 0.0173        | 1.75  | 5000 | 0.0215          |
-| 0.0175        | 1.93  | 5500 | 0.0211          |
-| 0.0171        | 2.1   | 6000 | 0.0202          |
-| 0.0146        | 2.28  | 6500 | 0.0205          |
-| 0.0165        | 2.45  | 7000 | 0.0200          |
-| 0.0172        | 2.63  | 7500 | 0.0196          |
-| 0.0184        | 2.8   | 8000 | 0.0192          |
-| 0.0184        | 2.98  | 8500 | 0.0192          |
 ### Framework versions

 ---
 tags:
 - generated_from_trainer
 model-index:
 # bart_test_p2
+This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0076
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.018         | 0.18  | 500  | 0.0096          |
+| 0.0189        | 0.35  | 1000 | 0.0097          |
+| 0.0184        | 0.53  | 1500 | 0.0098          |
+| 0.0167        | 0.7   | 2000 | 0.0094          |
+| 0.0162        | 0.88  | 2500 | 0.0092          |
+| 0.0162        | 1.05  | 3000 | 0.0086          |
+| 0.0124        | 1.23  | 3500 | 0.0086          |
+| 0.0127        | 1.4   | 4000 | 0.0084          |
+| 0.0129        | 1.58  | 4500 | 0.0083          |
+| 0.0123        | 1.75  | 5000 | 0.0080          |
+| 0.0123        | 1.93  | 5500 | 0.0081          |
+| 0.0104        | 2.1   | 6000 | 0.0079          |
+| 0.0094        | 2.28  | 6500 | 0.0079          |
+| 0.0103        | 2.45  | 7000 | 0.0077          |
+| 0.01          | 2.63  | 7500 | 0.0077          |
+| 0.0098        | 2.8   | 8000 | 0.0077          |
+| 0.0095        | 2.98  | 8500 | 0.0076          |
 ### Framework versions

backup_good_checkpoint-8500/config.json ADDED Viewed

	@@ -0,0 +1,75 @@

+{
+  "_name_or_path": "facebook/bart-base",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50265
+}

backup_good_checkpoint-8500/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "early_stopping": true,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "no_repeat_ngram_size": 3,
+  "num_beams": 4,
+  "pad_token_id": 1,
+  "transformers_version": "4.37.0.dev0"
+}

backup_good_checkpoint-8500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:367884cb2ba2a489075b09f81355a5108316d89c06fa00ced7874bf0b53e7fba
+size 557912620

backup_good_checkpoint-8500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c18be5f7e78d1bb6acda05a3725c9545405558f929336559739494a0d97e767e
+size 1115579898

backup_good_checkpoint-8500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6521d12f85a040e79847922f7b87b78a7247556b2c26913dd0b64851a2cbdd6d
+size 14244

backup_good_checkpoint-8500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d101c4ff53310031e5706d622d63907a2e18576b19cd3d89048bbc224453249b
+size 1064

backup_good_checkpoint-8500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,265 @@

+{
+  "best_metric": 0.016377536579966545,
+  "best_model_checkpoint": "bart_test_p2/checkpoint-8500",
+  "epoch": 2.9782761037140855,
+  "eval_steps": 500,
+  "global_step": 8500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.99883204858678e-06,
+      "loss": 0.0025,
+      "step": 1
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.416024293389396e-06,
+      "loss": 0.0083,
+      "step": 500
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 0.022603686898946762,
+      "eval_runtime": 64.8155,
+      "eval_samples_per_second": 150.952,
+      "eval_steps_per_second": 18.869,
+      "step": 500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 8.83204858677879e-06,
+      "loss": 0.0075,
+      "step": 1000
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.022469399496912956,
+      "eval_runtime": 64.9299,
+      "eval_samples_per_second": 150.686,
+      "eval_steps_per_second": 18.836,
+      "step": 1000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 8.248072880168185e-06,
+      "loss": 0.0073,
+      "step": 1500
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.021044988185167313,
+      "eval_runtime": 64.7915,
+      "eval_samples_per_second": 151.008,
+      "eval_steps_per_second": 18.876,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 7.664097173557581e-06,
+      "loss": 0.0062,
+      "step": 2000
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.02233254536986351,
+      "eval_runtime": 64.8144,
+      "eval_samples_per_second": 150.954,
+      "eval_steps_per_second": 18.869,
+      "step": 2000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 7.080121466946975e-06,
+      "loss": 0.007,
+      "step": 2500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.020101269707083702,
+      "eval_runtime": 64.955,
+      "eval_samples_per_second": 150.627,
+      "eval_steps_per_second": 18.828,
+      "step": 2500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 6.496145760336371e-06,
+      "loss": 0.0072,
+      "step": 3000
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.020503461360931396,
+      "eval_runtime": 64.8414,
+      "eval_samples_per_second": 150.891,
+      "eval_steps_per_second": 18.861,
+      "step": 3000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 5.912170053725765e-06,
+      "loss": 0.006,
+      "step": 3500
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.01998145505785942,
+      "eval_runtime": 64.8121,
+      "eval_samples_per_second": 150.96,
+      "eval_steps_per_second": 18.87,
+      "step": 3500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 5.328194347115161e-06,
+      "loss": 0.005,
+      "step": 4000
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.020134715363383293,
+      "eval_runtime": 65.0335,
+      "eval_samples_per_second": 150.445,
+      "eval_steps_per_second": 18.806,
+      "step": 4000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 4.744218640504556e-06,
+      "loss": 0.0058,
+      "step": 4500
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.019398093223571777,
+      "eval_runtime": 64.8875,
+      "eval_samples_per_second": 150.784,
+      "eval_steps_per_second": 18.848,
+      "step": 4500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 4.16024293389395e-06,
+      "loss": 0.0062,
+      "step": 5000
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.018503881990909576,
+      "eval_runtime": 64.9786,
+      "eval_samples_per_second": 150.573,
+      "eval_steps_per_second": 18.822,
+      "step": 5000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.5762672272833454e-06,
+      "loss": 0.0068,
+      "step": 5500
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.017726033926010132,
+      "eval_runtime": 64.7672,
+      "eval_samples_per_second": 151.064,
+      "eval_steps_per_second": 18.883,
+      "step": 5500
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.9922915206727405e-06,
+      "loss": 0.0069,
+      "step": 6000
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.017498329281806946,
+      "eval_runtime": 64.8308,
+      "eval_samples_per_second": 150.916,
+      "eval_steps_per_second": 18.864,
+      "step": 6000
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.4083158140621352e-06,
+      "loss": 0.0061,
+      "step": 6500
+    },
+    {
+      "epoch": 2.28,
+      "eval_loss": 0.017673367634415627,
+      "eval_runtime": 64.856,
+      "eval_samples_per_second": 150.857,
+      "eval_steps_per_second": 18.857,
+      "step": 6500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.8243401074515301e-06,
+      "loss": 0.0074,
+      "step": 7000
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.017499757930636406,
+      "eval_runtime": 64.9811,
+      "eval_samples_per_second": 150.567,
+      "eval_steps_per_second": 18.821,
+      "step": 7000
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 1.2403644008409253e-06,
+      "loss": 0.0092,
+      "step": 7500
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.016884520649909973,
+      "eval_runtime": 64.8891,
+      "eval_samples_per_second": 150.78,
+      "eval_steps_per_second": 18.848,
+      "step": 7500
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 6.563886942303201e-07,
+      "loss": 0.011,
+      "step": 8000
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.016412850469350815,
+      "eval_runtime": 64.9682,
+      "eval_samples_per_second": 150.597,
+      "eval_steps_per_second": 18.825,
+      "step": 8000
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 7.241298761971503e-08,
+      "loss": 0.0125,
+      "step": 8500
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.016377536579966545,
+      "eval_runtime": 64.7805,
+      "eval_samples_per_second": 151.033,
+      "eval_steps_per_second": 18.879,
+      "step": 8500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8562,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2548110095032320.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

backup_good_checkpoint-8500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73dae393b2d260a70f60ef338ffd292b5f213775449dfde701757ecec893be35
+size 4664

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/bart-base",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,

 {
+  "_name_or_path": "./bart_test_p2/checkpoint-8500",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b8188d678f93bbe245ef0eaf4ae7d225281427cb8974cb71c16f84bf6168780
 size 557912620

 version https://git-lfs.github.com/spec/v1
+oid sha256:336eeb11f02f12b8020dc075d56f4496b8cec0f57fee4e1c34d7f85a1ebb618d
 size 557912620

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73dae393b2d260a70f60ef338ffd292b5f213775449dfde701757ecec893be35
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c8a3ffd0c1a5efe44ae74efa56172534c945b16e40e7e99557c9e651f8cac28
 size 4664