alexredna commited on Jan 12

Commit

b2d35fb

•

1 Parent(s): a187e09

Training in progress, step 150

Browse files

Files changed (37) hide show

README.md +33 -12
adapter_config.json +29 -0
adapter_model.safetensors +3 -0
all_results.json +11 -11
eval_results.json +6 -6
model.safetensors +1 -1
runs/Jan11_18-28-24_98f107f1aa39/events.out.tfevents.1704997763.98f107f1aa39.216186.0 +2 -2
runs/Jan11_21-28-54_98f107f1aa39/events.out.tfevents.1705008598.98f107f1aa39.15082.0 +3 -0
runs/Jan11_21-34-47_98f107f1aa39/events.out.tfevents.1705008958.98f107f1aa39.18703.0 +3 -0
runs/Jan11_21-36-47_98f107f1aa39/events.out.tfevents.1705009077.98f107f1aa39.20189.0 +3 -0
runs/Jan11_21-38-38_98f107f1aa39/events.out.tfevents.1705009197.98f107f1aa39.21596.0 +3 -0
runs/Jan11_21-40-30_98f107f1aa39/events.out.tfevents.1705009300.98f107f1aa39.23004.0 +3 -0
runs/Jan11_21-44-58_98f107f1aa39/events.out.tfevents.1705009550.98f107f1aa39.25868.0 +3 -0
runs/Jan11_21-46-54_98f107f1aa39/events.out.tfevents.1705009660.98f107f1aa39.27299.0 +3 -0
runs/Jan11_21-49-06_98f107f1aa39/events.out.tfevents.1705009795.98f107f1aa39.29314.0 +3 -0
runs/Jan11_21-51-55_98f107f1aa39/events.out.tfevents.1705009965.98f107f1aa39.32004.0 +3 -0
runs/Jan11_21-53-23_98f107f1aa39/events.out.tfevents.1705010052.98f107f1aa39.34285.0 +3 -0
runs/Jan11_21-54-48_98f107f1aa39/events.out.tfevents.1705010137.98f107f1aa39.36490.0 +3 -0
runs/Jan11_21-54-48_98f107f1aa39/events.out.tfevents.1705011051.98f107f1aa39.36490.1 +3 -0
runs/Jan11_22-21-42_98f107f1aa39/events.out.tfevents.1705011749.98f107f1aa39.72772.0 +3 -0
runs/Jan11_22-24-16_98f107f1aa39/events.out.tfevents.1705011906.98f107f1aa39.76528.0 +3 -0
runs/Jan11_22-26-44_98f107f1aa39/events.out.tfevents.1705012049.98f107f1aa39.80091.0 +3 -0
runs/Jan11_22-32-25_98f107f1aa39/events.out.tfevents.1705012389.98f107f1aa39.87865.0 +3 -0
runs/Jan11_22-32-25_98f107f1aa39/events.out.tfevents.1705012890.98f107f1aa39.87865.1 +3 -0
runs/Jan12_09-13-28_98f107f1aa39/events.out.tfevents.1705050917.98f107f1aa39.4962.0 +3 -0
runs/Jan12_09-22-09_98f107f1aa39/events.out.tfevents.1705051431.98f107f1aa39.10530.0 +3 -0
runs/Jan12_09-22-09_98f107f1aa39/events.out.tfevents.1705053028.98f107f1aa39.10530.1 +3 -0
runs/Jan12_11-08-05_98f107f1aa39/events.out.tfevents.1705060868.98f107f1aa39.71724.0 +3 -0
runs/Jan12_12-28-50_98f107f1aa39/events.out.tfevents.1705065451.98f107f1aa39.132106.0 +3 -0
runs/Jan12_15-06-53_98f107f1aa39/events.out.tfevents.1705074452.98f107f1aa39.241703.0 +3 -0
runs/Jan12_16-13-49_98f107f1aa39/events.out.tfevents.1705077215.98f107f1aa39.305319.0 +3 -0
runs/Jan12_16-35-22_98f107f1aa39/events.out.tfevents.1705077372.98f107f1aa39.336626.0 +3 -0
runs/Jan12_19-50-30_98f107f1aa39/events.out.tfevents.1705089913.98f107f1aa39.624217.0 +3 -0
runs/Jan12_21-29-42_98f107f1aa39/events.out.tfevents.1705095280.98f107f1aa39.697537.0 +3 -0
train_results.json +6 -6
trainer_state.json +61 -345
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,10 +1,13 @@
 ---
 license: apache-2.0
-base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
 tags:
 - trl
 - sft
 - generated_from_trainer
 model-index:
 - name: Tukan-1.1B-Chat-v0.1
   results: []
@@ -15,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Tukan-1.1B-Chat-v0.1
-This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5518
 ## Model description
@@ -36,24 +39,23 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 4e-05
-- train_batch_size: 1
-- eval_batch_size: 1
 - seed: 42
 - distributed_type: multi-GPU
-- gradient_accumulation_steps: 40
-- total_train_batch_size: 40
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- num_epochs: 3
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.4434        | 1.0   | 366  | 1.3898          |
-| 0.9304        | 2.0   | 733  | 1.4106          |
-| 0.5651        | 2.99  | 1098 | 1.5518          |
 ### Framework versions
@@ -62,3 +64,22 @@ The following hyperparameters were used during training:
 - Pytorch 2.2.0a0+gitd925d94
 - Datasets 2.14.6
 - Tokenizers 0.15.0

 ---
 license: apache-2.0
+library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
+datasets:
+- generator
+base_model: TinyLlama/TinyLlama-1.1B-Chat-v1.0
 model-index:
 - name: Tukan-1.1B-Chat-v0.1
   results: []
 # Tukan-1.1B-Chat-v0.1
+This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2478
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - distributed_type: multi-GPU
+- gradient_accumulation_steps: 25
+- total_train_batch_size: 50
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.3274        | 0.49  | 20   | 1.2587          |
+| 1.3066        | 0.99  | 40   | 1.2478          |
 ### Framework versions
 - Pytorch 2.2.0a0+gitd925d94
 - Datasets 2.14.6
 - Tokenizers 0.15.0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.6.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "TinyLlama/TinyLlama-1.1B-Chat-v1.0",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 256,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 128,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "lm_head",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "o_proj",
+    "v_proj",
+    "q_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8eaa4c9a40159f160b328d27da9d86690717d2d35b3e1f6d30319e24afd9f86
+size 210609288

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 2.99,
-    "eval_loss": 1.5518141984939575,
-    "eval_runtime": 10.9934,
-    "eval_samples": 300,
-    "eval_samples_per_second": 27.289,
-    "eval_steps_per_second": 27.289,
-    "train_loss": 0.9967951453231506,
-    "train_runtime": 11703.2983,
-    "train_samples": 14671,
-    "train_samples_per_second": 3.761,
-    "train_steps_per_second": 0.094
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 1.2477926015853882,
+    "eval_runtime": 2.1689,
+    "eval_samples": 91,
+    "eval_samples_per_second": 4.611,
+    "eval_steps_per_second": 2.305,
+    "train_loss": 1.3475643575191498,
+    "train_runtime": 1594.7957,
+    "train_samples": 15296,
+    "train_samples_per_second": 1.268,
+    "train_steps_per_second": 0.025
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.99,
-    "eval_loss": 1.5518141984939575,
-    "eval_runtime": 10.9934,
-    "eval_samples": 300,
-    "eval_samples_per_second": 27.289,
-    "eval_steps_per_second": 27.289
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 1.2477926015853882,
+    "eval_runtime": 2.1689,
+    "eval_samples": 91,
+    "eval_samples_per_second": 4.611,
+    "eval_steps_per_second": 2.305
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9569d170203a666fb31ac8047261c7df03f5accdc1faaa973802e97e731f8326
 size 4400216536

 version https://git-lfs.github.com/spec/v1
+oid sha256:51cc53ade716e569cc36a3712785ea0967b1ac9121437876226f25fe74cd364d
 size 4400216536

runs/Jan11_18-28-24_98f107f1aa39/events.out.tfevents.1704997763.98f107f1aa39.216186.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:189c7284a6afb9464ce6e0417078f99f3ad54cafd1009e62a36b2457cd2eca9d
-size 4953

 version https://git-lfs.github.com/spec/v1
+oid sha256:677724e85e3788013b9956db69a9f135ce02419c71659ccc2b607d34776f310c
+size 8195

runs/Jan11_21-28-54_98f107f1aa39/events.out.tfevents.1705008598.98f107f1aa39.15082.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f70b12b1298faf337f744254d8bf103182d86c04f6570826d39b87e46b469924
+size 4995

runs/Jan11_21-34-47_98f107f1aa39/events.out.tfevents.1705008958.98f107f1aa39.18703.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c98de5f7d050214136b73e07247b3971b4ad18279ff896289e1963ee83e55aa
+size 4843

runs/Jan11_21-36-47_98f107f1aa39/events.out.tfevents.1705009077.98f107f1aa39.20189.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d19cf57ab7f7bd419dd878fef6a2b9a34542958c6ea1e1f959ebe83267943e26
+size 4843

runs/Jan11_21-38-38_98f107f1aa39/events.out.tfevents.1705009197.98f107f1aa39.21596.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ee83aaf85f059701c2ad5447b8a5f891e7d16aaf66799e25871704cb89efef5
+size 4842

runs/Jan11_21-40-30_98f107f1aa39/events.out.tfevents.1705009300.98f107f1aa39.23004.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:572826d99eec1c89b6c0c73b2e74c8d8bdbbc226ab1f3c356b290a2a2438f0fe
+size 4995

runs/Jan11_21-44-58_98f107f1aa39/events.out.tfevents.1705009550.98f107f1aa39.25868.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:168bef11ed6a0e6fe76339697e22a477dfc96b340e1e458561588e2007184c90
+size 4996

runs/Jan11_21-46-54_98f107f1aa39/events.out.tfevents.1705009660.98f107f1aa39.27299.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eec75e9353818e6983a0cdde292571c4202ef37d1fcfd24bb3b20d2b07b97b13
+size 4608

runs/Jan11_21-49-06_98f107f1aa39/events.out.tfevents.1705009795.98f107f1aa39.29314.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee210c1636427d4f452754754075955dc5337aba2a5e33e635fff0e1d243ba1c
+size 4608

runs/Jan11_21-51-55_98f107f1aa39/events.out.tfevents.1705009965.98f107f1aa39.32004.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fe5b842531fb0952801ee93b4a19347c529d8ecee31bb4aa2cdf15dcbd5f1dd
+size 4455

runs/Jan11_21-53-23_98f107f1aa39/events.out.tfevents.1705010052.98f107f1aa39.34285.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:498eceaeb0fa4fc16e3596e28fc996da50c591b7cc2328c139563dc9c10082db
+size 4455

runs/Jan11_21-54-48_98f107f1aa39/events.out.tfevents.1705010137.98f107f1aa39.36490.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09cbb83b4785f26dcf641428f567bd32e1e33424eeaccc69603aa4593c53c7a4
+size 5797

runs/Jan11_21-54-48_98f107f1aa39/events.out.tfevents.1705011051.98f107f1aa39.36490.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44d0b064c458805a5a7e3b4a48466830afa426dc498ecb4863017a9ded40b81d
+size 354

runs/Jan11_22-21-42_98f107f1aa39/events.out.tfevents.1705011749.98f107f1aa39.72772.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1d7e68b9e108dbeaaf8cf9ff819fe1ab0b1884a12e248ba58029a6a2c50b2b1
+size 4837

runs/Jan11_22-24-16_98f107f1aa39/events.out.tfevents.1705011906.98f107f1aa39.76528.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b43bdce68e02691934bff30da0c9086405ba85f36cf1cb117021940f0f72bba
+size 4866

runs/Jan11_22-26-44_98f107f1aa39/events.out.tfevents.1705012049.98f107f1aa39.80091.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8222521efd116cb8fec8be47d9d400fb3aa985642d7eebd187dacf2db5b4b44a
+size 4837

runs/Jan11_22-32-25_98f107f1aa39/events.out.tfevents.1705012389.98f107f1aa39.87865.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8505f491612a6693a29650a3bad357366cde69d8b3577bc2855ef2b1f59210f
+size 5105

runs/Jan11_22-32-25_98f107f1aa39/events.out.tfevents.1705012890.98f107f1aa39.87865.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf733dceb337a23b43551cbd7cde0f5d46d9273b54fc22e26631a8df23bde1e0
+size 354

runs/Jan12_09-13-28_98f107f1aa39/events.out.tfevents.1705050917.98f107f1aa39.4962.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db07073acd9b5adcb05ba6d136a9c020a7f1d23cba796f92faade96c79238f28
+size 5145

runs/Jan12_09-22-09_98f107f1aa39/events.out.tfevents.1705051431.98f107f1aa39.10530.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d7897aab0dde5394f09286a94e29543423b08d2dc9c10bbc288f068dea59f23
+size 7107

runs/Jan12_09-22-09_98f107f1aa39/events.out.tfevents.1705053028.98f107f1aa39.10530.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ec382a40f497e8f243e3b1c81f3605f1480ae2b166100dd10b48f914c67e996
+size 354

runs/Jan12_11-08-05_98f107f1aa39/events.out.tfevents.1705060868.98f107f1aa39.71724.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98f675a1b2fa7c0bc560a5bcc479b90834532920e1d12db98311c390bf593963
+size 4855

runs/Jan12_12-28-50_98f107f1aa39/events.out.tfevents.1705065451.98f107f1aa39.132106.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d7614cd14ccfa1667097e7f98dac34b09e3e98471f201cee4ad0ef22c2f1f4a
+size 5471

runs/Jan12_15-06-53_98f107f1aa39/events.out.tfevents.1705074452.98f107f1aa39.241703.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ea6b7f8d3b1733e70e104f39f76457a61cc06033af82b8b41a4994c6354359e
+size 5317

runs/Jan12_16-13-49_98f107f1aa39/events.out.tfevents.1705077215.98f107f1aa39.305319.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86accd726de83d12ff45660e44130b9f14c6002b9fc20b1dad43c5e971bca90f
+size 4855

runs/Jan12_16-35-22_98f107f1aa39/events.out.tfevents.1705077372.98f107f1aa39.336626.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:710a538e82b928340ea36f8bca496d8cc76bbb43f7c803793cd4b01fe159b60f
+size 8509

runs/Jan12_19-50-30_98f107f1aa39/events.out.tfevents.1705089913.98f107f1aa39.624217.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6103cc8f8862308be333a2fbf4ac3af4ac973ba3d859833282967ec78eaec3a
+size 6095

runs/Jan12_21-29-42_98f107f1aa39/events.out.tfevents.1705095280.98f107f1aa39.697537.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c50b15d601b11a72f8fde357b8245cdee96b6d388fe16f5acd13bf343710759
+size 6409

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.99,
-    "train_loss": 0.9967951453231506,
-    "train_runtime": 11703.2983,
-    "train_samples": 14671,
-    "train_samples_per_second": 3.761,
-    "train_steps_per_second": 0.094
 }

 {
+    "epoch": 0.99,
+    "train_loss": 1.3475643575191498,
+    "train_runtime": 1594.7957,
+    "train_samples": 15296,
+    "train_samples_per_second": 1.268,
+    "train_steps_per_second": 0.025
 }

trainer_state.json CHANGED Viewed

@@ -1,384 +1,100 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.993660963806148,
-  "eval_steps": 500,
-  "global_step": 1098,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 3.999991813565924e-05,
-      "loss": 2.2897,
       "step": 1
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 3.996726317608652e-05,
-      "loss": 1.6172,
-      "step": 20
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 3.986915987431006e-05,
-      "loss": 1.5144,
-      "step": 40
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 3.970601125372218e-05,
-      "loss": 1.5003,
-      "step": 60
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 3.947835141108928e-05,
-      "loss": 1.4788,
-      "step": 80
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 3.9186925632429396e-05,
-      "loss": 1.4834,
-      "step": 100
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 3.883268795318252e-05,
-      "loss": 1.4782,
-      "step": 120
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 3.8416798035001545e-05,
-      "loss": 1.4776,
-      "step": 140
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 3.794061736938837e-05,
-      "loss": 1.4813,
-      "step": 160
     },
     {
       "epoch": 0.49,
-      "learning_rate": 3.740570482060311e-05,
-      "loss": 1.4974,
-      "step": 180
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 3.681381152243763e-05,
-      "loss": 1.4778,
-      "step": 200
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 3.6166875145559684e-05,
-      "loss": 1.5029,
-      "step": 220
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 3.54670135541946e-05,
-      "loss": 1.5029,
-      "step": 240
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 3.4716517872910405e-05,
-      "loss": 1.4741,
-      "step": 260
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 3.391784498620369e-05,
-      "loss": 1.4563,
-      "step": 280
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 3.307360949544012e-05,
-      "loss": 1.4634,
-      "step": 300
     },
     {
       "epoch": 0.87,
-      "learning_rate": 3.2186575159479966e-05,
-      "loss": 1.4616,
-      "step": 320
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 3.1259645847009384e-05,
-      "loss": 1.4308,
-      "step": 340
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 3.0295856030196618e-05,
-      "loss": 1.4434,
-      "step": 360
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 1.3897957801818848,
-      "eval_runtime": 11.4488,
-      "eval_samples_per_second": 26.204,
-      "eval_steps_per_second": 26.204,
-      "step": 366
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 2.9298360850793944e-05,
-      "loss": 1.1296,
-      "step": 380
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 2.827042579120562e-05,
-      "loss": 0.9657,
-      "step": 400
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 2.721541598433567e-05,
-      "loss": 0.9303,
-      "step": 420
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 2.613678519721155e-05,
-      "loss": 0.9411,
-      "step": 440
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 2.5038064524447827e-05,
-      "loss": 0.9468,
-      "step": 460
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 2.392285082856394e-05,
-      "loss": 0.938,
-      "step": 480
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 2.2794794964998705e-05,
-      "loss": 0.938,
-      "step": 500
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 2.1657589830369113e-05,
-      "loss": 0.9383,
-      "step": 520
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 2.0514958273099778e-05,
-      "loss": 0.9431,
-      "step": 540
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 1.93706409059995e-05,
-      "loss": 0.937,
-      "step": 560
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 1.82283838606831e-05,
-      "loss": 0.9408,
-      "step": 580
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 1.7091926523926205e-05,
-      "loss": 0.9567,
-      "step": 600
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 1.5964989296100682e-05,
-      "loss": 0.9302,
-      "step": 620
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 1.4851261411765414e-05,
-      "loss": 0.9309,
-      "step": 640
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 1.375438886228411e-05,
-      "loss": 0.9354,
-      "step": 660
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 1.2677962460007555e-05,
-      "loss": 0.9429,
-      "step": 680
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 1.162550608309446e-05,
-      "loss": 0.9209,
-      "step": 700
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 1.060046513945361e-05,
-      "loss": 0.9304,
-      "step": 720
-    },
-    {
-      "epoch": 2.0,
-      "eval_loss": 1.4105572700500488,
-      "eval_runtime": 11.4541,
-      "eval_samples_per_second": 26.191,
-      "eval_steps_per_second": 26.191,
-      "step": 733
-    },
-    {
-      "epoch": 2.02,
-      "learning_rate": 9.606195287572577e-06,
-      "loss": 0.7909,
-      "step": 740
-    },
-    {
-      "epoch": 2.07,
-      "learning_rate": 8.645951451157741e-06,
-      "loss": 0.5917,
-      "step": 760
-    },
-    {
-      "epoch": 2.13,
-      "learning_rate": 7.72287716354776e-06,
-      "loss": 0.5678,
-      "step": 780
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 6.8399942767839075e-06,
-      "loss": 0.5837,
-      "step": 800
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 6.000193069026181e-06,
-      "loss": 0.5701,
-      "step": 820
-    },
-    {
-      "epoch": 2.29,
-      "learning_rate": 5.206222782700667e-06,
-      "loss": 0.5467,
-      "step": 840
-    },
-    {
-      "epoch": 2.34,
-      "learning_rate": 4.460682624352952e-06,
-      "loss": 0.5695,
-      "step": 860
-    },
-    {
-      "epoch": 2.4,
-      "learning_rate": 3.766013255671479e-06,
-      "loss": 0.5557,
-      "step": 880
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 3.1244888035362875e-06,
-      "loss": 0.5468,
-      "step": 900
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 2.5382094152499705e-06,
-      "loss": 0.5793,
-      "step": 920
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 2.009094383322356e-06,
-      "loss": 0.5462,
-      "step": 940
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 1.5388758623164802e-06,
-      "loss": 0.5617,
-      "step": 960
-    },
-    {
-      "epoch": 2.67,
-      "learning_rate": 1.1290931983246334e-06,
-      "loss": 0.5574,
-      "step": 980
-    },
-    {
-      "epoch": 2.73,
-      "learning_rate": 7.810878896382101e-07,
-      "loss": 0.5632,
-      "step": 1000
-    },
-    {
-      "epoch": 2.78,
-      "learning_rate": 4.959991951083498e-07,
-      "loss": 0.57,
-      "step": 1020
-    },
-    {
-      "epoch": 2.84,
-      "learning_rate": 2.747604045743102e-07,
-      "loss": 0.5498,
-      "step": 1040
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 1.180957835689478e-07,
-      "loss": 0.5369,
-      "step": 1060
-    },
-    {
-      "epoch": 2.94,
-      "learning_rate": 2.651820230338942e-08,
-      "loss": 0.5651,
-      "step": 1080
     },
     {
-      "epoch": 2.99,
-      "eval_loss": 1.5518141984939575,
-      "eval_runtime": 11.4288,
-      "eval_samples_per_second": 26.25,
-      "eval_steps_per_second": 26.25,
-      "step": 1098
     },
     {
-      "epoch": 2.99,
-      "step": 1098,
-      "total_flos": 6.035394717233971e+16,
-      "train_loss": 0.9967951453231506,
-      "train_runtime": 11703.2983,
-      "train_samples_per_second": 3.761,
-      "train_steps_per_second": 0.094
     }
   ],
-  "logging_steps": 20,
-  "max_steps": 1098,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 20,
-  "total_flos": 6.035394717233971e+16,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9891196834817013,
+  "eval_steps": 20,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1.9969173337331283e-05,
+      "loss": 1.6723,
       "step": 1
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 1.9238795325112867e-05,
+      "loss": 1.4829,
+      "step": 5
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 1.3734,
+      "step": 10
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 1.3826834323650899e-05,
+      "loss": 1.3486,
+      "step": 15
     },
     {
       "epoch": 0.49,
+      "learning_rate": 1e-05,
+      "loss": 1.3274,
+      "step": 20
     },
     {
+      "epoch": 0.49,
+      "eval_loss": 1.258691668510437,
+      "eval_runtime": 2.1716,
+      "eval_samples_per_second": 4.605,
+      "eval_steps_per_second": 2.302,
+      "step": 20
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 6.173165676349103e-06,
+      "loss": 1.2978,
+      "step": 25
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 2.9289321881345257e-06,
+      "loss": 1.3259,
+      "step": 30
     },
     {
       "epoch": 0.87,
+      "learning_rate": 7.612046748871327e-07,
+      "loss": 1.2801,
+      "step": 35
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 0.0,
+      "loss": 1.3066,
+      "step": 40
     },
     {
+      "epoch": 0.99,
+      "eval_loss": 1.2477926015853882,
+      "eval_runtime": 2.1661,
+      "eval_samples_per_second": 4.617,
+      "eval_steps_per_second": 2.308,
+      "step": 40
     },
     {
+      "epoch": 0.99,
+      "step": 40,
+      "total_flos": 2.6717900760940544e+16,
+      "train_loss": 1.3475643575191498,
+      "train_runtime": 1594.7957,
+      "train_samples_per_second": 1.268,
+      "train_steps_per_second": 0.025
     }
   ],
+  "logging_steps": 5,
+  "max_steps": 40,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 2.6717900760940544e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5155e401b22d60f288ef4b9dbcc0137ad8db5e6b11882ee86900641b7be4d32a
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:4de88ab3e4ac613739269a27c3e99895152741695b9ef3d3402002d4cdf97523
 size 4728