iter 2

Browse files

Files changed (14) hide show

README.md +25 -21
all_results.json +12 -12
alphabet.json +1 -0
eval_results.json +7 -7
mozilla-foundation_common_voice_8_0_hy-AM_test_eval_results.txt +2 -0
preprocessor_config.json +2 -1
pytorch_model.bin +1 -1
run.sh +6 -6
runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/1643644281.5404139/events.out.tfevents.1643644281.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.1 +3 -0
runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643644281.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.0 +3 -0
runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643661906.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.2 +3 -0
train_results.json +6 -6
trainer_state.json +189 -125
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 license: apache-2.0
 tags:
 - automatic-speech-recognition
-- /workspace/data/hy/noizy_student_1/
 - generated_from_trainer
 model-index:
 - name: ''
@@ -14,11 +14,11 @@ should probably proofread and complete it, then remove this comment. -->
 #
-This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the /WORKSPACE/DATA/HY/NOIZY_STUDENT_1/ - NA dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3061
-- Wer: 0.3899
-- Cer: 0.0747
 ## Model description
@@ -40,31 +40,35 @@ The following hyperparameters were used during training:
 - learning_rate: 8e-05
 - train_batch_size: 16
 - eval_batch_size: 64
-- seed: 42
 - gradient_accumulation_steps: 8
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 1200
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss | Wer    | Cer    |
-|:-------------:|:------:|:----:|:---------------:|:------:|:------:|
-| 5.195         | 9.09   | 100  | 3.1338          | 1.0    | 1.0    |
-| 2.3769        | 18.18  | 200  | 0.4825          | 0.6616 | 0.1360 |
-| 1.345         | 27.26  | 300  | 0.3781          | 0.5113 | 0.1057 |
-| 1.2001        | 36.35  | 400  | 0.3571          | 0.4602 | 0.0931 |
-| 1.0484        | 45.44  | 500  | 0.3121          | 0.4094 | 0.0776 |
-| 0.926         | 54.53  | 600  | 0.3227          | 0.4094 | 0.0801 |
-| 0.8854        | 63.62  | 700  | 0.3061          | 0.3899 | 0.0747 |
-| 0.8054        | 72.7   | 800  | 0.3159          | 0.3891 | 0.0745 |
-| 0.7442        | 81.79  | 900  | 0.3136          | 0.3802 | 0.0731 |
-| 0.714         | 90.88  | 1000 | 0.3230          | 0.3716 | 0.0717 |
-| 0.6641        | 99.97  | 1100 | 0.3193          | 0.3610 | 0.0693 |
-| 0.6367        | 109.09 | 1200 | 0.3254          | 0.3587 | 0.0692 |
 ### Framework versions

 license: apache-2.0
 tags:
 - automatic-speech-recognition
+- /workspace/data/hy/noizy_student_2/
 - generated_from_trainer
 model-index:
 - name: ''
 #
+This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the /WORKSPACE/DATA/HY/NOIZY_STUDENT_2/ - NA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2249
+- Wer: 0.2783
+- Cer: 0.0508
 ## Model description
 - learning_rate: 8e-05
 - train_batch_size: 16
 - eval_batch_size: 64
+- seed: 842
 - gradient_accumulation_steps: 8
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 1600
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
+|:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
+| 4.9923        | 3.84  | 100  | 3.1562          | 1.0    | 1.0    |
+| 2.1775        | 7.69  | 200  | 0.4334          | 0.5804 | 0.1122 |
+| 1.3708        | 11.53 | 300  | 0.3106          | 0.4336 | 0.0797 |
+| 1.2266        | 15.38 | 400  | 0.2675          | 0.3673 | 0.0673 |
+| 1.093         | 19.23 | 500  | 0.2416          | 0.3501 | 0.0633 |
+| 0.989         | 23.08 | 600  | 0.2320          | 0.3251 | 0.0611 |
+| 0.9518        | 26.91 | 700  | 0.2413          | 0.3193 | 0.0584 |
+| 0.9075        | 30.76 | 800  | 0.2354          | 0.3201 | 0.0593 |
+| 0.878         | 34.61 | 900  | 0.2278          | 0.3126 | 0.0579 |
+| 0.8563        | 38.46 | 1000 | 0.2327          | 0.2963 | 0.0548 |
+| 0.8084        | 42.3  | 1100 | 0.2271          | 0.2923 | 0.0541 |
+| 0.7845        | 46.15 | 1200 | 0.2333          | 0.2951 | 0.0537 |
+| 0.7487        | 49.99 | 1300 | 0.2290          | 0.2888 | 0.0525 |
+| 0.7182        | 53.84 | 1400 | 0.2341          | 0.2877 | 0.0535 |
+| 0.7095        | 57.69 | 1500 | 0.2291          | 0.2818 | 0.0515 |
+| 0.6953        | 61.53 | 1600 | 0.2249          | 0.2783 | 0.0508 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 109.09,
-    "eval_cer": 0.07465857359635812,
-    "eval_loss": 0.3061184883117676,
-    "eval_runtime": 15.8663,
     "eval_samples": 335,
-    "eval_samples_per_second": 21.114,
-    "eval_steps_per_second": 0.378,
-    "eval_wer": 0.38992974238875877,
-    "train_loss": 1.3784224351247152,
-    "train_runtime": 12041.2604,
-    "train_samples": 1456,
-    "train_samples_per_second": 12.756,
-    "train_steps_per_second": 0.1
 }

 {
+    "epoch": 61.53,
+    "eval_cer": 0.05078401618614062,
+    "eval_loss": 0.2248678207397461,
+    "eval_runtime": 15.1655,
     "eval_samples": 335,
+    "eval_samples_per_second": 22.09,
+    "eval_steps_per_second": 0.396,
+    "eval_wer": 0.2782982045277127,
+    "train_loss": 1.2442097234725953,
+    "train_runtime": 17605.3989,
+    "train_samples": 3354,
+    "train_samples_per_second": 11.633,
+    "train_steps_per_second": 0.091
 }

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": [" ", "\u0561", "\u0562", "\u0563", "\u0564", "\u0565", "\u0566", "\u0567", "\u0568", "\u0569", "\u056a", "\u056b", "\u056c", "\u056d", "\u056e", "\u056f", "\u0570", "\u0571", "\u0572", "\u0573", "\u0574", "\u0575", "\u0576", "\u0577", "\u0578", "\u0579", "\u057a", "\u057b", "\u057c", "\u057d", "\u057e", "\u057f", "\u0580", "\u0581", "\u0582", "\u0583", "\u0584", "\u0585", "\u0586", "\u0587", "\u2047", "", "<s>", "</s>"], "is_bpe": false}

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 109.09,
-    "eval_cer": 0.07465857359635812,
-    "eval_loss": 0.3061184883117676,
-    "eval_runtime": 15.8663,
     "eval_samples": 335,
-    "eval_samples_per_second": 21.114,
-    "eval_steps_per_second": 0.378,
-    "eval_wer": 0.38992974238875877
 }

 {
+    "epoch": 61.53,
+    "eval_cer": 0.05078401618614062,
+    "eval_loss": 0.2248678207397461,
+    "eval_runtime": 15.1655,
     "eval_samples": 335,
+    "eval_samples_per_second": 22.09,
+    "eval_steps_per_second": 0.396,
+    "eval_wer": 0.2782982045277127
 }

mozilla-foundation_common_voice_8_0_hy-AM_test_eval_results.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ WER: 0.12724434035909446
2	+ CER: 0.02716236722306525

preprocessor_config.json CHANGED Viewed

@@ -5,5 +5,6 @@
   "padding_side": "right",
   "padding_value": 0,
   "return_attention_mask": true,
-  "sampling_rate": 16000
 }

   "padding_side": "right",
   "padding_value": 0,
   "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "processor_class": "Wav2Vec2ProcessorWithLM"
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32516ce95b5883aab22adf9ea26a65e31f5fecfa4cb664058ac379897433753e
 size 3850538161

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbfcbb3e2a2fa0ab89db84e59692c3f3bee66d7cee3154a41e036d1300fac796
 size 3850538161

run.sh CHANGED Viewed

@@ -1,10 +1,10 @@
 python run_speech_recognition_ctc.py \
-	--dataset_name="/workspace/data/hy/noizy_student_1/" \
 	--train_split_name train \
  	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
 	--output_dir="./" \
-    --overwrite_output_dir \
-    --max_steps 1200 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
 	--gradient_accumulation_steps="8" \
@@ -19,7 +19,7 @@ python run_speech_recognition_ctc.py \
 	--save_steps="100" \
 	--eval_steps="100" \
 	--logging_steps="100" \
-	--save_total_limit="2" \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
 	--activation_dropout="0.1" \
@@ -35,7 +35,7 @@ python run_speech_recognition_ctc.py \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
-	--run_name="xlsr-hy-ns-1b-1" \
 	--wandb_project="xlsr-hy" \
 	--seed 842 \
-	--bnb --tristage_sched

 python run_speech_recognition_ctc.py \
+	--dataset_name="/workspace/data/hy/noizy_student_2/" \
 	--train_split_name train \
  	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
 	--output_dir="./" \
+   	--overwrite_output_dir \
+	--max_steps 1600 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
 	--gradient_accumulation_steps="8" \
 	--save_steps="100" \
 	--eval_steps="100" \
 	--logging_steps="100" \
+	--save_total_limit="4" \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
 	--activation_dropout="0.1" \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
+	--run_name="xlsr-hy-ns-1b-2" \
 	--wandb_project="xlsr-hy" \
 	--seed 842 \
+	--bnb --tristage_sched

runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/1643644281.5404139/events.out.tfevents.1643644281.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76fcd03460e4b5ce4f010a3769fe861f72b2bfadbfd589764e455a3ba3c3a71a
+size 4772

runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643644281.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c24de85b4f3f4f325b767da1a58e5f175ba48b2220a68fc768c76cd0b46f4b6
+size 13399

runs/Jan31_15-50-28_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643661906.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.56684.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99e5f512d6ead4b4623f9f64409214136694f1205519849e3106891d5f63c8f4
+size 405

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 109.09,
-    "train_loss": 1.3784224351247152,
-    "train_runtime": 12041.2604,
-    "train_samples": 1456,
-    "train_samples_per_second": 12.756,
-    "train_steps_per_second": 0.1
 }

 {
+    "epoch": 61.53,
+    "train_loss": 1.2442097234725953,
+    "train_runtime": 17605.3989,
+    "train_samples": 3354,
+    "train_samples_per_second": 11.633,
+    "train_steps_per_second": 0.091
 }

trainer_state.json CHANGED Viewed

@@ -1,217 +1,281 @@
 {
-  "best_metric": 0.3061184883117676,
-  "best_model_checkpoint": "./checkpoint-700",
-  "epoch": 109.08791208791209,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 9.09,
-      "learning_rate": 6.548e-05,
-      "loss": 5.195,
       "step": 100
     },
     {
-      "epoch": 9.09,
       "eval_cer": 1.0,
-      "eval_loss": 3.133816719055176,
-      "eval_runtime": 15.8007,
-      "eval_samples_per_second": 21.202,
-      "eval_steps_per_second": 0.38,
       "eval_wer": 1.0,
       "step": 100
     },
     {
-      "epoch": 18.18,
       "learning_rate": 8e-05,
-      "loss": 2.3769,
       "step": 200
     },
     {
-      "epoch": 18.18,
-      "eval_cer": 0.13601416287303997,
-      "eval_loss": 0.48250746726989746,
-      "eval_runtime": 15.2805,
-      "eval_samples_per_second": 21.923,
       "eval_steps_per_second": 0.393,
-      "eval_wer": 0.6615925058548009,
       "step": 200
     },
     {
-      "epoch": 27.26,
       "learning_rate": 8e-05,
-      "loss": 1.345,
       "step": 300
     },
     {
-      "epoch": 27.26,
-      "eval_cer": 0.10571573090541224,
-      "eval_loss": 0.3780955374240875,
-      "eval_runtime": 15.0829,
-      "eval_samples_per_second": 22.211,
-      "eval_steps_per_second": 0.398,
-      "eval_wer": 0.5113192818110851,
       "step": 300
     },
     {
-      "epoch": 36.35,
       "learning_rate": 8e-05,
-      "loss": 1.2001,
       "step": 400
     },
     {
-      "epoch": 36.35,
-      "eval_cer": 0.09312089023773394,
-      "eval_loss": 0.3571384847164154,
-      "eval_runtime": 15.2304,
-      "eval_samples_per_second": 21.996,
       "eval_steps_per_second": 0.394,
-      "eval_wer": 0.4601873536299766,
       "step": 400
     },
     {
-      "epoch": 45.44,
       "learning_rate": 8e-05,
-      "loss": 1.0484,
       "step": 500
     },
     {
-      "epoch": 45.44,
-      "eval_cer": 0.07764289327263531,
-      "eval_loss": 0.3121073842048645,
-      "eval_runtime": 15.2202,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 0.394,
-      "eval_wer": 0.4094457455113193,
       "step": 500
     },
     {
-      "epoch": 54.53,
       "learning_rate": 8e-05,
-      "loss": 0.926,
       "step": 600
     },
     {
-      "epoch": 54.53,
-      "eval_cer": 0.08012139605462823,
-      "eval_loss": 0.3227134943008423,
-      "eval_runtime": 15.3003,
-      "eval_samples_per_second": 21.895,
-      "eval_steps_per_second": 0.392,
-      "eval_wer": 0.4094457455113193,
       "step": 600
     },
     {
-      "epoch": 63.62,
-      "learning_rate": 6.758666666666667e-05,
-      "loss": 0.8854,
       "step": 700
     },
     {
-      "epoch": 63.62,
-      "eval_cer": 0.07465857359635812,
-      "eval_loss": 0.3061184883117676,
-      "eval_runtime": 17.2128,
-      "eval_samples_per_second": 19.462,
-      "eval_steps_per_second": 0.349,
-      "eval_wer": 0.38992974238875877,
       "step": 700
     },
     {
-      "epoch": 72.7,
-      "learning_rate": 5.492e-05,
-      "loss": 0.8054,
       "step": 800
     },
     {
-      "epoch": 72.7,
-      "eval_cer": 0.07445624683864441,
-      "eval_loss": 0.315933495759964,
-      "eval_runtime": 17.3337,
-      "eval_samples_per_second": 19.327,
-      "eval_steps_per_second": 0.346,
-      "eval_wer": 0.38914910226385635,
       "step": 800
     },
     {
-      "epoch": 81.79,
-      "learning_rate": 4.225333333333334e-05,
-      "loss": 0.7442,
       "step": 900
     },
     {
-      "epoch": 81.79,
-      "eval_cer": 0.07309054122407689,
-      "eval_loss": 0.3135768473148346,
-      "eval_runtime": 15.2189,
-      "eval_samples_per_second": 22.012,
-      "eval_steps_per_second": 0.394,
-      "eval_wer": 0.3801717408274785,
       "step": 900
     },
     {
-      "epoch": 90.88,
-      "learning_rate": 2.958666666666667e-05,
-      "loss": 0.714,
       "step": 1000
     },
     {
-      "epoch": 90.88,
-      "eval_cer": 0.07172483560950936,
-      "eval_loss": 0.32300877571105957,
-      "eval_runtime": 15.24,
-      "eval_samples_per_second": 21.982,
-      "eval_steps_per_second": 0.394,
-      "eval_wer": 0.37158469945355194,
       "step": 1000
     },
     {
-      "epoch": 99.97,
-      "learning_rate": 1.6920000000000004e-05,
-      "loss": 0.6641,
       "step": 1100
     },
     {
-      "epoch": 99.97,
-      "eval_cer": 0.06934749620637329,
-      "eval_loss": 0.31931421160697937,
-      "eval_runtime": 15.1822,
-      "eval_samples_per_second": 22.065,
-      "eval_steps_per_second": 0.395,
-      "eval_wer": 0.36104605776736926,
       "step": 1100
     },
     {
-      "epoch": 109.09,
-      "learning_rate": 4.253333333333336e-06,
-      "loss": 0.6367,
       "step": 1200
     },
     {
-      "epoch": 109.09,
-      "eval_cer": 0.06924633282751644,
-      "eval_loss": 0.32542118430137634,
-      "eval_runtime": 15.2075,
-      "eval_samples_per_second": 22.029,
-      "eval_steps_per_second": 0.395,
-      "eval_wer": 0.358704137392662,
       "step": 1200
     },
     {
-      "epoch": 109.09,
-      "step": 1200,
-      "total_flos": 9.090968694813691e+19,
-      "train_loss": 1.3784224351247152,
-      "train_runtime": 12041.2604,
-      "train_samples_per_second": 12.756,
-      "train_steps_per_second": 0.1
     }
   ],
-  "max_steps": 1200,
-  "num_train_epochs": 110,
-  "total_flos": 9.090968694813691e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.2248678207397461,
+  "best_model_checkpoint": "./checkpoint-1600",
+  "epoch": 61.53333333333333,
+  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 3.84,
+      "learning_rate": 4.980500000000001e-05,
+      "loss": 4.9923,
       "step": 100
     },
     {
+      "epoch": 3.84,
       "eval_cer": 1.0,
+      "eval_loss": 3.156188488006592,
+      "eval_runtime": 15.7049,
+      "eval_samples_per_second": 21.331,
+      "eval_steps_per_second": 0.382,
       "eval_wer": 1.0,
       "step": 100
     },
     {
+      "epoch": 7.69,
       "learning_rate": 8e-05,
+      "loss": 2.1775,
       "step": 200
     },
     {
+      "epoch": 7.69,
+      "eval_cer": 0.11219018715225089,
+      "eval_loss": 0.43336454033851624,
+      "eval_runtime": 15.2789,
+      "eval_samples_per_second": 21.926,
       "eval_steps_per_second": 0.393,
+      "eval_wer": 0.5804059328649492,
       "step": 200
     },
     {
+      "epoch": 11.53,
       "learning_rate": 8e-05,
+      "loss": 1.3708,
       "step": 300
     },
     {
+      "epoch": 11.53,
+      "eval_cer": 0.07966616084977238,
+      "eval_loss": 0.3105751574039459,
+      "eval_runtime": 15.048,
+      "eval_samples_per_second": 22.262,
+      "eval_steps_per_second": 0.399,
+      "eval_wer": 0.4336455893832943,
       "step": 300
     },
     {
+      "epoch": 15.38,
       "learning_rate": 8e-05,
+      "loss": 1.2266,
       "step": 400
     },
     {
+      "epoch": 15.38,
+      "eval_cer": 0.06732422862923622,
+      "eval_loss": 0.26751142740249634,
+      "eval_runtime": 15.232,
+      "eval_samples_per_second": 21.993,
       "eval_steps_per_second": 0.394,
+      "eval_wer": 0.3672911787665886,
       "step": 400
     },
     {
+      "epoch": 19.23,
       "learning_rate": 8e-05,
+      "loss": 1.093,
       "step": 500
     },
     {
+      "epoch": 19.23,
+      "eval_cer": 0.06327769347496207,
+      "eval_loss": 0.24162611365318298,
+      "eval_runtime": 14.995,
+      "eval_samples_per_second": 22.341,
+      "eval_steps_per_second": 0.4,
+      "eval_wer": 0.35011709601873536,
       "step": 500
     },
     {
+      "epoch": 23.08,
       "learning_rate": 8e-05,
+      "loss": 0.989,
       "step": 600
     },
     {
+      "epoch": 23.08,
+      "eval_cer": 0.06105209914011128,
+      "eval_loss": 0.23200440406799316,
+      "eval_runtime": 15.3525,
+      "eval_samples_per_second": 21.821,
+      "eval_steps_per_second": 0.391,
+      "eval_wer": 0.3251366120218579,
       "step": 600
     },
     {
+      "epoch": 26.91,
+      "learning_rate": 8e-05,
+      "loss": 0.9518,
       "step": 700
     },
     {
+      "epoch": 26.91,
+      "eval_cer": 0.05842185128983308,
+      "eval_loss": 0.2413272261619568,
+      "eval_runtime": 15.2385,
+      "eval_samples_per_second": 21.984,
+      "eval_steps_per_second": 0.394,
+      "eval_wer": 0.3192818110850898,
       "step": 700
     },
     {
+      "epoch": 30.76,
+      "learning_rate": 8e-05,
+      "loss": 0.9075,
       "step": 800
     },
     {
+      "epoch": 30.76,
+      "eval_cer": 0.05933232169954476,
+      "eval_loss": 0.23544833064079285,
+      "eval_runtime": 15.1938,
+      "eval_samples_per_second": 22.049,
+      "eval_steps_per_second": 0.395,
+      "eval_wer": 0.3200624512099922,
       "step": 800
     },
     {
+      "epoch": 34.61,
+      "learning_rate": 7.059500000000001e-05,
+      "loss": 0.878,
       "step": 900
     },
     {
+      "epoch": 34.61,
+      "eval_cer": 0.057916034395548814,
+      "eval_loss": 0.22777308523654938,
+      "eval_runtime": 14.9728,
+      "eval_samples_per_second": 22.374,
+      "eval_steps_per_second": 0.401,
+      "eval_wer": 0.3126463700234192,
       "step": 900
     },
     {
+      "epoch": 38.46,
+      "learning_rate": 6.109500000000001e-05,
+      "loss": 0.8563,
       "step": 1000
     },
     {
+      "epoch": 38.46,
+      "eval_cer": 0.054779969650986346,
+      "eval_loss": 0.2326740324497223,
+      "eval_runtime": 15.1749,
+      "eval_samples_per_second": 22.076,
+      "eval_steps_per_second": 0.395,
+      "eval_wer": 0.2962529274004684,
       "step": 1000
     },
     {
+      "epoch": 42.3,
+      "learning_rate": 5.169000000000001e-05,
+      "loss": 0.8084,
       "step": 1100
     },
     {
+      "epoch": 42.3,
+      "eval_cer": 0.05407182599898837,
+      "eval_loss": 0.22712552547454834,
+      "eval_runtime": 15.3083,
+      "eval_samples_per_second": 21.884,
+      "eval_steps_per_second": 0.392,
+      "eval_wer": 0.2923497267759563,
       "step": 1100
     },
     {
+      "epoch": 46.15,
+      "learning_rate": 4.219000000000001e-05,
+      "loss": 0.7845,
       "step": 1200
     },
     {
+      "epoch": 46.15,
+      "eval_cer": 0.053667172483560954,
+      "eval_loss": 0.23326420783996582,
+      "eval_runtime": 15.1559,
+      "eval_samples_per_second": 22.104,
+      "eval_steps_per_second": 0.396,
+      "eval_wer": 0.29508196721311475,
       "step": 1200
     },
     {
+      "epoch": 49.99,
+      "learning_rate": 3.269000000000001e-05,
+      "loss": 0.7487,
+      "step": 1300
+    },
+    {
+      "epoch": 49.99,
+      "eval_cer": 0.052453211937278706,
+      "eval_loss": 0.22895006835460663,
+      "eval_runtime": 15.373,
+      "eval_samples_per_second": 21.791,
+      "eval_steps_per_second": 0.39,
+      "eval_wer": 0.2888368462138954,
+      "step": 1300
+    },
+    {
+      "epoch": 53.84,
+      "learning_rate": 2.319e-05,
+      "loss": 0.7182,
+      "step": 1400
+    },
+    {
+      "epoch": 53.84,
+      "eval_cer": 0.05346484572584724,
+      "eval_loss": 0.23406584560871124,
+      "eval_runtime": 15.2056,
+      "eval_samples_per_second": 22.031,
+      "eval_steps_per_second": 0.395,
+      "eval_wer": 0.28766588602654175,
+      "step": 1400
+    },
+    {
+      "epoch": 57.69,
+      "learning_rate": 1.369e-05,
+      "loss": 0.7095,
+      "step": 1500
+    },
+    {
+      "epoch": 57.69,
+      "eval_cer": 0.05154274152756702,
+      "eval_loss": 0.22908572852611542,
+      "eval_runtime": 15.2684,
+      "eval_samples_per_second": 21.941,
+      "eval_steps_per_second": 0.393,
+      "eval_wer": 0.2818110850897736,
+      "step": 1500
+    },
+    {
+      "epoch": 61.53,
+      "learning_rate": 4.190000000000005e-06,
+      "loss": 0.6953,
+      "step": 1600
+    },
+    {
+      "epoch": 61.53,
+      "eval_cer": 0.05078401618614062,
+      "eval_loss": 0.2248678207397461,
+      "eval_runtime": 15.2139,
+      "eval_samples_per_second": 22.019,
+      "eval_steps_per_second": 0.394,
+      "eval_wer": 0.2782982045277127,
+      "step": 1600
+    },
+    {
+      "epoch": 61.53,
+      "step": 1600,
+      "total_flos": 1.3126730002882698e+20,
+      "train_loss": 1.2442097234725953,
+      "train_runtime": 17605.3989,
+      "train_samples_per_second": 11.633,
+      "train_steps_per_second": 0.091
     }
   ],
+  "max_steps": 1600,
+  "num_train_epochs": 62,
+  "total_flos": 1.3126730002882698e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9886d1fbbad75a820f26ae7488ec03668e4ac81f646bc9c64621c5a4caedeba1
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:c934f0ed6fa80bfe4f2228c9550d942f9d713597358d2f57a1375b6454c2d03d
 size 3055