End of training

Browse files

Files changed (6) hide show

README.md +6 -3
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
train_results.json +9 -0
trainer_state.json +579 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-all-bem-natbed-n-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5579
-- Wer: 0.4550
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- natbed
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-all-bem-natbed-n-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the NATBED - BEM dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5309
+- Wer: 0.4631
 ## Model description

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a10e903fa91ac0aa9615d18a159b5ba57d7fc491b0c38dc0e2f0bfc86bb935d7
+size 8798532

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 9.269662921348315,
+    "eval_loss": 0.5309441685676575,
+    "eval_runtime": 51.9671,
+    "eval_samples": 650,
+    "eval_samples_per_second": 12.508,
+    "eval_steps_per_second": 1.578,
+    "eval_wer": 0.46307132690178715,
+    "total_flos": 1.8863577270010868e+19,
+    "train_loss": 0.8547844314575195,
+    "train_runtime": 5284.1307,
+    "train_samples": 2845,
+    "train_samples_per_second": 16.152,
+    "train_steps_per_second": 2.021
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.269662921348315,
+    "eval_loss": 0.5309441685676575,
+    "eval_runtime": 51.9671,
+    "eval_samples": 650,
+    "eval_samples_per_second": 12.508,
+    "eval_steps_per_second": 1.578,
+    "eval_wer": 0.46307132690178715
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.269662921348315,
+    "total_flos": 1.8863577270010868e+19,
+    "train_loss": 0.8547844314575195,
+    "train_runtime": 5284.1307,
+    "train_samples": 2845,
+    "train_samples_per_second": 16.152,
+    "train_steps_per_second": 2.021
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,579 @@

+{
+  "best_metric": 0.5309441685676575,
+  "best_model_checkpoint": "/scratch/skscla001/results/mms-1b-all-bem-natbed-n-model/checkpoint-3000",
+  "epoch": 9.269662921348315,
+  "eval_steps": 100,
+  "global_step": 3300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2808988764044944,
+      "grad_norm": 6.5729265213012695,
+      "learning_rate": 0.00028799999999999995,
+      "loss": 7.3623,
+      "step": 100
+    },
+    {
+      "epoch": 0.2808988764044944,
+      "eval_loss": 0.9286547899246216,
+      "eval_runtime": 51.6813,
+      "eval_samples_per_second": 12.577,
+      "eval_steps_per_second": 1.587,
+      "eval_wer": 0.7282935315514787,
+      "step": 100
+    },
+    {
+      "epoch": 0.5617977528089888,
+      "grad_norm": 1.9608774185180664,
+      "learning_rate": 0.00029727788279773154,
+      "loss": 0.9213,
+      "step": 200
+    },
+    {
+      "epoch": 0.5617977528089888,
+      "eval_loss": 0.651074230670929,
+      "eval_runtime": 51.0267,
+      "eval_samples_per_second": 12.738,
+      "eval_steps_per_second": 1.607,
+      "eval_wer": 0.593072908429543,
+      "step": 200
+    },
+    {
+      "epoch": 0.8426966292134831,
+      "grad_norm": 3.582282066345215,
+      "learning_rate": 0.0002944423440453686,
+      "loss": 0.7224,
+      "step": 300
+    },
+    {
+      "epoch": 0.8426966292134831,
+      "eval_loss": 0.6386900544166565,
+      "eval_runtime": 51.4556,
+      "eval_samples_per_second": 12.632,
+      "eval_steps_per_second": 1.594,
+      "eval_wer": 0.5434129368970425,
+      "step": 300
+    },
+    {
+      "epoch": 1.1235955056179776,
+      "grad_norm": 1.1070303916931152,
+      "learning_rate": 0.00029160680529300565,
+      "loss": 0.7132,
+      "step": 400
+    },
+    {
+      "epoch": 1.1235955056179776,
+      "eval_loss": 0.6140071749687195,
+      "eval_runtime": 51.4993,
+      "eval_samples_per_second": 12.622,
+      "eval_steps_per_second": 1.592,
+      "eval_wer": 0.5212715483156729,
+      "step": 400
+    },
+    {
+      "epoch": 1.404494382022472,
+      "grad_norm": 2.090729236602783,
+      "learning_rate": 0.0002887712665406427,
+      "loss": 0.7195,
+      "step": 500
+    },
+    {
+      "epoch": 1.404494382022472,
+      "eval_loss": 0.6097270250320435,
+      "eval_runtime": 51.1603,
+      "eval_samples_per_second": 12.705,
+      "eval_steps_per_second": 1.603,
+      "eval_wer": 0.514629131741262,
+      "step": 500
+    },
+    {
+      "epoch": 1.6853932584269664,
+      "grad_norm": 1.059830904006958,
+      "learning_rate": 0.00028593572778827975,
+      "loss": 0.7054,
+      "step": 600
+    },
+    {
+      "epoch": 1.6853932584269664,
+      "eval_loss": 0.6144998669624329,
+      "eval_runtime": 51.4827,
+      "eval_samples_per_second": 12.626,
+      "eval_steps_per_second": 1.593,
+      "eval_wer": 0.5125731456587063,
+      "step": 600
+    },
+    {
+      "epoch": 1.9662921348314608,
+      "grad_norm": 1.5953254699707031,
+      "learning_rate": 0.0002831285444234404,
+      "loss": 0.7417,
+      "step": 700
+    },
+    {
+      "epoch": 1.9662921348314608,
+      "eval_loss": 0.606216311454773,
+      "eval_runtime": 51.7647,
+      "eval_samples_per_second": 12.557,
+      "eval_steps_per_second": 1.584,
+      "eval_wer": 0.5256998260319469,
+      "step": 700
+    },
+    {
+      "epoch": 2.247191011235955,
+      "grad_norm": 0.7664604187011719,
+      "learning_rate": 0.00028029300567107747,
+      "loss": 0.7029,
+      "step": 800
+    },
+    {
+      "epoch": 2.247191011235955,
+      "eval_loss": 0.6021894812583923,
+      "eval_runtime": 52.1384,
+      "eval_samples_per_second": 12.467,
+      "eval_steps_per_second": 1.573,
+      "eval_wer": 0.4947018820180294,
+      "step": 800
+    },
+    {
+      "epoch": 2.5280898876404496,
+      "grad_norm": 1.113645076751709,
+      "learning_rate": 0.0002774574669187145,
+      "loss": 0.6845,
+      "step": 900
+    },
+    {
+      "epoch": 2.5280898876404496,
+      "eval_loss": 0.5886064767837524,
+      "eval_runtime": 51.3267,
+      "eval_samples_per_second": 12.664,
+      "eval_steps_per_second": 1.598,
+      "eval_wer": 0.5022932152459275,
+      "step": 900
+    },
+    {
+      "epoch": 2.808988764044944,
+      "grad_norm": 1.8644826412200928,
+      "learning_rate": 0.00027462192816635157,
+      "loss": 0.663,
+      "step": 1000
+    },
+    {
+      "epoch": 2.808988764044944,
+      "eval_loss": 0.5914585590362549,
+      "eval_runtime": 51.3494,
+      "eval_samples_per_second": 12.658,
+      "eval_steps_per_second": 1.597,
+      "eval_wer": 0.49264589593547364,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0898876404494384,
+      "grad_norm": 0.9567739963531494,
+      "learning_rate": 0.0002717863894139887,
+      "loss": 0.7129,
+      "step": 1100
+    },
+    {
+      "epoch": 3.0898876404494384,
+      "eval_loss": 0.5832971930503845,
+      "eval_runtime": 51.7503,
+      "eval_samples_per_second": 12.56,
+      "eval_steps_per_second": 1.585,
+      "eval_wer": 0.4920132848331488,
+      "step": 1100
+    },
+    {
+      "epoch": 3.370786516853933,
+      "grad_norm": 2.428119659423828,
+      "learning_rate": 0.00026895085066162567,
+      "loss": 0.6735,
+      "step": 1200
+    },
+    {
+      "epoch": 3.370786516853933,
+      "eval_loss": 0.5876715779304504,
+      "eval_runtime": 51.7607,
+      "eval_samples_per_second": 12.558,
+      "eval_steps_per_second": 1.584,
+      "eval_wer": 0.483156729400601,
+      "step": 1200
+    },
+    {
+      "epoch": 3.6516853932584272,
+      "grad_norm": 10.181241989135742,
+      "learning_rate": 0.0002661153119092627,
+      "loss": 0.672,
+      "step": 1300
+    },
+    {
+      "epoch": 3.6516853932584272,
+      "eval_loss": 0.5862510204315186,
+      "eval_runtime": 51.4111,
+      "eval_samples_per_second": 12.643,
+      "eval_steps_per_second": 1.595,
+      "eval_wer": 0.5151035900680057,
+      "step": 1300
+    },
+    {
+      "epoch": 3.932584269662921,
+      "grad_norm": 2.6570065021514893,
+      "learning_rate": 0.0002632797731568998,
+      "loss": 0.6494,
+      "step": 1400
+    },
+    {
+      "epoch": 3.932584269662921,
+      "eval_loss": 0.579518735408783,
+      "eval_runtime": 51.3192,
+      "eval_samples_per_second": 12.666,
+      "eval_steps_per_second": 1.598,
+      "eval_wer": 0.48442195160525064,
+      "step": 1400
+    },
+    {
+      "epoch": 4.213483146067416,
+      "grad_norm": 2.2995524406433105,
+      "learning_rate": 0.0002604442344045368,
+      "loss": 0.7049,
+      "step": 1500
+    },
+    {
+      "epoch": 4.213483146067416,
+      "eval_loss": 0.5723974704742432,
+      "eval_runtime": 51.7136,
+      "eval_samples_per_second": 12.569,
+      "eval_steps_per_second": 1.586,
+      "eval_wer": 0.47161157678317256,
+      "step": 1500
+    },
+    {
+      "epoch": 4.49438202247191,
+      "grad_norm": 1.1362881660461426,
+      "learning_rate": 0.0002576086956521739,
+      "loss": 0.5898,
+      "step": 1600
+    },
+    {
+      "epoch": 4.49438202247191,
+      "eval_loss": 0.5640456676483154,
+      "eval_runtime": 51.8126,
+      "eval_samples_per_second": 12.545,
+      "eval_steps_per_second": 1.583,
+      "eval_wer": 0.4761980072750277,
+      "step": 1600
+    },
+    {
+      "epoch": 4.775280898876405,
+      "grad_norm": 1.0056232213974,
+      "learning_rate": 0.00025477315689981093,
+      "loss": 0.6581,
+      "step": 1700
+    },
+    {
+      "epoch": 4.775280898876405,
+      "eval_loss": 0.5581757426261902,
+      "eval_runtime": 51.7242,
+      "eval_samples_per_second": 12.567,
+      "eval_steps_per_second": 1.585,
+      "eval_wer": 0.4724023406610786,
+      "step": 1700
+    },
+    {
+      "epoch": 5.056179775280899,
+      "grad_norm": 0.7103342413902283,
+      "learning_rate": 0.000251937618147448,
+      "loss": 0.6262,
+      "step": 1800
+    },
+    {
+      "epoch": 5.056179775280899,
+      "eval_loss": 0.5446608066558838,
+      "eval_runtime": 51.6418,
+      "eval_samples_per_second": 12.587,
+      "eval_steps_per_second": 1.588,
+      "eval_wer": 0.4750909378459592,
+      "step": 1800
+    },
+    {
+      "epoch": 5.337078651685394,
+      "grad_norm": 1.2600806951522827,
+      "learning_rate": 0.00024910207939508503,
+      "loss": 0.6179,
+      "step": 1900
+    },
+    {
+      "epoch": 5.337078651685394,
+      "eval_loss": 0.549724280834198,
+      "eval_runtime": 51.7411,
+      "eval_samples_per_second": 12.563,
+      "eval_steps_per_second": 1.585,
+      "eval_wer": 0.4656017713110865,
+      "step": 1900
+    },
+    {
+      "epoch": 5.617977528089888,
+      "grad_norm": 14.24419116973877,
+      "learning_rate": 0.0002462665406427221,
+      "loss": 0.5896,
+      "step": 2000
+    },
+    {
+      "epoch": 5.617977528089888,
+      "eval_loss": 0.5444263815879822,
+      "eval_runtime": 51.8052,
+      "eval_samples_per_second": 12.547,
+      "eval_steps_per_second": 1.583,
+      "eval_wer": 0.477937687806421,
+      "step": 2000
+    },
+    {
+      "epoch": 5.898876404494382,
+      "grad_norm": 0.867696225643158,
+      "learning_rate": 0.00024343100189035916,
+      "loss": 0.6438,
+      "step": 2100
+    },
+    {
+      "epoch": 5.898876404494382,
+      "eval_loss": 0.5399273037910461,
+      "eval_runtime": 51.4899,
+      "eval_samples_per_second": 12.624,
+      "eval_steps_per_second": 1.593,
+      "eval_wer": 0.47003004902736045,
+      "step": 2100
+    },
+    {
+      "epoch": 6.179775280898877,
+      "grad_norm": 1.4865626096725464,
+      "learning_rate": 0.0002405954631379962,
+      "loss": 0.6086,
+      "step": 2200
+    },
+    {
+      "epoch": 6.179775280898877,
+      "eval_loss": 0.5520233511924744,
+      "eval_runtime": 51.3367,
+      "eval_samples_per_second": 12.662,
+      "eval_steps_per_second": 1.597,
+      "eval_wer": 0.4597501186145817,
+      "step": 2200
+    },
+    {
+      "epoch": 6.460674157303371,
+      "grad_norm": 1.7858107089996338,
+      "learning_rate": 0.00023775992438563324,
+      "loss": 0.6226,
+      "step": 2300
+    },
+    {
+      "epoch": 6.460674157303371,
+      "eval_loss": 0.5385509133338928,
+      "eval_runtime": 51.8468,
+      "eval_samples_per_second": 12.537,
+      "eval_steps_per_second": 1.582,
+      "eval_wer": 0.4796773683378143,
+      "step": 2300
+    },
+    {
+      "epoch": 6.741573033707866,
+      "grad_norm": 3.9033384323120117,
+      "learning_rate": 0.0002349243856332703,
+      "loss": 0.6148,
+      "step": 2400
+    },
+    {
+      "epoch": 6.741573033707866,
+      "eval_loss": 0.5573983788490295,
+      "eval_runtime": 51.5238,
+      "eval_samples_per_second": 12.616,
+      "eval_steps_per_second": 1.591,
+      "eval_wer": 0.4679740629448047,
+      "step": 2400
+    },
+    {
+      "epoch": 7.022471910112359,
+      "grad_norm": 1.0407049655914307,
+      "learning_rate": 0.00023208884688090737,
+      "loss": 0.5838,
+      "step": 2500
+    },
+    {
+      "epoch": 7.022471910112359,
+      "eval_loss": 0.5497230887413025,
+      "eval_runtime": 51.2462,
+      "eval_samples_per_second": 12.684,
+      "eval_steps_per_second": 1.6,
+      "eval_wer": 0.4638620907796932,
+      "step": 2500
+    },
+    {
+      "epoch": 7.303370786516854,
+      "grad_norm": 0.836614191532135,
+      "learning_rate": 0.00022925330812854442,
+      "loss": 0.5407,
+      "step": 2600
+    },
+    {
+      "epoch": 7.303370786516854,
+      "eval_loss": 0.5377057790756226,
+      "eval_runtime": 51.5353,
+      "eval_samples_per_second": 12.613,
+      "eval_steps_per_second": 1.591,
+      "eval_wer": 0.46307132690178715,
+      "step": 2600
+    },
+    {
+      "epoch": 7.584269662921348,
+      "grad_norm": 2.6512720584869385,
+      "learning_rate": 0.00022641776937618147,
+      "loss": 0.6186,
+      "step": 2700
+    },
+    {
+      "epoch": 7.584269662921348,
+      "eval_loss": 0.5403843522071838,
+      "eval_runtime": 51.536,
+      "eval_samples_per_second": 12.613,
+      "eval_steps_per_second": 1.591,
+      "eval_wer": 0.4714534240075913,
+      "step": 2700
+    },
+    {
+      "epoch": 7.865168539325842,
+      "grad_norm": 2.884155035018921,
+      "learning_rate": 0.0002235822306238185,
+      "loss": 0.5922,
+      "step": 2800
+    },
+    {
+      "epoch": 7.865168539325842,
+      "eval_loss": 0.5381007790565491,
+      "eval_runtime": 51.5402,
+      "eval_samples_per_second": 12.612,
+      "eval_steps_per_second": 1.591,
+      "eval_wer": 0.46085718804365017,
+      "step": 2800
+    },
+    {
+      "epoch": 8.146067415730338,
+      "grad_norm": 1.4212076663970947,
+      "learning_rate": 0.00022074669187145554,
+      "loss": 0.5799,
+      "step": 2900
+    },
+    {
+      "epoch": 8.146067415730338,
+      "eval_loss": 0.5311689376831055,
+      "eval_runtime": 51.4207,
+      "eval_samples_per_second": 12.641,
+      "eval_steps_per_second": 1.595,
+      "eval_wer": 0.46196425747271863,
+      "step": 2900
+    },
+    {
+      "epoch": 8.426966292134832,
+      "grad_norm": 1.6221522092819214,
+      "learning_rate": 0.0002179111531190926,
+      "loss": 0.5914,
+      "step": 3000
+    },
+    {
+      "epoch": 8.426966292134832,
+      "eval_loss": 0.5309441685676575,
+      "eval_runtime": 51.2813,
+      "eval_samples_per_second": 12.675,
+      "eval_steps_per_second": 1.599,
+      "eval_wer": 0.46307132690178715,
+      "step": 3000
+    },
+    {
+      "epoch": 8.707865168539326,
+      "grad_norm": 0.46160590648651123,
+      "learning_rate": 0.00021507561436672967,
+      "loss": 0.6194,
+      "step": 3100
+    },
+    {
+      "epoch": 8.707865168539326,
+      "eval_loss": 0.5316519141197205,
+      "eval_runtime": 51.9102,
+      "eval_samples_per_second": 12.522,
+      "eval_steps_per_second": 1.58,
+      "eval_wer": 0.46781591016922347,
+      "step": 3100
+    },
+    {
+      "epoch": 8.98876404494382,
+      "grad_norm": 0.4698401093482971,
+      "learning_rate": 0.00021224007561436672,
+      "loss": 0.5851,
+      "step": 3200
+    },
+    {
+      "epoch": 8.98876404494382,
+      "eval_loss": 0.5388666987419128,
+      "eval_runtime": 51.8653,
+      "eval_samples_per_second": 12.532,
+      "eval_steps_per_second": 1.581,
+      "eval_wer": 0.4575359797564447,
+      "step": 3200
+    },
+    {
+      "epoch": 9.269662921348315,
+      "grad_norm": 2.0234947204589844,
+      "learning_rate": 0.00020940453686200375,
+      "loss": 0.5764,
+      "step": 3300
+    },
+    {
+      "epoch": 9.269662921348315,
+      "eval_loss": 0.5578745603561401,
+      "eval_runtime": 51.3849,
+      "eval_samples_per_second": 12.65,
+      "eval_steps_per_second": 1.596,
+      "eval_wer": 0.45500553534714533,
+      "step": 3300
+    },
+    {
+      "epoch": 9.269662921348315,
+      "step": 3300,
+      "total_flos": 1.8863577270010868e+19,
+      "train_loss": 0.8547844314575195,
+      "train_runtime": 5284.1307,
+      "train_samples_per_second": 16.152,
+      "train_steps_per_second": 2.021
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 10680,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8863577270010868e+19,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}