End of training

Browse files

Files changed (7) hide show

README.md +6 -3
adapter.toi.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Jan03_16-49-18_srvrocgpu011.uct.ac.za/events.out.tfevents.1735918718.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +563 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-toigen-female-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2204
-- Wer: 0.3517
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- toigen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-toigen-female-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the TOIGEN - TOI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2197
+- Wer: 0.3590
 ## Model description

adapter.toi.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e48b9fcaee211f79f6dfbb277bc1ee7f8f02676275be767c27220679dc7c94bd
+size 8793408

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 12.85140562248996,
+    "eval_loss": 0.21970169246196747,
+    "eval_runtime": 18.2362,
+    "eval_samples": 219,
+    "eval_samples_per_second": 12.009,
+    "eval_steps_per_second": 3.016,
+    "eval_wer": 0.358953722334004,
+    "total_flos": 1.020661828684297e+19,
+    "train_loss": 0.5673185133934021,
+    "train_runtime": 2727.6394,
+    "train_samples": 993,
+    "train_samples_per_second": 10.922,
+    "train_steps_per_second": 2.739
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.85140562248996,
+    "eval_loss": 0.21970169246196747,
+    "eval_runtime": 18.2362,
+    "eval_samples": 219,
+    "eval_samples_per_second": 12.009,
+    "eval_steps_per_second": 3.016,
+    "eval_wer": 0.358953722334004
+}

runs/Jan03_16-49-18_srvrocgpu011.uct.ac.za/events.out.tfevents.1735918718.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d9b2d7deec0041db238923ef501a57c8465cc501436040f2e7e6a4f992a2fcc
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 12.85140562248996,
+    "total_flos": 1.020661828684297e+19,
+    "train_loss": 0.5673185133934021,
+    "train_runtime": 2727.6394,
+    "train_samples": 993,
+    "train_samples_per_second": 10.922,
+    "train_steps_per_second": 2.739
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,563 @@

+{
+  "best_metric": 0.21969997882843018,
+  "best_model_checkpoint": "/scratch/skscla001/speech/results/mms-1b-toigen-female-model/checkpoint-2800",
+  "epoch": 12.85140562248996,
+  "eval_steps": 100,
+  "global_step": 3200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.40160642570281124,
+      "grad_norm": 3.196812391281128,
+      "learning_rate": 0.000285,
+      "loss": 6.8474,
+      "step": 100
+    },
+    {
+      "epoch": 0.40160642570281124,
+      "eval_loss": 3.63849139213562,
+      "eval_runtime": 18.3421,
+      "eval_samples_per_second": 11.94,
+      "eval_steps_per_second": 2.999,
+      "eval_wer": 0.9951710261569416,
+      "step": 100
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "grad_norm": 2.898397922515869,
+      "learning_rate": 0.0002961329715061058,
+      "loss": 2.2373,
+      "step": 200
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "eval_loss": 0.5180636644363403,
+      "eval_runtime": 18.2272,
+      "eval_samples_per_second": 12.015,
+      "eval_steps_per_second": 3.017,
+      "eval_wer": 0.6289738430583501,
+      "step": 200
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "grad_norm": 2.2569992542266846,
+      "learning_rate": 0.0002920624151967435,
+      "loss": 0.6093,
+      "step": 300
+    },
+    {
+      "epoch": 1.2048192771084336,
+      "eval_loss": 0.3648887276649475,
+      "eval_runtime": 18.2582,
+      "eval_samples_per_second": 11.995,
+      "eval_steps_per_second": 3.012,
+      "eval_wer": 0.5187122736418511,
+      "step": 300
+    },
+    {
+      "epoch": 1.606425702811245,
+      "grad_norm": 6.299871921539307,
+      "learning_rate": 0.0002879918588873813,
+      "loss": 0.4813,
+      "step": 400
+    },
+    {
+      "epoch": 1.606425702811245,
+      "eval_loss": 0.3151092231273651,
+      "eval_runtime": 18.1073,
+      "eval_samples_per_second": 12.095,
+      "eval_steps_per_second": 3.037,
+      "eval_wer": 0.4909456740442656,
+      "step": 400
+    },
+    {
+      "epoch": 2.0080321285140563,
+      "grad_norm": 1.1055076122283936,
+      "learning_rate": 0.000283921302578019,
+      "loss": 0.3843,
+      "step": 500
+    },
+    {
+      "epoch": 2.0080321285140563,
+      "eval_loss": 0.299377977848053,
+      "eval_runtime": 18.2782,
+      "eval_samples_per_second": 11.981,
+      "eval_steps_per_second": 3.009,
+      "eval_wer": 0.4567404426559356,
+      "step": 500
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "grad_norm": 0.7269560098648071,
+      "learning_rate": 0.0002798507462686567,
+      "loss": 0.3805,
+      "step": 600
+    },
+    {
+      "epoch": 2.4096385542168672,
+      "eval_loss": 0.2818037271499634,
+      "eval_runtime": 18.2144,
+      "eval_samples_per_second": 12.023,
+      "eval_steps_per_second": 3.02,
+      "eval_wer": 0.4422535211267606,
+      "step": 600
+    },
+    {
+      "epoch": 2.8112449799196786,
+      "grad_norm": 0.9139028191566467,
+      "learning_rate": 0.0002757801899592944,
+      "loss": 0.3591,
+      "step": 700
+    },
+    {
+      "epoch": 2.8112449799196786,
+      "eval_loss": 0.2810930609703064,
+      "eval_runtime": 18.2024,
+      "eval_samples_per_second": 12.031,
+      "eval_steps_per_second": 3.022,
+      "eval_wer": 0.4402414486921529,
+      "step": 700
+    },
+    {
+      "epoch": 3.21285140562249,
+      "grad_norm": 1.1874170303344727,
+      "learning_rate": 0.00027170963364993214,
+      "loss": 0.3164,
+      "step": 800
+    },
+    {
+      "epoch": 3.21285140562249,
+      "eval_loss": 0.26876774430274963,
+      "eval_runtime": 18.1602,
+      "eval_samples_per_second": 12.059,
+      "eval_steps_per_second": 3.029,
+      "eval_wer": 0.4104627766599598,
+      "step": 800
+    },
+    {
+      "epoch": 3.6144578313253013,
+      "grad_norm": 1.2351394891738892,
+      "learning_rate": 0.00026763907734056984,
+      "loss": 0.3351,
+      "step": 900
+    },
+    {
+      "epoch": 3.6144578313253013,
+      "eval_loss": 0.2569175362586975,
+      "eval_runtime": 18.988,
+      "eval_samples_per_second": 11.534,
+      "eval_steps_per_second": 2.897,
+      "eval_wer": 0.40603621730382294,
+      "step": 900
+    },
+    {
+      "epoch": 4.016064257028113,
+      "grad_norm": 1.2486017942428589,
+      "learning_rate": 0.0002635685210312076,
+      "loss": 0.3442,
+      "step": 1000
+    },
+    {
+      "epoch": 4.016064257028113,
+      "eval_loss": 0.26386773586273193,
+      "eval_runtime": 18.2707,
+      "eval_samples_per_second": 11.986,
+      "eval_steps_per_second": 3.01,
+      "eval_wer": 0.4,
+      "step": 1000
+    },
+    {
+      "epoch": 4.417670682730924,
+      "grad_norm": 0.8581802845001221,
+      "learning_rate": 0.0002594979647218453,
+      "loss": 0.2996,
+      "step": 1100
+    },
+    {
+      "epoch": 4.417670682730924,
+      "eval_loss": 0.2581425905227661,
+      "eval_runtime": 18.2961,
+      "eval_samples_per_second": 11.97,
+      "eval_steps_per_second": 3.006,
+      "eval_wer": 0.4084507042253521,
+      "step": 1100
+    },
+    {
+      "epoch": 4.8192771084337345,
+      "grad_norm": 0.9432417750358582,
+      "learning_rate": 0.000255427408412483,
+      "loss": 0.3196,
+      "step": 1200
+    },
+    {
+      "epoch": 4.8192771084337345,
+      "eval_loss": 0.2443518042564392,
+      "eval_runtime": 18.444,
+      "eval_samples_per_second": 11.874,
+      "eval_steps_per_second": 2.982,
+      "eval_wer": 0.386317907444668,
+      "step": 1200
+    },
+    {
+      "epoch": 5.220883534136546,
+      "grad_norm": 2.045851230621338,
+      "learning_rate": 0.00025135685210312075,
+      "loss": 0.3147,
+      "step": 1300
+    },
+    {
+      "epoch": 5.220883534136546,
+      "eval_loss": 0.2449689507484436,
+      "eval_runtime": 18.3447,
+      "eval_samples_per_second": 11.938,
+      "eval_steps_per_second": 2.998,
+      "eval_wer": 0.386317907444668,
+      "step": 1300
+    },
+    {
+      "epoch": 5.622489959839357,
+      "grad_norm": 0.7233336567878723,
+      "learning_rate": 0.00024728629579375845,
+      "loss": 0.2936,
+      "step": 1400
+    },
+    {
+      "epoch": 5.622489959839357,
+      "eval_loss": 0.24141426384449005,
+      "eval_runtime": 18.3461,
+      "eval_samples_per_second": 11.937,
+      "eval_steps_per_second": 2.998,
+      "eval_wer": 0.38551307847082494,
+      "step": 1400
+    },
+    {
+      "epoch": 6.024096385542169,
+      "grad_norm": 1.2751613855361938,
+      "learning_rate": 0.00024321573948439618,
+      "loss": 0.2894,
+      "step": 1500
+    },
+    {
+      "epoch": 6.024096385542169,
+      "eval_loss": 0.23630352318286896,
+      "eval_runtime": 18.2602,
+      "eval_samples_per_second": 11.993,
+      "eval_steps_per_second": 3.012,
+      "eval_wer": 0.3722334004024145,
+      "step": 1500
+    },
+    {
+      "epoch": 6.42570281124498,
+      "grad_norm": 0.9754641056060791,
+      "learning_rate": 0.00023914518317503389,
+      "loss": 0.2772,
+      "step": 1600
+    },
+    {
+      "epoch": 6.42570281124498,
+      "eval_loss": 0.24517948925495148,
+      "eval_runtime": 18.2481,
+      "eval_samples_per_second": 12.001,
+      "eval_steps_per_second": 3.014,
+      "eval_wer": 0.3843058350100604,
+      "step": 1600
+    },
+    {
+      "epoch": 6.827309236947791,
+      "grad_norm": 5.323614120483398,
+      "learning_rate": 0.00023507462686567164,
+      "loss": 0.2565,
+      "step": 1700
+    },
+    {
+      "epoch": 6.827309236947791,
+      "eval_loss": 0.23570258915424347,
+      "eval_runtime": 18.3512,
+      "eval_samples_per_second": 11.934,
+      "eval_steps_per_second": 2.997,
+      "eval_wer": 0.3758551307847082,
+      "step": 1700
+    },
+    {
+      "epoch": 7.228915662650603,
+      "grad_norm": 1.3097056150436401,
+      "learning_rate": 0.00023100407055630934,
+      "loss": 0.3033,
+      "step": 1800
+    },
+    {
+      "epoch": 7.228915662650603,
+      "eval_loss": 0.23575641214847565,
+      "eval_runtime": 18.2935,
+      "eval_samples_per_second": 11.971,
+      "eval_steps_per_second": 3.007,
+      "eval_wer": 0.378672032193159,
+      "step": 1800
+    },
+    {
+      "epoch": 7.6305220883534135,
+      "grad_norm": 0.949272871017456,
+      "learning_rate": 0.00022693351424694707,
+      "loss": 0.2651,
+      "step": 1900
+    },
+    {
+      "epoch": 7.6305220883534135,
+      "eval_loss": 0.23492006957530975,
+      "eval_runtime": 18.1407,
+      "eval_samples_per_second": 12.072,
+      "eval_steps_per_second": 3.032,
+      "eval_wer": 0.36338028169014086,
+      "step": 1900
+    },
+    {
+      "epoch": 8.032128514056225,
+      "grad_norm": 0.6142582893371582,
+      "learning_rate": 0.00022286295793758477,
+      "loss": 0.2912,
+      "step": 2000
+    },
+    {
+      "epoch": 8.032128514056225,
+      "eval_loss": 0.23053765296936035,
+      "eval_runtime": 18.1517,
+      "eval_samples_per_second": 12.065,
+      "eval_steps_per_second": 3.03,
+      "eval_wer": 0.36579476861167004,
+      "step": 2000
+    },
+    {
+      "epoch": 8.433734939759036,
+      "grad_norm": 0.8553833365440369,
+      "learning_rate": 0.0002187924016282225,
+      "loss": 0.2554,
+      "step": 2100
+    },
+    {
+      "epoch": 8.433734939759036,
+      "eval_loss": 0.23033367097377777,
+      "eval_runtime": 18.3056,
+      "eval_samples_per_second": 11.964,
+      "eval_steps_per_second": 3.005,
+      "eval_wer": 0.36780684104627764,
+      "step": 2100
+    },
+    {
+      "epoch": 8.835341365461847,
+      "grad_norm": 0.753628134727478,
+      "learning_rate": 0.00021472184531886023,
+      "loss": 0.2535,
+      "step": 2200
+    },
+    {
+      "epoch": 8.835341365461847,
+      "eval_loss": 0.22692957520484924,
+      "eval_runtime": 18.3168,
+      "eval_samples_per_second": 11.956,
+      "eval_steps_per_second": 3.003,
+      "eval_wer": 0.3553319919517103,
+      "step": 2200
+    },
+    {
+      "epoch": 9.236947791164658,
+      "grad_norm": 1.5686020851135254,
+      "learning_rate": 0.00021065128900949793,
+      "loss": 0.2368,
+      "step": 2300
+    },
+    {
+      "epoch": 9.236947791164658,
+      "eval_loss": 0.22882795333862305,
+      "eval_runtime": 18.1737,
+      "eval_samples_per_second": 12.05,
+      "eval_steps_per_second": 3.026,
+      "eval_wer": 0.3609657947686117,
+      "step": 2300
+    },
+    {
+      "epoch": 9.638554216867469,
+      "grad_norm": 3.3497209548950195,
+      "learning_rate": 0.0002065807327001357,
+      "loss": 0.2491,
+      "step": 2400
+    },
+    {
+      "epoch": 9.638554216867469,
+      "eval_loss": 0.22438912093639374,
+      "eval_runtime": 18.155,
+      "eval_samples_per_second": 12.063,
+      "eval_steps_per_second": 3.029,
+      "eval_wer": 0.36861167002012074,
+      "step": 2400
+    },
+    {
+      "epoch": 10.040160642570282,
+      "grad_norm": 0.8699430823326111,
+      "learning_rate": 0.0002025101763907734,
+      "loss": 0.2678,
+      "step": 2500
+    },
+    {
+      "epoch": 10.040160642570282,
+      "eval_loss": 0.22885793447494507,
+      "eval_runtime": 18.3016,
+      "eval_samples_per_second": 11.966,
+      "eval_steps_per_second": 3.005,
+      "eval_wer": 0.3561368209255533,
+      "step": 2500
+    },
+    {
+      "epoch": 10.441767068273093,
+      "grad_norm": 1.7827962636947632,
+      "learning_rate": 0.00019843962008141112,
+      "loss": 0.2247,
+      "step": 2600
+    },
+    {
+      "epoch": 10.441767068273093,
+      "eval_loss": 0.22344833612442017,
+      "eval_runtime": 18.3786,
+      "eval_samples_per_second": 11.916,
+      "eval_steps_per_second": 2.993,
+      "eval_wer": 0.3613682092555332,
+      "step": 2600
+    },
+    {
+      "epoch": 10.843373493975903,
+      "grad_norm": 0.6483604907989502,
+      "learning_rate": 0.00019436906377204882,
+      "loss": 0.2773,
+      "step": 2700
+    },
+    {
+      "epoch": 10.843373493975903,
+      "eval_loss": 0.224824920296669,
+      "eval_runtime": 18.2411,
+      "eval_samples_per_second": 12.006,
+      "eval_steps_per_second": 3.015,
+      "eval_wer": 0.35412474849094566,
+      "step": 2700
+    },
+    {
+      "epoch": 11.244979919678714,
+      "grad_norm": 0.5516765713691711,
+      "learning_rate": 0.00019029850746268658,
+      "loss": 0.2162,
+      "step": 2800
+    },
+    {
+      "epoch": 11.244979919678714,
+      "eval_loss": 0.21969997882843018,
+      "eval_runtime": 18.2418,
+      "eval_samples_per_second": 12.005,
+      "eval_steps_per_second": 3.015,
+      "eval_wer": 0.358953722334004,
+      "step": 2800
+    },
+    {
+      "epoch": 11.646586345381525,
+      "grad_norm": 0.925298273563385,
+      "learning_rate": 0.00018622795115332428,
+      "loss": 0.2526,
+      "step": 2900
+    },
+    {
+      "epoch": 11.646586345381525,
+      "eval_loss": 0.22084331512451172,
+      "eval_runtime": 18.3085,
+      "eval_samples_per_second": 11.962,
+      "eval_steps_per_second": 3.004,
+      "eval_wer": 0.352112676056338,
+      "step": 2900
+    },
+    {
+      "epoch": 12.048192771084338,
+      "grad_norm": 0.8293038606643677,
+      "learning_rate": 0.00018215739484396198,
+      "loss": 0.2521,
+      "step": 3000
+    },
+    {
+      "epoch": 12.048192771084338,
+      "eval_loss": 0.22298946976661682,
+      "eval_runtime": 18.3594,
+      "eval_samples_per_second": 11.928,
+      "eval_steps_per_second": 2.996,
+      "eval_wer": 0.3702213279678068,
+      "step": 3000
+    },
+    {
+      "epoch": 12.449799196787149,
+      "grad_norm": 1.355546474456787,
+      "learning_rate": 0.0001780868385345997,
+      "loss": 0.2218,
+      "step": 3100
+    },
+    {
+      "epoch": 12.449799196787149,
+      "eval_loss": 0.22078920900821686,
+      "eval_runtime": 18.3015,
+      "eval_samples_per_second": 11.966,
+      "eval_steps_per_second": 3.005,
+      "eval_wer": 0.3529175050301811,
+      "step": 3100
+    },
+    {
+      "epoch": 12.85140562248996,
+      "grad_norm": 3.3555612564086914,
+      "learning_rate": 0.0001740162822252374,
+      "loss": 0.2419,
+      "step": 3200
+    },
+    {
+      "epoch": 12.85140562248996,
+      "eval_loss": 0.2204364389181137,
+      "eval_runtime": 18.3584,
+      "eval_samples_per_second": 11.929,
+      "eval_steps_per_second": 2.996,
+      "eval_wer": 0.3517102615694165,
+      "step": 3200
+    },
+    {
+      "epoch": 12.85140562248996,
+      "step": 3200,
+      "total_flos": 1.020661828684297e+19,
+      "train_loss": 0.5673185133934021,
+      "train_runtime": 2727.6394,
+      "train_samples_per_second": 10.922,
+      "train_steps_per_second": 2.739
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 7470,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 4,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 4
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.020661828684297e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}