End of training

Browse files

Files changed (7) hide show

README.md +5 -2
adapter.bem.safetensors +3 -0
all_results.json +15 -0
eval_results.json +9 -0
runs/Dec29_05-04-54_srvrocgpu011.uct.ac.za/events.out.tfevents.1735447008.srvrocgpu011.uct.ac.za +3 -0
train_results.json +9 -0
trainer_state.json +442 -0

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -16,10 +19,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mms-1b-bigcgen-combined-25hrs-model
-This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
-- Wer: 0.5155
 ## Model description

 license: cc-by-nc-4.0
 base_model: facebook/mms-1b-all
 tags:
+- automatic-speech-recognition
+- bigcgen
+- mms
 - generated_from_trainer
 metrics:
 - wer
 # mms-1b-bigcgen-combined-25hrs-model
+This model is a fine-tuned version of [facebook/mms-1b-all](https://huggingface.co/facebook/mms-1b-all) on the BIGCGEN - BEM dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
+- Wer: 0.5156
 ## Model description

adapter.bem.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de3dca9d283b01fe31b024a0e5654f3cc43c0260af78e3dcee09136d0b7673e2
+size 8793408

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.5271838729383018,
+    "eval_loss": Infinity,
+    "eval_runtime": 62.8515,
+    "eval_samples": 916,
+    "eval_samples_per_second": 14.574,
+    "eval_steps_per_second": 3.644,
+    "eval_wer": 0.5156468939747781,
+    "total_flos": 1.2858032865257505e+19,
+    "train_loss": 2.409264056396484,
+    "train_runtime": 4973.4846,
+    "train_samples": 13096,
+    "train_samples_per_second": 4.021,
+    "train_steps_per_second": 0.503
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.5271838729383018,
+    "eval_loss": Infinity,
+    "eval_runtime": 62.8515,
+    "eval_samples": 916,
+    "eval_samples_per_second": 14.574,
+    "eval_steps_per_second": 3.644,
+    "eval_wer": 0.5156468939747781
+}

runs/Dec29_05-04-54_srvrocgpu011.uct.ac.za/events.out.tfevents.1735447008.srvrocgpu011.uct.ac.za ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b49d3940116a372817c479989b98c14270bb3c9d0600e89c1f2e3e03172a72b
+size 40

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.5271838729383018,
+    "total_flos": 1.2858032865257505e+19,
+    "train_loss": 2.409264056396484,
+    "train_runtime": 4973.4846,
+    "train_samples": 13096,
+    "train_samples_per_second": 4.021,
+    "train_steps_per_second": 0.503
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "best_metric": Infinity,
+  "best_model_checkpoint": null,
+  "epoch": 1.5271838729383018,
+  "eval_steps": 100,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06108735491753207,
+      "grad_norm": 5.72606897354126,
+      "learning_rate": 0.000285,
+      "loss": 14.5485,
+      "step": 100
+    },
+    {
+      "epoch": 0.06108735491753207,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2459,
+      "eval_samples_per_second": 14.483,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 1.0038533395609528,
+      "step": 100
+    },
+    {
+      "epoch": 0.12217470983506414,
+      "grad_norm": 4.610683441162109,
+      "learning_rate": 0.00028812499999999997,
+      "loss": 6.1502,
+      "step": 200
+    },
+    {
+      "epoch": 0.12217470983506414,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.1126,
+      "eval_samples_per_second": 14.514,
+      "eval_steps_per_second": 3.628,
+      "eval_wer": 1.0674918262494162,
+      "step": 200
+    },
+    {
+      "epoch": 0.1832620647525962,
+      "grad_norm": 6.0751118659973145,
+      "learning_rate": 0.00027562499999999994,
+      "loss": 5.1685,
+      "step": 300
+    },
+    {
+      "epoch": 0.1832620647525962,
+      "eval_loss": Infinity,
+      "eval_runtime": 62.7627,
+      "eval_samples_per_second": 14.595,
+      "eval_steps_per_second": 3.649,
+      "eval_wer": 1.005254553946754,
+      "step": 300
+    },
+    {
+      "epoch": 0.24434941967012827,
+      "grad_norm": 6.21919059753418,
+      "learning_rate": 0.00026312499999999996,
+      "loss": 2.0876,
+      "step": 400
+    },
+    {
+      "epoch": 0.24434941967012827,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.0153,
+      "eval_samples_per_second": 14.536,
+      "eval_steps_per_second": 3.634,
+      "eval_wer": 0.5857076132648296,
+      "step": 400
+    },
+    {
+      "epoch": 0.30543677458766033,
+      "grad_norm": 3.409900188446045,
+      "learning_rate": 0.000250625,
+      "loss": 1.7116,
+      "step": 500
+    },
+    {
+      "epoch": 0.30543677458766033,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.3982,
+      "eval_samples_per_second": 14.448,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.5758991125642223,
+      "step": 500
+    },
+    {
+      "epoch": 0.3665241295051924,
+      "grad_norm": 5.974458694458008,
+      "learning_rate": 0.00023812499999999997,
+      "loss": 1.6505,
+      "step": 600
+    },
+    {
+      "epoch": 0.3665241295051924,
+      "eval_loss": Infinity,
+      "eval_runtime": 62.8299,
+      "eval_samples_per_second": 14.579,
+      "eval_steps_per_second": 3.645,
+      "eval_wer": 0.5579168612797758,
+      "step": 600
+    },
+    {
+      "epoch": 0.4276114844227245,
+      "grad_norm": 4.58453369140625,
+      "learning_rate": 0.00022562499999999997,
+      "loss": 1.6573,
+      "step": 700
+    },
+    {
+      "epoch": 0.4276114844227245,
+      "eval_loss": Infinity,
+      "eval_runtime": 62.8462,
+      "eval_samples_per_second": 14.575,
+      "eval_steps_per_second": 3.644,
+      "eval_wer": 0.5470574497898179,
+      "step": 700
+    },
+    {
+      "epoch": 0.48869883934025654,
+      "grad_norm": 3.033734083175659,
+      "learning_rate": 0.000213125,
+      "loss": 1.4679,
+      "step": 800
+    },
+    {
+      "epoch": 0.48869883934025654,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.0713,
+      "eval_samples_per_second": 14.523,
+      "eval_steps_per_second": 3.631,
+      "eval_wer": 0.5527790751985053,
+      "step": 800
+    },
+    {
+      "epoch": 0.5497861942577886,
+      "grad_norm": 4.104335308074951,
+      "learning_rate": 0.00020062499999999996,
+      "loss": 1.4955,
+      "step": 900
+    },
+    {
+      "epoch": 0.5497861942577886,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.3962,
+      "eval_samples_per_second": 14.449,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.5368986454927603,
+      "step": 900
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "grad_norm": 22.828868865966797,
+      "learning_rate": 0.00018812499999999998,
+      "loss": 1.664,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6108735491753207,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.1315,
+      "eval_samples_per_second": 14.509,
+      "eval_steps_per_second": 3.627,
+      "eval_wer": 0.5328117702008407,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6719609040928528,
+      "grad_norm": 3.1733903884887695,
+      "learning_rate": 0.000175625,
+      "loss": 1.61,
+      "step": 1100
+    },
+    {
+      "epoch": 0.6719609040928528,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2714,
+      "eval_samples_per_second": 14.477,
+      "eval_steps_per_second": 3.619,
+      "eval_wer": 0.5335123773937412,
+      "step": 1100
+    },
+    {
+      "epoch": 0.7330482590103848,
+      "grad_norm": 4.8088698387146,
+      "learning_rate": 0.00016312499999999997,
+      "loss": 1.6414,
+      "step": 1200
+    },
+    {
+      "epoch": 0.7330482590103848,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.0546,
+      "eval_samples_per_second": 14.527,
+      "eval_steps_per_second": 3.632,
+      "eval_wer": 0.5293087342363382,
+      "step": 1200
+    },
+    {
+      "epoch": 0.7941356139279169,
+      "grad_norm": 3.214020252227783,
+      "learning_rate": 0.000150625,
+      "loss": 1.6321,
+      "step": 1300
+    },
+    {
+      "epoch": 0.7941356139279169,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.7075,
+      "eval_samples_per_second": 14.378,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.5270901447921532,
+      "step": 1300
+    },
+    {
+      "epoch": 0.855222968845449,
+      "grad_norm": 4.21952486038208,
+      "learning_rate": 0.00013812499999999998,
+      "loss": 1.4686,
+      "step": 1400
+    },
+    {
+      "epoch": 0.855222968845449,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2487,
+      "eval_samples_per_second": 14.483,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 0.5296590378327884,
+      "step": 1400
+    },
+    {
+      "epoch": 0.916310323762981,
+      "grad_norm": 15.665727615356445,
+      "learning_rate": 0.000125625,
+      "loss": 1.5073,
+      "step": 1500
+    },
+    {
+      "epoch": 0.916310323762981,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2373,
+      "eval_samples_per_second": 14.485,
+      "eval_steps_per_second": 3.621,
+      "eval_wer": 0.5325782344698738,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9773976786805131,
+      "grad_norm": 5.875314712524414,
+      "learning_rate": 0.00011312499999999999,
+      "loss": 1.6164,
+      "step": 1600
+    },
+    {
+      "epoch": 0.9773976786805131,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2705,
+      "eval_samples_per_second": 14.478,
+      "eval_steps_per_second": 3.619,
+      "eval_wer": 0.5234703409621672,
+      "step": 1600
+    },
+    {
+      "epoch": 1.0384850335980451,
+      "grad_norm": 3.3934853076934814,
+      "learning_rate": 0.00010062499999999998,
+      "loss": 1.577,
+      "step": 1700
+    },
+    {
+      "epoch": 1.0384850335980451,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.8167,
+      "eval_samples_per_second": 14.354,
+      "eval_steps_per_second": 3.588,
+      "eval_wer": 0.5238206445586174,
+      "step": 1700
+    },
+    {
+      "epoch": 1.0995723885155773,
+      "grad_norm": 1.4915640354156494,
+      "learning_rate": 8.8125e-05,
+      "loss": 1.383,
+      "step": 1800
+    },
+    {
+      "epoch": 1.0995723885155773,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.3959,
+      "eval_samples_per_second": 14.449,
+      "eval_steps_per_second": 3.612,
+      "eval_wer": 0.5217188229799159,
+      "step": 1800
+    },
+    {
+      "epoch": 1.1606597434331094,
+      "grad_norm": 2.607821464538574,
+      "learning_rate": 7.5625e-05,
+      "loss": 1.4391,
+      "step": 1900
+    },
+    {
+      "epoch": 1.1606597434331094,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.2533,
+      "eval_samples_per_second": 14.481,
+      "eval_steps_per_second": 3.62,
+      "eval_wer": 0.5291919663708547,
+      "step": 1900
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "grad_norm": 2.207900285720825,
+      "learning_rate": 6.312499999999999e-05,
+      "loss": 1.5327,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2217470983506413,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.6941,
+      "eval_samples_per_second": 14.381,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.5254553946753854,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2828344532681735,
+      "grad_norm": 1.4653774499893188,
+      "learning_rate": 5.0625e-05,
+      "loss": 1.3653,
+      "step": 2100
+    },
+    {
+      "epoch": 1.2828344532681735,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.8557,
+      "eval_samples_per_second": 14.345,
+      "eval_steps_per_second": 3.586,
+      "eval_wer": 0.5195002335357309,
+      "step": 2100
+    },
+    {
+      "epoch": 1.3439218081857056,
+      "grad_norm": 2.36387038230896,
+      "learning_rate": 3.812499999999999e-05,
+      "loss": 1.4901,
+      "step": 2200
+    },
+    {
+      "epoch": 1.3439218081857056,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.4906,
+      "eval_samples_per_second": 14.427,
+      "eval_steps_per_second": 3.607,
+      "eval_wer": 0.5186828584773471,
+      "step": 2200
+    },
+    {
+      "epoch": 1.4050091631032378,
+      "grad_norm": 12.051000595092773,
+      "learning_rate": 2.5625e-05,
+      "loss": 1.4263,
+      "step": 2300
+    },
+    {
+      "epoch": 1.4050091631032378,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.7851,
+      "eval_samples_per_second": 14.361,
+      "eval_steps_per_second": 3.59,
+      "eval_wer": 0.5169313404950957,
+      "step": 2300
+    },
+    {
+      "epoch": 1.4660965180207697,
+      "grad_norm": 7.876661777496338,
+      "learning_rate": 1.3124999999999999e-05,
+      "loss": 1.4603,
+      "step": 2400
+    },
+    {
+      "epoch": 1.4660965180207697,
+      "eval_loss": Infinity,
+      "eval_runtime": 63.6972,
+      "eval_samples_per_second": 14.381,
+      "eval_steps_per_second": 3.595,
+      "eval_wer": 0.5178654834189631,
+      "step": 2400
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "grad_norm": 3.0910115242004395,
+      "learning_rate": 6.249999999999999e-07,
+      "loss": 1.4802,
+      "step": 2500
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "eval_loss": Infinity,
+      "eval_runtime": 64.3534,
+      "eval_samples_per_second": 14.234,
+      "eval_steps_per_second": 3.558,
+      "eval_wer": 0.5155301261092947,
+      "step": 2500
+    },
+    {
+      "epoch": 1.5271838729383018,
+      "step": 2500,
+      "total_flos": 1.2858032865257505e+19,
+      "train_loss": 2.409264056396484,
+      "train_runtime": 4973.4846,
+      "train_samples_per_second": 4.021,
+      "train_steps_per_second": 0.503
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 400,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2858032865257505e+19,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}