|
--- |
|
license: apache-2.0 |
|
language: |
|
- da |
|
--- |
|
# Hviske |
|
Er en dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. |
|
|
|
## Datasæt |
|
Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle aldersgrupper og nogenlunde ligeligt fordelt på regioner samt køn. |
|
|
|
## Evaluering |
|
Modellen opnår en WER (word error rate) på 5.8, hvilket så vidt jeg ved den bedste hidtil. |
|
|
|
Optælling af fejl: WER beregnes baseret på tre typer af fejl: |
|
- Substitutioner: Når ASR-modellen genkender et andet ord end det, der faktisk blev sagt. |
|
- Indsættelser: Når ASR-modellen tilføjer ekstra ord, der ikke blev sagt. |
|
- Sletninger: Når ASR-modellen undlader eller udelader ord, der blev sagt. |
|
|
|
|
|
Fortolkning: |
|
En WER på 0% betyder perfekt genkendelse, uden fejl. |
|
En højere WER indikerer dårligere præstation af ASR-systemet. |
|
WER udtrykkes som en procentdel og bruges ofte til at sammenligne effektiviteten af forskellige ASR-modeller eller -systemer. |
|
Begrænsninger: Selvom WER er en standard og bredt anvendt måleenhed, har den begrænsninger: |
|
|
|
Den tager ikke højde for semantisk betydning; forskellige fejl kan have varierende indflydelse på forståelsen af indholdet. |
|
Den behandler alle fejl ens, uanset deres indvirkning på meningen med sætningen. |
|
Den kan blive påvirket af længden og kompleksiteten af den refererede tekst. |
|
|
|
|