File size: 3,398 Bytes
d7159f4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
---
license: apache-2.0
language:
- it
- en
metrics:
- wer
pipeline_tag: automatic-speech-recognition
tags:
- audio
- automatic-speech-recognition
- hf-asr-leaderboard
library_name: ctranslate2
---

# Litus whisper-small-ita for CTranslate2

La repo contiene la conversione di [litus-ai/whisper-small-ita](https://huggingface.co/litus-ai/whisper-small-ita/) al formato di [CTranslate2](https://github.com/OpenNMT/CTranslate2).

Questo modello può essere usato su CTranslate2 o su progetti affini tipo:[faster-whisper](https://github.com/systran/faster-whisper).

# Descrizione del Modello
Questo modello è una versione di [openai/whisper-small](https://huggingface.co/openai/whisper-small) ottimizzata per la lingua italiana, addestrata utilizzando una parte dei dati proprietari di [Litus AI](https://litus.ai/it/). 
`litus-ai/whisper-small-ita` rappresenta un ottimo compromesso value/cost ed è ottimale per contesti in cui il budget computazionale è limitato, 
ma è comunque necessaria una trascrizione accurata del parlato.

# Particolarità del Modello
La peculiarità principale del modello è l'integrazione di token speciali che arricchiscono la trascrizione con meta-informazioni:

- Elementi paralinguistici: `[LAUGH]`, `[MHMH]`, `[SIGH]`, `[UHM]`
- Qualità audio: `[NOISE]`, `[UNINT]` (non intelligibile)
- Caratteristiche del parlato: `[AUTOCOR]` (autocorrezioni), `[L-EN]` (code-switching inglese)

Questi token consentono una trascrizione più ricca che cattura non solo il contenuto verbale ma anche elementi contestuali rilevanti.

# Evaluation
Nel seguente grafico puoi trovare l'Accuracy di `openai/whisper-small`, `openai/whisper-medium`, `litus-ai/whisper-small-ita` e il modello proprietario di Litus AI, `litus-proprietary`, 
su benchmark proprietari per meeting e chiamate vocali in lingua italiana.

<div style="width: auto; margin-left: auto; margin-right: auto">
<img src="https://huggingface.co/litus-ai/whisper-small-ita/resolve/main/Models%20Accuracy.png" alt="Litus AI eval">
</div>
<hr style="margin-top: 1.0em; margin-bottom: 1.0em;">
<!-- header end -->

# Come usare il modello
Puoi utlizzare devilteo911/whisper-small-ita-ct2 tramite faster-whisper:

```python
from faster_whisper import WhisperModel

model = WhisperModel("devilteo911/whisper-small-ita-ct2")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

```

## Dettagli sulla conversione

Il modello originale è stato convertito usando questo comando:

```
ct2-transformers-converter --model litus-ai/whisper-small-ita --output_dir whisper-small-ita-ct2 \
--copy_files tokenizer_config.json preprocessor_config.json vocab.json normalizer.json merges.txt \
added_tokens.json generation_config.json special_tokens_map.json  --quantization float16
```

Nota che i pesi del modello sono salvati in FP16. Questo tipo può essere cambiato al momento del caricamento del modello usando il parametro [`compute_type` option in CTranslate2](https://opennmt.net/CTranslate2/quantization.html).

# Conclusions
Per qualsiasi informazione sull'architettura sui dati utilizzati per il pretraining e l'intended use ti preghiamo di 
rivolgerti al [Paper](https://arxiv.org/abs/2212.04356), la [Model Card](https://huggingface.co/openai/whisper-small) e la [Repository](https://github.com/openai/whisper) originali.