Audio Course documentation

Vérifier votre compréhension de l’unité

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

Vérifier votre compréhension de l’unité

1. En quelles unités le taux d’échantillonnage est-il mesuré ?

2. Lorsqu’un grand jeu de données audio est streamé, à quel moment peut-on commencer à l’utiliser ?

3. Qu’est-ce qu’un spectrogramme ?

4. Quel est le moyen le plus simple de convertir des données audio brutes en spectrogramme log-mel attendu par Whisper ?

A.

librosa.feature.melspectrogram(audio["array"])

B.

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")
feature_extractor(audio["array"])

C.

dataset.feature(audio["array"], model="whisper")

5. Comment charger un jeu de données depuis me 🤗 Hub ?

A.

from datasets import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

B.

import librosa

dataset = librosa.load(PATH_TO_DATASET)

C.

from transformers import load_dataset

dataset = load_dataset(DATASET_NAME_ON_HUB)

6. Votre jeu de données personnalisé contient des données audio de haute qualité avec une fréquence d’échantillonnage de 32 kHz. Vous souhaitez entraîner un modèle de reconnaissance vocale qui s’attend à ce que les exemples audio aient une fréquence d’échantillonnage de 16 kHz. Que devez-vous faire ?

7. Comment convertir un spectrogramme généré par un modèle d’apprentissage automatique en une forme d’onde ?