Audio Course documentation

实战练习

Audio Course

第0单元：欢迎来到Hugging Face音频课程！

第1单元：音频数据处理

第2单元：音频应用的入门介绍

音频应用概览利用pipeline进行音频分类利用pipeline进行自动语音识别实战练习

第3单元：音频Transformer结构

第5单元：自动语音识别 (ASR)

第六单元：从文本到语音

第8单元：结束线

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

实战练习

本节的练习不计入课程成绩，旨在帮助你熟悉本课程中将要使用的工具和库。如果你已经熟悉使用 Google Colab、🤗 Datasets、librosa 和 🤗 Transformers，你可以选择跳过本节练习。

创建一个 Google Colab 笔记本。
使用 🤗 Datasets 加载 facebook/voxpopuli 数据集的训练集，语言任选，使用流式加载模式。
获取数据集train部分的第三个样本并探索它。根据这个样本所拥有的特征，你可以用这个数据集做哪些音频任务？
绘制这个样本的波形图和频谱图。
前往 🤗 Hub，探索预训练模型并找到一个可以用于你之前选择的语言的自动语音识别的模型。使用你找到的模型实例化一个对应的 pipeline，并转录这个样本。
将你从 pipeline 得到的转录与样本的真实转录文字进行比较。

如果你在这个练习中遇到了问题，可以参考示例解决方案。你发现了什么有趣的东西？找到了一个很酷的模型？得到了一个漂亮的频谱图？欢迎在 Twitter 上分享你的工作和发现！

在接下来的章节中，你会学习到更多关于各种音频Transformer架构的知识，并训练你自己的模型！

< > Update on GitHub

←利用pipeline进行自动语音识别 Transformer模型回顾→