🤗 Datasets,完结!
这是对 🤗 Datasets 库的一次完整的探索——祝贺你走到这一步!凭借从本章中获得的知识,你应该能够:
- 从任何地方加载数据集,无论是 Hugging Face Hub、你的笔记本电脑还是你公司的远程服务器。
- 混合使用
Dataset.map()
和Dataset.filter()
函数来整理数据。 - 使用
Dataset.set_format()
在 Pandas 和 NumPy 等数据格式之间快速切换。 - 创建你自己的数据集并将其推送到 Hugging Face Hub。
- 使用 Transformer 模型为你的文档创建文本嵌入,并使用 FAISS 构建语义搜索引擎。
在 第七章 ,我们将把所有这些用于深入研究 Transformer 模型擅长的核心 NLP 任务。不过,在跳到下一步之前,先用一次快速的小测验来检验你对 🤗 Datasets 的了解!
< > Update on GitHub