本章簡介
在第三章第一次體驗了 🤗Datasets 庫,並發現在微調模型時有三個主要步驟:
- 從 Hugging Face Hub 加載一個數據集。
- 使用 Dataset.map() 對數據進行預處理。
- 載入和計算指標(特徵)。
但這只是🤗 Datasets的表面功能而已!在本章中,我們將深入瞭解這個庫。在此過程中,我們將找到以下問題的答案:
- 當數據集不在 hub 上時,您該怎麼做?
- 如何對數據集進行切片?(如果你真正的特別需要使用pandas的時候該怎麼辦?)
- 當你的數據集很大,會撐爆你筆記本電腦的RAM時,你會怎麼做?
- 「內存映射」和 Apache Arrow 到底是什麼?
- 如何創建自己的數據集並將其推送到中心?