tokenizer 回顾!
恭喜你完成了这一章!
在深入研究 tokenizer 之后,你应该:
- 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer
- 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围
- 了解 BPE、WordPiece 和 Unigram 之间的区别
- 能够混合使用 🤗 Tokenizers 库提供的块来构建你自己的 tokenizer
- 能够在 🤗 Transformers 库中使用该 tokenizer
恭喜你完成了这一章!
在深入研究 tokenizer 之后,你应该: