NLP Course documentation

tokenizer 回顾!

Hugging Face's logo
Join the Hugging Face community

and get access to the augmented documentation experience

to get started

tokenizer 回顾!

Ask a Question

恭喜你完成了这一章!

在深入研究 tokenizer 之后,你应该:

  • 能够使用旧的 tokenizer 作为模板来训练新的 tokenizer
  • 了解如何使用偏移量将 tokens 的位置映射到其原始文本范围
  • 了解 BPE、WordPiece 和 Unigram 之间的区别
  • 能够混合使用 🤗 Tokenizers 库提供的块来构建你自己的 tokenizer
  • 能够在 🤗 Transformers 库中使用该 tokenizer
< > Update on GitHub