章末小测试
1. 语言建模 Pipeline 的顺序是什么?
2. Transformer模型的输出有多少个维度,每个维度分别是什么?
3.下列哪一个是Subword标记(Tokenization)的例子(从分词的颗粒度来划分)?
4.什么是模型的Head层?
5.什么是AutoModel?
6.当将不同长度的序列批处理在一起时,需要进行哪些处理?
7.将 SoftMax激活函数应用于序列分类(Sequence Classification)模型的 logits 输出有什么意义?
8.大多数标记器(Tokenizer)的API以什么方法为核心?
9.这个代码示例中的 result 变量包含什么?
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
10.下面的代码有什么错误吗?
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)