章末小測試
1. 語言建模 Pipeline 的順序是什麼?
2. Transformer模型的輸出有多少個維度,每個維度分別是什麼?
3.下列哪一個是Subword標記(Tokenization)的例子(從分詞的顆粒度來劃分)?
4.什麼是模型的 Head 層?
5.什麼是AutoModel?
6.當將不同長度的序列批處理在一起時,需要進行哪些處理?
7.將 SoftMax激活函數應用於序列分類(Sequence Classification)模型的 logits 輸出有什麼意義?
8.大多數標記器(Tokenizer)的API以什麼方法為核心?
9.這個代碼示例中的 result 變量包含什麼?
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
10.下面的代碼有什麼錯誤嗎?
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)