Đố vui cuối chương
1. Thứ tự của một quy trình mô hình hóa ngôn ngữ là gì?
2. Đầu ra tensor của mô hình Transformer cơ sở có bao nhiêu chiều, và chúng là gì?
3. Trường hợp nào dưới đây không phải là ví dụ về tokenize theo từ phụ?
4. Model head (Đầu mô hình) là gì?
5. AutoModel là gì?
6. Các kỹ thuật cần lưu ý khi ghép các chuỗi có độ dài khác nhau với nhau là gì?
7. Mục đích của việc áp dụng hàm SoftMax vào đầu ra logit của mô hình phân loại là gì?
8. Phần lớn API tokenizer tập trung vào phương pháp nào?
9. Biến result chứa gì trong đoạn mã dưới đây?
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
result = tokenizer.tokenize("Hello!")
10. Có điều gì đó sai với đoạn mã sau đây?
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = AutoModel.from_pretrained("gpt2")
encoded = tokenizer("Hey!", return_tensors="pt")
result = model(**encoded)