Add vocab file and tokenizer_config.json

Files changed (3) hide show

sentencepiece.bpe.model ADDED Viewed

Binary file (905 kB). View file

sentencepiece.bpe.vocab ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

+{
+    "bos_token": "<s>",
+    "eos_token": "</s>",
+    "unk_token": "<unk>",
+    "sep_token": "</s>",
+    "cls_token": "<s>",
+    "pad_token": "<pad>",
+    "mask_token": "<mask>",
+    "additional_special_tokens": [
+        "<s>NOTUSED",
+        "</s>NOTUSED",
+        "<th_roberta_space_token>"
+    ]
+}