Initial.

Files changed (3) hide show

README.md CHANGED Viewed

@@ -1,3 +1,20 @@
 ---
 license: mit
 ---

 ---
 license: mit
 ---
+日本語データセットで train した Tokenizer です.
+単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.
+## Training script
+`train_jp_tokenizer.py` を参照ください.
+## Trained tokenizer
+* `tokenizer-cc100-ja.json`
+  cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.
+## TODO
+* [ ] Normalize した日本語テキストに対して train する

tokenizer-cc100-ja.json ADDED Viewed

The diff for this file is too large to render. See raw diff

train_jp_tokenizer.py ADDED Viewed

+# NOTE: 128 GB CPU mem is required.
+from tokenizers import Tokenizer
+from tokenizers.models import BPE
+from tokenizers.trainers import BpeTrainer
+from tokenizers.pre_tokenizers import Whitespace
+from datasets import load_dataset
+tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
+tokenizer.pre_tokenizer = Whitespace()
+# TODO: Use [BOS], [EOS] instead of [CLS], [SEP]?
+# NOTE: Chinese LLaMa uses vocab_size=20000
+trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"], vocab_size=30000)
+dataset = load_dataset('range3/cc100-ja')
+def dataset_iter():
+    # roughly 700MB
+    # reducing `skip` will cause OOM if you have less than 128 GB CPU mem.
+    skip=100
+    for i in range(0, len(dataset['train']), skip):
+        yield dataset['train'][i]['text']
+tokenizer.train_from_iterator(dataset_iter(), trainer)
+tokenizer.save('data/tokenizer-cc100-ja.json')