日本語データセットで train した Tokenizer です.
単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.
Training script
train_jp_tokenizer.py
を参照ください.
Trained tokenizer
tokenizer-cc100-ja.json
cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.
TODO
- Normalize した日本語テキストに対して train する
- マージした Tokenizer をアップロードする
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.