Русский токинизатор
#8
by
Regrin
- opened
Добрый день!
Скажите пожалуйста, а собираетесь ли вы менять токинизатор? Просто меня очень огорчает, что скорость инференса низкая. Даже у облегчённой версии.
Возможно руадапт сделают модель поверх этой
Возможно после нового года уплотним токенизатор, но пока не обещаем)
А расширять токенизатор?
Запрос к нейросети
"Напиши как распланировать туристическую поездку в Санкт-Петербург"
у них занимает
Нейросеть | Токенов на запрос |
---|---|
Mistral Large 2411 | 28 |
AI21 Jamba 1.5 Large, Mini | 54 |
Llama 3.3 70B Instruct | 31 |
Microsoft Phi 4 | 41 |
xAI Grok 2 1212 | 22 |
Qwen QwQ 32B Preview | 55 |
Amazon Nova Pro | 30 |
O1-mini | 21 |
DeepSeek v3 | 25 |
Cohere command R+ 08 24 | 15 |
Cohere command R+ может даже с перебором, так как в ответе Эрмитаж с Гермитажем путает. Но словарь, если верить config.json 256 тысяч.
Ну и сейчас смотрю на t-lite - 27 токенов