Русский токинизатор

#8
by Regrin - opened

Добрый день!
Скажите пожалуйста, а собираетесь ли вы менять токинизатор? Просто меня очень огорчает, что скорость инференса низкая. Даже у облегчённой версии.

Возможно руадапт сделают модель поверх этой

Возможно после нового года уплотним токенизатор, но пока не обещаем)

А расширять токенизатор?
Запрос к нейросети
"Напиши как распланировать туристическую поездку в Санкт-Петербург"
у них занимает

Нейросеть Токенов на запрос
Mistral Large 2411 28
AI21 Jamba 1.5 Large, Mini 54
Llama 3.3 70B Instruct 31
Microsoft Phi 4 41
xAI Grok 2 1212 22
Qwen QwQ 32B Preview 55
Amazon Nova Pro 30
O1-mini 21
DeepSeek v3 25
Cohere command R+ 08 24 15

Cohere command R+ может даже с перебором, так как в ответе Эрмитаж с Гермитажем путает. Но словарь, если верить config.json 256 тысяч.

Ну и сейчас смотрю на t-lite - 27 токенов

Sign up or log in to comment