Почти сразу начинает повторять себя

#2
by Ainonake - opened

Repetition Penalty не помогает. Пробовал запускать с 4bit bitsandbytes и Q8 LLama.cpp - с LLama.cpp качество должно быть по-сути такое же как и в fp16.

Возможно, у вас возникли проблемы в chat template

Мы подготовили GGUF и ollama репозиторий, можете попробовать использовать модель оттуда?

• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

Еще можно запускать в lm-studio, вот небольшой гайд.

Sign up or log in to comment