Почти сразу начинает повторять себя
#2
by
Ainonake
- opened
Repetition Penalty не помогает. Пробовал запускать с 4bit bitsandbytes и Q8 LLama.cpp - с LLama.cpp качество должно быть по-сути такое же как и в fp16.
Возможно, у вас возникли проблемы в chat template
Мы подготовили GGUF и ollama репозиторий, можете попробовать использовать модель оттуда?
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)
Еще можно запускать в lm-studio, вот небольшой гайд.