Update README.md
Browse files
README.md
CHANGED
@@ -7,7 +7,7 @@ language:
|
|
7 |
- en
|
8 |
- ru
|
9 |
base_model:
|
10 |
-
-
|
11 |
---
|
12 |
|
13 |
## Vikhr-Llama3.1-8B-Instruct-R-21-09-24
|
@@ -28,7 +28,7 @@ base_model:
|
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
-
Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
@@ -192,6 +192,8 @@ out_of_domain - вопросы которые специально никак н
|
|
192 |
|
193 |
Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
194 |
|
|
|
|
|
195 |
### Как работать с RAG
|
196 |
|
197 |
Роль documents представляет из себя список словарей с описанием контента документов, с примнением `json.dumps(array, ensure_ascii=False)` (см. пример ниже). \
|
@@ -265,10 +267,10 @@ print(final_answer)
|
|
265 |
Используя первый ответ модели `relevant_indexes` (JSON), можно понять нашла ли модель информацию в документах или нет, она обучена возврашать пустой массив если ее нет и в таком случае она будет отвечать, что не смогла найти информацию в базе знаний (при генерации второго ответа).
|
266 |
|
267 |
### Нюансы и ограничения
|
268 |
-
- Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние
|
269 |
-
- Системные промпты не предназначены для описание персонажей,
|
270 |
- RAG режим **требует обязательного** наличия системного промпта `GROUNDED_SYSTEM_PROMPT` описаного в секции *Как работать с RAG*. Так же иногда модель может добавлять общую информацию из своих знаний в ответ к той, что есть в документах.
|
271 |
-
- Модель лучше использовать с низкой темптературой (0.1-0.4) и желательно с beam search.
|
272 |
|
273 |
### Авторы
|
274 |
- Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
|
|
|
7 |
- en
|
8 |
- ru
|
9 |
base_model:
|
10 |
+
- meta-llama/Meta-Llama-3.1-8B-Instruct
|
11 |
---
|
12 |
|
13 |
## Vikhr-Llama3.1-8B-Instruct-R-21-09-24
|
|
|
28 |
|
29 |
### Метрики и оценка качества
|
30 |
|
31 |
+
Модель оценивалась на нашем русскоязычном open-source SbS бенчмарке [ru-arena-general](https://github.com/VikhrModels/ru_llm_arena) (50 топиков по 10 вопросов), где судьей выступает gpt-4-1106-preview и [бенчмарке](https://colab.research.google.com/drive/16730rWQ4-yGqWoooLs0Ece_16frmOniP?usp=sharing) для RAG на основе тестового сета [Grounded-RAG-v2](https://huggingface.co/datasets/Vikhrmodels/Grounded-RAG-RU-v2), где судей выступа gpt-4o.
|
32 |
|
33 |
#### Результаты на Ru-Arena-General
|
34 |
|
|
|
192 |
|
193 |
Реализацию SMPO, rejection sampling и другое можно найти в нашей библиотеке [effective_llm_alignment](https://github.com/VikhrModels/effective_llm_alignment/) на GitHub
|
194 |
|
195 |
+
Идея использования именно SMPO, а не другого PO метода, возникла в результате проведения большого количества экспериментов с классическими методами, при необходимости лучшего контроля процесса сходимости. При использовании разных гиперпараметров в разных методах, можно добится почти одинаково результата оптимизации, однако мы постарались упростить этот процесс и применить лучшие практики из других методов.
|
196 |
+
|
197 |
### Как работать с RAG
|
198 |
|
199 |
Роль documents представляет из себя список словарей с описанием контента документов, с примнением `json.dumps(array, ensure_ascii=False)` (см. пример ниже). \
|
|
|
267 |
Используя первый ответ модели `relevant_indexes` (JSON), можно понять нашла ли модель информацию в документах или нет, она обучена возврашать пустой массив если ее нет и в таком случае она будет отвечать, что не смогла найти информацию в базе знаний (при генерации второго ответа).
|
268 |
|
269 |
### Нюансы и ограничения
|
270 |
+
- Модель имеет **низкий уровень безопасности ответов** и нацелена на правильное и полное выполенние инструкций, имейте это ввиду при использовании и тестируйте самостоятельно. Частично это исправляется системными промптами и дополнительными указаниями о важности безопасности в промпте пользователя.
|
271 |
+
- Системные промпты не предназначены для описание персонажей, мы рекомендуем использовать их дл�� спецификации стиля ответа (вроде "answer only in json format"). Кроме того, желательно, писать их **на английском языке**, так как так было в датасете, от использования английского в системных промтпах не зависит язык ответа.
|
272 |
- RAG режим **требует обязательного** наличия системного промпта `GROUNDED_SYSTEM_PROMPT` описаного в секции *Как работать с RAG*. Так же иногда модель может добавлять общую информацию из своих знаний в ответ к той, что есть в документах.
|
273 |
+
- Модель лучше использовать с низкой темптературой (0.1-0.4) и желательно с beam search, а таже использовать top_k (30-50).
|
274 |
|
275 |
### Авторы
|
276 |
- Sergei Bratchikov, [NLP Wanderer](https://t.me/nlpwanderer), Vikhr Team
|