Update README.md
Browse files
README.md
CHANGED
@@ -6,21 +6,21 @@ tags:
|
|
6 |
- Transformers
|
7 |
widget:
|
8 |
- text: >-
|
9 |
-
|
10 |
- text: >-
|
11 |
-
|
12 |
- text: >-
|
13 |
-
|
14 |
- text: >-
|
15 |
-
|
16 |
- text: >-
|
17 |
-
|
18 |
- text: >-
|
19 |
-
|
20 |
- text: >-
|
21 |
-
|
22 |
- text: >-
|
23 |
-
|
24 |
---
|
25 |
|
26 |
# FRED-T5-large-instruct-v0.1
|
@@ -38,18 +38,16 @@ Model was trained by [bond005](https://scholar.google.ru/citations?user=3AJKH38A
|
|
38 |
|
39 |
## Usage
|
40 |
|
41 |
-
Each prompt (instruction to LLM) must be started from the `<LM>` special token.
|
42 |
-
|
43 |
| The solved task | The instruction text (in Russian) |
|
44 |
|------------------------|---------------------------------------------------------------------------------------------------------------------------|
|
45 |
-
| asr_correction |
|
46 |
-
| summarization |
|
47 |
-
| segmentation |
|
48 |
-
| simplification |
|
49 |
-
| ner_person |
|
50 |
-
| ner_location |
|
51 |
-
| ner_organization |
|
52 |
-
| *arbitrary questions* |
|
53 |
|
54 |
You can view the code example describing the use of this model to solve all the above tasks in the corresponding [Colab notebook](https://colab.research.google.com/drive/10vX4aLm4-qllksTBEiyifgp0RFbgWxuq?usp=sharing).
|
55 |
|
@@ -96,7 +94,7 @@ if torch.cuda.is_available():
|
|
96 |
ru_llm_model = ru_llm_model.cuda()
|
97 |
|
98 |
asr_correction_example = \
|
99 |
-
'
|
100 |
'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
|
101 |
'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
|
102 |
'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
|
@@ -154,7 +152,7 @@ if torch.cuda.is_available():
|
|
154 |
ru_llm_model = ru_llm_model.cuda()
|
155 |
|
156 |
summarization_example = \
|
157 |
-
'
|
158 |
'В данной работе п��оводится сравнение предварительного обучения трансформера на ' \
|
159 |
'текстах естественного языка и на предложениях синтетического псевдоязыка. ' \
|
160 |
'Искусственные тексты были автоматически сгенерированы по написанным нами правилам ' \
|
@@ -218,7 +216,7 @@ if torch.cuda.is_available():
|
|
218 |
ru_llm_model = ru_llm_model.cuda()
|
219 |
|
220 |
segmentation_example = \
|
221 |
-
'
|
222 |
'последнее время стали наиболее популярным инструментом для решения большинства ' \
|
223 |
'задач искусственного интеллекта и особенно задач анализа и генерации текстов на ' \
|
224 |
'естественном языке, относящихся к т.н. “разговорному искусственному интеллекту”. ' \
|
@@ -295,7 +293,7 @@ if torch.cuda.is_available():
|
|
295 |
ru_llm_model = ru_llm_model.cuda()
|
296 |
|
297 |
simplification_example = \
|
298 |
-
'
|
299 |
'Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, ' \
|
300 |
'обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая ' \
|
301 |
'выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, ' \
|
@@ -353,14 +351,14 @@ if torch.cuda.is_available():
|
|
353 |
ru_llm_model = ru_llm_model.cuda()
|
354 |
|
355 |
ner_examples = [
|
356 |
-
'
|
357 |
'тексте и выпиши список таких сущностей. Окончил Костромской государственный ' \
|
358 |
'педагогический институт по специальности "учитель истории и обществоведения, ' \
|
359 |
'методист воспитательной работы".', # organization
|
360 |
-
'
|
361 |
'и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется ' \
|
362 |
'популярностью в области.', # person
|
363 |
-
'
|
364 |
'тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, ' \
|
365 |
'пользуется популярностью в области.', # location
|
366 |
]
|
@@ -419,13 +417,13 @@ ru_llm_config = GenerationConfig.from_pretrained('bond005/FRED-T5-large-instruct
|
|
419 |
if torch.cuda.is_available():
|
420 |
ru_llm_model = ru_llm_model.cuda()
|
421 |
|
422 |
-
question_about_scientific_facts = '
|
423 |
output = generate_answer([question_about_scientific_facts], ru_llm_tokenizer,
|
424 |
ru_llm_config, ru_llm_model)[0]
|
425 |
print(f'Вопрос: {question_about_scientific_facts[4:]}')
|
426 |
print(f'Ответ: {output}\n')
|
427 |
|
428 |
-
question_about_russian_grammar = '
|
429 |
'"Я ... (писать) письмо уже час."'
|
430 |
output = generate_answer([question_about_russian_grammar], ru_llm_tokenizer,
|
431 |
ru_llm_config, ru_llm_model)[0]
|
|
|
6 |
- Transformers
|
7 |
widget:
|
8 |
- text: >-
|
9 |
+
Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. краеугольным камнем любышь алгоритных машиного обучения является преждес его обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие выбрать но на самом деле хотим там и не этого мы не обучающую ошибку хотим минимизировать
|
10 |
- text: >-
|
11 |
+
Упрости, пожалуйста, следующий текст. Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, к оптимизационной задаче. Мы минимизируем функцию ошибки по параметрам нашей модели на обучающей выборке. Но на самом деле хотим-то мы не этого! Мы не обучающую ошибку хотим минимизировать.
|
12 |
- text: >-
|
13 |
+
Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
|
14 |
- text: >-
|
15 |
+
Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
|
16 |
- text: >-
|
17 |
+
Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
|
18 |
- text: >-
|
19 |
+
Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. Окончил Костромской государственный педагогический институт по специальности "учитель истории и обществоведения, методист воспитательной работы".
|
20 |
- text: >-
|
21 |
+
Опишите процесс фотосинтеза.
|
22 |
- text: >-
|
23 |
+
Дополни предложение правильной формой глагола: "Я ... (писать) письмо уже час."
|
24 |
---
|
25 |
|
26 |
# FRED-T5-large-instruct-v0.1
|
|
|
38 |
|
39 |
## Usage
|
40 |
|
|
|
|
|
41 |
| The solved task | The instruction text (in Russian) |
|
42 |
|------------------------|---------------------------------------------------------------------------------------------------------------------------|
|
43 |
+
| asr_correction | Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. |
|
44 |
+
| summarization | Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. |
|
45 |
+
| segmentation | Разбей, пожалуйста, следующий текст на абзацы. |
|
46 |
+
| simplification | Упрости, пожалуйста, следующий текст. |
|
47 |
+
| ner_person | Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. |
|
48 |
+
| ner_location | Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. |
|
49 |
+
| ner_organization | Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. |
|
50 |
+
| *arbitrary questions* | *text of any question* |
|
51 |
|
52 |
You can view the code example describing the use of this model to solve all the above tasks in the corresponding [Colab notebook](https://colab.research.google.com/drive/10vX4aLm4-qllksTBEiyifgp0RFbgWxuq?usp=sharing).
|
53 |
|
|
|
94 |
ru_llm_model = ru_llm_model.cuda()
|
95 |
|
96 |
asr_correction_example = \
|
97 |
+
'Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. ' \
|
98 |
'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
|
99 |
'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
|
100 |
'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
|
|
|
152 |
ru_llm_model = ru_llm_model.cuda()
|
153 |
|
154 |
summarization_example = \
|
155 |
+
'Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. ' \
|
156 |
'В данной работе п��оводится сравнение предварительного обучения трансформера на ' \
|
157 |
'текстах естественного языка и на предложениях синтетического псевдоязыка. ' \
|
158 |
'Искусственные тексты были автоматически сгенерированы по написанным нами правилам ' \
|
|
|
216 |
ru_llm_model = ru_llm_model.cuda()
|
217 |
|
218 |
segmentation_example = \
|
219 |
+
'Разбей, пожалуйста, следующий текст на абзацы. Глубокие нейронные сети за ' \
|
220 |
'последнее время стали наиболее популярным инструментом для решения большинства ' \
|
221 |
'задач искусственного интеллекта и особенно задач анализа и генерации текстов на ' \
|
222 |
'естественном языке, относящихся к т.н. “разговорному искусственному интеллекту”. ' \
|
|
|
293 |
ru_llm_model = ru_llm_model.cuda()
|
294 |
|
295 |
simplification_example = \
|
296 |
+
'Упрости, пожалуйста, следующий текст. ' \
|
297 |
'Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, ' \
|
298 |
'обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая ' \
|
299 |
'выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, ' \
|
|
|
351 |
ru_llm_model = ru_llm_model.cuda()
|
352 |
|
353 |
ner_examples = [
|
354 |
+
'Найди, пожалуйста, все именованные сущности типа "Организация" в следующем ' \
|
355 |
'тексте и выпиши список таких сущностей. Окончил Костромской государственный ' \
|
356 |
'педагогический институт по специальности "учитель истории и обществоведения, ' \
|
357 |
'методист воспитательной работы".', # organization
|
358 |
+
'Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте ' \
|
359 |
'и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется ' \
|
360 |
'популярностью в области.', # person
|
361 |
+
'Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем ' \
|
362 |
'тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, ' \
|
363 |
'пользуется популярностью в области.', # location
|
364 |
]
|
|
|
417 |
if torch.cuda.is_available():
|
418 |
ru_llm_model = ru_llm_model.cuda()
|
419 |
|
420 |
+
question_about_scientific_facts = 'Опишите процесс фотосинтеза.'
|
421 |
output = generate_answer([question_about_scientific_facts], ru_llm_tokenizer,
|
422 |
ru_llm_config, ru_llm_model)[0]
|
423 |
print(f'Вопрос: {question_about_scientific_facts[4:]}')
|
424 |
print(f'Ответ: {output}\n')
|
425 |
|
426 |
+
question_about_russian_grammar = 'Дополни предложение правильной формой глагола: ' \
|
427 |
'"Я ... (писать) письмо уже час."'
|
428 |
output = generate_answer([question_about_russian_grammar], ru_llm_tokenizer,
|
429 |
ru_llm_config, ru_llm_model)[0]
|