bond005 commited on
Commit
111a24d
1 Parent(s): d3400a0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +25 -27
README.md CHANGED
@@ -6,21 +6,21 @@ tags:
6
  - Transformers
7
  widget:
8
  - text: >-
9
- <LM>Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. краеугольным камнем любышь алгоритных машиного обучения является преждес его обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие выбрать но на самом деле хотим там и не этого мы не обучающую ошибку хотим минимизировать
10
  - text: >-
11
- <LM>Упрости, пожалуйста, следующий текст. Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, к оптимизационной задаче. Мы минимизируем функцию ошибки по параметрам нашей модели на обучающей выборке. Но на самом деле хотим-то мы не этого! Мы не обучающую ошибку хотим минимизировать.
12
  - text: >-
13
- <LM>Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
14
  - text: >-
15
- <LM>Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
16
  - text: >-
17
- <LM>Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
18
  - text: >-
19
- <LM>Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. Окончил Костромской государственный педагогический институт по специальности "учитель истории и обществоведения, методист воспитательной работы".
20
  - text: >-
21
- <LM>Опишите процесс фотосинтеза.
22
  - text: >-
23
- <LM>Дополни предложение правильной формой глагола: "Я ... (писать) письмо уже час."
24
  ---
25
 
26
  # FRED-T5-large-instruct-v0.1
@@ -38,18 +38,16 @@ Model was trained by [bond005](https://scholar.google.ru/citations?user=3AJKH38A
38
 
39
  ## Usage
40
 
41
- Each prompt (instruction to LLM) must be started from the `<LM>` special token.
42
-
43
  | The solved task | The instruction text (in Russian) |
44
  |------------------------|---------------------------------------------------------------------------------------------------------------------------|
45
- | asr_correction | `<LM>`Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. |
46
- | summarization | `<LM>`Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. |
47
- | segmentation | `<LM>`Разбей, пожалуйста, следующий текст на абзацы. |
48
- | simplification | `<LM>`Упрости, пожалуйста, следующий текст. |
49
- | ner_person | `<LM>`Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. |
50
- | ner_location | `<LM>`Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. |
51
- | ner_organization | `<LM>`Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. |
52
- | *arbitrary questions* | `<LM>`*text of any question* |
53
 
54
  You can view the code example describing the use of this model to solve all the above tasks in the corresponding [Colab notebook](https://colab.research.google.com/drive/10vX4aLm4-qllksTBEiyifgp0RFbgWxuq?usp=sharing).
55
 
@@ -96,7 +94,7 @@ if torch.cuda.is_available():
96
  ru_llm_model = ru_llm_model.cuda()
97
 
98
  asr_correction_example = \
99
- '<LM>Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. ' \
100
  'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
101
  'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
102
  'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
@@ -154,7 +152,7 @@ if torch.cuda.is_available():
154
  ru_llm_model = ru_llm_model.cuda()
155
 
156
  summarization_example = \
157
- '<LM>Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. ' \
158
  'В данной работе п��оводится сравнение предварительного обучения трансформера на ' \
159
  'текстах естественного языка и на предложениях синтетического псевдоязыка. ' \
160
  'Искусственные тексты были автоматически сгенерированы по написанным нами правилам ' \
@@ -218,7 +216,7 @@ if torch.cuda.is_available():
218
  ru_llm_model = ru_llm_model.cuda()
219
 
220
  segmentation_example = \
221
- '<LM>Разбей, пожалуйста, следующий текст на абзацы. Глубокие нейронные сети за ' \
222
  'последнее время стали наиболее популярным инструментом для решения большинства ' \
223
  'задач искусственного интеллекта и особенно задач анализа и генерации текстов на ' \
224
  'естественном языке, относящихся к т.н. “разговорному искусственному интеллекту”. ' \
@@ -295,7 +293,7 @@ if torch.cuda.is_available():
295
  ru_llm_model = ru_llm_model.cuda()
296
 
297
  simplification_example = \
298
- '<LM>Упрости, пожалуйста, следующий текст. ' \
299
  'Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, ' \
300
  'обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая ' \
301
  'выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, ' \
@@ -353,14 +351,14 @@ if torch.cuda.is_available():
353
  ru_llm_model = ru_llm_model.cuda()
354
 
355
  ner_examples = [
356
- '<LM>Найди, пожалуйста, все именованные сущности типа "Организация" в следующем ' \
357
  'тексте и выпиши список таких сущностей. Окончил Костромской государственный ' \
358
  'педагогический институт по специальности "учитель истории и обществоведения, ' \
359
  'методист воспитательной работы".', # organization
360
- '<LM>Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте ' \
361
  'и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется ' \
362
  'популярностью в области.', # person
363
- '<LM>Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем ' \
364
  'тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, ' \
365
  'пользуется популярностью в области.', # location
366
  ]
@@ -419,13 +417,13 @@ ru_llm_config = GenerationConfig.from_pretrained('bond005/FRED-T5-large-instruct
419
  if torch.cuda.is_available():
420
  ru_llm_model = ru_llm_model.cuda()
421
 
422
- question_about_scientific_facts = '<LM>Опишите процесс фотосинтеза.'
423
  output = generate_answer([question_about_scientific_facts], ru_llm_tokenizer,
424
  ru_llm_config, ru_llm_model)[0]
425
  print(f'Вопрос: {question_about_scientific_facts[4:]}')
426
  print(f'Ответ: {output}\n')
427
 
428
- question_about_russian_grammar = '<LM>Дополни предложение правильной формой глагола: ' \
429
  '"Я ... (писать) письмо уже час."'
430
  output = generate_answer([question_about_russian_grammar], ru_llm_tokenizer,
431
  ru_llm_config, ru_llm_model)[0]
 
6
  - Transformers
7
  widget:
8
  - text: >-
9
+ Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. краеугольным камнем любышь алгоритных машиного обучения является преждес его обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной задачи мы минимизируем в функцию ошибки по параметрам нашей модели на обучающие выбрать но на самом деле хотим там и не этого мы не обучающую ошибку хотим минимизировать
10
  - text: >-
11
+ Упрости, пожалуйста, следующий текст. Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, к оптимизационной задаче. Мы минимизируем функцию ошибки по параметрам нашей модели на обучающей выборке. Но на самом деле хотим-то мы не этого! Мы не обучающую ошибку хотим минимизировать.
12
  - text: >-
13
+ Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
14
  - text: >-
15
+ Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
16
  - text: >-
17
+ Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется популярностью в области.
18
  - text: >-
19
+ Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. Окончил Костромской государственный педагогический институт по специальности "учитель истории и обществоведения, методист воспитательной работы".
20
  - text: >-
21
+ Опишите процесс фотосинтеза.
22
  - text: >-
23
+ Дополни предложение правильной формой глагола: "Я ... (писать) письмо уже час."
24
  ---
25
 
26
  # FRED-T5-large-instruct-v0.1
 
38
 
39
  ## Usage
40
 
 
 
41
  | The solved task | The instruction text (in Russian) |
42
  |------------------------|---------------------------------------------------------------------------------------------------------------------------|
43
+ | asr_correction | Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. |
44
+ | summarization | Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. |
45
+ | segmentation | Разбей, пожалуйста, следующий текст на абзацы. |
46
+ | simplification | Упрости, пожалуйста, следующий текст. |
47
+ | ner_person | Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте и выпиши список таких сущностей. |
48
+ | ner_location | Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем тексте и выпиши список таких сущностей. |
49
+ | ner_organization | Найди, пожалуйста, все именованные сущности типа "Организация" в следующем тексте и выпиши список таких сущностей. |
50
+ | *arbitrary questions* | *text of any question* |
51
 
52
  You can view the code example describing the use of this model to solve all the above tasks in the corresponding [Colab notebook](https://colab.research.google.com/drive/10vX4aLm4-qllksTBEiyifgp0RFbgWxuq?usp=sharing).
53
 
 
94
  ru_llm_model = ru_llm_model.cuda()
95
 
96
  asr_correction_example = \
97
+ 'Исправь, пожалуйста, ошибки распознавания речи в следующем тексте. ' \
98
  'краеугольным камнем любышь алгоритных машиного обучения является преждес его ' \
99
  'обобщающая способности тогда мы обучаем некоторую модель у нас есть обучающая ' \
100
  'выборка унаситькюмся ошибки и наша задачи сводится вообщем такомптиминационной ' \
 
152
  ru_llm_model = ru_llm_model.cuda()
153
 
154
  summarization_example = \
155
+ 'Выполни саммаризацию и выдели, пожалуйста, основную мысль следующего текста. ' \
156
  'В данной работе п��оводится сравнение предварительного обучения трансформера на ' \
157
  'текстах естественного языка и на предложениях синтетического псевдоязыка. ' \
158
  'Искусственные тексты были автоматически сгенерированы по написанным нами правилам ' \
 
216
  ru_llm_model = ru_llm_model.cuda()
217
 
218
  segmentation_example = \
219
+ 'Разбей, пожалуйста, следующий текст на абзацы. Глубокие нейронные сети за ' \
220
  'последнее время стали наиболее популярным инструментом для решения большинства ' \
221
  'задач искусственного интеллекта и особенно задач анализа и генерации текстов на ' \
222
  'естественном языке, относящихся к т.н. “разговорному искусственному интеллекту”. ' \
 
293
  ru_llm_model = ru_llm_model.cuda()
294
 
295
  simplification_example = \
296
+ 'Упрости, пожалуйста, следующий текст. ' \
297
  'Краеугольным камнем любых алгоритмов машинного обучения является, прежде всего, ' \
298
  'обобщающая способность. Когда мы обучаем некоторую модель, у нас есть обучающая ' \
299
  'выборка, у нас есть функция ошибки, и наша задача сводится, в общем-то, ' \
 
351
  ru_llm_model = ru_llm_model.cuda()
352
 
353
  ner_examples = [
354
+ 'Найди, пожалуйста, все именованные сущности типа "Организация" в следующем ' \
355
  'тексте и выпиши список таких сущностей. Окончил Костромской государственный ' \
356
  'педагогический институт по специальности "учитель истории и обществоведения, ' \
357
  'методист воспитательной работы".', # organization
358
+ 'Найди, пожалуйста, все именованные сущности типа "Человек" в следующем тексте ' \
359
  'и выпиши список таких сущностей. С. Ситников - уроженец Костромы, пользуется ' \
360
  'популярностью в области.', # person
361
+ 'Найди, пожалуйста, все именованные сущности типа "Местоположение" в следующем ' \
362
  'тексте и выпиши список таких сущностей. С. Ситников - уроженец Костромы, ' \
363
  'пользуется популярностью в области.', # location
364
  ]
 
417
  if torch.cuda.is_available():
418
  ru_llm_model = ru_llm_model.cuda()
419
 
420
+ question_about_scientific_facts = 'Опишите процесс фотосинтеза.'
421
  output = generate_answer([question_about_scientific_facts], ru_llm_tokenizer,
422
  ru_llm_config, ru_llm_model)[0]
423
  print(f'Вопрос: {question_about_scientific_facts[4:]}')
424
  print(f'Ответ: {output}\n')
425
 
426
+ question_about_russian_grammar = 'Дополни предложение правильной формой глагола: ' \
427
  '"Я ... (писать) письмо уже час."'
428
  output = generate_answer([question_about_russian_grammar], ru_llm_tokenizer,
429
  ru_llm_config, ru_llm_model)[0]