Update README.md
Browse files
README.md
CHANGED
@@ -10,7 +10,9 @@ tags:
|
|
10 |
Данная модель является дообучнной версией "ai-forever/ruT5-base" (ранее"sberbank-ai/ruT5-base") на задаче упрощения текста (text simplification). Набор данных был собран из корпуса "RuSimpleSentEval" (https://github.com/dialogue-evaluation/RuSimpleSentEval), а также "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt).
|
11 |
Метрики обучения bleu:100.0 sari:28.699 fkgl:31.931 (из файла "train.logs")
|
12 |
|
13 |
-
|
|
|
|
|
14 |
def example(source, model, tokenizer):
|
15 |
"""
|
16 |
Пример упрощения текста моделью
|
@@ -23,4 +25,7 @@ def example(source, model, tokenizer):
|
|
23 |
input_ids, attention_mask = tokenizer(source, return_tensors = 'pt').values()
|
24 |
with torch.no_grad():
|
25 |
output = model.generate(input_ids = input_ids.to(model.device), attention_mask = attention_mask.to(model.device), max_new_tokens = input_ids.size(1)*2, min_length=0)
|
26 |
-
return tokenizer.decode(output.squeeze(0), skip_special_tokens = True)
|
|
|
|
|
|
|
|
10 |
Данная модель является дообучнной версией "ai-forever/ruT5-base" (ранее"sberbank-ai/ruT5-base") на задаче упрощения текста (text simplification). Набор данных был собран из корпуса "RuSimpleSentEval" (https://github.com/dialogue-evaluation/RuSimpleSentEval), а также "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt).
|
11 |
Метрики обучения bleu:100.0 sari:28.699 fkgl:31.931 (из файла "train.logs")
|
12 |
|
13 |
+
```
|
14 |
+
input_text='Война Советского Союза против фашистской Германии и её союзников (Венгрии, Италии, Румынии, Словакии, Хорватии, Финляндии, Японии); составная часть Второй мировой войны 1939-1945 гг.'
|
15 |
+
|
16 |
def example(source, model, tokenizer):
|
17 |
"""
|
18 |
Пример упрощения текста моделью
|
|
|
25 |
input_ids, attention_mask = tokenizer(source, return_tensors = 'pt').values()
|
26 |
with torch.no_grad():
|
27 |
output = model.generate(input_ids = input_ids.to(model.device), attention_mask = attention_mask.to(model.device), max_new_tokens = input_ids.size(1)*2, min_length=0)
|
28 |
+
return tokenizer.decode(output.squeeze(0), skip_special_tokens = True)
|
29 |
+
|
30 |
+
example(input_text, model, tokenizer)
|
31 |
+
```
|