r1char9 commited on
Commit
ba80fff
1 Parent(s): 95acaa3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +7 -2
README.md CHANGED
@@ -10,7 +10,9 @@ tags:
10
  Данная модель является дообучнной версией "ai-forever/ruT5-base" (ранее"sberbank-ai/ruT5-base") на задаче упрощения текста (text simplification). Набор данных был собран из корпуса "RuSimpleSentEval" (https://github.com/dialogue-evaluation/RuSimpleSentEval), а также "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt).
11
  Метрики обучения bleu:100.0 sari:28.699 fkgl:31.931 (из файла "train.logs")
12
 
13
- ---
 
 
14
  def example(source, model, tokenizer):
15
  """
16
  Пример упрощения текста моделью
@@ -23,4 +25,7 @@ def example(source, model, tokenizer):
23
  input_ids, attention_mask = tokenizer(source, return_tensors = 'pt').values()
24
  with torch.no_grad():
25
  output = model.generate(input_ids = input_ids.to(model.device), attention_mask = attention_mask.to(model.device), max_new_tokens = input_ids.size(1)*2, min_length=0)
26
- return tokenizer.decode(output.squeeze(0), skip_special_tokens = True)
 
 
 
 
10
  Данная модель является дообучнной версией "ai-forever/ruT5-base" (ранее"sberbank-ai/ruT5-base") на задаче упрощения текста (text simplification). Набор данных был собран из корпуса "RuSimpleSentEval" (https://github.com/dialogue-evaluation/RuSimpleSentEval), а также "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt).
11
  Метрики обучения bleu:100.0 sari:28.699 fkgl:31.931 (из файла "train.logs")
12
 
13
+ ```
14
+ input_text='Война Советского Союза против фашистской Германии и её союзников (Венгрии, Италии, Румынии, Словакии, Хорватии, Финляндии, Японии); составная часть Второй мировой войны 1939-1945 гг.'
15
+
16
  def example(source, model, tokenizer):
17
  """
18
  Пример упрощения текста моделью
 
25
  input_ids, attention_mask = tokenizer(source, return_tensors = 'pt').values()
26
  with torch.no_grad():
27
  output = model.generate(input_ids = input_ids.to(model.device), attention_mask = attention_mask.to(model.device), max_new_tokens = input_ids.size(1)*2, min_length=0)
28
+ return tokenizer.decode(output.squeeze(0), skip_special_tokens = True)
29
+
30
+ example(input_text, model, tokenizer)
31
+ ```