DmitriyVasiliev
/

ruT5-base-simplification

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

DmitriyVasiliev commited on Jun 10, 2023

Commit

b2208cc

•

1 Parent(s): 0fc7549

Update README.md

Files changed (1) hide show

README.md +42 -1

README.md CHANGED Viewed

@@ -5,4 +5,45 @@ tags:
 - Simplification
 - Summarization
 - paraphrase
----

 - Simplification
 - Summarization
 - paraphrase
+---
+Данная модель является дообучнной версией "sberbank-ai/ruT5-base" на задаче упрощения текста (text simplification).
+Набор данных (https://drive.google.com/file/d/14lCIp0TJ78R8E9miVm5Ac88guEjCkgFR) был собран из материалов конференции "Dialog-21" (https://github.com/dialogue-evaluation/RuSimpleSentEval), корпуса "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt), а также уникальными данными, предоставленными институтом ИФиЯК СФУ.
+Параметры обучения: данные из файла "dia_train", Learning Rate = 3e-5, batch size = 1, optimizer = AdamW.
+Оценка SARI (среднее на файле "dia_test") = 33,14
+```
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+model_name = "DmitriyVasiliev/ruT5-base-simplification"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+input_text = "Хотя мечте Петра не суждено было сбыться, именно зарубежный опыт лёг в основу дальнейшей застройки."
+ml = 2048
+import re
+def out_gen(input_line):
+  WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
+  input_ids = tokenizer(
+      [WHITESPACE_HANDLER(input_line)],
+      return_tensors="pt",
+      padding="max_length",
+      truncation=True,
+      max_length=ml
+    )["input_ids"].to(device)
+  output_ids = model.generate(
+      input_ids=input_ids,
+      max_length=ml,
+      no_repeat_ngram_size=2,
+      num_beams=5,
+    )[0].to(device)
+  summary = tokenizer.decode(
+    output_ids,
+    skip_special_tokens=True,
+    clean_up_tokenization_spaces=False
+  )
+  return summary
+answer = out_gen(input_text)
+```