mirfan899 commited on
Commit
30a32d6
1 Parent(s): 1d111c9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +32 -1
README.md CHANGED
@@ -6,4 +6,35 @@ language:
6
  - ur
7
  ---
8
 
9
- The mt5-small model trained for Urdu text summarization.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6
  - ur
7
  ---
8
 
9
+ The mt5-small model trained for Urdu text summarization. Here is an example for summary generation.
10
+
11
+ ```python
12
+ import re
13
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
14
+ WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
15
+ article_text = """ہوٹل کی عمارت میں آگ لگ گئی ہے اور دھوئیں کے کالے بادل دکھائی دے رہے ہیں ہوٹل کی عمارت میں آگ لگ گئی ہے اور ایمبولینس جائے وقوعہ پر پہنچ گئی ہیں۔ تاہم ابھی ہلاکتوں کی کوئی اطلاع موصول نہیں ہوئی ہے۔ اس کے علاوہ دیگر دو دھماکے متحدہ عرب امارات کے فوجیوں کی رہائش گاہ اور ہیڈ کوارٹرز پر ہوئے ہیں۔ خبر رساں ادارے روئٹرز کے مطابق مقامی باشندوں کا کہنا ہے کہ اس راکٹ حملے میں متعدد افراد ہلاک ہوئے ہیں تاہم سرکاری طور پر اس کی تصدیق نہیں ہو سکی ہے۔ سوشل میڈیا پر جاری تصاویر میں عدن کے شہر میں اس ہوٹل کے گرد کالے دھوئیں کے بادل اٹھتے دیکھے جا سکتے ہیں۔ سعودی عرب کے تعاون سے حکومت کی وفادار فوج نے جولائی میں حوثی باغیوں سے یہ شہر خالی کرایا تھا اور تب سے قصر نامی ہوٹل یمن کی سرکاری انتظامیہ کا ٹھکانہ تھا۔ حکام کے مطابق یمن کے نائب صدر خالد بحاح اور دوسرے اعلیٰ حکام حملے میں محفوظ رہے جبکہ صدر منصور ہادی کے بارے میں کہا جا رہا ہے کہ وہ بیرون ملک ہیں۔ اطلاعات کے مطابق ایک دستی بم ہوٹل کے دروازے پر داغا گیا، دوسرا آر پی جی دروازے کے قریب گرا جبکہ تیسرا راکٹ شہر کے بریقہ ضلعے میں گرا۔ ٹوئٹر پر ایک میڈیا نے ہوٹل کی حفاظت پر معمور گارڈز کی ہلاکتوں کا ذکر کیا ہے۔
16
+ """
17
+
18
+ model_name = "mirfan899/usum"
19
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
20
+ model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
21
+ input_ids = tokenizer(
22
+ [WHITESPACE_HANDLER(article_text)],
23
+ return_tensors="pt",
24
+ padding="max_length",
25
+ truncation=True,
26
+ max_length=512
27
+ )["input_ids"]
28
+ output_ids = model.generate(
29
+ input_ids=input_ids,
30
+ max_length=84,
31
+ no_repeat_ngram_size=2,
32
+ num_beams=4
33
+ )[0]
34
+ summary = tokenizer.decode(
35
+ output_ids,
36
+ skip_special_tokens=True,
37
+ clean_up_tokenization_spaces=False
38
+ )
39
+ print(summary)
40
+ ```