|
--- |
|
language: |
|
- ko |
|
metrics: |
|
- rouge |
|
library_name: transformers |
|
pipeline_tag: summarization |
|
tags: |
|
- bart |
|
--- |
|
# kobart-summary |
|
- ์ด ๋ชจ๋ธ์ [kobart๋ชจ๋ธ](https://huggingface.co/ainize/kobart-news)์ [๋์์๋ฃ ์์ฝ](https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=93) ๋ฐ์ดํฐ๋ก fine-tuningํ ๋ชจ๋ธ์
๋๋ค. |
|
์ง๋ฌธ์ ๋ช๊ฐ์ ๋ฌธ์ฅ๋ค๋ก ์์ฝํด์ค๋๋ค. |
|
|
|
## How to use |
|
```python |
|
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration |
|
|
|
# Load Model and Tokenizer |
|
tokenizer = PreTrainedTokenizerFast.from_pretrained("EbanLee/kobart-summary-v1") |
|
model = BartForConditionalGeneration.from_pretrained("EbanLee/kobart-summary-v1") |
|
|
|
# Encoding |
|
input_text = "์ผ๋ฐ์ ์ผ๋ก ๋ก์ปฌํธ๋ ๋์ฐ๋ฌผ์ ๋๋งค์์ฅ ๊ฒฝ๋งค๊ฐ๋ณด๋ค ๋๊ณ ์๋งค๊ฐ๋ณด๋ค ๋ฎ์ ์์ค์์ ๊ฐ๊ฒฉ์ด ๊ฒฐ์ ๋๋ค. ๋๊ฐ๋ค์ด ์์จ์ ์ผ๋ก ๊ฐ๊ฒฉ์ ๊ฒฐ์ ํ๊ณ ์์ง๋ง, ์์ฅ๊ฐ๊ฒฉ์ ์ฐธ๊ณ ํ๊ธฐ ๋๋ฌธ์ ๋์ฒด๋ก ์ ์ ํ ๊ฐ๊ฒฉ์ด ์ค์ ๋๋ค. ๋ฌธ์ ๋ ํํ, ํญ์ฐ, ํญ์ผ ๋๋ ๊ณต๊ธ๊ณผ์์ ๋ฐ๋ฅธ ์์ฅ๊ฐ๊ฒฉ ๋ฑ๋ฝ์ด ์ฌํด์ง ๋์ด๋ค. ์์ฃผ๊ตฐ ๋ก์ปฌํธ๋ ํ๋์กฐํฉ์ ์์ ๊ฐ์ด ์ธ๋ถ์์ธ์ ์ํด ๋์ฐ๋ฌผ ๊ฐ๊ฒฉ์ ๊ธ๋ฑ๋ฝ์ด ๋ฐ์ํ์ ๋์๋ ์ฐ์ค ์ผ์ ์์ค์ ๊ฐ๊ฒฉ์ผ๋ก ํ๋งค๋๋๋ก ์ ํต ์์ ๊ธฐ๊ธ์ ์ด์ฉํ๊ณ ์๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ฐ๋ฌผ ์ถํ์์๊ฒ ์ฌ์ ์ ๋์๋ฅผ ๊ตฌํด ์ผ๋ถ ๊ด๋ฆฌ ํ๋ชฉ์ ๊ฐ๊ฒฉ ์ํํ ๋ฐ ํ๋งค๋์ ์กฐ์ ํด ๋ฉํํ๋๋ก ๊ต์กํ๊ณ ์๋ค." |
|
input_ids = tokenizer.encode(input_text, return_tensors="pt", padding="max_length", truncation=True, max_length=1026) |
|
|
|
# Generate Summary Text Ids |
|
summary_text_ids = model.generate( |
|
input_ids=input_ids, |
|
bos_token_id=model.config.bos_token_id, |
|
eos_token_id=model.config.eos_token_id, |
|
length_penalty=1.5, |
|
max_length=256, |
|
min_length=12, |
|
num_beams=6, |
|
repetition_penalty=2.0, |
|
) |
|
|
|
# Decoding Text Ids |
|
print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True)) |
|
|
|
``` |