metadata
widget:
- text: ใครเป็นคนกล่าวถึง nlp
context: >-
การประมวลภาษาธรรมชาติ (Natural language processing - NLP)
เป็นสาขาย่อยของภาษาศาสตร์ วิทยาการคอมพิวเตอร์ วิศวกรรมสารสนเทศ
และปัญญาประดิษฐ์ ทำการศึกษาการปฏิสัมพันธ์ระหว่างภาษาคอมพิวเตอร์และภาษา
(ธรรมชาติ) มนุษย์
ในเชิงที่โปรแกรมคอมพิวเตอร์สามารถดำเนินการวิเคราะห์และแปลงข้อมูลภาษาธรรมชาติได้การประมวลภาษาธรรมชาติมีการกล่าวถึงในปี
พ.ศ. 2493 โดยแอลัน ทัวริง
นักวิทยาศาสตร์ชาวอังกฤษได้เสนอการทดสอบคอมพิวเตอร์หรือเครื่องจักรที่สามารถคิดหรือกระทำได้เหมือนมนุษย์
ซึ่งวิธีการนั้นในปัจจุบันถูกเรียกว่าการทดสอบทัวริงในปัจจุบันการประมวลภาษาธรรมชาติมีการนิยมใช้ขั้นตอนการเรียนรู้เชิงคุณลักษณะและการเรียนรู้เชิงลึก[1][2]
ที่สามารถให้ผลลัพธ์ที่ออกมาได้ดี ตัวอย่างเช่นในแบบจำลองภาษา[3]
โดยได้มีการเปรียบเทียบกับวิธีการดั้งเดิมที่ใช้การประมวลผลภาษาธรรมชาติเชิงสถิติ
หรือการประมวลผลตามกฎที่วางไว้
- text: เฝิง เส้าเฟิง รับบทอะไรใน The Palace
context: >-
เฝิง เส้าเฟิง เฝิง เส้าเฟิง หรือ วิลเลี่ยม เฝิง (; ชื่อภาษาอังกฤษ: William
Feng, Feng Shaofeng) เป็นนักแสดงที่มีชื่อเสียงจากเรื่อง 'White Vengeance'
และ'Prince of Lan Ling 'เกิดเมื่อวันที่ 7 ตุลาคม ค.ศ. 1978ประวัติ ประวัติ.
ดังเปรี้ยงปร้างเพียงชั่วคืน หลังจากกระโดดมารับบท 'องค์ชาย 8'
ในซีรีส์เจาะเวลาทะลุมิติเรื่อง 'The Palace' คู่กับหยางมี่ในปี 2011
จนตอนนี้เฝิงเส้าเฟิงกลายเป็นพระเอกที่ถูกพูดถึงมากที่สุดคนหนึ่งของวงการบันเทิง
และกลายเป็นแบบฉบับของชายหนุ่มที่สาวๆ ใฝ่ฝันถึง
เพราะนอกจากหน้าตาที่หล่อเหลาแล้ว ชาติตระกูลของเขาก็ยังไม่ธรรมดาอีกด้วย
เฝิงเส้าเฟิง
เป็นลูกชายหัวแก้วหัวแหวนของนักธุรกิจอุตสาหกรรมสิ่งทอรายใหญ่ของจีน
ครอบครัวเขามีโรงงานตั้งอยู่ที่เวินโจว กว่างโจว และฝูโจว
ทรัพย์สินโดยรวมทั้งสิ้นไม่ต่ำกว่าพันล้านหยวน
และเขาก็เป็นทายาทเพียงคนเดียวของตระกูล
แต่เพราะเฝิงเส้าเฟิงใฝ่ฝันที่จะเข้าสู่วงการบันเทิง
จึงได้เลือกที่จะเรียนการแสดงที่มหาวิทยาลัย shanghai theatre academy
หลังจากเรียนจบก็มีโอกาสคลุกคลีทำงานอยู่ในวงการบันเทิงมากว่า 10 ปี
กระทั่งประสบความสำเร็จอย่างทุกวันนี้ แถมได้ข่าวว่าเขากำลังอินเลิฟอยู่กับ
'หนีหนี' นางเอกเรื่อง 'Flowers Of War'
หนังระดับรางวัลของผู้กำกับจางอี้โหมวอีกด้วยผลงานด้านภาพยนตร์ภาพยนตร์ละครโทรทัศน์
language:
- th
datasets:
- thaiqa_squad
pipeline_tag: question-answering
Wangchanberta For Question Answering
Pretraining Model: wangchanberta-base-att-spm-uncased.
This is the wangchanberta-base-att-spm-uncased model, fine-tuned using the thaiqa_squad dataset.
Souce code
https://github.com/tommyA8/wangchanBERTa-fined-tune-thaiqa_squad
Data cleaning
Remove HTML tags using BeautifulSoup and remove punctuation using string.punctuation.
from bs4 import BeautifulSoup
example = """<doc id="376583" url="https://th.wikipedia.org/wiki?curid=376583" title="ลูนา 1">
ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์
และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ</doc>"""
example = BeautifulSoup(example).get_text()
print(example)
#"ลูนา 1 ลูนา 1 (อี-1 ซีรีส์) ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา (; "ความฝัน") เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"
import string
punct = string.punctuation
no_punct = [char for char in example if char not in punct]
example = ''.join(no_punct)
print(example)
#"ลูนา 1 ลูนา 1 อี1 ซีรีส์ ซึ่งในขณะนั้นรู้จักกันในชื่อ เมชตา ความฝัน เป็นยานอวกาศลำแรกที่เดินทางไปถึงบริเวณใกล้เคียงของดวงจันทร์ และเป็นยานอวกาศลำแรกในโครงการลูนาของโซเวียตที่สามารถปล่อยขึ้นไปในทิศทางเดียวกับดวงจันทร์ได้สำเร็จ"