Tags:
Node Thumbnail

ปัญญาประดิษฐ์กลุ่มหนึ่งที่เป็นที่สนใจในช่วงหลังคือการสรุปบทความ (text summarization) ที่สร้างปัญญาประดิษฐ์ที่รับอินพุตเป็นบทความขนาดยาว แต่สามารถสรุปใจความสำคัญออกมาได้ภายในประโยคเดียว ปัญหาสำคัญคือการสร้างตัวอย่างการสรุปบทความนั้นทำได้ยาก และต้องใช้แรงงานสูง ตอนนี้กูเกิลก็นำเสนองานวิจัย PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models) ที่สามารถสรุปบทความได้ใกล้เคียงกับปัญญาประดิษฐ์อื่นๆ โดยใช้ตัวอย่างการสรุปบทความเพียงเล็กน้อยเท่านั้น

เทคนิคของกูเกิลอาศัยอินพุตเป็นบทความอื่นๆ โดยไม่มีสรุปซึ่งหาชุดข้อมูลได้ง่ายโดยทั่วไป แล้วสร้างปัญญาประดิษฐ์ด้วยการลบบางประโยคออกจากบทความ จากนั้นฝึกปัญญาประดิษฐ์ให้พยายามสร้างประโยคนั้นๆ กลับขึ้นมาใหม่ เรียกเทคนิคนี้ว่าการสร้างประโยคที่หายไป (gap sentences generation - GSG) โดยชุดข้อมูลที่ใช้ฝึกเบื้องต้นนี้มีสองชุดข้อมูล ได้แก่ C4 บทความจากเว็บที่ดูดมาขนาด 750GB จาก 350 ล้านเว็บ และ HugeNews บทความข่าวที่ดูดมาขนาด 3.8TB รวม 1,500 ล้านบทความ โดยบทความเหล่านี้ไม่มีสรุปแต่อย่างใด หลังจากนั้นจึงมาฝึกกับชุดข้อมูลสรุปบทความโดยเฉพาะที่มีขนาดเล็กกว่า โดยชุดข้อมูล Gigaword ที่ใหญ่ที่สุดมีจำนวน 4 ล้านบทความเท่านั้น

ทีมวิจัยวัดคะแนนสุดท้ายด้วยการจ้างคนมาให้คะแนนการสรุปแบบ 1-5 คะแนน จากตัวอย่างสรุป 4 ชุดโดยมีตัวอย่างจากการสรุปของคนจริงๆ ผสมไปด้วย และพบว่าการฝึกเพิ่มเติมกับตัวอย่างที่มีข้อมูลสรุปมาเป็นเฉลยเพียง 1,000 ชุดก็สามารถทำคะแนนได้ดีกว่าการสรุปของคนจริงๆ ไป 6 ชุดข้อมูล จาก 12 ชุดข้อมูล

ตัวโค้ดและ snapshot ของโมเดลมีแจกใน GitHub

ที่มา - Google AI Blog

No Description

รูปแบบการฝึก GSG ที่ปัญญาประดิษฐ์ฝึกสร้างประโยคที่หายไปในชุดข้อมูลที่ไม่มีบทสรุปตัวอย่างให้

Get latest news from Blognone

Comments

By: zyzzyva
Blackberry
on 10 June 2020 - 01:28 #1162012

จะพีคกว่านี้ถ้ามาเฉลยทีหลังว่าบทความที่ปรากฏใน Google AI Blog ก็คือผ่านการสรุปจาก AI ตัวนี้อีกที

By: popjun on 10 June 2020 - 06:09 #1162021

แต่สามารถสรุปใจความสำคัญ"ขออกมาได้" -> ออกมาได้

By: terdsak.s on 10 June 2020 - 08:39 #1162032 Reply to:1162021

อยากใช้ AI มาช่วยตรวจคำใน blognone เลยครับ ฮ่าๆ

By: AMp
In Love
on 10 June 2020 - 09:51 #1162043 Reply to:1162032

ก็มีมาตั้งนานแล้วนะครับ xD

By: -Rookies-
ContributorAndroidWindowsIn Love
on 10 June 2020 - 10:53 #1162058 Reply to:1162043

พูดถึงโจโฉ โจโฉก็มา
V
V
V


เทคโนโลยีไม่ผิด คนใช้มันในทางที่ผิดนั่นแหละที่ผิด!?!

By: btoy
ContributorAndroidWindows
on 10 June 2020 - 13:58 #1162124 Reply to:1162058
btoy's picture

555+


..: เรื่อยไป

By: panurat2000
ContributorSymbianUbuntuIn Love
on 10 June 2020 - 10:45 #1162052 Reply to:1162021
panurat2000's picture

ปัญญาประดิษฐ์กลุ่มหนึ่งที่เป็นที่สนใจในช่วงหลักคือการสรุปบทความ

ในช่วงหลัก ?

เรียกเทคนิดนี้ว่าการสร้างประโยคที่หายไป

เทคนิด => เทคนิค

By: confused
iPhoneWindows PhoneAndroidWindows
on 11 June 2020 - 00:31 #1162225

แสดงว่าต้องเข้าใจภาษาในบทความได้เลยใช่มั้ยครับ
ถึงได้สรุปออกมาได้