ปัญญาประดิษฐ์กลุ่มหนึ่งที่เป็นที่สนใจในช่วงหลังคือการสรุปบทความ (text summarization) ที่สร้างปัญญาประดิษฐ์ที่รับอินพุตเป็นบทความขนาดยาว แต่สามารถสรุปใจความสำคัญออกมาได้ภายในประโยคเดียว ปัญหาสำคัญคือการสร้างตัวอย่างการสรุปบทความนั้นทำได้ยาก และต้องใช้แรงงานสูง ตอนนี้กูเกิลก็นำเสนองานวิจัย PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models) ที่สามารถสรุปบทความได้ใกล้เคียงกับปัญญาประดิษฐ์อื่นๆ โดยใช้ตัวอย่างการสรุปบทความเพียงเล็กน้อยเท่านั้น
เทคนิคของกูเกิลอาศัยอินพุตเป็นบทความอื่นๆ โดยไม่มีสรุปซึ่งหาชุดข้อมูลได้ง่ายโดยทั่วไป แล้วสร้างปัญญาประดิษฐ์ด้วยการลบบางประโยคออกจากบทความ จากนั้นฝึกปัญญาประดิษฐ์ให้พยายามสร้างประโยคนั้นๆ กลับขึ้นมาใหม่ เรียกเทคนิคนี้ว่าการสร้างประโยคที่หายไป (gap sentences generation - GSG) โดยชุดข้อมูลที่ใช้ฝึกเบื้องต้นนี้มีสองชุดข้อมูล ได้แก่ C4 บทความจากเว็บที่ดูดมาขนาด 750GB จาก 350 ล้านเว็บ และ HugeNews บทความข่าวที่ดูดมาขนาด 3.8TB รวม 1,500 ล้านบทความ โดยบทความเหล่านี้ไม่มีสรุปแต่อย่างใด หลังจากนั้นจึงมาฝึกกับชุดข้อมูลสรุปบทความโดยเฉพาะที่มีขนาดเล็กกว่า โดยชุดข้อมูล Gigaword ที่ใหญ่ที่สุดมีจำนวน 4 ล้านบทความเท่านั้น
ทีมวิจัยวัดคะแนนสุดท้ายด้วยการจ้างคนมาให้คะแนนการสรุปแบบ 1-5 คะแนน จากตัวอย่างสรุป 4 ชุดโดยมีตัวอย่างจากการสรุปของคนจริงๆ ผสมไปด้วย และพบว่าการฝึกเพิ่มเติมกับตัวอย่างที่มีข้อมูลสรุปมาเป็นเฉลยเพียง 1,000 ชุดก็สามารถทำคะแนนได้ดีกว่าการสรุปของคนจริงๆ ไป 6 ชุดข้อมูล จาก 12 ชุดข้อมูล
ตัวโค้ดและ snapshot ของโมเดลมีแจกใน GitHub
ที่มา - Google AI Blog
รูปแบบการฝึก GSG ที่ปัญญาประดิษฐ์ฝึกสร้างประโยคที่หายไปในชุดข้อมูลที่ไม่มีบทสรุปตัวอย่างให้
Comments
จะพีคกว่านี้ถ้ามาเฉลยทีหลังว่าบทความที่ปรากฏใน Google AI Blog ก็คือผ่านการสรุปจาก AI ตัวนี้อีกที
แต่สามารถสรุปใจความสำคัญ"ขออกมาได้" -> ออกมาได้
อยากใช้ AI มาช่วยตรวจคำใน blognone เลยครับ ฮ่าๆ
ก็มีมาตั้งนานแล้วนะครับ xD
พูดถึงโจโฉ โจโฉก็มา
V
V
V
เทคโนโลยีไม่ผิด คนใช้มันในทางที่ผิดนั่นแหละที่ผิด!?!
555+
..: เรื่อยไป
ในช่วงหลัก ?
เทคนิด => เทคนิค
แสดงว่าต้องเข้าใจภาษาในบทความได้เลยใช่มั้ยครับ
ถึงได้สรุปออกมาได้