Tags:
Node Thumbnail

กูเกิลปล่อยชุดข้อมูล Visually Rich Document Understanding (VRDU) ชุดข้อมูลเอกสารรูปแบบต่างๆ เพื่อฝึกปัญญาประดิษฐ์อ่านแบบฟอร์มและดึงข้อมูลออกมาได้อย่างถูกต้อง

ความพิเศษของ VRDU คือมีเอกสารหลายรูปแบบ มีฟอร์มที่มีความซับซ้อนสูงๆ มีข้อมูล OCR คุณภาพสูงแนบมาให้เพื่อให้ผู้พัฒนา AI อ่านแบบฟอร์มสามารถเน้นการพัฒนาอยู่ที่การอ่านแบบฟอร์มอย่างเดียว

VRDU มีงานทดสอบประสิทธิภาพปัญญาประดิษฐ์สามระดับ ได้แก่

  1. แบบฟอร์มเดี่ยว (Single Template Learning - STL) ฝึกอ่านแบบฟอร์มรูปแบบเดียว โดยทั่วไปควรมีความแม่นยำเกิน 90%
  2. แบบฟอร์มผสม (Mixed Template Learning - MTL) ฝึกแบบฟอร์มหลายรูปแบบไปพร้อมกัน แล้วสุ่มทดสอบให้อ่านแบบฟอร์มบางรูปแบบที่เคยฝึกมา
  3. แบบฟอร์มที่ไม่เคยเห็น (Unseen Template Learning - UTL) การฝึกแบบยากที่สุด เนื่องจากปัญญาประดิษฐ์ต้องเจอแบบฟอร์มรูปแบบที่ไม่เคยเจอมาก่อน แบบฟอร์มที่ใช้ฝึกกับแบบฟอร์มทดสอบเป็นคนละรูปแบบกัน

ผลทดสอบปัญญาประดิษฐ์อ่านแบบฟอร์มในปัจจุบัน เช่น LayoutLM หรือ FromNet นั้นพบว่าการทดสอบแบบ STL นั้นได้คะแนนค่อนข้างดีมาก แต่งานในกลุ่ม MTL และ UTL ยังได้คะแนนค่อนข้างแย่ แสดงให้เห็นว่าโลกปัญญาประดิษฐ์อ่านแบบฟอร์มนั้นยังสามารถปรับปรุงได้อีกมาก

ที่มา - Google AI Blog

No Description

Get latest news from Blognone