กูเกิลปล่อยชุดข้อมูล Visually Rich Document Understanding (VRDU) ชุดข้อมูลเอกสารรูปแบบต่างๆ เพื่อฝึกปัญญาประดิษฐ์อ่านแบบฟอร์มและดึงข้อมูลออกมาได้อย่างถูกต้อง
ความพิเศษของ VRDU คือมีเอกสารหลายรูปแบบ มีฟอร์มที่มีความซับซ้อนสูงๆ มีข้อมูล OCR คุณภาพสูงแนบมาให้เพื่อให้ผู้พัฒนา AI อ่านแบบฟอร์มสามารถเน้นการพัฒนาอยู่ที่การอ่านแบบฟอร์มอย่างเดียว
VRDU มีงานทดสอบประสิทธิภาพปัญญาประดิษฐ์สามระดับ ได้แก่
ผลทดสอบปัญญาประดิษฐ์อ่านแบบฟอร์มในปัจจุบัน เช่น LayoutLM หรือ FromNet นั้นพบว่าการทดสอบแบบ STL นั้นได้คะแนนค่อนข้างดีมาก แต่งานในกลุ่ม MTL และ UTL ยังได้คะแนนค่อนข้างแย่ แสดงให้เห็นว่าโลกปัญญาประดิษฐ์อ่านแบบฟอร์มนั้นยังสามารถปรับปรุงได้อีกมาก
ที่มา - Google AI Blog