OpenAI เปิดตัวชุดทดสอบปัญญาประดิษฐ์ SWE-Bench Verified ที่สร้างต่อจาก SWE-Bench ชุดทดสอบการเขียนโปรแกรมที่ได้รับความนิยมสูง โดยแก้ปัญหาคุณภาพของชุดข้อมูลเดิมที่อาศัยการกวาด GitHub Issue มาเป็นโจทย์ให้ปัญญาประดิษฐ์
SWE-Bench อาศัยคำถามและชุดทดสอบซอฟต์แวร์เท่านั้น ในการทดสอบตัว AI จะมองไม่เห็นชุดทดสอบแต่เห็นเฉพาะปัญหา และต้องพยายามเขียนโปรแกรมให้รันผ่านชุดทดสอบให้ได้ แบบเดียวกับการสอบเขียนโปรแกรม แต่เป็นปัญหาจริงในการทำงาน
ปัญหาคือชุดทดสอบนี้ไม่สมบูรณ์เพราะข้อมูลบางส่วนในปัญหากลับไม่ครบถ้วน คำถามกำกวม หรือบางทีชุดทดสอบก็มีปัญหา ทำให้ต่อให้ปัญญาประดิษฐ์เขียนโปรแกรมได้ดีก็ยังไม่สามารถทำโจทย์เหล่านั้นได้ ทาง OpenAI จ้างโปรแกรมเมอร์มืออาชีพมาตรวจคำถาม 500 ข้อใน SWE-Bench แล้วออกเป็นชุดทดสอบ SWE-Bench Verified ที่ยืนยันว่าได้รับการตรวจสอบว่ามีคุณภาพสูง สามารถแก้ปัญหาได้จริง พร้อมกับแยกระดับความยากของปัญหา โดยรวมใช้โปรแกรมเมอร์ 93 คน สร้างชุดข้อมูล 1,699 ชุด ผลการตรวจสอบพบว่าสเปคซอฟต์แวร์ไม่ครบถ้วน 38.3% และชุดทดสอบ 61.1% ระบุว่าซอฟต์แวร์มีบั๊กแม้จะทำงานถูกต้องแล้ว
หลังจากนั้นทาง OpenAI ทดสอบ GPT-4o ด้วย SWE-Bench Verified แล้วพบว่าจำนวนปัญหาที่แก้ไขได้สูงขึ้นเป็น 33.2% จากเดิม 16% ใน SWE-Bench แสดงให้เห็นว่า GPT-4o มีความสามารถมากกว่าที่เคยเชื่อกัน หากเราสามารถแจ้งปัญหาได้ครบถ้วน อย่างไรก็ดีปัญหาที่แก้ไขได้ส่วนใหญ่เป็นปัญหาอย่างง่ายที่มนุษย์น่าจะใช้เวลาแก้น้ำกว่า 15 นาที สำหรับปัญหาที่ใช้เวลาเกิน 1 ชั่วโมงนั้นยังแก้ได้น้อยมาก สำหรับการวัดผลโดยรวมตอนนี้ Amazon Q Developer Agent ทำคะแนนได้สูงสุดถึง 38.8%
ทาง OpenAI ชี้ว่าวงการปัญญาประดิษฐ์ควรลงทุนกับการวัดประสิทธิภาพของปัญญาประดิษฐ์ให้มากขึ้น
ที่มา - OpenAI
Comments
อยากรู้ว่า 93 คนนนั้นคือ senior ทั้งหมดเลยมั๊ย
หรือ lead 1 senior 1 ที่เหลือ junior (แซวครับ)