OpenAI สร้างชุดทดสอบเขียนโปรแกรม SWE-Bench Verified จ้างโปรแกรมเมอร์ทดสอบว่าเขียนโปรแกรมตามโจทย์ได้จริง

By: lew

on 19 August 2024 - 22:22 Tags:

Topics:

OpenAI

LLM

Programming

OpenAI เปิดตัวชุดทดสอบปัญญาประดิษฐ์ SWE-Bench Verified ที่สร้างต่อจาก SWE-Bench ชุดทดสอบการเขียนโปรแกรมที่ได้รับความนิยมสูง โดยแก้ปัญหาคุณภาพของชุดข้อมูลเดิมที่อาศัยการกวาด GitHub Issue มาเป็นโจทย์ให้ปัญญาประดิษฐ์

SWE-Bench อาศัยคำถามและชุดทดสอบซอฟต์แวร์เท่านั้น ในการทดสอบตัว AI จะมองไม่เห็นชุดทดสอบแต่เห็นเฉพาะปัญหา และต้องพยายามเขียนโปรแกรมให้รันผ่านชุดทดสอบให้ได้ แบบเดียวกับการสอบเขียนโปรแกรม แต่เป็นปัญหาจริงในการทำงาน

ปัญหาคือชุดทดสอบนี้ไม่สมบูรณ์เพราะข้อมูลบางส่วนในปัญหากลับไม่ครบถ้วน คำถามกำกวม หรือบางทีชุดทดสอบก็มีปัญหา ทำให้ต่อให้ปัญญาประดิษฐ์เขียนโปรแกรมได้ดีก็ยังไม่สามารถทำโจทย์เหล่านั้นได้ ทาง OpenAI จ้างโปรแกรมเมอร์มืออาชีพมาตรวจคำถาม 500 ข้อใน SWE-Bench แล้วออกเป็นชุดทดสอบ SWE-Bench Verified ที่ยืนยันว่าได้รับการตรวจสอบว่ามีคุณภาพสูง สามารถแก้ปัญหาได้จริง พร้อมกับแยกระดับความยากของปัญหา โดยรวมใช้โปรแกรมเมอร์ 93 คน สร้างชุดข้อมูล 1,699 ชุด ผลการตรวจสอบพบว่าสเปคซอฟต์แวร์ไม่ครบถ้วน 38.3% และชุดทดสอบ 61.1% ระบุว่าซอฟต์แวร์มีบั๊กแม้จะทำงานถูกต้องแล้ว

หลังจากนั้นทาง OpenAI ทดสอบ GPT-4o ด้วย SWE-Bench Verified แล้วพบว่าจำนวนปัญหาที่แก้ไขได้สูงขึ้นเป็น 33.2% จากเดิม 16% ใน SWE-Bench แสดงให้เห็นว่า GPT-4o มีความสามารถมากกว่าที่เคยเชื่อกัน หากเราสามารถแจ้งปัญหาได้ครบถ้วน อย่างไรก็ดีปัญหาที่แก้ไขได้ส่วนใหญ่เป็นปัญหาอย่างง่ายที่มนุษย์น่าจะใช้เวลาแก้น้ำกว่า 15 นาที สำหรับปัญหาที่ใช้เวลาเกิน 1 ชั่วโมงนั้นยังแก้ได้น้อยมาก สำหรับการวัดผลโดยรวมตอนนี้ Amazon Q Developer Agent ทำคะแนนได้สูงสุดถึง 38.8%

ทาง OpenAI ชี้ว่าวงการปัญญาประดิษฐ์ควรลงทุนกับการวัดประสิทธิภาพของปัญญาประดิษฐ์ให้มากขึ้น

ที่มา - OpenAI

No Description