OpenAI เปิดตัวฟีเจอร์ Reinforcement Fine-Tuning เป็นการฝึกปัญญาประดิษฐ์ที่บอกปัญญาประดิษฐ์ว่าทำคะแนนรวมได้เท่าใดแล้ว แทนที่จะเป็นการบอกเฉลยทีละชุดข้อมูล
การฝึกแบบ Reinforcement มักทำงานที่สามารถให้คะแนนได้โดยง่าย เช่น การสร้างปัญญาประดิษฐ์เล่นเกมที่ตัวเกมสามารถบอกได้ทันทีว่าผู้เล่นได้คะแนนเท่าใด ในกรณีนี้ OpenAI ทำเทคนิคนี้มาฝึกกับงานที่ซับซ้อน โดยยกตัวอย่างการวิเคราะห์โรคว่าเกี่ยวข้องกับพันธุกรรมจุดใดบ้าง และโมเดล o1 ต้องให้รายชื่อพันธุกรรมที่น่าจะเกี่ยวข้อง ยิ่งคำตอบอยู่ใกล้อันดับแรกเท่าใดก็จะได้คะแนนสูงขึ้นเรื่อยๆ เนื่องจากโมเดลไม่ได้เห็นเฉลยโดยตรงระหว่างการฝึก การฝึกจึงเป็นการฝึกโมเดลให้คิดเป็นเหตุเป็นผลเพื่อทำคะแนนให้ดีขึ้น
ทาง OpenAI ระบุว่าเทคนิคนี้ได้ผลดีกับงาน เช่น กฎหมาย, ประกัน, สุขภาพ, การเงิน, และวิศวกรรม โดยชุดข้อมูลต้องเป็นปัญหาที่มีคำตอบที่ถูกต้องโดยไม่ค่อยมีข้อโต้แย้ง ข้อดีสำคัญของเทคนิคนี้คือปัญหาบางอย่างสามารถฝึกด้วยชุดข้อมูลไม่กี่สิบชุดเท่านั้น
ตอนนี้การให้บริการ Reinforcement Fine-Tuning ยังจำกัดเฉพาะการทดลองวิจัย คาดว่าจะเปิดให้บริการจริงได้ในต้นปี 2025
ที่มา - OpenAI