Tags:
Node Thumbnail

OpenAI เผยแพร่รายงานการพัฒนาโมเดล AI CriticGPT ซึ่งมีพื้นฐานบน GPT-4 สำหรับใช้ตรวจจับความผิดพลาดในผลลัพธ์ของ ChatGPT ที่เป็นโค้ดโปรแกรม จากที่ผ่านมาวิธีการปรับปรุง AI ให้ทำงานถูกต้องนั้นใช้คนที่ทำหน้าที่ AI Trainer ให้ฟีดแบ็กผลลัพธ์ เพื่อให้ AI เรียนรู้และปรับปรุง (RLHF - Reinforcement Learning from Human Feedback)

อย่างไรก็ตามเมื่อ ChatGPT ทำงานเก่งขึ้น ตอบคำถามที่ซับซ้อนได้มากขึ้น การใช้คนตรวจสอบผลลัพธ์โดยเฉพาะโค้ด ก็ยิ่งจับความผิดพลาดได้ยากมากขึ้น CriticGPT จึงออกแบบมาเพื่อช่วยแนะนำว่าคนควรตรวจสอบจุดไหน ที่น่าจะเป็นจุดที่ผิดพลาด ทำให้การฟีดแบ็กแม่นยำ ถูกต้องมากยิ่งขึ้น

ถึงตรงนี้อาจสงสัยว่าแล้ว CriticGPT เรียนรู้อย่างไร วิธีการที่ใช้นั้นก็เป็น RLHF เช่นกัน โดยใช้การนำผลลัพธ์ที่ถูกแล้ว ของ ChatGPT ไปแก้ไขโดยคนให้มีความผิดพลาด แล้วให้ CriticGPT ฝึกจับผิดและเรียนรู้ให้ได้

ผลการศึกษาของ OpenAI พบว่าการนำ CriticGPT มาช่วยงาน AI Trainer นั้น ทำให้ตรวจสอบข้อผิดพลาดได้ดีขึ้น 63% เทียบกับการทำงานโดยไม่มีตัวช่วย

OpenAI บอกว่าในอนาคต AI จะเก่งและแก้ปัญหาที่ซับซ้อนได้มากขึ้น ผู้พัฒนา AI จึงต้องสร้างเครื่องมือแบบ CriticGPT นี้ เพื่อให้สามารถรู้เท่าทัน เพื่อป้องกันไม่ให้ AI ทำงานผิดพลาดนั่นเอง

ที่มา: OpenAI

No Description

Get latest news from Blognone