ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้
หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ
แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก
แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่
หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา
ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว
ที่มา - HuggingFace
Comments
จะยอมก็ไม่ได้อ่ะเนอะ เห็นเค้านำหน้าหน่อยไม่ได้เลย 55555
ทำไมต้องยอมล่ะครับ?
lewcpe.com, @wasonliw
งง