Tags:
Node Thumbnail

ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้

หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ

แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก

แนวทางการพัฒนา Open-R1 แบ่งออกเป็น 3 ขั้น ได้แก่

  1. สร้างชุดข้อมูลการให้เหตุผล โดยใช้ข้อมูลจากเอาท์พุตของ DeepSeek-R1 เอง
  2. สร้างโค้ดการฝึกแบบ RL ที่สามารถฝึกโมเดล LLM อื่นให้สามารถให้เหตุผลแบบเดียวกันได้
  3. สาธิตการสร้างโมเดลแบบเดียวกับ DeepSeek-R1 เต็มรูปแบบ

หากทีมงานสามารถสร้างชุดข้อมูลและฝึกโมเดลสาธิตได้สำเร็จก็จะเปิดทางการพัฒนาโมเดลให้เหตุผลแบบอื่นๆ ต่อไป เช่น การให้เหตุผลทางการแพทย์ที่โมเดลสามารถคิดแนวทางวินิจฉัยต่างๆ เป็นขั้นตอนก่อนจะทำนายโรคหรือแนะนำการรักษา

ตอนนี้โครงการยังเป็นเพียงช่วงเริ่มต้นแต่ก็มีดาวบน GitHub ถึงหมื่นดาวแล้ว

ที่มา - HuggingFace

No Description

Get latest news from Blognone

Comments

By: dheerapat on 29 January 2025 - 08:36 #1332507

จะยอมก็ไม่ได้อ่ะเนอะ เห็นเค้านำหน้าหน่อยไม่ได้เลย 55555

By: lew
FounderJusci's WriterMEconomicsAndroid
on 29 January 2025 - 11:07 #1332530 Reply to:1332507
lew's picture

ทำไมต้องยอมล่ะครับ?


lewcpe.com, @wasonliw

By: hisoft
ContributorWindows PhoneWindows
on 31 January 2025 - 15:23 #1332743 Reply to:1332507
hisoft's picture

งง