Open-R1 ได้ผลผลิตแรก OlympicCoder-7B โมเดลขนาดเล็กสำหรับเขียนโปรแกรม เอาชนะ DeepSeek-R1 เฉพาะหัวข้อได้แล้ว

By: lew

on 12 March 2025 - 10:18 Tags:

Topics:

Hugging Face

LLM

หลังจาก HuggingFace พยายามทำซ้ำ DeepSeek-R1 แบบเปิดทั้งหมด ตอนนี้ก็มีผลผลิตแรกแล้วเป็นโมเดล OlympicCoder-7B ที่พัฒนาต่อมาจาก Qwen2.5-Coder

OlympicCoder-7B อาศัยชุดข้อมูลคิดก่อนตอบจาก CodeForces-CoTs ที่ใส่โจทย์เขียนโปรแกรมภาษา C++ และ Python ลง DeepSeek-R1 กว่าแสนข้อ โดยนำโมเดล Qwen2.5-Coder ขนาด 7B และ 32B มาใช้งาน ตอนนี้ทดสอบเฉพาะชุดข้อสอบโอลิมปิก ผลทดสอบที่ได้ OlympicCoder-32B สามารถเอาชนะ QwQ-32B และ DeepSeek-R1 ไปได้ โดยยังเป็นรอง o1 และ o3-mini อยู่

บทเรียนจากการฝึก OlympicCoder ทำให้ทีมงานได้บทเรียนหลายอย่าง เช่น เทคนิคการฝึก sample packing ทำให้ประสิทธิภาพโมเดลลดลง, learning rate สามามารถปรับให้สูงขึ้นได้, พบปัญหาโมเดลไม่ยอมคิดในปัญหาอื่นๆ ที่ไม่ได้ฝึกไว้ก่อน, ปัญหาหน่วยความจำจากการฝึกกับข้อความส่วนคิดในใจที่ยาวมาก

ที่มา - HuggingFace

No Description