DeepSeek เปิดตัวโมเดลคิดก่อนตอบ R1 ผลทดสอบบางชุดเอาชนะ OpenAI o1

By: lew

on 21 January 2025 - 09:15 Tags:

Topics:

DeepSeek

LLM

Artificial Intelligence

China

DeepSeek บริษัทปัญญาประดิษฐ์จากจีนเปิดตัวโมเดล DeepSeek-R1 โมเดล LLM แบบคิดหาเหตุผลก่อนตอบ (reasoning model) โดยแบ่งเป็นสองรุ่นย่อย คือ

DeepSeek-R1-Zero รุ่นฝึกแบบ reinforcement learning (RL) หรือการฝึกแบบวางเป้าหมายให้แล้วให้โมเดลพยายามไปถึงเป้าหมาย แม้ว่าจะทำได้ดีแต่ก็มีปัญหาบางอย่าง เช่น พูดซ้ำๆ ไม่หยุด, ข้อความเหตุผลอ่านได้ยาก, หรือคิดหลายภาษาผสมกัน
DeepSeek-R1 ฝึกแบบ supervised fine-tuning (SFT) ด้วยชุดข้อมูลการคิดเป็นเหตุเป็นผลก่อน จากนั้นจึงค่อนมาฝึกแบบ RL เพื่อมุ่งสู่เป้าหมาย ผลที่ได้ใกล้เคียงกับ OpenAI o1

นอกจากนี้โมเดลตระกูล R1 ยังมีโมเดลขนาดเล็กที่ย่อมาจาก Qwen และ Llama ทำให้ได้โมเดลขนาดเล็กแต่ประสิทธิภาพสูง ขึ้นไปถึงระดับ OpenAI o1-mini โมเดลขนาดเล็กสุดมีขนาดเพียง 1.5B เท่านั้น แต่ตัวที่นำมาโชว์ผลทดสอบคือ DeepSeek-R1-32B

โมเดล DeepSeek-R1 ตัวเต็มมีขนาด 671B พารามิเตอร์ผสมกันทั้ง BF16, F32, และ F8_E4M3 ขนาดไฟล์รวม 700GB

ที่มา - HuggingFace

No Description