DeepSeek บริษัทปัญญาประดิษฐ์จากจีนเปิดตัวโมเดล DeepSeek-R1 โมเดล LLM แบบคิดหาเหตุผลก่อนตอบ (reasoning model) โดยแบ่งเป็นสองรุ่นย่อย คือ
นอกจากนี้โมเดลตระกูล R1 ยังมีโมเดลขนาดเล็กที่ย่อมาจาก Qwen และ Llama ทำให้ได้โมเดลขนาดเล็กแต่ประสิทธิภาพสูง ขึ้นไปถึงระดับ OpenAI o1-mini โมเดลขนาดเล็กสุดมีขนาดเพียง 1.5B เท่านั้น แต่ตัวที่นำมาโชว์ผลทดสอบคือ DeepSeek-R1-32B
โมเดล DeepSeek-R1 ตัวเต็มมีขนาด 671B พารามิเตอร์ผสมกันทั้ง BF16, F32, และ F8_E4M3 ขนาดไฟล์รวม 700GB
ที่มา - HuggingFace
Comments
เย่ มี tag เป็นของตัวเองแล้ว
WE ARE THE 99%