DeepSeek v3 โมเดลเปิดให้รันเองขนาด 685B ทดสอบเขียนโค้ดคะแนนดีกว่า Claude 3.5 Sonnet

By: lew

on 26 December 2024 - 11:45 Tags:

Topics:

LLM

Artificial Intelligence

China

Open Source

DeepSeek ผู้พัฒนาปัญญาประดิษฐ์ LLM จากจีน ปล่อยโมเดล DeepSeek v3 โมเดล LLM ขนาดใหญ่มาก จำนวนพารามิเตอร์มากขึ้น 685B จากเดิมที่โมเดลเปิดใหญ่สุดคือ Llama 3.1 405B

ตอนนี้ยังไม่มีข้อมูลเกี่ยวกับโมเดลนี้นัก แต่ทาง Aider โครงการซอฟต์แวร์ช่วยเขียนโปรแกรมก็โชว์ผลทดสอบพบว่า DeepSeek v3 ทำคะแนนทดสอบได้ดีมาก แซงหน้า Claude 3.5 Sonnet อละ Gemini Exp 1206 ไปได้ เป็นรองเพียง OpenAI o1 เท่านั้น ตัวโมเดลใช้สถาปัตยกรรม Mixture-of-Experts แยก expert ออก 256 ชุด และเลือกใช้ 8 ชุดในแต่ละ token

ตอนนี้ยังไม่มีเอกสารเพิ่มเติมว่าโมเดลที่ปล่อยออกมาใช้ไลเซนส์แบบใด แต่คาดว่าจะเป็น DeepSeek License ที่ใช้งานได้ค่่อนข้างอิสระ ยกเว้นการใช้งานผิดกฎหมายหรือการใช้งานทางการทหาร

ที่มา - Simon Willson's Weblog, Aider Leaderboard

No Description