Tags:
Node Thumbnail

DeepSeek ผู้พัฒนาปัญญาประดิษฐ์ LLM จากจีน ปล่อยโมเดล DeepSeek v3 โมเดล LLM ขนาดใหญ่มาก จำนวนพารามิเตอร์มากขึ้น 685B จากเดิมที่โมเดลเปิดใหญ่สุดคือ Llama 3.1 405B

ตอนนี้ยังไม่มีข้อมูลเกี่ยวกับโมเดลนี้นัก แต่ทาง Aider โครงการซอฟต์แวร์ช่วยเขียนโปรแกรมก็โชว์ผลทดสอบพบว่า DeepSeek v3 ทำคะแนนทดสอบได้ดีมาก แซงหน้า Claude 3.5 Sonnet อละ Gemini Exp 1206 ไปได้ เป็นรองเพียง OpenAI o1 เท่านั้น ตัวโมเดลใช้สถาปัตยกรรม Mixture-of-Experts แยก expert ออก 256 ชุด และเลือกใช้ 8 ชุดในแต่ละ token

ตอนนี้ยังไม่มีเอกสารเพิ่มเติมว่าโมเดลที่ปล่อยออกมาใช้ไลเซนส์แบบใด แต่คาดว่าจะเป็น DeepSeek License ที่ใช้งานได้ค่่อนข้างอิสระ ยกเว้นการใช้งานผิดกฎหมายหรือการใช้งานทางการทหาร

ที่มา - Simon Willson's Weblog, Aider Leaderboard

No Description

Get latest news from Blognone

Comments

By: Hoo
AndroidWindows
on 26 December 2024 - 15:28 #1329644

ต้องใช้ VRAM เท่าไหร่เนี่ย 😳

By: hisoft
ContributorWindows PhoneWindows
on 26 December 2024 - 17:55 #1329649
hisoft's picture

มันมีตัวไหนคิดนานแบบ o1 บ้างนะ พอมันคิดนานแล้วไม่ค่อยแน่ใจว่าเราควรแยกคะแนนอะไรส่วนนี้ไปอีกรึเปล่า

By: Azymik on 27 December 2024 - 00:00 #1329658

ที่ใช้งานได้ค่่อนข้างอิสระ

ที่ใช้งานได้ค่อนข้างอิสระ

By: whitebigbird
Contributor
on 30 December 2024 - 11:03 #1329799 Reply to:1329658
whitebigbird's picture

จำนวนพารามิเตอร์มากขึ้น 685B

จำนวนพารามิเตอร์มากถึง 685B