NVIDIA บอก DeepSeek R1 เป็นความก้าวหน้าของ Test-Time Scaling แต่งาน Pre และ Post ยังต้องการจีพียูมหาศาล

By: arjin

on 28 January 2025 - 07:09 Tags:

Topics:

NVIDIA

Artificial Intelligence

LLM

DeepSeek

NVIDIA ชี้แจงกับสื่อหลังราคาหุ้นปรับลดลงแรง 17% จากความกังวลว่า DeepSeek ได้นำเสนอเทคโนโลยีการพัฒนาปัญญาประดิษฐ์ที่ไม่ต้องพึ่งพาฮาร์ดแวร์ประสิทธิภาพสูง จึงอาจเข้าสู่จุดพีคของความต้องการจีพียู

NVIDIA บอกว่าเทคโนโลยี DeepSeek ทำให้เห็นว่าเราสามารถสร้างโมเดลใหม่ขึ้นมาได้ โดยใช้เทคนิคหลายอย่าง รวมทั้งต่อยอดจากโมเดลโอเพนซอร์สที่มีอยู่ ร่วมกับการประมวลผลที่ถูกควบคุมไว้อย่างดี ซึ่งเป็นความก้าวหน้าในการทำส่วน Test-Time Scaling ตามกฎการ Scaling 3 อย่าง (Three Scaling Laws) ที่ซีอีโอ Jensen Huang เคยอธิบายไว้

No Description

NVIDIA บอกว่าความต้องการจีพียูยังคงมีอยู่ในส่วน Pre-Training Scaling และ Post-Training Scaling โดยเฉพาะงาน Inference ที่ต้องพึ่งพาการประมวลผลจำนวนมาก

ที่มา: CNBC

Hiring! บริษัทที่น่าสนใจ

Bangmod Enterprise

The leader in Cloud Server and Hosting in Thailand.

Nipa Cloud

#1 OpenStack cloud provider in Thailand with our own data center and software platform.

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

Comments

By: shub on 28 January 2025 - 10:18 #1332405

ของเค้าดีจริงๆ แต่เรื่องภาษาก็ยังสู้gptไม่ได้นะ แต่เรื่องอื่นนี่สั่งให้ทำได้เกือบหมดบางงานส่งให้gptทำมันเอ๋อไปเลยไม่ยอมทำให้deepseekกลับทำให้ได้

By: checkmate95

on 28 January 2025 - 10:54 #1332422 Reply to:1332405

แต่ context length ค่อนข้างน้อยถ้าเทียบกับเจ้าอื่นครับ

By: TeamKiller

on 28 January 2025 - 10:24 #1332408

ของต้องขายยังไงก็ต้องบอกว่าใช้ไว้ก่อนละเดี่ยวขายไม่ได้เงิบ

By: lew

on 28 January 2025 - 13:47 #1332440 Reply to:1332408

ผมก็ยังนึกไม่ออกครับว่าถ้าเทคนิค reinforced learning ของ DeepSeek มันทำได้ดี ทำไมฝั่งสหรัฐฯ จะไม่เอามาทำกับโมเดลขนาดใหญ่ขึ้น ความละเอียดพารามิเตอร์เต็ม

จะบอกว่าตลาดไม่ต้องการปัญญาประดิษฐ์ฉลาดกว่านี้แล้วคงไม่ใช่ อีกสองเดือนชิปรุ่นใหม่ ถ้าประหยัดไฟขึ้น พลังฝึกสูงขึ้น ลูกค้าจะบอกว่าพอแล้ว DeepSeek ฉลาดเกินใช้งานนี่คงเป็นเรื่องประหลาดมาก

lewcpe.com, @wasonliw

By: lawson on 28 January 2025 - 13:50 #1332441 Reply to:1332440

https://www.nextplatform.com/2025/01/27/how-did-deepseek-train-its-ai-model-on-a-lot-less-and-crippled-hardware/

มันมีหลายเทคนิคที่ฝั่งตะวันตกคิดไม่ถึง

By: lew

on 28 January 2025 - 15:13 #1332446 Reply to:1332441

เทคนิคอื่นๆ ที่ใช้กันก่อนหน้านี้ก็ "คิดไม่ถึง" กันเหมือนกันครับ เขาถึงเรียกว่างานวิจัย โลกวิทยาศาสตร์มันก็เดินหน้าไปเพราะมีคนพบความก้าวหน้าใหม่แล้วรายงานออกมา

DeepSeek เองก็ยืนบนใหล่ยักษ์คนอื่นมา เทคนิคจำนวนมากก็อ้างอิงงานฝั่งตะวันตก

คำถามต้นเรื่องยังอยู่คือ เจอวิธีใหม่ แล้วอะไรจะทำให้เราไม่ใช้เทคนิคใหม่บนโมเดลที่ใหญ่ขึ้น? หรือจริงๆ เดี๋ยวก็ใช้แล้วก็อีกสักพักก็มีคนเอาชนะ DeepSeek ไป

lewcpe.com, @wasonliw

By: TeamKiller

on 29 January 2025 - 00:26 #1332499 Reply to:1332446

จีนทำได้ แล้วเปิดเผยหมด open source หมด เทคนิคไรก็บอก งีฝรั่งก็เอาไปทำตามได้ก็คงดีกว่า ไวกว่า เพราะ resource มีเยอะกว่า

By: TeamKiller

on 29 January 2025 - 00:25 #1332498 Reply to:1332440

เวลาชิปใหม่มาแล้วซื้อมาลงนี่เขาคงไม่โล๊ะออกทั้ง Datacenter ใช่ไหมครับ ไม่งั้นคงเปลืองเงินแย่ ของเดิมก็ไม่ช้ามาก ก็ทำงานได้อยู่ด้วย

By: shub on 29 January 2025 - 11:04 #1332528 Reply to:1332498

มันก็แล้วแต่นะว่าอนาคตจะมีการใช้งานมันอยู่มั้ยของแบบนี้มันไม่ตายตัว อย่างsupercomputerรุ่นเก่าๆที่9armเคยไปบิดไว้ตัวนั้นเค้าก็ต้องปล่อยขายเพราะการรันเครื่องรุ่นเก่ามันมีค่าefficiencyต่ำไม่คุ้มต่อการดำเนินการต่อ ค่าไฟค่าบำรุงรักษาค่าสถานที่มันมีcostตรงนี้เยอะการที่ซื้อรุ่นใหม่มาแล้วปลดรุ่นเก่าออกจึงไม่ได้เป็นการเปลืองเงินแต่ทำเพื่อให้งานมีประสิทธิภาพมากขึ้น มันไม่ช้าไม่ได้เป็นเหตุผลเดียวที่จะให้มันน่าใช้งานต่อ

By: tom789

on 28 January 2025 - 12:34 #1332435

คนขายของ ก็ต้องบอก ของตัวเองดี

By: aoza00123

on 28 January 2025 - 15:32 #1332447

ทางเลือกการใช้พลังงานสำหรับการประมวลผลกำลังมา nvidia คงมีเลิ่กลั่กบ้างแหละ

By: YongZ on 28 January 2025 - 18:38 #1332462

อีกนัยนึงคือกระทบความต้องการจีพียูหนึ่งในสาม

Main menu