ประเด็นร้อนแรงของวงการเทคตอนนี้คงไม่พ้น DeepSeek บริษัทปัญญาประดิษฐ์จากจีนที่ออกโมเดล R1 มีความสามารถคิดเป็นขั้นตอน และมีผลทดสอบหลายด้านชนะ o1 ของ OpenAI พร้อมจุดเด่นคือต้นทุนการฝึกที่ต่ำกว่ามาก แถมยังโอเพนซอร์ส เรื่องนี้จึงอาจนำมาสู่การเปลี่ยนแปลงหลายอย่างในการพัฒนา AI ซึ่งไม่ใช่แค่จากจีนแต่อาจส่งผลทั้งวงการได้
DeepSeek ก่อตั้งเมื่อเดือนกรกฎาคม 2023 โดย Liang Wenfeng ศิษย์เก่ามหาวิทยาลัย Zhejiang บริษัทตั้งอยู่ในเมืองหางโจว ได้รับเงินสนับสนุนจากกองทุน High-Flyer ซึ่ง Liang ก่อตั้งขึ้นตั้งแต่ปี 2015 เป้าหมายของ DeepSeek นั้นคล้ายกับ OpenAI คือต้องการพัฒนาปัญญาประดิษฐ์ที่มีความสามารถรอบด้านแบบมนุษย์หรือ AGI (Artificial General Intelligence)
กองทุน High-Flyer ของ Liang เป็นหนึ่งในบริษัทที่กว้านซื้อจีพียู NVIDIA A100 ไว้จำนวนมาก ก่อนที่สหรัฐอเมริกาจะออกคำสั่งแบนห้าม NVIDIA ส่งออกชิปรุ่นบนสุดไปจีน แม้ไม่มีจำนวนที่ยืนยันชัดเจน แต่คาดว่า High-Flyer มีจีพียู A100 ประมาณ 10,000 ตัว ทำให้ DeepSeek มีทรัพยากรประมวลผลขั้นสูงอยู่จำนวนหนึ่ง แต่ไม่เยอะเมื่อเทียบกับบริษัทเทคฝั่งอเมริกา จากนั้นบริษัทซื้อจีพียูรุ่นรองคือ H800 เวอร์ชันจีนมาเสริมกำลังประมวลผลแทน
Liang เคยให้สัมภาษณ์เมื่อกลางปี 2024 ว่าการถูกจำกัดทรัพยากรชิปขั้นสูง ทำให้การทำวิศวกรรมปัญญาประดิษฐ์มีต้นทุนสูงมาก กำลังประมวลผลต้องใช้ 2-4 เท่าเพื่อให้ได้ผลลัพธ์ที่เท่ากัน บริษัทจึงต้องพยายามหาทางลดช่องว่างนี้ให้ได้ จนเกิดการร่วมมือวิจัยหาแนวทางเพิ่มประสิทธิภาพการฝึกโมเดลให้ดีขึ้น บนฮาร์ดแวร์ที่มีจำกัด เช่น การลดความซ้ำซ้อนข้อมูล ลดการทำ Supervised Fine-Tuning ไปเพิ่ม Reinforce เรื่องนี้ยังอธิบายได้ว่าทำไมบริษัทเทคในจีนจึงมักทำโมเดล AI แบบโอเพนซอร์ส ก็เพื่อให้เกิดการแชร์ข้อมูลและพัฒนาร่วมกันมากที่สุด เพราะทุกคนทำงานบนฮาร์ดแวร์ที่มีข้อจำกัด
DeepSeek บอกว่าต้นทุนที่ใช้ในการฝึกโมเดล R1 คือ 5.6 ล้านดอลลาร์ ตัวเลขนี้น้อยกว่าต้นทุนของบริษัทปัญญาประดิษฐ์ในอเมริกา ซึ่งตัวเลขขั้นต่ำคือ 100 ล้านดอลลาร์ หรือบางกรณีอาจแตะระดับพันล้านดอลลาร์ ตรงนี้จึงเป็นประเด็นที่พูดถึงมากเพราะหากการพัฒนาโมเดลแบบ LLM ทำได้ด้วยต้นทุนที่น้อยลงขนาดนี้ย่อมส่งผลในหลายด้าน ไม่ว่าจะเป็นผู้ผลิตฮาร์ดแวร์ หรือบริษัทพัฒนา AI ที่ลงทุนไปแล้วหรือกำลังวางแผนลงทุนในอนาคต
อย่างไรก็ตาม The Wall Street Journal อ้างข้อมูลว่า Liang เพิ่งเข้าพบ Li Qiang นายกรัฐมนตรีของจีนเมื่อสัปดาห์ที่แล้ว และบอกว่าคำสั่งแบนการส่งออกชิปมาจีนนั้น ยังคงเป็นปัญหาที่สร้างข้อจำกัดในการพัฒนาด้านปัญญาประดิษฐ์อยู่
มีความเห็นที่น่าสนใจของ Jim Fan นักวิจัยที่ NVIDIA เขาบอกว่า DeepSeek ใช้วิธีพัฒนาโมเดลที่แตกต่างออกไปหลายอย่าง เช่น เรียนรู้จากศูนย์แบบ AlphaZero, ลดระดับ Reward, ฝึกให้ได้ผลลัพธ์ที่แม่นยำแล้วเลือกไปเลย ทำให้ลดทางเลือกแบบต้นไม้ที่เพิ่มความซับซ้อนตอนประมวลผล ส่วนความกังวลว่าจะกระทบกับการลงทุนหลายส่วน เขามองว่าเมื่อต้นทุนฝึกฝนลดลง 10 เท่า ก็แปลว่าทรัพยากรที่มีปัจจุบันจะทำงานได้มากขึ้น 10 เท่าด้วย ปลายทางของปัญญาประดิษฐ์ความสามารถรอบด้านจึงเข้ามาถึงทุกคนเร็วขึ้นเช่นกัน
Comments
เอาจริงๆนักพัฒนา AI ของเมกา ส่วนใหญ่ก็มาจากเอเชีย จีน+อินเดีย ทำให้นึกถึงการแข่งขันโอลิมปิกด้านคณิตศาสตร์
เขามองว่าเมื่อต้นทุนฝึกฝนลดลง 10 เท่า ก็แปลว่าทรัพยากรที่มีปัจจุบันจะทำงานได้มากขึ้น 10 เท่าด้วย
มองแบบนักวิจัย คิดได้แบบนั้น แต่มองแบบธุรกิจ การที่ต้องไปหาเงินมาลงทุนมากมายขนาดนั้น ต้องใช้เวลานานกว่าจะคืนทุน แต่คนที่ลงทุนน้อยกว่า ย่อมคืนทุนเร็วกว่า และเมื่อการลงทุนน้อยลง นั่นหมายความว่าผู้เล่นในตลาาดจะเยอะขึ้นด้วย คู่แข่งจะเยอะขึ้น คนลงทุนคนแรก ๆ ที่จ่ายแพง ๆ จะต้องใช้เวลานานขึ้น กว่าจะคืนทุน หรืออาจจะต้องวิ่งไล่ตามต้นทุนของตัวเองไปเรื่อย ๆ แบบไม่รู้จบ เพราะคู่แข่งในตลาดเยอะขึ้น มาแชร์กลุ่มผู้ใช้บริการเยอะขึ้น
การปรากฏตัวของ DeepSeep ทำให้เกิดปรากฎการณ์วงแตก ของผู้ลงทุน ในมุมมองว่า นี่ตรูเสียเงินมากขนาดนี้ไปเพื่ออะไร ในเมื่อมีคนมาทำสิ่งเดียวกัน ในราคาที่ถูกกว่ากันมากมายแบบนี้ แล้วเราจะลงทุนต่อยังไงเนี่ย เหมือนซื้อหุ้นไว้ แล้วราคาหายไปเหลือนิดเดียวในเวลาแว้บเดียวนั่นละ ตอนนี้ มูลค่าของการลงทุนที่ให้ได้สิ่งเดียวกัน มีคนที่ทำได้ถูกกว่าไม่รู้กี่เท่า มันจะมีปรากฏการณ์ ลุกช้า จ่ายรอบวงไหมเนี่ย
ยกตัวอย่าง ในวงการผม เมื่อ 2538 ราคาของสิ่งหนึ่ง ราคาต่อหน่วยการใช้ 1 ครั้ง คือ 80 บาท มีผู้เล่น 4 บริษัทในโลก ต้องใช้เทคโนโลยีชั้นสูง เลเซอร์เท่ากระบอกข้าวหลามหนองมน ต่อมา มีคนพัฒนาให้ใช้ Halogen lamp แทน ลดต้นทุนไปอีก จนมาถึงยุคที่มี semi conductor laser และสินค้าจีนเข้าตลาด ปัจจุบัน ราคาต่อหน่วย อยู่ที่ประมาณ 20 บาท สวนทางกับอัตราเงินเฟ้อ และระยะเวลา ปัจจุบัน มีประมาณ 3-400 Brand ในตลาด
ผู้เล่นในยุคตั้งต้น ที่ปรับตัวไม่ได้ ยังยึดติดกับเทคโนโลยีเดิม 2 เจ้า ก็เป็นบอนไซไปแล้ว ที่เหลือ เจ้านึงปรับตัวได้บางส่วน แต่ไม่รุ่ง มีแค่บริษัทญี่ปุ่นบริษัทเดียว ที่ยังอยู่ในตลาดได้ทุกวันนี้ เป็นอันดับ 1 ในตลาด แต่บริษัทจีนที่เป็นอันดับ 2 หายใจรดต้นคอ
เริ่มต้น บริษัทจีน copy and develop แต่ตอนนี้ ใช้เทคโนโลยีของตัวเอง เหนือบริษัทญี่ปุ่นที่เชื่องช้าไปแล้ว บริษัทจีนลงทุนกับทีม R&D มากมาย กว่าจะมาถึงจุดนี้ บริษัทนี้ ขยายผลไปในสินค้าตัวอื่น ๆ ด้วย สินค้าอีกตัว เป็นอันดับ 1 ของตลาดเรียบร้อยแล้ว ในเวลาเพียง 2 ปี เนื่องจากเจ้าตลาดไม่มีคู่แข่ง มีบริษัทเป็นสิบเจ้าที่มาแข่ง แต่ไม่ใกล้เคียง เจ้าตลาด ก็ยังขายเทคโนโลยีเมื่อ 20 ปีก่อนอยู่ ไม่ปรับตัว บริษัทจีน เริ่มต้นทำตามแบบต้นฉบับ แล้วปรับให้ตรงใจลูกค้าไปเรื่อย ๆ ฟังเสียงลูกค้าเอเซีย มากกว่า พวกบริษัท ยุโรป ญี่ปุ่น สหรัฐ ทำให้สินค้า ตรงใจลูกค้าเอเซีย ซึ่งเป็นตลาดใหญ่ได้ 2 ปี ขึ้นเป็นอันดับ 1 ได้
ความน่ากลัวของบริษัทจีน ยังมีอีกเยอะ อันนี้เราพูดกันเฉพาะด้านใส ๆ เท่านั้นก่อนนะ
เพิ่มเติม ข่าวด้านบนบอกแล้วว่า Meta ตั้ง War room มาศึกษา DeepSeek แล้ว แสดงว่าเค้าต้องเห็นอะไรบางอย่างที่จะมากระทบเขา หรือเขาจะนำมาใช้ได้ คิดว่าคงมีอีกหลายบริษัท ที่กำลังสนใจกับเรื่องนี้ เพียงแต่ไม่ออกมาเป็นข่าวให้เราเห็น
อย่างงี้แสดงว่า deepseek คือพวกโคตรเทพ หรือว่า chatgpt เอาเงินนักลงทุนไปเผาเล่นเกินจริงล่ะเนี่ย
ก็เหมือนญี่ปุ่นที่มีพื้นที่น้อย ก็พยายามคิดหาวิธีพัฒนาอุปกรณ์ต่างๆให้สอดรับกับพื้นที่จำกัด จนทำให้ทึ่งได้หลายอย่าง การที่มีอะไรบีบ ก็ทำให้เราพยายาม efficient ให้ดีขึ้น ของ US มัน supply พร้อมเงินหนา ขนเขียน software AI หรือการฝึกก็ละเลงเต็มที่ ไม่ได้เน้นประหยัด เน้น deliver เร็วๆ Code ก็ไม่ค่อยได้ optimize คล้ายๆข่าวก่อนหน้าที่กลับมา optimize code แล้วรีบประสิทธิภาพ linux ได้ 30%
ฝรั่งคง optimize น้อย เพราะมองว่ามีพลังงานเหลือล้น คงเรื่องปกติธุรกิจ เหมือนมีรถแรงๆ เข้าโค้งไม่ดีเอาไว้ไปแซงทางตรงแทน
ผมว่าพวกเมกายุโรปเวลาจะสร้างอะไรขึ้นมาซักอย่าง ชอบทำแบบ Over-engineer Over-spec เลยค่อนข้างสุดโต่งกับทุกๆอย่าง
เหมือนจะสร้างชั้นวางตุ๊กตา แต่ใช้เหล็ก H บีม มาทำคานทำเสา รับน้ำหนักได้หลายตันเพื่อวางตุ๊กตา
เรื่องนี้ ผมเห็นต่างครับ เค้าไม่ได้ Over-engineer, Over-spec เพียงแต่เค้ามีเงินให้ถลุงได้ไม่จำกัด มีคนเติมเงินให้เรื่อย ๆ มี hardware ให้ใช้ไม่อั้น ดังนั้น ไม่ต้องใช้ประสิทธิภาพ แต่ใช้การเพิ่มปริมาณ เทียบกับจีน ที่จำกัดทุกอย่าง ก็เลยต้องรีดประสิทธิภาพ จากสิ่งที่มีจำกัดให้มากที่สุด เพราะเพิ่มปริมาณไม่ได้
รีดประสิทธิภาพขั้นสุด ต้องยกคำนี้ให้ DeepSeek รอบนี้เลย โคตรสุด
จะไม่เหมือนชิพหัวเว่ยใช่ไหม… ออกมาให้ตกใจหย่อมหนึ่งแล้วหายไปเลย
รอบนี้ไม่เหมือนครับ เพราะ Meta ถึงขั้น War Room เฉพาะกิจก็ไม่ธรรมดาครับ
แค่มนุษย์คนนึงที่อยากรู้เกี่ยวกับวงการไอที
รอบนี้โหดอยู่ครับ ต่อให้ไม่เอาเรื่องงบประมาณในการฝึกมาคิด
แต่พี่แก open source โชว์หลา แถม model ที่ฝึกเสร็จก็เล็กกินเสป็คน้อยไม่ต้องใช้การ์ดจอแรงก็รันได้
เจอหมัดนี้เข้าไปกระซวกหุ้น NVIDIA -15% ในวันเดียวได้ก็สยองอยู่ครับ
ทำไมบีบทุกทางแล้วจีนยังพัฒนาได้อีกหล่ะ แบบนี้ที่พยายามทำไปก็เสียเปล่าสิ ฮา
เหมือนเคยอ่านเจอ บีบจีนมากๆ ระวังจีนพัฒนาภายในเองจนเทพเพราะจนตรอกนี่ล่ะ นี่แค่เรื่องเดียวเองนะ
คนจีนเค้าไม่ได้โง่ไง แล้วคนจีนทะเยอะทะยานในการพยายามจะประสบความสำเร็จหรือสร้างชื่อด้วย
ตอนนี้ใครสมัครเข้าใช้งานได้บ้าง
ทั้ง google login,ทั้ง email ปกติ พังหมดเลย
//============
update ตอนนี้กลับมาใช้ได้แล้ว
ใช้มาตั้งแต่เว็บเพิ่งเปิดให้ใช้แชทได้ หลังจากเป็น api อย่างเดียว ไม่คิดว่าจะมาไกลขนาดนี้ ดังพลุแตกแล้ว อิอิ
WE ARE THE 99%
เมื่อกี้ผมลองโมเดล deepseek r1 distill qwen 7B ใช้คำถามที่คิดว่าถ้าถามบนเว็บบางที่อาจจะไม่ยอมตอบดูครับ ถามเป็นภาษาไทยด้วย
เท่าที่ดูรายละเอียดเหมือนจะคิดเป็นภาษาจีนแล้วแปลกลับมาครับ เจอคำประหลาด ๆ เพียบเลย
อันนนี้เพราะตัวโมเดลที่เลือกมาเป็นโมเดลภาษาจีนครับ ชื่อโมเดลมันมีคำลงท้ายตามข้อมูลที่เอามา
Qwen = ข้อมูลจาก Alibaba
Llama = ข้อมูลจาก Meta (Facebook)
ถ้าอยากใช้ภาษาอื่นที่ไม่ใช่ภาษาจีน เลือกโมเดล Llama ครับ
Llama ก็ไม่ได้สมบูรณ์ครับ มีภาษาอินเดียปนๆ ก็เยอะ เอาจริงๆ ตัว R1 ไม่ได้เหมาะกับการใช้ภาษาไทยอยู่แล้วครับ ยังคิดเป็นจีน ตอบกลับเป็นอังกฤษ ถ้าอยากใช้ภาษาไทยแบบดีๆ ต้องเป็น V3 ครับ
WE ARE THE 99%
ถ้าถามเป็นอังกฤษ มันจะประหลาดๆ มั้ยครับ? กำลังสนใจ
เลิกใช้ OpenAI แบบเสียเงิน มาใช้ deepseek ฟรีมาสักพัก
ยิ่งรู้ว่า ทุนในการพัฒนาน้อยกว่า 10 เท่า ยิ่งทึ่งมาก ๆ เลยครับ
ของจริงไม่กลัว กลัวแบบ ปกปิดบอกไม่หมดมากกว่า พี่จีนขี้นชื่อเรื่องหมกเม็ดด้วย
เขาจะหมดเม็ดยังไงก็ opensource ก็หาให้เจอว่าหมกไหม
Opensource อะครับ ตอนนี้คนทั่วโลกโหลดไปเทสกันใหญ่เลย
Search youtube ก็ได้ครับ มีเพียบเลยตอนนี้
คร่าวๆ ส่วนใหญ่ผลเป็นที่น่าพอใจมากๆ ครับ
ใช้ฮาร์ดแวร์ที่จำกัด แต่พัฒนามาได้ขนาดนี้ น่าทึงมาก ทำให้ตลาด ตื่นกันไป