Reuters อ้างแหล่งข่าวที่เกี่ยวข้องระบุว่า OpenAI บริษัทผู้พัฒนา ChatGPT กำลังศึกษาแนวทางการสร้างชิปสำหรับงานด้าน AI ขึ้นเอง โดยรวมถึงพิจารณาหากต้องซื้อกิจการบริษัทด้านนี้ด้วย
อย่างไรก็ตาม OpenAI ยังไม่มีข้อสรุปว่าจะลงมาทำชิปสำหรับ AI นี้หรือไม่ แต่ไอเดียนี้เริ่มเกิดขึ้นตั้งแต่ปีที่แล้ว เพื่อแก้ปัญหาชิปขาดแคลนและมีราคาสูง ซึ่งนอกจากแนวทางทำชิปเองแล้ว OpenAI ก็มีแนวคิดอื่นด้วย เช่น ไปร่วมมือกับผู้ผลิตชิปรายอื่น หรือแม้แต่เปิดการเจรจาพิเศษกับ NVIDIA ซึ่งเป็นผู้ผลิตชิปประมวลผล AI รายใหญ่ที่สุดในตลาด
ปัจจุบันโมเดล AI ของ OpenAI ประมวลผลบนเซิร์ฟเวอร์ของไมโครซอฟท์ ที่มีรายงานว่าใช้จีพียูมากกว่า 10,000 ตัว ซึ่งทำให้คิวรีของ ChatGPT เป็นต้นทุนที่สูงประมาณ 4 เซนต์ต่อครั้ง นักวิเคราะห์ประเมินว่าหาก ChatGPT มีจำนวนคิวรีที่ระดับ 1 ใน 10 ของกูเกิล จะเป็นต้นทุนจีพียูประมาณ 16,000 ล้านดอลลาร์ต่อปี แนวทางพัฒนาชิปขึ้นมาเองจึงน่าสนใจมากขึ้น แต่ก็ต้องใช้เงินลงทุนสูงในช่วงแรกเช่นกัน
หลายบริษัทเทคโนโลยีก็เริ่มแนวทางพัฒนาชิปสำหรับงาน AI เช่น Meta มีชิปชื่อ MTIA v1 หรือไมโครซอฟท์เองก็ทดสอบชิป AI ด้วยเช่นกัน
OpenAI ปฏิเสธที่จะให้ความเห็นต่อรายงานนี้
ที่มา: Reuters
Comments
ใช้ จีพียู เยอะมาก
ผมว่าต้นเหตุอย่างนึงคือมันใช้ floating point ในการคำนวณ ทำให้เปลืองพลังงานมากขึ้น
ถ้าสร้าง standard ของ primitive type ใหม่
ให้ คำนวณ, เก็บทศนิยม ในรูปแบบ integer ทั่วไปได้ น่าจะลดพลังงานได้เยอะ
ผมเองยังศึกษาตรงนี้ไม่เยอะ อาจจะเข้าใจผิด แต่เท่าที่เข้าใจตอนนี้คือจำนวนหลักของจุดทศนิยมมันมีความต้องการที่หลากหลาย เลยไม่รู้จะว่ากำหนดขนาดของหน่วยความจำเพื่อให้เป็น primitive type ยังไงให้ครอบคลุมการใช้งานในวงกว้างมาก ต้องมีกี่รูปแบบ เหมือนทำแล้วได้ไม่สุด แถมยังไงก็ต้องซัพพอร์ตแบบเดิมด้วย เลยไม่คุ้มที่จะทำกันรึเปล่า
..: เรื่อยไป
floating point (float32) ที่เราใช้ปกติมันสร้างโดยจุดประสงค์เพื่อ
ใช้คำนวณทั่วไป + save เนื้อที่ในการเก็บ + ใช้ hardware คำนวณง่าย
มันเลยเก็บ แยก sign + exponent + ตัวคูณ = 32bits
ถ้ามันเป็นฐานสิบมันก็ไม่มีปัญหาอะไร แต่ base ของ exponent มันเป็นฐานสอง (2^exponent)
เวลาเปลี่ยนเป็นฐานสิบมันเลยคาดเคลื่อน ทำให้ต้องมาเสียเวลา ใช้วิธีพิเศษในการ compare อีก (ข้อเสีย 1)
ข้อเสีย 2 การประมวลผล AI เป็นการใช้แบบเจาะจงซึ่งไม่ได้ต้องการใช้ทศนิยมแบบ full spec ของ float32 ฉะนั้นมันมี overhead สำหรับ AI ใช้ทศนิยมแค่ 5 หลักก็น่าจะพอ
ขอบคุณสำหรับความรู้ครับผม
..: เรื่อยไป
จริงๆปัจจุบันทำกันนะครับ มี format เยอะขึ้นมากทั้ง bf16 f16 fp8 ลงไปถึง int8 int4 ก็มี (พวกที่รันใน edgeส่วนใหญ่quantize ลงมา int8กันทั้งนั้นเลย) แต่บางอันก็ require hardware architecture ใหม่ๆด้วย (อย่าง fp8 require arch ada lovelance ถึงจะเร็ว กับบางแบบทำแล้วมันรันได้เฉพาะบน hardware นั้น) กับบาง precision มันจะ train ตรงๆไม่ได้ ต้องทำบน full/half precision ก่อน แล้วค่อย quantize ลงมาอีกที ซึ่งมันเพิ่มขั้นตอนกับaccuracy อาจจะลดลงบ้าง
ซึ่งก็คือ bfloat16 ที่เกิดมาเพื่อ AI อยู่แล้ว?
lewcpe.com, @wasonliw
ผมคิดว่าถ้าหาวิธีเก็บทศนิยมแบบ integer แทน floating-point ได้ มันน่าจะลด cost ได้มากขึ้นอีกน่ะครับ
เบื่อแล้วสำหรับAIช้าเป็นบ้าเขาจะเปลี่ยนโลกกันแล้วยังจะหาAIกันอยู่นั้นแล้วครับ เบื่อจริง