Tensor Processing Unit
DeepMind เผยแพร่งานวิจัยของ AlphaChip โมเดลปัญญาประดิษฐ์ช่วยออกแบบวงจรในชิป ซึ่งใช้งานจริงมาเงียบๆ สักระยะหนึ่งแล้วกับชิป TPU สามรุ่นหลังสุด, ซีพียู Google Axion รวมถึงชิปของบริษัทอื่นอย่าง MediaTek Dimensity 5G ด้วย
DeepMind บอกว่าการออกแบบชิปในปัจจุบันมีความซับซ้อนสูงมาก จึงนำแนวคิด reinforcement learning ให้ปัญญาประดิษฐ์เรียนรู้ด้วยตัวเองผ่านการ "เล่นเกม" แบบเดียวกับ AlphaGo และ AlphaZero แต่แทนที่จะเป็นโกะหรือหมากรุก ก็เป็นเกมออกแบบผังวงจรอิเล็กทรอนิกส์แทน
แอปเปิลเผยแพร่เอกสาร รายละเอียดของโมเดลปัญญาประดิษฐ์ที่พัฒนาขึ้นซึ่งเรียกว่า Apple Intelligence Foundation Language Models (AFM) โดยมีประเด็นน่าสนใจคือเทคโนโลยีที่แอปเปิลเลือกใช้ในการเทรนโมเดล AI เพราะแอปเปิลไม่ได้ใช้จีพียูของ NVIDIA
กูเกิลเปิดตัวชิป TPU รุ่นที่ 6 เรียกชื่อว่า Trillium ซึ่งมีการปรับปรุงทั้งประสิทธิภาพการทำงาน และอัตราการสิ้นเปลืองพลังงาน โดย Trillium สามารถประมวลผลได้มากถึง 4.7 เท่า ที่ระดับพีคเมื่อเทียบกับ TPU v5e รุ่นก่อนหน้านี้ มีอัตราการใช้พลังงานที่ดีกว่า 67%
Trillium ได้เพิ่มขนาด HBM สองเท่า เพิ่ม ICI ที่เชื่อมต่อหากันระหว่าง TPU เพิ่มสองเท่า และใช้ตัวเร่งการประมวลผล SparseCore รุ่นที่ 3 จึงมีค่าความหน่วงที่ลดลง รองรับการประมวลผลโมเดลรุ่นใหม่ได้มากกว่า เร็วกว่า ด้วยต้นทุนที่น้อยลง
TPU Trillium จะเริ่มมีให้ใช้งานภายในปีนี้
กูเกิลเปิดเผยว่าบริษัทได้พัฒนาชิปประมวลผลใหม่ เรียกชื่อว่า Axion เพื่อรองรับงานด้าน AI เป็นหลัก ซึ่งกูเกิลมีแผนการพัฒนาซีพียูส่วนนี้มาหลายปีแล้ว แต่มาเร่งมากขึ้นหลัง ChatGPT เปิดตัวช่วงปลายปี 2022
การที่กูเกิลลงทุนพัฒนาชิปสำหรับใช้งาน AI บนคลาวด์ของตนเองไม่ใช่เรื่องแปลก เพราะทั้งอเมซอนและไมโครซอฟท์ ก็พัฒนาชิปสำหรับงานด้าน AI ของตนเองเช่นกัน กูเกิลเองก็มีหน่วยประมวลผลที่พัฒนาเองเรียกว่า TPU ซึ่งมีใช้งานมาตั้งแต่ปี 2016 แต่กรณีของ Axion นั้นทำงานเป็นหน่วยประมวลผลกลางหรือเป็นซีพียู
กูเกิลเปิดตัวชิป TPU v5p รุ่นใหม่ล่าสุดที่เตรียมจะใช้เร่งความเร็วในการพัฒนา Generative AI โดยเฉพาะ
พลังประมวลผลต่อชิปของ TPU v5p นั้นสูงกว่ารุ่นก่อนหน้ามาก แต่จุดเด่นเป็นพิเศษคือ จำนวนชิปต่อตู้ (pod) นั้นสูงถึง 8,960 ชิป มากกว่าสองเท่าตัวของ TPU v4 และแรมต่อชิปนั้นสูงถึง 95GB เทียบกับ TPU v4 ที่เคยรับแรม 32GB แนวทางนี้ NVIDIA ก็เคยออกการ์ดรุ่นพิเศษเพื่องานกลุ่ม LLM ที่ต้องการแรมปริมาณสูงมาก
Google Cloud เปิดตัวชิปประมวลผลปัญญาประดิษฐ์ Cloud TPU v5e เวอร์ชันใหม่ที่อัพเกรดจาก TPU v4 ซึ่งเริ่มใช้มาตั้งแต่ปี 2020
ตอนนี้ยังมีรายละเอียดของ TPU v5e ออกมาไม่มากนัก แต่มันเป็น TPU เวอร์ชันคัสตอม (ตัวท้าย e) ที่เน้นประสิทธิผลเรื่องต้นทุน (cost-efficiency) กว่า TPU รุ่นปกติ จากตัวเลขของกูเกิลระบุว่ามีประสิทธิภาพต่อดอลลาร์ในการเทรนโมเดล LLM ดีกว่า TPU v4 สูงสุดราว 2 เท่า และประสิทธิภาพต่อดอลลาร์ในการรันโมเดลดีกว่าสูงสุด 2.5 เท่า
กูเกิลเผยรายละเอียดของซูเปอร์คอมพิวเตอร์ที่ใช้ชิปออกแบบเอง Tensor Processing Unit (TPU) v4 ซึ่งเริ่มใช้ในโปรดักชันมาตั้งแต่ปี 2020 (แต่เพิ่งเผยรายละเอียดปี 2023) ว่าสามารถยกระดับประสิทธิภาพ machine learning ได้เกือบ 10 เท่าจากเครื่อง TPU v3 และสามารถเอาชนะเครื่องที่ใช้จีพียู NVIDIA A100 ได้ด้วย
TPU v4 เปิดตัวต่อสาธารณะเมื่อปี 2021 และทำผลงานเบนช์มาร์คด้าน AI ได้ดี เรื่องใหม่ที่กูเกิลเปิดเผยเพิ่มเติมในรอบนี้คือเครื่อง TPU v4 มีฟีเจอร์สำคัญ 2 ประการ
SiFive บริษัทผู้ผลิตซีพียู RISC-V ชื่อดัง เปิดเผยว่าซีพียูของตัวเองรุ่น SiFive Intelligence X280 ถูกนำไปใช้ในศูนย์ข้อมูลของกูเกิล เพื่อช่วยเร่งการประมวลผล AI/ML แล้ว
สิ่งที่กูเกิลทำคือนำ X280 ไปรันคู่กับหน่วยประมวลผล Tensor Processing Unit (TPU) ของตัวเอง เพื่อแบ่งเบาภาระงานบางอย่างออกจากหน่วยประมวลผลหลัก
ซีพียู SiFive X280 มีส่วนขยายชุดคำสั่งแบบเวกเตอร์ และรองรับการรวมรีจิสเตอร์เวกเตอร์เข้าด้วยกัน (รีจิสเตอร์ 512-bit x 32 ตัว) เพื่อให้ได้เวกเตอร์ยาวขึ้น (สูงสุดเป็น 4096 บิต) รวมถึงมีชุดคำสั่งคัสตอมสำหรับงาน AI/ML โดยเฉพาะด้วย จึงช่วยให้งานประมวลผล AI/ML มีประสิทธิภาพดีขึ้น
การวัดประสิทธิภาพการฝึกโมเดลปัญญาประดิษฐ์ MLPerf ประกาศผลรอบใหม่ ทำให้ผู้ผลิตรายหลักๆ ก็ออกมาเคลมชัยชนะในมุมของตัวเองกัน
Google Cloud นั้นส่งผลทดสอบของ TPU v4 เข้าร่วม และโชว์ว่าแรงกว่าเซิร์ฟเวอร์ "ที่หาซื้อได้" (available on-prem) อย่างชัดเจน โดยเครื่องที่ Google Cloud ส่งผลทดสอบนั้นสามารถเปิดใช้งานได้จริงผ่านบริการ ML hub
Google Cloud ประกาศบริการ Cloud TPU VMs เข้าสถานะเสถียร general availability (GA)
กูเกิลมีหน่วยประมวลผล TPU (Tensor Processing Unit) ที่ออกแบบเองสำหรับเร่งความเร็ว AI มาตั้งแต่ปี 2017 และเปิดให้คนทั่วไปเช่ารัน-เทรนโมเดล machine learning ผ่าน Google Cloud มาตั้งแต่ปี 2018 ในชื่อบริการ Cloud TPU
แต่ที่ผ่านมา การเช่า TPU ยังเป็นการเช่า VM บนเครื่องอื่นแล้วรีโมทเข้าไปเรียก TPU ผ่านโปรโตคอล gRPC เท่านั้น ผู้ใช้ไม่สามารถเข้าถึงเครื่อง TPU โดยตรงได้ (ดูภาพประกอบ)
MLCommons หน่วยงานกลางสำรวจประสิทธิภาพคอมพิวเตอร์ด้าน machine learning และปัญญาประดิษฐ์ออกรายงานเวอร์ชั่น 1.0 โดยมีผู้เข้าร่วมน่าสนใจได้แก่ NVIDIA ที่ส่งเครื่อง DGX-A100 เข้าทดสอบ, อินเทลส่ง Xeon Platinum 8380, กูเกิลส่ง TPUv4 ที่ยังไม่เปิดให้บริการทั่วไป, และ Graphcore สตาร์ตอัพปัญญาประดิษฐ์ส่งเครื่อง IPU-POD เข้าจัดอันดับ
กูเกิลเปิดตัว Edge TPU ชิปประมวลผลปัญญาประดิษฐ์สำหรับอุปกรณ์ขนาดเล็กมาตั้งแต่กลางปีที่แล้ว โดยบอกว่าจะขายทปลายปี 2018 แต่หลังจากเลยกำหนดมาพักใหญ่ ตอนนี้บอร์ดพัฒนา และตัวเร่งแบบ USB-C ก็วางขายแล้วทั้งคู่ ในแบรนด์ Coral
ตัว Coral Dev Board ใช้ชิป NXP i.MX 8M ภายในเป็น Cortex-A53 สี่คอร์ และไมโครคอนโทรลเลอร์ Cortex-M4F แรม 1GB และหน่วยความจำ eMMC 8GB รองรับ Wi-Fi 802.11ac และ Bluetooth 4.1 พอร์ตแลนกิกะบิต, USB-C, USB-A 3.0, และ micro USB สำหรับคอนโซล ต่อจอภาพด้วย HDMI 2.0a, MIPI-DSI 24 pin, และต่อกล้องด้วย MIPI-CSI2 และชิป Edge TPU ราคา 149.99 ดอลลาร์
เฟซบุ๊กเปิดตัว PyTorch 1.0 ตั้งแต่เดือนพฤษภาคมที่ผ่านมา โดยตอนนี้ก็ยังเป็นเพียงรุ่นพรีวิวอยู่ อย่างไรก็ตามที่งาน PyTorch Developer Conference เมื่อวานนี้ก็มีการประกาศความก้าวหน้าของโครงการเพิ่มเติม
ฟีเจอร์ที่เพิ่มมาคือการทำงานในโหมด eager ที่ช่วยให้นักพัฒนาสามารถทดลองกับกราฟประมวลผลได้ง่ายขึ้น และมีการปรับปรุงไลบรารี torch.distributed โดยตอนนี้รองรับทั้ง Python และ C++
กูเกิลเปิดตัวชิป Edge TPU สำหรับการพัฒนาปัญญาประดิษฐ์ในอุปกรณ์ IoT ขนาดเล็กเช่นกล้องวงจรปิด สำหรับการตรวจจับการจราจรโดยไม่ต้องส่งภาพกลับไปยังศูนย์กลาง
สำหรับฝั่งซอฟต์แวร์ Cloud IoT Edge เป็นชุดซอฟต์แวร์ที่สามารถรันได้บน Android Things หรือลินุกซ์อื่นๆ โดยมันมาพร้อมกับ Edge ML รันไทม์สำหรับรัน TensorFlow Lite มันสามารถรันบนซีพียู หรือเร่งความเร็วด้วยกราฟิกหรือ TPU ก็ได้
ตัวชิปจะมาพร้อมกับบอร์ดจาก NXP ให้สั่งได้ภายในเดือนตุลาคมนี้
ที่มา - Google Blog
เก็บตกประกาศข่าวจากงาน Google I/O 2018 กูเกิลเปิดตัวหน่วยประมวลผล Tensor Processing Unit (TPU) รุ่นที่สาม รุ่นอัพเกรดจาก TPU v2 ที่เปิดตัวในช่วงเดือนนี้ของปีที่แล้ว
TPU v3 มีสมรรถนะดีขึ้นกว่า v2 ถึง 8 เท่า และ TPU หนึ่งชุด (64 ตัวเรียกเป็น 1 pod) มีพลังประมวลผลถึง 100 petaFLOPS เพิ่มขึ้นจาก 1 pod ของ TPU v2 ที่ทำได้เพียง 11.5 petaFLOPS tops
อีกประเด็นที่น่าสนใจคือ TPU v3 ใช้ระบบระบายความร้อนด้วยของเหลวด้วย ซึ่งเป็นครั้งแรกที่กูเกิลนำระบบแบบนี้มาใช้งานกับ TPU
เมื่อกลางปีที่แล้ว กูเกิลเปิดตัว TPU (Tensor Processing Unit) ชิปสำหรับประมวลผล deep learning รุ่นที่สอง พร้อมจับขึ้นคลาวด์เพื่อให้คนทั่วไปใช้งาน โดยช่วงแรกยังจำกัดเฉพาะนักวิจัยเท่านั้น
เวลาผ่านมาเกือบปี Cloud TPU เปิดบริการรุ่นเบต้าบน Google Cloud Platform (GCP) สักที คนทั่วไปสามารถนำงานด้าน machine learning มาเทรนโมเดลบน Cloud TPU เพื่อเร่งความเร็วให้ได้มากขึ้น (Cloud TPU หนึ่งตัวมีสมรรถนะสูงสุด 180 tflops และแรม 64GB)
กูเกิลเปิดตัว TPU (Tensor Processing Unit) ชิปสำหรับประมวลผล deep learning รุ่นที่สอง พัฒนาจากรุ่นแรกที่ใช้เพื่อการคำนวณผลลัพธ์จากเครือข่ายนิวรอนเป็นหลัก รุ่นใหม่นี้จะมีความสามารถในการฝึกเครือข่ายนิวรอน (inference) ได้ด้วย พร้อมกับเปิดบริการ Cloud TPU รุ่น Alpha (ต้องขอเข้าร่วมทดสอบ)
TPU แต่ละชุดจะมีพลังประมวลผล 180 TFLOPS กูเกิลออกแบบระบบเป็นตู้ (pod) แต่ละตู้มี TPU 64 ชุด รวมพลังประมวลผล 11.5 PFLOPS โค้ด TensorFlow สามารถรันบนเซิร์ฟเวอร์ได้โดยเปลี่ยนโค้ดเล็กน้อย
กูเกิลเคยเปิดเผยว่าระบบปัญญาประดิษฐ์ของตัวเองนั้นแม้จะรันด้วย TensorFlow ที่เป็นซอฟต์แวร์โอเพนซอร์ส แต่เบื้องหลังนั้นใข้ชิป Tensor Processing Unit (TPU) โดยระบุว่าการทำชิปด้วยตัวเองคุ้มค่ากว่า แต่ไม่มีรายละเอียดใดเพิ่มเติม ตอนนี้กูเกิลก็ปล่อยรายงานการศึกษาว่าการใช้ TPU นั้นคุ้มค่ากว่าจริงๆ
ภายใน TPU นั้นมีส่วนประกอบหลักคือบัฟเฟอร์กินพื้นที่ 29% ของตัวชิป และวงจรคูณแมทริกซ์กินพื้นที่ 24% ของตัวชิป สามารถคูณแมทริกซ์ได้ขนาด 256x256 นอกจากนี้ยังมีวงจรเฉพาะสำหรับการประมวลผลที่เกี่ยวข้อง เช่น Activation, Normalize/Pool ส่วนที่เหลือคือวงจรเชื่อมต่อภายนอกเช่น PCIe 3.0 x16, วงจรควบคุม DDR3 และวงจรควบคุมการทำงาน
ข่าวน่าสนใจที่กูเกิลแถลงในงาน Google I/O เมื่อวานนี้คือ "หน่วยประมวลผล" ที่บริษัทออกแบบเองเพื่องานด้าน machine learning โดยกูเกิลเรียกมันว่า Tensor Processing Unit (TPU) (ตั้งให้ล้อกับชื่อซอฟต์แวร์ TensorFlow)
TPU เป็นแผงวงจรเฉพาะด้าน application-specific integrated circuit (ASIC) ที่กูเกิลออกแบบขึ้นเอง ขนาดบอร์ด TPU ที่กูเกิลออกแบบ มีขนาดเล็กกว่าสล็อตเสียบฮาร์ดดิสก์ในแร็คปกติ