Tags:
Node Thumbnail

ทีมวิศวกรจาก IBM และ Meta รายงานถึงการทดลองเปลี่ยนเคอร์เนลการรัน LLM ใน PyTorch จากเดิมที่ใช้ CUDA เป็นหลัก มาเป็นภาษา Triton ของ OpenAI โดยพบว่าประสิทธิภาพเริ่มใกล้เคียงกับ CUDA

OpenAI เปิดตัวโครงการ Triton มาตั้งแต่ปี 2021 โดยมุ่งจะพัฒนาภาษาที่ทำให้โปรแกรมเมอร์เขียนโปรแกรมโดยตรงบนชิปกราฟิกได้ง่ายขึ้น นอกจากการถอด CUDA แล้วยังต้องเลือกเอนจิน Flash Attention มาแทน cuDNN Flash Attention เพื่อรันโมเดล LLM พบว่า AMD Flash Attention ทำงานได้ครบถ้วนทุกโหมด

ประสิทธิภาพโดยรวมของการรัน LLM โดยถอด CUDA ออกทั้งหมดเช่นนี้ สามารถรันได้ที่ 76-78% ของ CUDA บนชิป A100 และได้ 62-82% บนชิป H100

CUDA เป็นจุดขายสำคัญของชิป NVIDIA ที่ทำให้นักพัฒนาแน่ใจว่าจะสามารถรันโมเดลปัญญาประดิษฐ์ต่างๆ ได้ประสิทธิภาพดี และเข้ากับโมเดลต่างๆ ได้ครบถ้วน แม้ชิปแบรนด์อื่นๆ จะชูความได้เปรียบราคาถูกกว่าก็ตาม

ที่มา - PyTorch

No Description

Get latest news from Blognone

Comments

By: Azymik on 8 September 2024 - 18:24 #1321429

หัวข้อข่าว "อสูงสุด"?