PyTorch ทดสอบรัน LLM ด้วย OpenAI Triton แทน CUDA รันได้สูงสุด 82% ของ CUDA

By: lew

on 8 September 2024 - 15:35 Tags:

Topics:

PyTorch

CUDA

Artificial Intelligence

ทีมวิศวกรจาก IBM และ Meta รายงานถึงการทดลองเปลี่ยนเคอร์เนลการรัน LLM ใน PyTorch จากเดิมที่ใช้ CUDA เป็นหลัก มาเป็นภาษา Triton ของ OpenAI โดยพบว่าประสิทธิภาพเริ่มใกล้เคียงกับ CUDA

OpenAI เปิดตัวโครงการ Triton มาตั้งแต่ปี 2021 โดยมุ่งจะพัฒนาภาษาที่ทำให้โปรแกรมเมอร์เขียนโปรแกรมโดยตรงบนชิปกราฟิกได้ง่ายขึ้น นอกจากการถอด CUDA แล้วยังต้องเลือกเอนจิน Flash Attention มาแทน cuDNN Flash Attention เพื่อรันโมเดล LLM พบว่า AMD Flash Attention ทำงานได้ครบถ้วนทุกโหมด

ประสิทธิภาพโดยรวมของการรัน LLM โดยถอด CUDA ออกทั้งหมดเช่นนี้ สามารถรันได้ที่ 76-78% ของ CUDA บนชิป A100 และได้ 62-82% บนชิป H100

CUDA เป็นจุดขายสำคัญของชิป NVIDIA ที่ทำให้นักพัฒนาแน่ใจว่าจะสามารถรันโมเดลปัญญาประดิษฐ์ต่างๆ ได้ประสิทธิภาพดี และเข้ากับโมเดลต่างๆ ได้ครบถ้วน แม้ชิปแบรนด์อื่นๆ จะชูความได้เปรียบราคาถูกกว่าก็ตาม

ที่มา - PyTorch

No Description