NVIDIA โชว์การลดขนาดโมเดล Mistral 12B เหลือ 8B โดยยังรักษาคุณภาพได้ดี

By: mk

on 27 August 2024 - 20:55 Tags:

Topics:

NVIDIA

Mistral

LLM

Artificial Intelligence

NVIDIA โชว์การปรับปรุงโมเดลภาษา Mistral NeMo 12B ที่เปิดตัวในเดือนกรกฎาคม ให้มีขนาดพารามิเตอร์ลดลงเหลือ 8B แต่ไม่สูญเสียประสิทธิภาพมากนัก ผลคือโมเดล Mistral-NeMo-Minitron 8B ที่ปรับขนาดลดลงแล้ว เอาชนะโมเดลคู่แข่งระดับใกล้เคียงกันอย่าง Llama 3.1 8B และ Gemma 7B ในเบนช์มาร์ค AI ทุกตัวได้

เทคนิคการปรับลดขนาดโมเดลที่ NVIDIA ใช้งานมี 2 อย่าง ได้แก่

Model Pruning ปรับขนาดโมเดลให้เล็กลง โดยลดจำนวนชั้น (depth pruning) หรือ ลดจำนวนนิวรอน (width pruning) การทำ pruning มักต้องเทรนโมเดลใหม่บางส่วนเพื่อให้การทำงานยังแม่นยำอยู่
Model Distillation เป็นเทคนิคที่โยกย้ายองค์ความรู้ (knowledge) ของโมเดลขนาดใหญ่ (teacher model) ไปยังโมเดลขนาดเล็ก (student model) เพื่อให้ได้โมเดลขนาดเล็กลง แต่ยังรักษาคุณสมบัติของโมเดลตัวใหญ่เอาไว้ได้ เปรียบเสมือนการเทรนใหม่แบบเบาๆ (light retraining) ที่ทำหลัง pruning

NVIDIA ใช้วิธี depth pruning แล้วมาทำ distillation จนได้โมเดล Mistral-NeMo-Minitron 8B รายละเอียดอยู่ในเปเปอร์ Compact Language Models via Pruning and Knowledge Distillation

ที่มา - NVIDIA

No Description