กูเกิลปล่อยโมเดล LLM Gemma 2 2B โมเดลขนาดเล็กเพื่อการรันบนอุปกรณ์โดยตรง ชูความสามารถที่เหนือกว่า GPT-3.5 นับว่าเป็นโมเดลที่ประสิทธิภาพดีที่สุดในขนาดใกล้เคียงกัน
โมเดลนี้ฝึกด้วยชุดข้อมูลขนาด 2 ล้านล้านโทเค็น ด้วยข้อมูลเว็บ, โค้ด, และข้อมูลคณิตศาสตร์ นับว่าชุดข้อมูลเล็กกว่าโมเดลขนาดใหญ่กว่ามาก ผลที่ได้คือคะแนนทดสอบ เช่น MMLU อยู่ที่ 51.3 ต่ำกว่าโมเดลขนาดใหญ่ค่อนข้างมาก หรือชุดทดสอบเขียนโค้ด HumanEval อยู่ที่ 17.7 เท่านั้น อย่างไรก็ดีผลทดสอบใน Chatbot Arena ที่ทดสอบด้วยผู้ใช้งานจริงนั้นกลับได้คะแนนดีมาก เอาชนะได้ทั้ง GPT-3.5 หรือ ChatGPT ตัวแรก, Mixtral 8x7B ที่มีขนาดใหญ่, หรือ Llama 2 70B
ด้วยโมเดลขนาดเล็กเท่านี้ ทำให้เราสามารถรันโมเดลที่ไหนก็ได้ รวมถึงการใช้งานบนชิป NVIDIA T4 ที่ Google Colab ให้บริการฟรี
นอกจาก Gemma 2 2B ตัวหลักแล้ว กูเกิลยังปล่อยโมเดล ShieldGemma สำหรับคัดกรองเนื้อหาอันตราย พร้อมกับ Gemma Scope เครื่องมือแสดงการทำงานภายในของ Gemma 2 ที่เปิดให้ส่องกระบวนการภายในได้ว่าโมเดลมองคำใดจึงสร้างคำตอบออกมา
ที่มา - Google for Developers
Comments
สำหรับรันบนอุปกรณ์โดยตรงนี่คือปล่อยให้ใช้ฟรีด้วย หรือจะฝังกับ Android ให้คนอื่นเรียกใช้อีกทีนะ 🤔
ว่าแต่ทำไมเทียบแค่ GPT 3.5 ไม่มี GPT 4o mini 😑
Microsoft Phi 3 ก็ใหญ่ขึ้นกว่า 2 อีก orz แถมยังได้แต่ภาษาอังกฤษ
บรรทัดที่สองนี่มันไม่ทางเทียบได้ครับ แต่ GPT-3.5 (175B) นี่ตัวนี้ก็เล็กกว่า 80 เท่าแล้ว ทำได้ดีกว่าแถมใช้ทรัพยากรน้อยกว่า 80 เท่าภายใน 20 เดือนนี่นับว่าเป็น break through ของวงการแล้ว
และอีกประการคือ GPT-3.5 เป็นหมุดหมายของ LLM ที่ "ดีพอใช้งาน" เราเทียบตัวโน้นตัวนี้แต่ต้องยอมรับว่าตอนมีแต่ GPT-3.5 เราก็อยู่กับมันได้ และพบว่ามันมีประโยชน์ การใช้ GPT-3.5 เป็นหลักชัย แล้วไปพัฒนาโมเดลให้มีขนาดเล็กรันบนพีซี หรือโทรศัพท์ได้เลยเป็นแนวทางที่สำคัญ
lewcpe.com, @wasonliw
ขอบคุณครับ ตอนแรกคิดว่าเห็นจากราคาแล้วคิดว่าตัว GPT 4o mini ก็น่าจะไซส์โอเค แต่ถ้านับว่า GPT-3.5 เป็นหมุดหมายนี่เห็นภาพเลย
เท่าที่ดูไฟล์โมเดล เหมือนรวมกันแล้วมีขนาดราว 10GB คิดว่าน่าจะฝังไม่ได้ครับ แรมหมดก่อน
หรือผมดูผิดไฟล์ ไม่ค่อยแน่ใจเหมือนกันครับ
น่าจะ 1.6 gb นะครับ
https://ollama.com/library/gemma2:2b
ตัว 1.6GB เป็นตัวย่อครับ ประสิทธิภาพจะไม่เท่ากับตัวที่ทดสอบ
ตัวเต็ม FP16 จะอยู่ที่ 5.4GB (1 พารามิเตอร์ประมาณ 2 ไบต์ ตัวโมเดลจริงๆ อาจจะเกิน 2B ไปบ้าง)
lewcpe.com, @wasonliw
ไม่แน่ใจว่า 10GB นี่ datatype เป็นอะไร (FP32?) แต่ปกติใช้กันไม่เกิน FP16 ควรจะแถวๆ 4GB++ ครับ
lewcpe.com, @wasonliw
วันก่อนเห็นข่าวว่า OpenAI ขาดทุนกระจาย ถ้าไม่มีอะไรเปลี่ยนแปลงเงินจะหมดภายในหนึ่งปี ตอนนี้เรื่องสำคัญไม่น่าจะใช่การเพิ่ม feature แต่เป็นการลด cost ให้ sustainable มากที่สุดมากกว่า
ลาก่อน 9B นายมันช้าเกินไป!!
โอบกอด 2B Yorha :)