Tags:
Node Thumbnail

Meta ปล่อยโมเดลปัญญาประดิษฐ์ Llama 3 สองรุ่น คือ 8B และ 70B แยกรุ่นย่อยสำหรับการทำตามคำสั่ง โดยยังมีรุ่น 400B อยู่ระหว่างการพัฒนา

รุ่น 8B นั้น Meta เทียบกับ Gemma 7B และ Mistral 7B Instruct เอาชนะได้ทุกชุดการทดสอบ บางหมวดเช่น HumanEval สำหรับการเขียนโปรแกรม และ GSM-8K สำหรับการคำนวณนั้นนำห่าง

รุ่น 70B ทาง Meta นำไปเทียบกับ Gemini Pro 1.5 ทำคะแนนนำได้บางชุดทดสอบ และเมื่อเทียบกับ Claude 3 Sonnet ก็ชนะทุกชุดทดสอบเช่นกัน

การทดสอบสุดท้ายของ Llama 3 อาศัยชุดทดสอบเฉพาะกิจที่เป็นคำถาม 1,800 รายการที่ทีมพัฒนาไม่ได้เห็นคำถามมาก่อน และนำไปให้คะแนนคำตอบเทียบกันโดยให้คนเป็นคนตัดสินว่า LLM ตัวใดตอบได้ดีกว่ากัน ผลพบว่า Llama 3 70B สามารถชนะ Cluade Sonnet, Mistral Medium, GPT-3.5, และ Llama 2 ได้ชัดเจน

No Description

สถาปัตยกรรมภายในรอบนี้มีการเปลี่ยนตัว tokenizer ใหม่ขนาดคำศัพท์ 128K และฝึกด้วย sequence ขนาด 8,192 tokens ชุดข้อมูลขนาดใหญ่ขึ้น 7 เท่าตัวจาก Llama 2 เป็น 15T มีข้อมูลภาษาอื่น 5% รวม 30 ภาษา โดยทั่วไปประสิทธิภาพในภาษาอื่นน่าจะลดลง สองโมเดลรวมใช้เวลาฝึก 7.7 ล้านชั่วโมงจีพียู ปล่อยคาร์บอน 2,290 ตัน

ทีมงานพัฒนา Llama 3 โดยเตรียมให้ทำ fine-tune ได้แต่แรก โปรแกรม torchtune รองรับ Llama 3 มาแต่แรก พร้อมกับโมเดลป้องกันพรอมพ์อันตราย Llama Guard 2 ที่สามารถปรับแต่งโมเดลได้เช่นกัน

ทาง Meta กำลังนำ Llama 3 มาเปิดเป็นบริการผ่านเว็บ แต่ตอนนี้ยังไม่เปิดให้บริการในไทย

ที่มา - Meta

No Description

Get latest news from Blognone

Comments

By: Mediumrare
AndroidWindows
on 19 April 2024 - 02:20 #1309992

คำศัพย์

คำศัพท์

By: EngineerRiddick
iPhoneWindows PhoneAndroidUbuntu
on 19 April 2024 - 09:24 #1310007
EngineerRiddick's picture

สองโมเดลรวมใช้เวลาฝึก 7.7 ล้านชั่วโมงจีพียู. ...:)น้ำตาไหล

By: langisser
In Love
on 19 April 2024 - 10:34 #1310014

7.7 ล้านชั่วโมงจีพียู
มันแปลว่าถ้าใช้ 7.7 ล้านจีพียูก็จะฝึกเสร็จใน 1ชั่วโมงใช่มั๊ยครับ แต่เค้าไม่อยากบอกว่เค้าใช้กี่จีพียูและฝึกนานเท่าไรเลยบอกรวมๆแบบนี้หรือเปล่านะ

ปล. model ตอนนี้เยอะไปหมดจนแทบจะไม่รู้ละว่า การที่มันดีกว่าตัวที่อ้างอิงน่ะมันดีจริงหรือเปล่า หรือก็แค่ดีกว่าเฉยๆ เพราะว่าก็มีอีกเยอะที่ดีกว่าตัวของเรา

By: hisoft
ContributorWindows PhoneWindows
on 19 April 2024 - 10:45 #1310015 Reply to:1310014
hisoft's picture

7.7 ล้านชั่วโมงจีพียู มันแปลว่าถ้าใช้ 7.7 ล้านจีพียูก็จะฝึกเสร็จใน 1ชั่วโมงใช่มั๊ยครับ

ประมาณนั้นฮะ

แต่เค้าไม่อยากบอกว่เค้าใช้กี่จีพียูและฝึกนานเท่าไรเลยบอกรวมๆแบบนี้หรือเปล่านะ

ไม่ใช่ฮะ มันเป็นคนละหน่วยกัน คือคนไม่ได้สนใจว่าใช้ GPU กี่ตัว ใช้ตัวละกี่ชั่วโมง เหมือนที่ค่าไฟฟ้าบ้านเราไม่ได้สนใจจากว่าใช้ไฟกี่วัตต์ กี่ชั่วโมง แต่เป็น เอ้อ เดือนนี้คุณใช้ไฟฟ้าไป 100 กิโลวัตต์ชั่วโมงนะ