LMSYS เว็บจัดอันดับแชตบอตแบบอาศัยการส่งคำตอบจากแชตบอตหลายตัวให้ผู้ใช้เลือกตัวที่ดีกว่า เปิดผลสัปดาห์ล่าสุดพบว่า Gemini 1.5 Pro รุ่นทดสอบ 0801 เอาชนะ GPT-4o จนขึ้นที่หนึ่งได้เป็นครั้งแรก
โมเดลเวอร์ชั่น 0801 นี้สามารถใช้งานได้ใน AI Studio ยังไม่ได้เปิดใช้ใช้งานเป็นวงกว้างนัก ขณะที่ Gemini Advanced ก็ตามมาอยู่อันดับ 4 ร่วมกับ Claude 3.5 Sonnet และ Llama 3.1 405B ซึ่งเป็นครั้งแรกๆ ที่โมเดลแบบโอเพนซอร์สขึ้นอันดับสูงขนาดนี้
แม้ว่าอันดับรวมจะเป็นที่หนึ่ง แต่เมื่อแยกเฉพาะหัวข้อแล้วก็อาจจะมีอันดับต่างกันไป เช่น เมื่อพบคำถามยากๆ GPT-4o ยังชนะอยู่ หรือหากเป็นการเขียนโปรแกรม Claude 3.5 Sonnet ก็ยังเป็นที่หนึ่ง
กูเกิลเคยได้อันดับสูงสุดบน LMSYS เมื่อต้นปีที่ผ่านมา เป็นอันดับสอง ในตอนที่ใช้ Gemini Pro
ที่มา - LMSYS
Comments
gemini นี่มั่วยับมากสั่งเข้าไป prompt 1 กับ prompt2 เหมือนจำไม่ได้ว่ากำลังคุยเรื่องอะไร ให้คำตอบไม่สัมพันธ์กันฟีเจอร์ที่ให้ช่วยงานได้จริงๆค่อนข้างน้อย อ่านรูปก็ไม่เก่ง อ่านไฟล์ก็ไม่ค่อยได้ 🙄 ถ้าให้คะแนนแบบ use case จริงๆให้สอบตกในสามค่ายใหญ่
ถ้า gemini ในเว็บปกติ (ที่ไม่ใช่ aistudio) ตอนนี้น่าจะเป็นโมเดล gemini 1.5 flash แล้วครับ ซึ่งไม่ได้ติด top 10 ในบอร์ดนี้
WE ARE THE 99%
สุดท้ายก็มาเทรนเอาคะแนนทดสอบ แต่ใช่งานจริงกาก
Advance ไมกากจังเสียเงินนะ
กากมากจริงคุยไม่รู้เรื่อง
ไปอ่านๆ ใน reddit เหมือนเขาจะไม่ค่อยเชื่อถือบอร์ดนี้เท่าไรแล้วครับ ไม่รู้เพราะปั่นกันง่ายหรืออย่างไร อย่าง gpt-4o-mini นี่ไม่ควรไปอยู่อันดับ 3 ได้
ส่วน gemini บางทีนี่เซ็นเซอร์เยอะมากจนน่ารำคาญเหมือนกัน อ้างว่าต้องเป็นกลาง หรือมีความละเอียดอ่อน
WE ARE THE 99%
ฝั่ง API มันปิด censor ได้นะครับ
lewcpe.com, @wasonliw
ปิดเป็น NONE แล้วก็ยังไม่ได้ครับ 55
WE ARE THE 99%
เจอปัญหาอะไรหรือครับ เมื่อเดือนก่อนผมเจอปัญหา RECITATION บ่อยมาก แต่ทางกูเกิลแจ้งว่าแก้ไขแล้วก็เจอน้อยลงจริง
lewcpe.com, @wasonliw