Tags:
Topics: 
Node Thumbnail

LMSYS เว็บจัดอันดับแชตบอตแบบอาศัยการส่งคำตอบจากแชตบอตหลายตัวให้ผู้ใช้เลือกตัวที่ดีกว่า เปิดผลสัปดาห์ล่าสุดพบว่า Gemini 1.5 Pro รุ่นทดสอบ 0801 เอาชนะ GPT-4o จนขึ้นที่หนึ่งได้เป็นครั้งแรก

โมเดลเวอร์ชั่น 0801 นี้สามารถใช้งานได้ใน AI Studio ยังไม่ได้เปิดใช้ใช้งานเป็นวงกว้างนัก ขณะที่ Gemini Advanced ก็ตามมาอยู่อันดับ 4 ร่วมกับ Claude 3.5 Sonnet และ Llama 3.1 405B ซึ่งเป็นครั้งแรกๆ ที่โมเดลแบบโอเพนซอร์สขึ้นอันดับสูงขนาดนี้

แม้ว่าอันดับรวมจะเป็นที่หนึ่ง แต่เมื่อแยกเฉพาะหัวข้อแล้วก็อาจจะมีอันดับต่างกันไป เช่น เมื่อพบคำถามยากๆ GPT-4o ยังชนะอยู่ หรือหากเป็นการเขียนโปรแกรม Claude 3.5 Sonnet ก็ยังเป็นที่หนึ่ง

กูเกิลเคยได้อันดับสูงสุดบน LMSYS เมื่อต้นปีที่ผ่านมา เป็นอันดับสอง ในตอนที่ใช้ Gemini Pro

ที่มา - LMSYS

No Description

Get latest news from Blognone

Comments

By: checkmate95
ContributorAndroid
on 2 August 2024 - 20:16 #1318506
checkmate95's picture

gemini นี่มั่วยับมากสั่งเข้าไป prompt 1 กับ prompt2 เหมือนจำไม่ได้ว่ากำลังคุยเรื่องอะไร ให้คำตอบไม่สัมพันธ์กัน​ฟีเจอร์ที่ให้ช่วยงานได้จริงๆค่อนข้างน้อย อ่านรูปก็ไม่เก่ง อ่านไฟล์ก็ไม่ค่อยได้ 🙄 ถ้าให้คะแนนแบบ use case จริงๆให้สอบตกในสามค่ายใหญ่

By: Fzo
ContributorAndroid
on 3 August 2024 - 00:37 #1318539 Reply to:1318506
Fzo's picture

ถ้า gemini ในเว็บปกติ (ที่ไม่ใช่ aistudio) ตอนนี้น่าจะเป็นโมเดล gemini 1.5 flash แล้วครับ ซึ่งไม่ได้ติด top 10 ในบอร์ดนี้


WE ARE THE 99%

By: platalay
iPhoneWindows PhoneAndroidWindows
on 2 August 2024 - 20:26 #1318509

สุดท้ายก็มาเทรนเอาคะแนนทดสอบ แต่ใช่งานจริงกาก

By: zda98
Windows Phone
on 2 August 2024 - 22:13 #1318522

Advance ไมกากจังเสียเงินนะ

By: hidap on 3 August 2024 - 00:05 #1318537

กากมากจริงคุยไม่รู้เรื่อง

By: Fzo
ContributorAndroid
on 3 August 2024 - 00:30 #1318538
Fzo's picture

ไปอ่านๆ ใน reddit เหมือนเขาจะไม่ค่อยเชื่อถือบอร์ดนี้เท่าไรแล้วครับ ไม่รู้เพราะปั่นกันง่ายหรืออย่างไร อย่าง gpt-4o-mini นี่ไม่ควรไปอยู่อันดับ 3 ได้

ส่วน gemini บางทีนี่เซ็นเซอร์เยอะมากจนน่ารำคาญเหมือนกัน อ้างว่าต้องเป็นกลาง หรือมีความละเอียดอ่อน


WE ARE THE 99%

By: lew
FounderJusci's WriterMEconomicsAndroid
on 3 August 2024 - 21:55 #1318618 Reply to:1318538
lew's picture

ฝั่ง API มันปิด censor ได้นะครับ


lewcpe.com, @wasonliw

By: Fzo
ContributorAndroid
on 11 August 2024 - 23:18 #1319282 Reply to:1318618
Fzo's picture

ปิดเป็น NONE แล้วก็ยังไม่ได้ครับ 55


WE ARE THE 99%

By: lew
FounderJusci's WriterMEconomicsAndroid
on 12 August 2024 - 10:43 #1319292 Reply to:1319282
lew's picture

เจอปัญหาอะไรหรือครับ เมื่อเดือนก่อนผมเจอปัญหา RECITATION บ่อยมาก แต่ทางกูเกิลแจ้งว่าแก้ไขแล้วก็เจอน้อยลงจริง 


lewcpe.com, @wasonliw