ผลทดสอบ Chatbot Arena สัปดาห์ล่าสุด Gemini 1.5 Pro เวอร์ชั่นทดลองแซงหน้า GPT-4o

By: lew

on 2 August 2024 - 17:31 Tags:

Topics:

Gemini

LLM

LMSYS เว็บจัดอันดับแชตบอตแบบอาศัยการส่งคำตอบจากแชตบอตหลายตัวให้ผู้ใช้เลือกตัวที่ดีกว่า เปิดผลสัปดาห์ล่าสุดพบว่า Gemini 1.5 Pro รุ่นทดสอบ 0801 เอาชนะ GPT-4o จนขึ้นที่หนึ่งได้เป็นครั้งแรก

โมเดลเวอร์ชั่น 0801 นี้สามารถใช้งานได้ใน AI Studio ยังไม่ได้เปิดใช้ใช้งานเป็นวงกว้างนัก ขณะที่ Gemini Advanced ก็ตามมาอยู่อันดับ 4 ร่วมกับ Claude 3.5 Sonnet และ Llama 3.1 405B ซึ่งเป็นครั้งแรกๆ ที่โมเดลแบบโอเพนซอร์สขึ้นอันดับสูงขนาดนี้

แม้ว่าอันดับรวมจะเป็นที่หนึ่ง แต่เมื่อแยกเฉพาะหัวข้อแล้วก็อาจจะมีอันดับต่างกันไป เช่น เมื่อพบคำถามยากๆ GPT-4o ยังชนะอยู่ หรือหากเป็นการเขียนโปรแกรม Claude 3.5 Sonnet ก็ยังเป็นที่หนึ่ง

กูเกิลเคยได้อันดับสูงสุดบน LMSYS เมื่อต้นปีที่ผ่านมา เป็นอันดับสอง ในตอนที่ใช้ Gemini Pro

ที่มา - LMSYS

No Description

Hiring! บริษัทที่น่าสนใจ

Icon Framework co.,Ltd.

Global Standard Platform for Real Estate แพลตฟอร์มสำหรับธุรกิจอสังหาริมทรัพย์ครบวงจร มาตรฐานระดับโลก

CDG GROUP

Provider of IT solutions to public, state, and private sectors in Thailand for over 56 years

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Comments

By: checkmate95

on 2 August 2024 - 20:16 #1318506

gemini นี่มั่วยับมากสั่งเข้าไป prompt 1 กับ prompt2 เหมือนจำไม่ได้ว่ากำลังคุยเรื่องอะไร ให้คำตอบไม่สัมพันธ์กันฟีเจอร์ที่ให้ช่วยงานได้จริงๆค่อนข้างน้อย อ่านรูปก็ไม่เก่ง อ่านไฟล์ก็ไม่ค่อยได้ 🙄 ถ้าให้คะแนนแบบ use case จริงๆให้สอบตกในสามค่ายใหญ่

By: Fzo

on 3 August 2024 - 00:37 #1318539 Reply to:1318506

ถ้า gemini ในเว็บปกติ (ที่ไม่ใช่ aistudio) ตอนนี้น่าจะเป็นโมเดล gemini 1.5 flash แล้วครับ ซึ่งไม่ได้ติด top 10 ในบอร์ดนี้

WE ARE THE 99%

By: platalay

on 2 August 2024 - 20:26 #1318509

สุดท้ายก็มาเทรนเอาคะแนนทดสอบ แต่ใช่งานจริงกาก

By: zda98

on 2 August 2024 - 22:13 #1318522

Advance ไมกากจังเสียเงินนะ

By: hidap on 3 August 2024 - 00:05 #1318537

กากมากจริงคุยไม่รู้เรื่อง

By: Fzo

on 3 August 2024 - 00:30 #1318538

ไปอ่านๆ ใน reddit เหมือนเขาจะไม่ค่อยเชื่อถือบอร์ดนี้เท่าไรแล้วครับ ไม่รู้เพราะปั่นกันง่ายหรืออย่างไร อย่าง gpt-4o-mini นี่ไม่ควรไปอยู่อันดับ 3 ได้

ส่วน gemini บางทีนี่เซ็นเซอร์เยอะมากจนน่ารำคาญเหมือนกัน อ้างว่าต้องเป็นกลาง หรือมีความละเอียดอ่อน

WE ARE THE 99%

By: lew

on 3 August 2024 - 21:55 #1318618 Reply to:1318538

ฝั่ง API มันปิด censor ได้นะครับ

lewcpe.com, @wasonliw

By: Fzo

on 11 August 2024 - 23:18 #1319282 Reply to:1318618

ปิดเป็น NONE แล้วก็ยังไม่ได้ครับ 55

WE ARE THE 99%

By: lew

on 12 August 2024 - 10:43 #1319292 Reply to:1319282

เจอปัญหาอะไรหรือครับ เมื่อเดือนก่อนผมเจอปัญหา RECITATION บ่อยมาก แต่ทางกูเกิลแจ้งว่าแก้ไขแล้วก็เจอน้อยลงจริง

lewcpe.com, @wasonliw

Main menu