Anthropic อัพเดตโมเดล Claude 3.5 ทดสอบเขียนโปรแกรมชนะ o1 พร้อมฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน

By: lew

on 23 October 2024 - 03:13 Tags:

Topics:

Anthropic

LLM

Claude

Anthropic ผู้พัฒนาปัญญาประดิษฐ์แบบ LLM ตู่แข่ง OpenAI ประกาศอัพเดตโมเดล Claude สองรุ่น คือ Sonnet รุ่นกลาง และ Haiku รุ่นเล็ก โดยรอบนี้มีความพิเศษนอกจากเก่งขึ้นตามปกติแล้ว ยังเริ่มทดสอบฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน ให้ผู้ใช้สามารถสั่งงานเป็นคำสั่งแล้ว Claude คลิกหน้าต่างหรือคำสั่งต่างๆ ให้เอง

Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน

Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก

ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง

แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น

ที่มา - Anthropic

Hiring! บริษัทที่น่าสนใจ

Fastwork Technologies

Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน

Thoughtworks Thailand

Thoughtworks เป็นบริษัทที่ปรึกษาด้านเทคโนโยลีระดับโลกที่คว้า Great Place to Work 3 ปีซ้อน

CIMB THAI Bank

MOVING FORWARD WITH YOU - CIMB is the leading ASEAN Bank

Comments

By: sariarty

on 23 October 2024 - 03:40 #1325460

เจ้านี้มาแรงจริง แถม Cache ฉลาดด้วย เคยเอาเอกสารให้ตรวจแค่ Text แค่รู้เลยว่าชื่อเอกสารควรเป็นอะไร และเลขย่อยหัวข้อควรใช้เลขอะไร (ใส่ผิดไป)
รอใช้ API Opus ไม่ไหวละ

ข้าขอทรยศต่อคนทั้งโลก ดีกว่าให้ใครมาทรยศข้า

By: au8ust

on 23 October 2024 - 10:32 #1325474

4o เขียนโปรแกรมคือไม่ไหวเลย วกไปวนมาแก้ไม่ถูกจุดสักที ย้ำแค่ไหนก็เหมือนเดิม o1-preview เขียนได้แบบเฉียบมาก คิดนานไปนิด แต่ออกมาละใช้ได้ในครั้งแรกเลย ไม่พาวนรอบโลก ถ้าให้ลิมิตต่อสัปดาห์เยอะๆ คงจะดี

ส่วน Sonnet 3.5 (New) ลองแล้วเร็วมาก มีหยุดคิดบางครั้ง แต่คิดโลจิกได้ดีกว่า 4o เยอะ น่าจะใกล้เคียง o1-preview แต่ดีกว่า o1-preview ตรงใช้ฟรีได้ 555

By: KuLiKo

on 23 October 2024 - 13:40 #1325484

AI ที่ใช้คอมพิวเตอร์ในการทำงาน กำลังควบคุมคอมพิวเตอร์ทำงานอีกทีนึง...

By: orchidkit on 23 October 2024 - 21:35 #1325501

Claude เก่งเรื่องโค้ดดิ้งมาก ผมว่าดีที่สุดในตลาดแล้ว แถมมีฟังชั่น Project ที่ใส่ Ref ได้ง่าย
เสียอย่าง มันเต็ม limit ไว และลืม context เก่าง่าย

ใช้ ChatGPT ทำงานเทียบกัน ยังไม่มีทีท่าจะหมด Token สลับเป็นตัวฟรีซะที งงการนับเหมือนกันแฮะ

By: shub on 24 October 2024 - 13:48 #1325572

มีแชทตัวไหนที่ถามทั่วไปแล้วตอบฉลาดๆมั่งฮะ บางทีก็ให้ช่วยทำสูตรexcel gptบางทีก็เอ๋อๆนับเลขนับไรง่ายๆก็พลาดเอาดื้อๆ

Main menu