Anthropic ผู้พัฒนาปัญญาประดิษฐ์แบบ LLM ตู่แข่ง OpenAI ประกาศอัพเดตโมเดล Claude สองรุ่น คือ Sonnet รุ่นกลาง และ Haiku รุ่นเล็ก โดยรอบนี้มีความพิเศษนอกจากเก่งขึ้นตามปกติแล้ว ยังเริ่มทดสอบฟีเจอร์ควบคุมคอมพิวเตอร์แทนคน ให้ผู้ใช้สามารถสั่งงานเป็นคำสั่งแล้ว Claude คลิกหน้าต่างหรือคำสั่งต่างๆ ให้เอง
Sonnet 3.5 นั้นที่จริงเพิ่งอัพเดตไปเมื่อกลางปีที่ผ่านมา รอบนี้ความสามารถด้านต่างๆ ดีขึ้นทุกด้าน และยังเพิ่มการทดสอบ SWE-Bench Verified ของ OpenAI เข้ามา พร้อมกับทำคะแนนชนะทุกโมเดลรวมถึง o1-preview ของ OpenAI อีกชุดทดสอบที่รายงานคือ TAU-bench สำหรับการทดสอบการใช้เครื่องมือในกระบวนการหาคำตอบให้ผู้ใช้ มีพัฒนาจาก Sonnet 3.5 รุ่นเดิมโดยเฉพาะชุดทดสอบสายการบิน
Haiku โมเดลรุ่นเล็กราคาถูก ออกรุ่น 3.5 ครั้งแรก แม้คะแนนทดสอบไม่ได้สูงสุดแต่ก็ใกล้เคียง GPT-4o mini หลายชุดทดสอบ คะแนนทดสอบ SWE-Bench Verified นั้นสูงกว่า GPT-4o เสียอีก
ฟีเจอร์สำคัญที่ Cluade มีเพิ่มเข้ามาคือ computer use เป็นการอ่านภาพและให้ Claude 3.5 Sonnet ส่งคำสั่งเพื่อให้บรรลุเป้าหมาย เช่น หาข้อมูลที่เกี่ยวข้องมากรอกแบบฟอร์ม โดยรวมแล้วเป็นการเขียนโปรแกรมไปครอบคอมพิวเตอร์และเปิด API เป็น tools ให้ Claude เข้ามาดูภาพหน้าจอและส่งคำสั่ง
แม้ว่าทาง Anthorpic จะชู computer use เป็นฟีเจอร์เด่น แต่ผลทดสอบ OSWorld ก็คะแนนไม่สูงนัก 14.9% (22% ถ้ายอมรับผลหาก AI ทำขั้นตอนยาวเกินไปด้วย) แต่ GPT-4o ทำได้เพียง 7.69% และ Gemini-Pro ทำได้เพียง 5.8% เท่านั้น
ที่มา - Anthropic
Comments
เจ้านี้มาแรงจริง แถม Cache ฉลาดด้วย เคยเอาเอกสารให้ตรวจแค่ Text แค่รู้เลยว่าชื่อเอกสารควรเป็นอะไร และเลขย่อยหัวข้อควรใช้เลขอะไร (ใส่ผิดไป)
รอใช้ API Opus ไม่ไหวละ
ข้าขอทรยศต่อคนทั้งโลก ดีกว่าให้ใครมาทรยศข้า
4o เขียนโปรแกรมคือไม่ไหวเลย วกไปวนมาแก้ไม่ถูกจุดสักที ย้ำแค่ไหนก็เหมือนเดิม o1-preview เขียนได้แบบเฉียบมาก คิดนานไปนิด แต่ออกมาละใช้ได้ในครั้งแรกเลย ไม่พาวนรอบโลก ถ้าให้ลิมิตต่อสัปดาห์เยอะๆ คงจะดี
ส่วน Sonnet 3.5 (New) ลองแล้วเร็วมาก มีหยุดคิดบางครั้ง แต่คิดโลจิกได้ดีกว่า 4o เยอะ น่าจะใกล้เคียง o1-preview แต่ดีกว่า o1-preview ตรงใช้ฟรีได้ 555
AI ที่ใช้คอมพิวเตอร์ในการทำงาน กำลังควบคุมคอมพิวเตอร์ทำงานอีกทีนึง...
Claude เก่งเรื่องโค้ดดิ้งมาก ผมว่าดีที่สุดในตลาดแล้ว แถมมีฟังชั่น Project ที่ใส่ Ref ได้ง่าย
เสียอย่าง มันเต็ม limit ไว และลืม context เก่าง่าย
ใช้ ChatGPT ทำงานเทียบกัน ยังไม่มีทีท่าจะหมด Token สลับเป็นตัวฟรีซะที งงการนับเหมือนกันแฮะ
มีแชทตัวไหนที่ถามทั่วไปแล้วตอบฉลาดๆมั่งฮะ บางทีก็ให้ช่วยทำสูตรexcel gptบางทีก็เอ๋อๆนับเลขนับไรง่ายๆก็พลาดเอาดื้อๆ