Tags:
Node Thumbnail

Langchain ทดสอบความสามารถการใช้งานปัญญาประดิษฐ์ LLM ที่หลายองค์กรเริ่มต้องการใช้งานแบบ agentic ที่ปัญญาประดิษฐ์สามารถเรียกใช้เครื่องมือต่างๆ ได้หลากหลาย และตัดสินใจกระบวนการทำงานเพิ่มเติมได้เอง และพบว่าบางโมเดลนั้นทำได้แย่ลงมากหากใส่เครื่องมือให้ปัญญาประดิษฐ์ใช้งานมากเกินไป

ชุดทดสอบเป็นคำสั่งสำหรับงานในหมวดการจัดการปฎิทินและการซัพพอร์ตลูกค้า อย่างละ 30 ข้อ โดยการทดสอบจะรันข้อละ 3 ครั้ง ทำให้แต่ละชุดรัน 90 ครั้ง กระบวนการทดสอบจะเริ่มจากการรันโดยใส่เฉพาะเครื่องมือที่เกี่ยวข้อง จากนั้นจะเพิ่มเครื่องมืองานด้านอื่นๆ ไปเรื่อยๆ เพื่อดูประสิทธิภาพการทำงาน

ผลการทดสอบนั้นแสดงให้เห็นว่า OpenAI o1 ทำตามคำสั่งสำเร็จสูงมาก แถมยังมีประสิทธิภาพค่อนข้างคงตัวแม้จะเพิ่มคำสั่งเข้าไปมากๆ แต่โมเดลบางตัว เช่น GPT-4o นั้นประสิทธิภาพลดลงเร็วมากเมื่อเพิ่มคำสั่งเข้าไป

โดยรวมแล้วประสิทธิภาพของการทำงานแบบ agentic นั้นแยกกันชัดเป็นสองกลุ่ม คือ o1, o3-mini, และ Claude 3.5 Sonnet ที่ประสิทธิภาพค่อนข้างดี กับ GPT-4o และ Llama-3.3 ที่ประสิทธิภาพค่อนข้างแย่ และลดลงหนักเมื่อคำสั่งยาวขึ้น

ที่มา - Langchain

No Description

Get latest news from Blognone