ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ
แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว
ผลทดสอบพบว่าโมเดลจำนวนมากคะแนนแย่ลงมากจากการเปลี่ยนตัวเลข ขณะที่การเปลี่ยนค่าอื่นๆ เช่น ชื่อต่าง ยังคงสามารถทำงานได้ถูกต้องอยู่ หรือชุดทดสอบ GSM-NoOps ที่ใส่ข้อความที่ไม่เกี่ยวกับโจทย์เติมลงไปก็ทำให้ผลทดสอบแย่ลงเช่นกัน
ประสิทธิภาพของ LLM ใน GSM-Symbolic นั้นลดลงต่างกันไป โดย GPT-4o ลดลงน้อยที่สุด แต่หากเพิ่มความยากให้โจทย์ด้วยการเพิ่มข้อความในโจทย์เติมลงไปอีกสองชุด คะแนนก็จะลดลงชัดเจนทุกโมเดล รวมถึง GPT-4o
ที่มา - ArXiv
Comments
อย่าให้พูดนะว่า AI ทางฝั่ง Apple เป็นยังไง อย่าให้พู๊ดดดดด
การวิจารณ์ benchmark นี่มันไม่ใช่ว่าต้องทำเองได้ดีหมดนะครับ
นักวิจารณ์รถ วิจารณ์การวัดระยะทางรถไฟฟ้าแบบ NEDC กันแทบทุกราย ก็ไม่มีใครผลิตรถยนต์ได้เอง
lewcpe.com, @wasonliw
ทีมวิจัยของแอปเปิ้ลอธิบายเรื่องกลไกการทำงานของ LLM
มันก็ไม่เห็นเกี่ยวกับว่า LLM ของตัวเองจะดีหรือไม่ดีเลยครับ
อย่างถ้าผมซึ่งเป็นคนไทยออกมาพูดว่าอาหารในเอเชียเนี่ยชอบใช้ซอสหมักดองเป็นเครื่องปรุงรสนั้นไม่ดีต่อสุขภาพ
แล้วมีคนมาบอกว่าอย่าให้พูดนะว่าอาหารไทยเป็นยังไง
ใช่ อาหารไทยซึ่งเป็นอาหารเอเชียก็ชอบใช้ซอสหมักดองเหมือนกันไง แล้วยังไง???
การวิจารณ์ หรือ วัดผล ไม่จำเป็นต้อง "ทำได้ดีกว่า หรือ เหนือกว่า"
เช่นเดียวกับที่คุณวิจารณ์ AI ของ Apple โดยที่คุยไม่ได้พัฒนา AI ใน Brand ของตัวเองเลย
พูดได้เลยพี่ ผมก็อยากรู้
WE ARE THE 99%
การเปลี่ยนค่าอื่นๆ
ชื่อก็บอกอยู่แล้วว่า Language Model , มีแต่มนุษย์นั้นแหละที่หวังให้มันทำงานได้มากกว่านั้นตัว AI แบบนี้มันไม่เหมาะสมกับอะไรแบบนี้ตั้งแต่แรกอยู่แล้ว เหมือนไปฝืนให้มันต้องทำได้ พอทำไม่ได่้ก็ไปด่ามัน
ผมว่ากราฟในหน้า 8 เหมือนจะสรุปได้ว่า ทุก LLM ความแม่นยำ (accuracy) เปลี่ยน เมื่อมีการเปลี่ยนชื่อ (names) < ค่า (numbers) < เปลี่ยนทั้งชื่อและค่า (both) จะมากบ้างน้อยบ้างก็มี ไม่เว้นแม้แต่ตัวล่าสุด o1-mini ก็ยังลด แต่ไม่ใช่ไม่ลดเลย
แม้แต่ค่า (numbers) เปลี่ยน ก็ยังความผันแปรในตัวมันเอง
ตัวที่เปลี่ยนหนักจริงๆ คือการเพิ่มโจทย์ให้ยาวขึ้น 2 วรรค (GSM-P2 หน้า 9) ครับ ลดลงทุกตัวแม้แต่ GPT-4o หรือ o1 อาจจะเป็นหลักฐานว่า LLM ไม่ได้ "เข้าใจ" โจทย์จริงๆ แต่มองเห็น pattern เดิมๆ ที่เคยเห็นมาเอามาตอบ
lewcpe.com, @wasonliw
มันก็ขึ้นอยู่กับว่าจะเอามันไปทำอะไร ถ้าเอามันไปใช้รูปแบบที่เราต้องสอนให้มันรู้สักครั้งนึงก่อน แล้วมันถึงจะตอบคำถามได้ อันนี้มันใช้งานได้แล้วล่ะ แต่ถ้าจะให้มันสามารถเอาความรู้เดิม + ประสบการณ์ + ข้อมูลสภาพแวดงล้อม มาคิดวิเคราะห์เพื่อหาคำตอบกับโจทย์ใหม่ๆ ผมว่ามันยังต้องใช้เวลา
เหตุผลคือ เทคโนโลยีในด้าน sensor และการจัดเก็บข้อมูลมันยังก้าวตามมาไม่ทัน เพราะการที่จะให้ AI ฉลาดเพียงพอ มันจะต้องมีการเรียนรู้เพิ่มเติมด้วย sensor ไปด้วย เพื่อสร้างโครงข่ายใยประสาทใหม่สำหรับโจทย์ใหม่ๆ ลงในฐานข้อมูล รวมถึงการสร้าง workflow ให้มันสามารถนำข้อมูลใหม่ไปเชื่อมโยงข้อมูลเดิมเพื่อรองรับกับปัญหาใหม่ๆ เหมือนมนุษย์ที่มีเวลานอนหลับ เพื่อทำการนี้เช่นกัน ถ้าจะหวังให้มันเรียนรู้แล้วตอบโจทย์ใหม่ๆ แบบ real-time มันยังเกินขีดจำกัดของเทคโนโลยีในปัจจุบันไป
paper นี้เขาก็ไม่ได้เถียงว่ามันไม่มีประโยชน์นะครับ แต่เถียงว่าที่เราเชื่อว่า LLM เข้าใจโจทย์คณิตศาสตร์ได้ (เพราะผลทดสอบ GSM8K ดีขึ้นเรื่อยๆ) อาจจะเกินจริง และควรมีการทดสอบที่ดีกว่าเดิม
lewcpe.com, @wasonliw
เดี๋ยวคอยดูของตัวเอง บรรเทิงแน่
เด่วนะ รายงานนี้้้เกี่ยวข้องกับปัญหาที่ผมถามGPTเมื่อวานกับเมื่อเดือนก่อนไหมที่ว่า"คิดทีมไหนจะได้แชมป์Ti" คำตอบตั้งแต่ยังแข่งไม่จบ จนตอนนี้ได้ผู้ชนะแล้วมันยังตอบคำถามเหมมือนเดิม แทนที่มันจะบอกว่าแข่งจบแล้วทีมนี้ชนะ แปลว่ามันไม่ได้"เข้าใจ" บริบทแท้จริงของคำถามมันแค่เอาคำถามเราไปค้นหาคำตอบ
The Last Wizard Of Century.