Tags:
Topics: 
Node Thumbnail

ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ

แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว

ผลทดสอบพบว่าโมเดลจำนวนมากคะแนนแย่ลงมากจากการเปลี่ยนตัวเลข ขณะที่การเปลี่ยนค่าอื่นๆ เช่น ชื่อต่าง ยังคงสามารถทำงานได้ถูกต้องอยู่ หรือชุดทดสอบ GSM-NoOps ที่ใส่ข้อความที่ไม่เกี่ยวกับโจทย์เติมลงไปก็ทำให้ผลทดสอบแย่ลงเช่นกัน

ประสิทธิภาพของ LLM ใน GSM-Symbolic นั้นลดลงต่างกันไป โดย GPT-4o ลดลงน้อยที่สุด แต่หากเพิ่มความยากให้โจทย์ด้วยการเพิ่มข้อความในโจทย์เติมลงไปอีกสองชุด คะแนนก็จะลดลงชัดเจนทุกโมเดล รวมถึง GPT-4o

ที่มา - ArXiv

No Description

No Description

Get latest news from Blognone

Comments

By: pd2002 on 14 October 2024 - 00:57 #1324739

อย่าให้พูดนะว่า AI ทางฝั่ง Apple เป็นยังไง อย่าให้พู๊ดดดดด

By: lew
FounderJusci's WriterMEconomicsAndroid
on 14 October 2024 - 13:15 #1324762 Reply to:1324739
lew's picture

การวิจารณ์ benchmark นี่มันไม่ใช่ว่าต้องทำเองได้ดีหมดนะครับ

นักวิจารณ์รถ วิจารณ์การวัดระยะทางรถไฟฟ้าแบบ NEDC กันแทบทุกราย ก็ไม่มีใครผลิตรถยนต์ได้เอง


lewcpe.com, @wasonliw

By: arayaphong on 14 October 2024 - 19:47 #1324778 Reply to:1324739

ทีมวิจัยของแอปเปิ้ลอธิบายเรื่องกลไกการทำงานของ LLM
มันก็ไม่เห็นเกี่ยวกับว่า LLM ของตัวเองจะดีหรือไม่ดีเลยครับ

อย่างถ้าผมซึ่งเป็นคนไทยออกมาพูดว่าอาหารในเอเชียเนี่ยชอบใช้ซอสหมักดองเป็นเครื่องปรุงรสนั้นไม่ดีต่อสุขภาพ
แล้วมีคนมาบอกว่าอย่าให้พูดนะว่าอาหารไทยเป็นยังไง

ใช่ อาหารไทยซึ่งเป็นอาหารเอเชียก็ชอบใช้ซอสหมักดองเหมือนกันไง แล้วยังไง???

By: darkmaster
iPhoneWindows PhoneAndroidWindows
on 15 October 2024 - 11:35 #1324817 Reply to:1324739
darkmaster's picture

การวิจารณ์ หรือ วัดผล ไม่จำเป็นต้อง "ทำได้ดีกว่า หรือ เหนือกว่า"

เช่นเดียวกับที่คุณวิจารณ์ AI ของ Apple โดยที่คุยไม่ได้พัฒนา AI ใน Brand ของตัวเองเลย

By: Fzo
ContributorAndroid
on 15 October 2024 - 16:41 #1324864 Reply to:1324739
Fzo's picture

พูดได้เลยพี่ ผมก็อยากรู้


WE ARE THE 99%

By: Azymik on 14 October 2024 - 01:06 #1324740

การเปลี่ยนค่าอืนๆ

การเปลี่ยนค่าอื่นๆ

By: marryboomz
Windows
on 14 October 2024 - 06:41 #1324742

ชื่อก็บอกอยู่แล้วว่า Language Model , มีแต่มนุษย์นั้นแหละที่หวังให้มันทำงานได้มากกว่านั้นตัว AI แบบนี้มันไม่เหมาะสมกับอะไรแบบนี้ตั้งแต่แรกอยู่แล้ว เหมือนไปฝืนให้มันต้องทำได้ พอทำไม่ได่้ก็ไปด่ามัน

By: tekkasit
ContributorAndroidWindowsIn Love
on 14 October 2024 - 08:42 #1324746
tekkasit's picture

ผมว่ากราฟในหน้า 8 เหมือนจะสรุปได้ว่า ทุก LLM ความแม่นยำ (accuracy) เปลี่ยน เมื่อมีการเปลี่ยนชื่อ (names) < ค่า (numbers) < เปลี่ยนทั้งชื่อและค่า (both) จะมากบ้างน้อยบ้างก็มี ไม่เว้นแม้แต่ตัวล่าสุด o1-mini ก็ยังลด แต่ไม่ใช่ไม่ลดเลย

แม้แต่ค่า (numbers) เปลี่ยน ก็ยังความผันแปรในตัวมันเอง

By: lew
FounderJusci&#039;s WriterMEconomicsAndroid
on 14 October 2024 - 13:11 #1324759 Reply to:1324746
lew's picture

ตัวที่เปลี่ยนหนักจริงๆ คือการเพิ่มโจทย์ให้ยาวขึ้น 2 วรรค (GSM-P2 หน้า 9) ครับ ลดลงทุกตัวแม้แต่ GPT-4o หรือ o1 อาจจะเป็นหลักฐานว่า LLM ไม่ได้ "เข้าใจ" โจทย์จริงๆ แต่มองเห็น pattern เดิมๆ ที่เคยเห็นมาเอามาตอบ


lewcpe.com, @wasonliw

By: Tasksenger on 14 October 2024 - 08:55 #1324748

มันก็ขึ้นอยู่กับว่าจะเอามันไปทำอะไร ถ้าเอามันไปใช้รูปแบบที่เราต้องสอนให้มันรู้สักครั้งนึงก่อน แล้วมันถึงจะตอบคำถามได้ อันนี้มันใช้งานได้แล้วล่ะ แต่ถ้าจะให้มันสามารถเอาความรู้เดิม + ประสบการณ์ + ข้อมูลสภาพแวดงล้อม มาคิดวิเคราะห์เพื่อหาคำตอบกับโจทย์ใหม่ๆ ผมว่ามันยังต้องใช้เวลา

เหตุผลคือ เทคโนโลยีในด้าน sensor และการจัดเก็บข้อมูลมันยังก้าวตามมาไม่ทัน เพราะการที่จะให้ AI ฉลาดเพียงพอ มันจะต้องมีการเรียนรู้เพิ่มเติมด้วย sensor ไปด้วย เพื่อสร้างโครงข่ายใยประสาทใหม่สำหรับโจทย์ใหม่ๆ ลงในฐานข้อมูล รวมถึงการสร้าง workflow ให้มันสามารถนำข้อมูลใหม่ไปเชื่อมโยงข้อมูลเดิมเพื่อรองรับกับปัญหาใหม่ๆ เหมือนมนุษย์ที่มีเวลานอนหลับ เพื่อทำการนี้เช่นกัน ถ้าจะหวังให้มันเรียนรู้แล้วตอบโจทย์ใหม่ๆ แบบ real-time มันยังเกินขีดจำกัดของเทคโนโลยีในปัจจุบันไป

By: lew
FounderJusci&#039;s WriterMEconomicsAndroid
on 14 October 2024 - 13:13 #1324761 Reply to:1324748
lew's picture

paper นี้เขาก็ไม่ได้เถียงว่ามันไม่มีประโยชน์นะครับ แต่เถียงว่าที่เราเชื่อว่า LLM เข้าใจโจทย์คณิตศาสตร์ได้ (เพราะผลทดสอบ GSM8K ดีขึ้นเรื่อยๆ) อาจจะเกินจริง และควรมีการทดสอบที่ดีกว่าเดิม


lewcpe.com, @wasonliw

By: maxmin on 14 October 2024 - 18:25 #1324775

เดี๋ยวคอยดูของตัวเอง บรรเทิงแน่

By: aeksael
ContributoriPhoneWindows PhoneAndroid
on 15 October 2024 - 18:53 #1324875
aeksael's picture

เด่วนะ​ รายงานนี้้้เกี่ยวข้องกับปัญหาที่ผมถามGPTเมื่อวานกับเมื่อเดือนก่อนไหมที่ว่า​"คิดทีมไหนจะได้แชมป์Ti" คำตอบตั้งแต่ยังแข่งไม่จบ จนตอนนี้ได้ผู้ชนะแล้วมันยังตอบคำถามเหมมือนเดิม​ แทนที่มันจะบอกว่าแข่งจบแล้วทีมนี้ชนะ แปลว่ามันไม่ได้"เข้าใจ" บริบทแท้จริงของคำถามมันแค่เอาคำถามเราไปค้นหาคำตอบ


The Last Wizard Of Century.