Tags:
Node Thumbnail

Zyphra บริษัทปัญญาประดิษฐ์ LLM แบบโอเพนอร์สเปิดตัว Zamba2-7B โมเดล LLM โอเพนซอร์สแบบ Apache 2.0 โดยชูประเด็นประสิทธิภาพการทำงานว่าตอบได้เร็ว ใช้แรมขณะรันโมเดลต่ำ

ความแตกต่างสำคัญของ Zamba2 คือมันไม่ได้ใช้บล็อค Transformer เหมือน LLM ตัวอื่นๆ แต่ออกแบบบล็อค Mamba ของตัวเอง และในเวอร์ชั่นนี้ก็ใช้บล็อค Mamba2 ที่พัฒนาเพิ่มเติม โดยทั่วไปแล้ว Mamba ได้เปรียบ Transformer เมื่อใช้กับโมเดลขนาดเล็กและขนาดกลาง

ข้อมูลที่ใช้ฝึก Zamba2 นั้นใช้ชุดข้อมูลเปิด Zyda ร่วมกับชุดข้อมูลอื่น รวมเป็น 3 ล้านล้านโทเค็น แต่มีชุดข้อมูลคุณภาพสูงพิเศษแสนล้านโทเค็นเพื่อฝึกช่วงแรกให้โมเดลเก่งขึ้นอย่างรวดเร็ว กระบวนการฝึกรวมใช้เวลา 50 วัน ใช้ชิป H100 จำนวน 128 ตัว ถือว่าใช้งบประมาณในการฝึกระดับปานกลาง

Tags:
Node Thumbnail

การยืนยันตัวตนด้วย Passkey ซึ่งเป็นการเก็บคู่กุญแจเข้ารหัสไว้ในเครื่อง ได้รับความนิยมมากขึ้นเรื่อยๆ นับตั้งแต่เปิดตัวช่วงต้นปี 2023 ก็มีบริการออนไลน์จำนวนมากประกาศรองรับ Passkey กันถ้วนหน้า

อย่างไรก็ตาม ปัญหาสำคัญของ Passkey คือการซิงก์กุญแจข้ามเครื่อง หรือข้ามซอฟต์แวร์จัดการล็อกอินคนละยี่ห้อกัน ซึ่งยังไม่มีมาตรฐานกลางมากำหนดว่าควรทำอย่างไร

Tags:
Node Thumbnail

Adobe อัปเดต Frame.io V4 แพลตฟอร์มสำหรับการทำงานร่วมกันในการผลิตคอนเทนต์ภาพถ่าย-วิดีโอ (collaboration) บนคลาวด์ ซึ่งเวอร์ชันล่าสุดนี้ นอกจากมีการทำงานที่เร็วขึ้น ปรับปรุงเวิร์กโฟลว์ใหม่ ยังเพิ่มแบรนด์กล้องที่รองรับการเชื่อมต่อข้อมูลจากกล้องส่งตรงขึ้นคลาวด์ด้วย

ฟีเจอร์ใหม่อย่างแรกคือ metadata ที่ทีมสามารถร่วมกันแท็กข้อมูลในไฟล์ภาพ-วิดีโอ เช่น กำหนดประเภท ผู้รับผิดชอบ กำหนดวัน โซเชียลที่ใช้ และอื่น ๆ และสามารถแยกย่อยดูรายละเอียดของข้อมูลที่เกี่ยวข้องได้

Adobe ยังปรับปรุงระบบเล่นตัวเล่นวิดีโอ ลดบัฟเฟอร์ แสดงภาพได้ละเอียดขึ้น เพื่อให้ทีมผู้ใช้งานสามารถตรวจสอบรายละเอียดของวิดีโอได้แม่นยำถูกต้องมากขึ้น

Tags:
Node Thumbnail

Adobe อัปเดตสถานะของโมเดลปัญญาประดิษฐ์สร้างวิดีโอสั้นจากอินพุทข้อความ (Text-to-Video) Adobe Firefly Video Model ซึ่งพรีวิวเมื่อเดือนที่แล้ว เป็นพับลิกเบต้าแบบจำกัด (limited public beta) โดย Adobe บอกว่าเป็นโมเดลสร้างวิดีโอตัวแรกที่เผยแพร่ทั่วไป และปลอดภัยสำหรับการใช้งานเชิงพาณิชย์ เพราะเทรนด้วยคอนเทนต์ที่ซื้อลิขสิทธิ์และได้รับอนุญาตอย่างถูกต้อง

ของใหม่ทั้งหมดใน Firefly ที่ Adobe เพิ่มเติมในครั้งนี้ได้แก่

Tags:
Node Thumbnail

Warner Bros. Discovery เปิดตัว Max (HBO Max หลังรีแบรนด์จากการควบรวมกับ Discovery+) ในไทย 19 พฤศจิกายน มีแพ็กเกจให้เลือก 3 แบบ ซึ่งยังไม่ได้เปิดเผยราคาออกมา ได้แก่ Mobile, Standard และ Ultimate

Tags:
Node Thumbnail

อีก 1 ปีจากนี้คือวันที่ 14 ตุลาคม 2025 เป็นวันสิ้นสุดระยะซัพพอร์ต Windows 10 ตามที่ไมโครซอฟท์เคยประกาศเอาไว้

Windows 10 ออกครั้งแรกวันที่ 29 กรกฎาคม 2015 ตอนนั้นประกาศไว้ว่ามีระยะซัพพอร์ตนาน 10 ปี จนถึงวันที่ 14 ตุลาคม 2025 หลังจากนั้นจะไม่ได้รับแพตช์ความปลอดภัยใดๆ อีก (สามารถจ่ายเงินซื้อแพตช์ต่อได้อีก 3 ปี ลักษณะเดียวกับตอน Windows 7) คำแนะนำของไมโครซอฟท์คือให้อัพเกรดเป็น Windows 11 นั่นเอง

นอกจาก Windows 10 แล้ว วันที่ 14 ตุลาคม 2025 ยังเป็นวันสิ้นสุดระยะซัพพอร์ตซอฟต์แวร์ตัวอื่นๆ ของไมโครซอฟท์ ได้แก่

Tags:
Node Thumbnail

ไมโครซอฟท์ประกาศว่า Alan Hartman หัวหน้าของ Xbox Game Studios ที่ดูแลสตูดิโอเกมในเครือ Xbox (ไม่นับ Bethesda และ Activision Blizzard) จะเกษียณอายุหลังจากนั่งเก้าอี้นี้มาได้ 1 ปี

Alan Hartman เป็นพนักงานไมโครซอฟท์มายาวนานตั้งแต่ปี 1988 ในยุคที่เริ่มทำ CD-ROM เขามีส่วนร่วมกับเกม Age of Empires และ Fable แถมเป็นผู้ก่อตั้งสตูดิโอ Turn 10 ในสังกัดไมโครซอฟท์ตั้งแต่ปี 2001 เพื่อพัฒนาเกมรถแข่งซีรีส์ Forza Motorsport และเพิ่งได้โปรโมทเป็นหัวหน้าสตูดิโอ Xbox เมื่อปีที่แล้ว

Tags:
Node Thumbnail

Matt Mullenweg ผู้ก่อตั้ง WordPress ซีอีโอ Automattic โพสต์บล็อกตอบโต้กับ David Heinemeier Hansson หรือ DHH ผู้สร้าง Ruby on Rails หลังจาก DHH แสดงความเห็นต่อสงคราม WordPress ระหว่าง Automattic กับ WP Engine ว่ากำลังทำให้วงการโอเพนซอร์สโดยรวมสกปรกขึ้น

Matt เริ่มต้นว่านี่เป็นการโต้แย้งด้วยความเคารพต่อกัน จริง ๆ ทั้งสองคนควรโทรคุยกันเอง แต่ไม่สะดวกเพราะต่างคนต่างเดินทางอยู่ เขาบอกว่า DHH พยายามบอกว่าตนคือผู้เชี่ยวชาญโอเพนซอร์ส แต่ผลิตภัณฑ์ในบริษัท 37signals ทั้ง Hey, Campfire, Writebook, Basecamp ต่างก็ไม่ใช่โอเพนซอร์ส แถมไม่ได้รับความนิยมมากนัก

Tags:
Node Thumbnail

Adobe Lightroom เปิดตัวฟีเจอร์ใหม่พลัง AI ที่ช่วยให้การปรับแต่งภาพทำได้รวดเร็วในคลิกเดียว ลดขั้นตอนและเวลาในการแก้ไข

ฟีเจอร์ใหม่คือ Quick Actions ซึ่งสามารถแก้ไขปรับแสงให้ภาพได้อย่างรวดเร็ว โดย Lightroom จะตรวจจับส่วนที่สำคัญที่มักใช้รีทัชเช่น วัตถุหลัก ฉากหลัง ฟัน ดวงตา ผิว ซึ่งทำได้ทั้งระบบแนะนำ และการแก้ไขตามพรีเซตที่เคยใช้งาน

ส่วน Generative Remove ฟีเจอร์ลบส่วนเกินในภาพ มีการปรับปรุง โดยออกจากสถานะเบต้า มาเป็นใช้งานกับทุกคน ความสามารถเพิ่มเติมคือลบวัตถุได้ดีมากขึ้น ไม่ต้องแปรงทั้งวัตถุ แต่ใช้การวงรอบวัตถุนั้นได้เช่นกัน

Tags:
Node Thumbnail

Adobe เปิดตัวความสามารถด้าน Generative AI ในโปรแกรมตัดต่อวิดีโอ Premiere Pro ซึ่งบางส่วนเคยสาธิตไปแล้วเมื่อต้นปี

ฟีเจอร์นี้มีชื่อว่า Generative Extend ที่สามารถสร้างคลิปสั้นมาเติมช่องว่างที่ฟุตเทจอาจไม่มีถ่ายไว้ ผลลัพธ์ที่ได้มีความต่อเนื่องลื่นไหลกับคลิปในช่วงต้น และส่วนที่ต้องการนำมาต่อท้าย การสร้างคลิปใหม่ด้วย AI สามารถทำงานแบ็กกราวด์ได้ ผู้ใช้งานจึงสามารถทำงานส่วนอื่นระหว่างรอได้เลย

ความสามารถอื่นใน Generative Extend ได้แก่ การแทรกภาพได้ตามต้องการทั้ง J หรือ L Cut, แก้ไขตำแหน่งดวงตา หากฟุตเทจมีมุมมองหลุด, สร้างเสียงเอฟเฟกต์เพิ่มเติม หากฟุตเทจสั้นเกินไป (ไม่รองรับเสียงพูดและเพลง เนื่องจากปัญหาลิขสิทธิ์)

Tags:
Node Thumbnail

กูเกิลประกาศลงนามข้อตกลง สั่งซื้อไฟฟ้าพลังงานนิวเคลียร์จาก Kairos Power สตาร์ทอัปที่พัฒนาระบบไฟฟ้านิวเคลียร์ด้วยเตาปฏิกรณ์ขนาดเล็ก ซึ่งพลังงานไฟฟ้านี้จะนำมาใช้สำหรับศูนย์ข้อมูลด้าน AI ของกูเกิล

ตามข้อตกลงนั้น Kairos Power จะเริ่มผลิตไฟฟ้าด้วยชุดปฏิกรณ์แรกในปี 2030 และเพิ่มเติมไปจนถึงปี 2035 กำลังไฟฟ้ารวม 500 เมกะวัตต์ ซึ่งเป็นพลังงานที่ปลอดคาร์บอน

Kairos Power มีเทคโนโลยีการผลิตไฟฟ้านิวเคลียร์ โดยไม่ต้องสร้างเตาปฏิกรณ์ขนาดใหญ่แบบโรงไฟฟ้านิวเคลียร์ที่เราคุ้นตา ใช้การหล่อเย็นด้วยเกลือหลอมเหลวผสมกับเซรามิกแทนระบบน้ำแบบเดิม ทั้งหมดทำให้ได้ระบบนิวเคลียร์ความดันต่ำ และทำให้เตาปฏิกรณ์มีขนาดเล็กลง โดยโรงไฟฟ้าแห่งแรกอยู่ในขั้นตอนอนุมัติจากหน่วยงานกำกับดูแล และรัฐเทนเนสซี

Tags:
Node Thumbnail

Adobe ประกาศอัปเดตความสามารถให้กับซอฟต์แวร์ Photoshop เพิ่มเครื่องมือสำหรับการตัดต่อ การขยายภาพ ตลอดจนรองรับการนำวัตถุ 3D มาตกแต่งในภาพ มีรายละเอียดดังนี้

เครื่องมือแรกเป็นความสามารถการลบสิ่งรบกวนในภาพ จากเดิมใช้วิธีวงแนววัตถุ ตอนนี้ Photoshop สามารถระบุสิ่งเหล่านั้นในภาพ ผู้ใช้งานเพียงคลิกเลือกและยืนยันการลบออกได้เลย ไม่ว่าจะเป็นบุคคล สายไฟ หรือสิ่งอื่น ผู้ใช้งานสามารถเลือกได้ด้วยว่าจะใช้เทคโนโลยีไหนช่วยลบ ทั้งเครื่องมือเดิม หรือใช้ Adobe Firefly ที่เป็น Generative AI

Firefly ใน Photoshop ยังเพิ่มความสามารถในการสร้าง-ขยายภาพเพิ่มเติม ทั้ง Generative Fill, Generative Expand, Generate Similar และ Generate Background เพื่อแก้ไขภาพให้ได้ตามต้องการ

Tags:
Node Thumbnail

ไมโครซอฟท์ประกาศนำเกม Call of Duty สามภาคคือ Black Ops 6, Modern Warfare III, Warzone มาให้บริการผ่านคลาวด์ Xbox Cloud Gaming ในวันที่ 25 ตุลาคม 2024 ซึ่งเป็นวันแรกที่เปิดขายภาค Black Ops 6 ด้วย

Tags:
Topics: 
Node Thumbnail

Vast Space สตาร์ตอัพสายอวกาศที่ก่อตั้งในปี 2021 เสนอแผนการทำสถานีอวกาศเอกชนชื่อ Haven-2 ที่จะมาใช้แทนสถานีอวกาศนานาชาติ (ISS) ที่กำลังจะหมดอายุใช้งานในปี 2030

แนวทางการสร้างสถานีอวกาศแห่งใหม่แทน ISS ถูกพูดคุยกันมานานแล้ว และ NASA เองก็เคยให้ทุนบริษัทเอกชน 3 แห่ง Blue Origin, Nanoracks, Northrop Grumman ไปพัฒนาแนวคิดสถานีอวกาศทดแทน

Tags:
Node Thumbnail

eBPF เป็นซอฟต์แวร์ที่ฝังไว้ในเคอร์เนลลินุกซ์เพื่อเก็บค่าต่างๆ เพื่อให้โลกข้างนอกเคอร์เนลมองเห็น (observability) มันจึงถูกนิยมใช้ในซอฟต์แวร์ด้านมอนิเตอร์จำนวนมาก (ทั้งมอนิเตอร์ทราฟฟิก โหลดบาลานซ์ ความปลอดภัย ฯลฯ) ข้อดีของ eBPF คือไม่ต้องแก้ไขอะไรเคอร์เนลเลย และตัวโค้ดถูกรันใน sandbox ที่มีความปลอดภัย (เอกสารอธิบาย eBPF)

Tags:
Node Thumbnail

ซัมซุงเพิ่งประกาศไว้ในงาน Samsung Developer Conference เมื่อไม่กี่วันมานี้ (งานเดียวกับที่บอกว่า One UI 7 เลื่อนเป็นปีหน้า 2025) ว่าจะขยาย One UI ไปยังเครื่องใช้ไฟฟ้าด้วย โดยเริ่มในปีหน้า 2025

แต่เว็บไซต์ SamMobile รายงานว่าเริ่มมีสมาร์ททีวีซัมซุงได้อัพเดต One UI สำหรับทีวีแล้ว ตัวมันเองยังอิงอยู่บนระบบปฏิบัติการ Tizen 8.0 ตัวใหม่ล่าสุดที่ออกในปี 2023 แล้วครอบด้วยอินเทอร์เฟซใหม่ และฟีเจอร์ใหม่ๆ เช่น การแยกแท็บหน้า For You, Live, Apps การเพิ่มฟีเจอร์ Watch Later, การควบคุมอุปกรณ์ของซัมซุงด้วยเมาส์และคีย์บอร์ดชุดเดียวกัน

Tags:
Node Thumbnail

กระทรวงโทรคมนาคมและข้อมูล (Menkominfo) สั่งแบนแอป Temu ฐานไม่จดทะเบียนผู้ให้บริการแพลตฟอร์มอิเล็กทรอนิกส์ (Electronic System Operator - PSE) ในอินโดนีเซีย

แม้ว่าเหตุผลของการสั่งบล็อคจะเป็นเพราะ Temu ไม่ได้มาลงทะเบียน แต่ทางกระทรวงก็ระบุเหตุผลรองว่า Temu ส่งผลกระทบต่อธุรกิจขนาดเล็กและขนาดกลาง (Usaha Mikro Kecil Menengah - UMKM) ในประเทศอย่างมาก

ยังไม่แน่ชัดว่ากูเกิลและแอปเปิลจะตอบรับคำสั่งของรัฐบาลอินโดนีเซียเมื่อใด แต่ล่าสุดหน้าเว็บ Google Play อินโดนีเซียยังแสดงแอป Temu อยู่

Tags:
Node Thumbnail

ไมโครซอฟท์อัพเดตความสามารถให้แอพจับภาพหน้าจอ Snipping Tool คราวนี้มาอย่างเหนือ ด้วยการจับภาพหน้าจอที่เป็นตาราง แล้วสามารถ Copy as table ไปใส่ใน Word, Excel หรือแอพลักษณะเดียวกันตัวอื่นๆ ได้ด้วย

ก่อนหน้านี้ Snipping Tool เพิ่มความสามารถอ่านข้อความในภาพ และอ่าน QR code การขยายมาสู่การอ่านฟอร์แมตตาราง ยิ่งช่วยอำนวยความสะดวกให้ผู้ใช้มากขึ้น

แอพจะต้องอัพเดตเป็นเวอร์ชัน 11.2409.22.0 โดยตอนนี้ยังใช้ได้กับ Windows Insiders Canary/Dev Channels เท่านั้น

Tags:
Node Thumbnail

Wu Cheng-wen รัฐมนตรีสภาวิทยาศาสตร์และเทคโนโลยีของไต้หวัน เปิดเผยว่า TSMC มีแผนสร้างโรงงานเพิ่มเติมในยุโรป จากแผนเดิมที่จะก่อสร้างโรงงานในเมืองเดรสเดน ประเทศเยอรมนี ซึ่งตอนนี้การก่อสร้างกำลังดำเนินอยู่

อย่างไรก็ตามตัวแทนของ TSMC บอกว่ายังไม่มีกำหนดเรื่องการขยายโรงงานเพิ่มเติมในยุโรป ตอนนี้บริษัทยังดำเนินการไปตามแผนที่เคยประกาศไว้ และยังไม่มีโครงการใหม่เพิ่มเติม

โรงงานของ TSMC ในเดรสเดน มีแผนเริ่มเดินสายการผลิตในปี 2027 ซึ่งจะเป็นโรงงาน TSMC แห่งแรกในภูมิภาคยุโรปด้วย โรงงานนี้เป็นการร่วมทุนกับบริษัทเซมิคอนดักเตอร์ของยุโรปอีก 3 รายได้แก่ Bosch, Infineon และ NXP โดย TSMC ถือหุ้น 70% และบริษัทที่เหลือถือรายละ 10%

Tags:
Node Thumbnail

Damac Group กลุ่มทุนอสังหาริมทรัพย์จากดูไบ เจ้าของธุรกิจศูนย์ข้อมูลยี่ห้อ Edgnex ประกาศเข้ามาลงทุนในประเทศไทย มูลค่า 1 พันล้านดอลลาร์

การลงทุนของ Damac Group เป็นการร่วมทุน (joint venture) กับบริษัท โปรเอ็น คอร์ป จำกัด (ProEn) ที่ให้บริการด้านศูนย์ข้อมูลในไทยอยู่แล้ว โดย Edgnex จะถือหุ้น 70% และเป็นผู้บริหารศูนย์ข้อมูลด้วย

โครงการศูนย์ข้อมูลที่ร่วมลงทุนมีหลายแห่ง โดยศูนย์ข้อมูลแห่งแรกจะเริ่มเปิดบริการช่วงต้นปี 2025 เป็นศูนย์ข้อมูลระดับ Tier III มีการใช้พลังงาน 5MW

ที่มา - Gulfnews

Tags:
Node Thumbnail

NVIDIA ออกอัพเดตซอฟต์แวร์ให้กับกล่องเซ็ตท็อปตระกูล Shield TV ซึ่งรวมถึงกล่อง Shield TV รุ่นแรกที่ออกขายในปี 2015 ทำให้มันกลายเป็นอุปกรณ์ Android ที่มีระยะซัพพอร์ตยาวนานที่สุด (9 ปีแล้ว)

NVIDIA อัพเดตซอฟต์แวร์ให้ Shield อยู่เรื่อยๆ แม้ไม่บ่อยนัก โดยรอบก่อนหน้านี้คือเดือนกรกฎาคม 2023 แล้วข้ามมาเดือนตุลาคม 2024 เลย ของใหม่ในอัพเดตตัวนี้เป็นการแก้บั๊กต่างๆ และใช้เลขเวอร์ชันอัพเดตเป็น 33.2.0.252

Tags:
Node Thumbnail

ในงานเปิดตัว Cybercab และ Robovan ของ Tesla ยังมีการนำหุ่นยนต์มนุษย์ Optimus มาโชว์ โดยให้มีปฏิสัมพันธ์ พูดคุยกับแขกในงาน รวมถึงมีการกดเบียร์ใส่แก้วให้แขกด้วย

อย่างไรก็ตาม Robert Scoble อินฟลูเอนเซอร์ชื่อดังของวงการเทคที่ได้รับเชิญไปร่วมงาน เปิดเผยว่าหุ่นยนต์ Optimus ไม่ได้ตอบสนองอัตโนมัติทั้งหมด เพราะงานบางอย่างถูกควบคุมด้วยรีโมทจากระยะไกลต่างหาก โดย Scoble บอกว่าคุยกับวิศวกรของ Tesla ได้ข้อมูลว่าการเดินของ Optimus เป็น AI จริงๆ แต่ส่วนอื่นๆ ควบคุมด้วยรีโมท รวมถึงการกดเบียร์ด้วย

Tags:
Node Thumbnail

จากข่าว Game Freak สตูดิโอผู้พัฒนา Pokemon โดนแฮ็กและปล่อยข้อมูลของเกม Pokemon ที่กำลังพัฒนาอยู่

ทาง Game Freak ออกแถลงการณ์สั้นๆ (ตามกฎหมายคุ้มครองข้อมูลส่วนตัวของญี่ปุ่น) ว่าถูกเจาะระบบจริงในช่วงเดือนสิงหาคม 2024 มีข้อมูลส่วนตัวของพนักงาน อดีตพนักงาน และพนักงานสัญญาจ้าง หลุดออกไป 2,606 รายการ ซึ่งบริษัทได้แจ้งให้พนักงานเหล่านี้ทราบแล้ว

ส่วนประเด็นข้อมูลหลุดของเกม Pokemon นั้นทาง Game Freak ไม่ได้แสดงความเห็นแต่อย่างใด

Tags:
Node Thumbnail

TIOBE รายงานอันดับความนิยมภาษาเขียนโปรแกรมประจำเดือนตุลาคม 2024 โดยวัดจากจำนวนการค้นหาผ่านช่องทางต่าง ๆ ซึ่ง 3 อันดับแรกเป็น Python, C++ และ Java เหมือนกับเดือนกันยายน (Java แซง C มาเป็นอันดับ 3 ตั้งแต่เดือนที่แล้ว)

Paul Jansen ซีอีโอ TIOBE ให้ความเห็นจากอันดับที่ออกมา สะท้อนว่านักพัฒนาเริ่มมองหาภาษาอื่นมาแทน Python บนเงื่อนไข เรียนรู้ได้ง่าย ปลอดภัย และทำงานได้เร็ว โดยเขามองว่ามีภาษาที่สามารถแทนที่ได้เช่น Rust หรือ Mojo

อันดับของ Rust ในเดือนนี้อยู่ที่อันดับ 13 มีแนวโน้มเพิ่มขึ้นแบบก้าวกระโดด และมีโอกาสติด Top 10 เร็ว ๆ นี้ ส่วน Mojo เป็นภาษาที่เพิ่งออกมาใหม่ อันดับล่าสุดอยู่ที่ 49

Tags:
Topics: 
Node Thumbnail

ทีมวิจัยของแอปเปลรายงานถึงการทดสอบทางคณิตศาสตร์ของ Large Language Model (LLM) ว่าอาจจะยังไม่ดีพอ โดยยกตัวอย่างการทดสอบ GSM8K ที่ทดสอบการให้เหตุผลทางคณิตศาสตร์ที่ LLM รุ่นใหม่ๆ ทำคะแนนได้ดีขึ้นเรื่อยๆ แต่เมื่อทดสอบแก้ไขโจทย์เล็กน้อย หลายโมเดลกลับทำคะแนนได้แย่ลงมาก แสดงให้เห็นว่าโมเดลเหล่านี้ท่องโจทย์มาตอบ ไม่ได้เข้าใจโจทย์จริงๆ

แนวทางของทีมงานคือการสร้างชุดทดสอบ GSM-Symbolic เป็น template ของชุดทดสอบที่สามารถสร้างข้อสอบได้หลากหลาย หลังจากนั้นทดสอบด้วยชุดทดสอบที่เปลี่ยนค่าต่างๆ ไปแล้ว

Pages