Large Language Model

Tags:
Node Thumbnail

กูเกิลเปิดให้นักพัฒนาแอพบน Android เรียกใช้งานโมเดล Gemini Nano เป็นการทั่วไป หลังจากทดสอบแบบจำกัดวงมาตั้งแต่ Google I/O 2024 โดยตอนนี้ใช้โมเดล Gemini Nano 2 ที่มีประสิทธิภาพดีขึ้นด้วย

การใช้งาน Gemini Nano ต้องเรียกผ่าน AICore โดยมี AI Edge SDK อีกที ตอนนี้การใช้งานยังจำกัดเฉพาะบนฮาร์ดแวร์ Pixel 9 series เท่านั้น และสถานะการเปิดใช้ยังเป็นการทดลองใช้งาน (experimental)

การเปิดให้แอพภายนอกใช้ Gemini Nano แบบ on device ทำให้แอพมีฟีเจอร์ด้าน AI จัดการข้อความได้ทันที เช่น rephrasing (ปรับแก้ไขข้อความ), smart reply, proofreading, summarization

Tags:
Topics: 
Node Thumbnail

OpenAI ประกาศฟีเจอร์ฝั่งนักพัฒนาชุดใหญ่ โดยฟีเจอร์สำคัญคือการเปิด API รับข้อมูลเสียงโดยตรงเปิดทางสร้างแอปพลิเคชั่นคุยแบบธรรมชาติใน Advanced Voice Mode จากเดิมที่นักพัฒนานอก OpenAI ไม่สามารถทำแอปเหมือนกันได้

การรับเสียงจะสามารถใช้งานได้ทาง Realtime API ที่เชื่อมต่อกับเซิร์ฟเวอร์ผ่าน WebSocket แทน HTTP แบบเดิม แม้จะออกแบบมาเพื่อคุยเสียงเป็นหลักแต่ที่จริงก็ใช้คุยแชตข้อความปกติได้ พร้อมกันนี้ Chat API เดิมก็จะรองรับข้อมูลเสียงและโมเดล GPT-4o สามารถตอบกลับเป็นเสียงได้เหมือนกัน แม้จะไม่ตอบกลับทันทีเหมือน Realtime API

Tags:
Node Thumbnail

กูเกิลอัปเดตฟีเจอร์ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 และรองรับภาษาไทย โดยเพิ่มการรองรับข้อมูลต้นทางต่อไปนี้

  • URL ของวิดีโอ YouTube ที่เป็นสาธารณะ
  • ไฟล์เสียง (Audio)

กูเกิลยกตัวอย่างกรณีที่สามารถนำ NotebookLM มาช่วยสร้างบันทึกจากข้อมูลต้นทางกลุ่มนี้ เช่น ทำสรุปเนื้อหาวิดีโอทั่วไป วิดีโอเลกเชอร์ รวมทั้งไฟล์เสียงที่บันทึกจากในห้องเรียน

นอกจากนี้กูเกิลยังอัปเดต Audio Overview ฟีเจอร์สร้างไฟล์เสียงแบบพอดคาสต์สรุปเนื้อหาเอกสาร โดยสามารถแชร์ไฟล์เสียงได้โดยตรงภายในแอปแล้ว

ที่มา: กูเกิล

Tags:
Node Thumbnail

Meta ประกาศเพิ่มความสามารถหลายอย่างให้กับบริการปัญญาประดิษฐ์ Meta AI ซึ่งดึงความสามารถจากโมเดลล่าสุด Llama 3.2 ที่เปิดตัว มีรายละเอียดดังนี้

  • สนทนาเสียง สามารถคุยเสียงกับ Meta AI ได้แล้ว โดยระบบจะโต้ตอบกลับมาเป็นเสียงเช่นกัน รองรับทั้ง Messenger, Facebook, WhatsApp และ Instagram DM
Tags:
Topics: 
Node Thumbnail

Meta เปิดตัว Llama 3.2 โมเดล LLM เพิ่มรุ่นรองรับอินพุตเป็นภาพ ที่มีความสามารถระดับเดียวกับ GPT-4o-mini พร้อมกับโมเดลรุ่นเล็กขนาด 1B ที่ความสามารถใกล้เคียงโมเดลกลุ่มขนาดเล็กด้วยกัน

แนวทางการพัฒนา Llama 3.2 รุ่นรับภาพนั้น อาศัยการสร้าง image encoder แปลงข้อมูลเข้าไปให้กับโมเดลภาษาเดิม ระหว่างการฝึกช่วงแรกก็ฝึกเฉพาะ image encoder อย่างเดียว ไม่ปรับแก้ส่วนโมเดลภาษา เพื่อให้แน่ใจว่าความสามารถด้านภาษานั้นยังเท่าเดิมอยู่ จากนั้นฝึกความรู้ที่มีภาพประกอบเพิ่มเข้าไปภายหลัง และจบด้วยการฝึกด้านความปลอดภัยเพิ่มเติม โมเดลรุ่นรองรับภาพนั้นมีสองขนาด คือ 90B และ 11B โดยตัว 90B นั้นความสามารถเทียบเคียงกับ GPT-4o-mini ในหลายชุดทดสอบ

Tags:
Node Thumbnail

นอกจาก Warner Bros. Discovery แล้ว Google Cloud ยังประกาศความร่วมมือกับ Snap เจ้าของแอป Snapchat เพื่อสนับสนุนการประมวลผล AI ในบริการแชทบอต My AI ของ Snapchat

Snapchat จะนำโมเดล AI ข้อมูลผสมผสานของ Gemini ที่ทำงานบน Vertex AI ซึ่งรองรับข้อมูลทั้งตัวหนังสือ ภาพ วิดีโอ เสียง มาพัฒนาเป็นฟีเจอร์ใหม่ให้ผู้ใช้งาน My AI เช่น แปลป้ายตามถนนในภาษาต่าง ๆ ได้ หรือถ่ายภาพขนมแล้วให้ AI เลือกว่าอันไหนดีต่อสุขภาพที่สุด เป็นต้น

Snap และ Google Cloud เป็นพาร์ตเนอร์ในบริการต่าง ๆ มานานมากกว่า 10 ปี ทั้งการจัดเก็บข้อมูล วิเคราะห์ และเทคโนโลยี AI ต่าง ๆ

Tags:
Node Thumbnail

OpenAI ประกาศว่าความสามารถสนทนาเสียง Advanced Voice Mode (AVM) ได้เริ่มเปิดให้ใช้งานสำหรับลูกค้าเสียเงินทุกคนแล้วทั้ง ChatGPT Plus และ ChatGPT Team หลังจากทดสอบในกลุ่มจำกัดและเลื่อนจากกำหนดเดิมก่อนหน้านี้ ส่วนลูกค้ากลุ่ม Enterprise และ Edu จะได้ใช้ในสัปดาห์หน้า

ฟีเจอร์ Advanced Voice ใน ChatGPT ยังได้รับการปรับปรุงอนิเมชันในหน้าสนทนา เปลี่ยนจากจุดสีดำ มาเป็นวงกลมสีฟ้า มีการปรับปรุงความเร็วและความลื่นไหลในการออกเสียงสนทนา และเพิ่มอีก 5 เสียงใหม่ได้แก่ Arbor, Maple, Sol, Spruce และ Vale รวมเป็นทั้งหมด 9 ตัวเลือกเสียง ส่วนเสียง Sky ถูกตัดออกไปเพราะประเด็นกับ Scarlett Johansson

Tags:
Node Thumbnail

Amazon เปิดตัวเครื่องมือใหม่สำหรับการสร้างโฆษณาบน Amazon Ads ที่ใช้ Generative AI พัฒนาต่อจากเครื่องมือสร้างรูปฉากหลังที่ออกมาก่อนหน้านี้ โดยคราวนี้สามารถสร้างวิดีโอสั้นเพื่อใช้ในการโฆษณา

อินพุทที่ต้องใช้คือรูปภาพสินค้าหนึ่งรูป จากนั้น AI จะสร้างวิดีโอสั้นที่ดึงจุดเด่นของสินค้าประกอบเป็นเรื่องราวในหลายรูปแบบ หลายฉากหลัง ให้เลือกเพื่อนำไปใช้งานต่อได้ นอกจากนี้ Amazon ยังเพิ่มเครื่องมือสร้างรูปภาพแบบ Live ที่ทำให้วัตถุดูมีชีวิตชีวาขึ้นอีกด้วย

Tags:
Topics: 
Node Thumbnail

Mistral ผู้พัฒนาปัญญาประดิษฐ์ LLM จากฝรั่งเศสประกาศปรับราคาค่าใช้งาน API ผ่าน Le Plateforme ลง พร้อมกับเพิ่มแพ็กเกจใช้งานฟรีเข้ามา

โมเดลที่ลดราคามากที่สุด คือ Mistral Small และ Codestral ที่ลดราคาลงถึง 80% เหลือเพียง 0.2 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุตและ 0.6 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต แม้จะลดราคาแล้วก็ยังแพงกว่า Gemini Flash อยู่ประมาณ 1 เท่าตัวแม้ความสามารถใกล้เคียงกัน อย่างไรก็ดี Mistral Small มีตัวเลือกให้ดาวน์โหลดมาใช้งานในองค์กรได้

สำหรับการใช้งานแพ็กเกจฟรีนั้นยังจำกัดปริมาณการใช้งานที่ 1 request per second ทำให้เหมาะกับการทดสอบแอปพลิเคชั่นมากกว่าการใช้งานจริงจัง

Tags:
Node Thumbnail

Alibaba Cloud เปิดบริการ LLM ของตัวเองในตระกูล Qwen แต่เป็นเวอร์ชั่นไม่เปิดให้ดาวน์โหลดโมเดล ได้แก่ Qwen-Max, Qwen-Plus, และ Qwen-Turbo โดยชูความสามารถของ Qwen-Max ว่าใกล้เคียง Llama3.1-405B และ GPT-4o แล้ว โดยเอาชนะได้บางขุดทดสอบ เช่น MATH หรือ LiveCodeBenach

ราคาค่าใช้งาน Qwen-Max อยู่ที่ 10 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุต และ 30 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต แพงกว่า GPT-4o ประมาณเท่าตัว

สำหรับโมเดลอื่นๆ ที่เปิดตัวมาพร้อมกัน เช่น Tongyi Wanxiang โมเดลสร้างภาพและวิดีโอจากข้อความ, Qwen2-VL โมเดลที่รับภาพและวิดีโอ, AI Developer ตัวช่วยเขียนโปรแกรม

Tags:
Node Thumbnail

Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ Qwen เวอร์ชั่น 2.5 จุดเด่นของโมเดลเวอร์ชั่นนี้คือฝึกด้วยข้อมูลขนาดถึง 18 ล้านล้านโทเค็น รองรับ 29 ภาษารวมภาษาไทย โดยเปิดให้ใช้งานได้อิสระแทบทุกรุ่น

ตัวโมเดลรองรับอินพุต 128K token และตอบข้อมูลได้ 8K token ยกเว้นรุ่น 3B ลงไปจะรองรับอินพุต 32K token เท่านั้น

รุ่นใหญ่สุด Qwen2.5-72B ได้ผลทดสอบชนะ Llama3.1-70B แทบทุกการทดสอบขึ้นไปใกล้เคียง Llama3.1-405B แต่เวอร์ชั่น 72B แจกแบบ Qwen License ซึ่งจำกัดการใช้งานกับบริการที่ผู้ใช้เกิน 100 ล้านคนต่อเดือน

Tags:
Node Thumbnail

กูเกิลเปิดตัว DataGemma โมเดล LLM ที่ออกแบบมาเพื่อแก้ปัญหาหลอน (hallucination) ที่มักพบในโมเดล LLM จากการมั่นใจแล้วให้ข้อมูลที่ผิดพลาด ซึ่งกูเกิลแก้ปัญหานี้ด้วยการเชื่อมต่อกับฐานข้อมูลปัจจุบันในการอ้างอิง

แพลตฟอร์มที่กูเกิลใช้เรียกว่า Data Commons เป็น Knowledge Graph ที่มีชุดข้อมูลมากกว่า 240 พันล้านจุด ใช้แหล่งข้อมูลที่น่าเชื่อถือทั้งจาก United Nations (UN), World Health Organization (WHO), Centers for Disease Control and Prevention (CDC) และ Census Bureaus ทำให้ได้ผลลัพธ์เป็น AI ที่สามารถให้ข้อมูลที่ถูกต้อง

Tags:
Node Thumbnail

หลังจาก OpenAI เปิดตัว o1 โมเดลปัญญาประดิษฐ์ที่มีความสามารถคิดอย่างเป็นเหตุเป็นผลตามลำดับขั้น ซึ่งเหมาะสำหรับใช้ตอบคำถามวิทยาศาสตร์-คณิตศาสตร์ OpenAI ก็เผยแพร่ System Card เพื่อรายงานผลการประเมินความเสี่ยงของโมเดลปัญญาประดิษฐ์นี้ด้วย

ผลการประเมินภาพรวมความเสี่ยงของโมเดล o1 อยู่ที่ระดับปานกลาง (Medium) จาก 4 ระดับ Low-Medium-High-Critical ซึ่งสูงที่สุดในทุกโมเดลที่ OpenAI เคยเผยแพร่ออกมา หัวข้อที่ o1 ถูกจัดระดับความเสี่ยงปานกลางได้แก่ การโน้มน้าวความคิด (Persuasion) และ CBRN (สามารถสร้างสูตรเคมี, ชีววิทยา, รังสีวิทยา และนิวเคลียร์)

Tags:
Node Thumbnail

กูเกิลเริ่มทยอยปล่อย Gemini Live บริการแชทบอทโต้ตอบด้วยเสียงแบบเรียลไทม์ ให้กับผู้ใช้ Android ทั่วไป หลังปล่อยให้ผู้สมัครแพ็กเกจเสียเงิน Gemini Advanced ตั้งแต่เดือนที่แล้ว

ประกาศของกูเกิลระบุแค่ว่ายังรองรับเฉพาะภาษาอังกฤษ และต้องใช้ผ่านแแอพ Gemini บน Android เท่านั้น แต่ไม่ได้ให้รายละเอียดว่าผู้ใช้แบบฟรีได้จะใช้งานโมเดล Gemini 1.5 Pro ที่เก่งกว่าเวอร์ชันฟรีด้วยหรือไม่

ที่มา - 9to5google

Tags:
Node Thumbnail

Mistral AI เปิดตัวโมเดล Pixtral 12B ซึ่งเป็นโมเดลข้อมูลผสมผสานตัวแรกของบริษัท พัฒนาต่อยอดจากโมเดลตัวหนังสือ Nemo 12B เป็นโมเดลขนาดพารามิเตอร์ 12B ขนาดของไฟล์ประมาณ 24GB

Pixtral 12B สามารถทำงานได้เหมือนโมเดลข้อมูลผสมผสานอื่น เช่น การจำแนกรายละเอียดในภาพ หรือการนับวัตถุในภาพ เป็นต้น

ดูรายละเอียดเพิ่มเติมได้ที่ GitHub หรือ Hugging Face ภายใต้สัญญา Apache 2.0

Tags:
Topics: 
Node Thumbnail

OpenAI เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ตระกูล o1 เป็นโมเดลเน้นตอบคำถามด้านวิทยาศาสตร์, คณิตศาสตร์, และการเขียนโปรแกรม แนวทางการทำงานต่างจากโมเดลก่อนหน้านี้คือ o1 มีความสามารถ "ค่อยๆ คิด" ก่อนจะทำให้คำตอบ ทำให้สามารถตอบสนองต่อคำสั่งที่ซับซ้อน เช่น การสร้างเกมตามกำหนด

โมเดลมี 3 ตัว ได้แก่ o1, o1-preview, และ o1-mini การทดสอบชุดทดสอบแข่งขันคณิตศาสตร์ AIME o1 ได้ 74.4% ขณะที่ o1-mini ได้ 70% หากเทียบผู้เข้าแข่งจริงก็อยู่ระดับ 500 คนแรกของสหรัฐฯ ในระดับมัธยมแล้ว ส่วนการทดสอบแข่งเขียนโปรแกรม Codeforce นั้น o1 ได้ Elo 1673 ขณะที่ o1-mini ได้ 1650 เป็น percentile ที่ 86 ของผู้เข้าแข่งทั้งหมด

Tags:
Node Thumbnail

กูเกิลประกาศเพิ่มความสามารถใหม่ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 ซึ่งปัจจุบันสามารถใช้งานในไทยได้ด้วย โดยฟีเจอร์ใหม่มีชื่อว่า Audio Overview

ถ้าอธิบายแบบให้เห็นภาพง่ายที่สุด Audio Overview จะทำการแปลงเนื้อหาในเอกสารของผู้ใช้งาน ให้เป็นรายการพอดคาสต์ที่มีผู้ดำเนินรายการสองคน ... โดยจะสร้างเสียงขึ้นเป็นสองผู้ดำเนินรายการด้วย AI แล้วทั้งคู่จะสนทนาบนเนื้อหาต้นฉบับ สรุป และเชื่อมต่อข้อมูลต่าง ๆ ในนั้น ผู้ใช้งานยังสามารถดาวน์โหลดไฟล์เสียงนี้ออกมาได้ด้วย

การใช้งานทำได้โดยเปิด Notebook แล้วเลือก Generate เพื่อสร้างเสียง Audio Overview

Tags:
Node Thumbnail

ESPN ถูกวิจารณ์หลังจากบทความสรุปการแข่งขันฟุตบอลหญิงระหว่าง San Diego และ North Carolina ไม่พูดถึง Alex Morgan นักเตะหญิงมืออาชีพที่เล่นนัดนี้เป็นเกมสุดท้ายเลย

Alex Morgan ลงเล่นในเกมนี้ 15 นาที และเป็นผู้เตะลูกโทษ แต่สรุปเกมของ ESPN Generative AI Services บอกเพียงว่าเกมจบที่คะแนนเท่าใด ใครทำประตูบ้าง โดยไม่ได้พูดถึงความสำคัญของเกมนี้ว่าเป็นเกมสุดท้ายของ Alex Morgan นักฟุตบอลหญิงที่เคยได้เหรียญทองโอลิมปิกเลย

ESPN เพิ่งเปิดตัวบริการสรุปการแข่งขันนี้เมื่อสัปดาห์ที่ผ่านมา โดยระบุว่าทุกบทความจะยังคงมีบรรณาธิการเป็นมนุษย์คอยตรวจสอบบทสรุปอยู่ ตอนนี้ยังคงใช้กับฟุตบอล Premier Lacrosse League (PLL) และ National Women’s Soccer League (NWSL) เท่านั้น

Tags:
Node Thumbnail

โลก AI เมื่อคืนนี้มีการเปลี่ยนแปลงน่าสนใจ เมื่อ Matt Shumer ผู้ก่อตั้งสตาร์ตอัพ HyperWrite เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ตัวใหม่ Reflection 70B ที่มีคะแนนเบนช์มาร์คชนะโมเดลทุกตัวในท้องตลาด ไม่ว่าจะเป็น GPT-4o, Claude 3.5, Gemini 1.5 Pro, Llama 3.1 405B

สิ่งที่น่าสนใจคือ Reflection 70B ไม่ได้พัฒนาขึ้นมาจากศูนย์ แต่ปรับจูนมาจากโมเดลโอเพนซอร์สอย่าง Llama 3.1 70B อีกทอดหนึ่ง แล้วดันเอาชนะ Llama 3.1 405B ที่ตัวใหญ่กว่ามากๆ ได้

Tags:
Node Thumbnail

Anthropic เปิดตัวแพ็คเกจใช้งานโมเดลปัญญาประดิษฐ์ Claude แบบใหม่สำหรับลูกค้าองค์กร Claude Enterprise มีจุดเด่นในการรองรับชุดความรู้สำหรับองค์กร ขยายขนาดอินพุทที่รองรับ (context windows) เป็น 500K เชื่อมต่อกับ GitHub จึงรองรับงานเขียนโค้ดด้วย และมีฟังก์ชันพื้นฐานความปลอดภัยสำหรับองค์กรเช่น SSO, ระบบจัดการสิทธิ, ระบบแอดมิน ฯลฯ

Anthropic บอกว่ามีลูกค้าที่ร่วมทดสอบ Claude Enterprise แล้วก่อนหน้านี้ เช่น GitLab และ Midjourney

Claude Enterprise ไม่ได้เปิดเผยราคาแพ็คเกจใช้งาน องค์กรที่สนใจต้องติดต่อกับฝ่ายขายของ Anthropic เท่านั้น

ที่มา: Anthropic

Tags:
Node Thumbnail

Alibaba Cloud ปล่อยโมเดล LLM ตระกูล Qwen 2 รุ่นล่าสุด Qwen2-VL โดย VL ย่อมาจาก Vision Language ที่พัฒนาบนพื้นฐานของ Qwen2

Qwen2-VL มีจุดเด่นคือความสามารถในการทำความเข้าใจรูปภาพ ที่มีความละเอียดและอัตราส่วนภาพหลากหลาย ผลการทดสอบทำงานได้ดีกว่าโมเดลประเภทเดียวกัน ซึ่งสามารถนำไปประยุกต์ใช้ได้กับอุปกรณ์ที่ต้องใช้การทำความเข้าใจภาพที่เห็น เช่น สมาร์ทโฟน, หุุ่นยนต์ หรือระบบอัตโนมัติอื่นที่ต้องอาศัยภาพในการตัดสินใจ

ความสามารถของ Qwen2-VL ยังสามารถสรุปเนื้อหาวิดีโอได้ที่ความยาวถึง 20 นาที โดยสามารถตอบคำถามเนื้อหาจากวิดีโอ หรือสรุปบทสนทนาได้ด้วย ภาษาที่รองรับได้แก่ ภาษาเกือบทั้งหมดที่ใช้ในทวีปยุโรป, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาอาหรับ, ภาษาเวียดนาม และอื่น ๆ

Tags:
Node Thumbnail

Meta เผยยอดดาวน์โหลดโมเดลภาษาขนาดใหญ่ตระกูล Llama ทะลุ 350 ล้านครั้ง (นับเฉพาะบน Hugging Face) และมีโมเดลเวอร์ชันพัฒนาต่อยอดมากกว่า 60,000 ตัวบน Hugging Face

Llama ถือเป็นโมเดลภาษาขนาดใหญ่ที่เป็นโอเพนซอร์สเกือบ 100% (มีเงื่อนไขการใช้งานจำกัดเฉพาะบริษัทไอทีและคลาวด์รายใหญ่เท่านั้น) เปิดตัวครั้งแรกในเดือนกุมภาพันธ์ 2023 และใช้เวลา 18 เดือน พัฒนาตัวเองกลายมาเป็นโมเดลยอดนิยม

Tags:
Node Thumbnail

กูเกิลเปิดตัว Gemini Flash 8B โมเดลแบบปิดที่ภายในเป็นโมเดลขนาดเล็กมากเพียง 8B เท่านั้น แต่ยังได้ความสามารถหลักคล้ายกับโมเดลเต็ม เช่น multimodal รองรับทั้งเสียงและภาพ, รองรับอินพุตถึง 1 ล้านโทเค็น

ที่จริงแล้ว Flash-8B ถูกเปิดเผยในรายงานของ Gemini 1.5 ตั้งแต่กลางปีที่ผ่านมา แต่ระบุเพียงว่ากำลังอยู่ระหว่างการพัฒนา โดยคะแนนที่เปิดเผยออกมานั้นแสดงให้เห็นว่าคะแนนทดสอบลดลงจาก Gemini 1.5 Flash ค่อนข้างชัดเจน หากเทียบกับ Llama 3.1 8B ก็ยังถือว่าคะแนนแย่กว่าในการทดสอบส่วนใหญ่ แต่ฟีเจอร์ multimodal และ context window ก็ทำให้มีแนวทางการใช้งานที่หลากหลาย ผมทดลองแปลงเสียงภาษาไทยเป็นข้อความด้วย Gemini Flash-8B ก็ใช้งานได้ค่อนข้างแม่นยำ

Tags:
Node Thumbnail

Cerebras บริษัทชิปปัญญาประดิษฐ์ เปิดบริการ Cerebras Inference รันโมเดล Llama 3.1 ที่ความเร็วสูง โดยสามารถรัน Llama 3.1 70B ที่ 450 token/s ขณะที่ Llama 3.1 8B ได้ถึง 1,800 token ต่อวินาที นับว่าเป็นบริการที่ความเร็วสูงที่สุดในโลกในตอนนี้ จากเดิมที่ Groq ทำได้ที่ 750 token/s

จุดขายของ Cerebras คือชิป Wafer Scale Engine ที่ใส่ SRAM ความเร็วสูง 44GB อยู่บนตัวชิป เชื่อมต่อกับหน่วยประมวลผลที่แบนวิดท์รวมสูงถึง 21 Petabytes/s เทียบกับชิป NVIDIA H100 ที่แม้แบนวิดท์จะสูงแล้วแต่ก็ได้เพียง 3.3 Terabytes/s แนวทางนี้มีความจำเป็นสำหรับการรันโมเดลให้มีความเร็วเนื่องจากข้อมูลแต่ละ token จะต้องผ่านโมเดลทั้งหมด เช่นโมเดล 70B การรันโมเดลให้ได้ 1000 token/s จะต้องการแบนวิดท์ถึง 140 Terabytes/s

Tags:
Node Thumbnail

NVIDIA โชว์การปรับปรุงโมเดลภาษา Mistral NeMo 12B ที่เปิดตัวในเดือนกรกฎาคม ให้มีขนาดพารามิเตอร์ลดลงเหลือ 8B แต่ไม่สูญเสียประสิทธิภาพมากนัก ผลคือโมเดล Mistral-NeMo-Minitron 8B ที่ปรับขนาดลดลงแล้ว เอาชนะโมเดลคู่แข่งระดับใกล้เคียงกันอย่าง Llama 3.1 8B และ Gemma 7B ในเบนช์มาร์ค AI ทุกตัวได้

เทคนิคการปรับลดขนาดโมเดลที่ NVIDIA ใช้งานมี 2 อย่าง ได้แก่

Pages