LLM | Blognone

OpenAI ประกาศฟีเจอร์ฝั่งนักพัฒนาชุดใหญ่ โดยฟีเจอร์สำคัญคือการเปิด API รับข้อมูลเสียงโดยตรงเปิดทางสร้างแอปพลิเคชั่นคุยแบบธรรมชาติใน Advanced Voice Mode จากเดิมที่นักพัฒนานอก OpenAI ไม่สามารถทำแอปเหมือนกันได้

การรับเสียงจะสามารถใช้งานได้ทาง Realtime API ที่เชื่อมต่อกับเซิร์ฟเวอร์ผ่าน WebSocket แทน HTTP แบบเดิม แม้จะออกแบบมาเพื่อคุยเสียงเป็นหลักแต่ที่จริงก็ใช้คุยแชตข้อความปกติได้ พร้อมกันนี้ Chat API เดิมก็จะรองรับข้อมูลเสียงและโมเดล GPT-4o สามารถตอบกลับเป็นเสียงได้เหมือนกัน แม้จะไม่ตอบกลับทันทีเหมือน Realtime API

NotebookLM ของ Google รองรับวิดีโอสาธารณะบน YouTube และไฟล์เสียง มีประโยชน์ช่วยทำสรุปเลกเชอร์

By: arjin

on 27 September 2024 - 16:40 Tags:

Topics:

NotebookLM

กูเกิลอัปเดตฟีเจอร์ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 และรองรับภาษาไทย โดยเพิ่มการรองรับข้อมูลต้นทางต่อไปนี้

URL ของวิดีโอ YouTube ที่เป็นสาธารณะ
ไฟล์เสียง (Audio)

กูเกิลยกตัวอย่างกรณีที่สามารถนำ NotebookLM มาช่วยสร้างบันทึกจากข้อมูลต้นทางกลุ่มนี้ เช่น ทำสรุปเนื้อหาวิดีโอทั่วไป วิดีโอเลกเชอร์ รวมทั้งไฟล์เสียงที่บันทึกจากในห้องเรียน

นอกจากนี้กูเกิลยังอัปเดต Audio Overview ฟีเจอร์สร้างไฟล์เสียงแบบพอดคาสต์สรุปเนื้อหาเอกสาร โดยสามารถแชร์ไฟล์เสียงได้โดยตรงภายในแอปแล้ว

ที่มา: กูเกิล

Meta AI เพิ่มความสามารถสนทนาเสียง, วิเคราะห์รูปภาพ, แปลและพากย์เสียง Reels

By: arjin

on 26 September 2024 - 14:08 Tags:

Topics:

Meta เปิดตัว Llama 3.2 เพิ่มรุ่นอ่านภาพได้, มีโมเดลขนาดเล็กเน้นรันในโทรศัพท์ พร้อมชุดพัฒนาซอฟต์แวร์ของตัวเอง

By: lew

on 26 September 2024 - 01:28 Tags:

Topics:

Snapchat ประกาศความร่วมมือกับ Google Cloud รองรับการประมวลผลในฟีเจอร์ My AI

By: arjin

on 25 September 2024 - 08:11 Tags:

Topics:

Snapchat

Google Cloud

นอกจาก Warner Bros. Discovery แล้ว Google Cloud ยังประกาศความร่วมมือกับ Snap เจ้าของแอป Snapchat เพื่อสนับสนุนการประมวลผล AI ในบริการแชทบอต My AI ของ Snapchat

Snapchat จะนำโมเดล AI ข้อมูลผสมผสานของ Gemini ที่ทำงานบน Vertex AI ซึ่งรองรับข้อมูลทั้งตัวหนังสือ ภาพ วิดีโอ เสียง มาพัฒนาเป็นฟีเจอร์ใหม่ให้ผู้ใช้งาน My AI เช่น แปลป้ายตามถนนในภาษาต่าง ๆ ได้ หรือถ่ายภาพขนมแล้วให้ AI เลือกว่าอันไหนดีต่อสุขภาพที่สุด เป็นต้น

Snap และ Google Cloud เป็นพาร์ตเนอร์ในบริการต่าง ๆ มานานมากกว่า 10 ปี ทั้งการจัดเก็บข้อมูล วิเคราะห์ และเทคโนโลยี AI ต่าง ๆ

OpenAI เริ่มอัปเดตฟีเจอร์ Advanced Voice Mode ให้ลูกค้า ChatGPT แบบเสียเงินแล้ว

By: arjin

on 25 September 2024 - 07:22 Tags:

Topics:

ChatGPT

OpenAI ประกาศว่าความสามารถสนทนาเสียง Advanced Voice Mode (AVM) ได้เริ่มเปิดให้ใช้งานสำหรับลูกค้าเสียเงินทุกคนแล้วทั้ง ChatGPT Plus และ ChatGPT Team หลังจากทดสอบในกลุ่มจำกัดและเลื่อนจากกำหนดเดิมก่อนหน้านี้ ส่วนลูกค้ากลุ่ม Enterprise และ Edu จะได้ใช้ในสัปดาห์หน้า

ฟีเจอร์ Advanced Voice ใน ChatGPT ยังได้รับการปรับปรุงอนิเมชันในหน้าสนทนา เปลี่ยนจากจุดสีดำ มาเป็นวงกลมสีฟ้า มีการปรับปรุงความเร็วและความลื่นไหลในการออกเสียงสนทนา และเพิ่มอีก 5 เสียงใหม่ได้แก่ Arbor, Maple, Sol, Spruce และ Vale รวมเป็นทั้งหมด 9 ตัวเลือกเสียง ส่วนเสียง Sky ถูกตัดออกไปเพราะประเด็นกับ Scarlett Johansson

Amazon เพิ่มเครื่องมือสร้างวิดีโอสั้นสำหรับการโฆษณาด้วย AI ที่ใช้อินพุทเพียงรูปภาพของสินค้า

By: arjin

on 24 September 2024 - 15:27 Tags:

Topics:

Amazon

Advertising

Amazon เปิดตัวเครื่องมือใหม่สำหรับการสร้างโฆษณาบน Amazon Ads ที่ใช้ Generative AI พัฒนาต่อจากเครื่องมือสร้างรูปฉากหลังที่ออกมาก่อนหน้านี้ โดยคราวนี้สามารถสร้างวิดีโอสั้นเพื่อใช้ในการโฆษณา

อินพุทที่ต้องใช้คือรูปภาพสินค้าหนึ่งรูป จากนั้น AI จะสร้างวิดีโอสั้นที่ดึงจุดเด่นของสินค้าประกอบเป็นเรื่องราวในหลายรูปแบบ หลายฉากหลัง ให้เลือกเพื่อนำไปใช้งานต่อได้ นอกจากนี้ Amazon ยังเพิ่มเครื่องมือสร้างรูปภาพแบบ Live ที่ทำให้วัตถุดูมีชีวิตชีวาขึ้นอีกด้วย

Mistral ลดราคา API ลงสูงสุด 80% เพิ่มแพ็กเกจฟรี

By: lew

on 23 September 2024 - 10:02 Tags:

Topics:

Mistral

Mistral ผู้พัฒนาปัญญาประดิษฐ์ LLM จากฝรั่งเศสประกาศปรับราคาค่าใช้งาน API ผ่าน Le Plateforme ลง พร้อมกับเพิ่มแพ็กเกจใช้งานฟรีเข้ามา

โมเดลที่ลดราคามากที่สุด คือ Mistral Small และ Codestral ที่ลดราคาลงถึง 80% เหลือเพียง 0.2 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุตและ 0.6 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต แม้จะลดราคาแล้วก็ยังแพงกว่า Gemini Flash อยู่ประมาณ 1 เท่าตัวแม้ความสามารถใกล้เคียงกัน อย่างไรก็ดี Mistral Small มีตัวเลือกให้ดาวน์โหลดมาใช้งานในองค์กรได้

สำหรับการใช้งานแพ็กเกจฟรีนั้นยังจำกัดปริมาณการใช้งานที่ 1 request per second ทำให้เหมาะกับการทดสอบแอปพลิเคชั่นมากกว่าการใช้งานจริงจัง

Alibaba Cloud เปิดตัว Qwen-Max, AI แบบปิดซอร์ส ความสามารถใกล้ Lllama3.1-405B/GPT-4o

By: lew

on 20 September 2024 - 07:49 Tags:

Topics:

Alibaba Cloud

Qwen

Alibaba Cloud เปิดบริการ LLM ของตัวเองในตระกูล Qwen แต่เป็นเวอร์ชั่นไม่เปิดให้ดาวน์โหลดโมเดล ได้แก่ Qwen-Max, Qwen-Plus, และ Qwen-Turbo โดยชูความสามารถของ Qwen-Max ว่าใกล้เคียง Llama3.1-405B และ GPT-4o แล้ว โดยเอาชนะได้บางขุดทดสอบ เช่น MATH หรือ LiveCodeBenach

ราคาค่าใช้งาน Qwen-Max อยู่ที่ 10 ดอลลาร์ต่อล้านโทเค็นสำหรับอินพุต และ 30 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต แพงกว่า GPT-4o ประมาณเท่าตัว

สำหรับโมเดลอื่นๆ ที่เปิดตัวมาพร้อมกัน เช่น Tongyi Wanxiang โมเดลสร้างภาพและวิดีโอจากข้อความ, Qwen2-VL โมเดลที่รับภาพและวิดีโอ, AI Developer ตัวช่วยเขียนโปรแกรม

Alibaba Cloud เปิดโมเดล Qwen 2.5 ฝึกด้วยข้อมูลขนาดใหญ่มาก รองรับภาษาไทย

By: lew

on 19 September 2024 - 22:57 Tags:

Topics:

Alibaba Cloud

Qwen

Alibaba Cloud เปิดตัวโมเดลปัญญาประดิษฐ์ Qwen เวอร์ชั่น 2.5 จุดเด่นของโมเดลเวอร์ชั่นนี้คือฝึกด้วยข้อมูลขนาดถึง 18 ล้านล้านโทเค็น รองรับ 29 ภาษารวมภาษาไทย โดยเปิดให้ใช้งานได้อิสระแทบทุกรุ่น

ตัวโมเดลรองรับอินพุต 128K token และตอบข้อมูลได้ 8K token ยกเว้นรุ่น 3B ลงไปจะรองรับอินพุต 32K token เท่านั้น

รุ่นใหญ่สุด Qwen2.5-72B ได้ผลทดสอบชนะ Llama3.1-70B แทบทุกการทดสอบขึ้นไปใกล้เคียง Llama3.1-405B แต่เวอร์ชั่น 72B แจกแบบ Qwen License ซึ่งจำกัดการใช้งานกับบริการที่ผู้ใช้เกิน 100 ล้านคนต่อเดือน

Google เผยแพร่ DataGemma LLM ที่ออกแบบให้ตรวจสอบข้อมูลปัจจุบัน ป้องกันอาการหลอน

By: arjin

on 14 September 2024 - 07:32 Tags:

Topics:

กูเกิลเปิดตัว DataGemma โมเดล LLM ที่ออกแบบมาเพื่อแก้ปัญหาหลอน (hallucination) ที่มักพบในโมเดล LLM จากการมั่นใจแล้วให้ข้อมูลที่ผิดพลาด ซึ่งกูเกิลแก้ปัญหานี้ด้วยการเชื่อมต่อกับฐานข้อมูลปัจจุบันในการอ้างอิง

แพลตฟอร์มที่กูเกิลใช้เรียกว่า Data Commons เป็น Knowledge Graph ที่มีชุดข้อมูลมากกว่า 240 พันล้านจุด ใช้แหล่งข้อมูลที่น่าเชื่อถือทั้งจาก United Nations (UN), World Health Organization (WHO), Centers for Disease Control and Prevention (CDC) และ Census Bureaus ทำให้ได้ผลลัพธ์เป็น AI ที่สามารถให้ข้อมูลที่ถูกต้อง

OpenAI ประเมินความเสี่ยงของปัญญาประดิษฐ์สายคิดคำนวณ o1 ที่ระดับ Medium สูงสุดที่เคยเผยแพร่มา

By: arjin

on 14 September 2024 - 06:13 Tags:

Topics:

หลังจาก OpenAI เปิดตัว o1 โมเดลปัญญาประดิษฐ์ที่มีความสามารถคิดอย่างเป็นเหตุเป็นผลตามลำดับขั้น ซึ่งเหมาะสำหรับใช้ตอบคำถามวิทยาศาสตร์-คณิตศาสตร์ OpenAI ก็เผยแพร่ System Card เพื่อรายงานผลการประเมินความเสี่ยงของโมเดลปัญญาประดิษฐ์นี้ด้วย

ผลการประเมินภาพรวมความเสี่ยงของโมเดล o1 อยู่ที่ระดับปานกลาง (Medium) จาก 4 ระดับ Low-Medium-High-Critical ซึ่งสูงที่สุดในทุกโมเดลที่ OpenAI เคยเผยแพร่ออกมา หัวข้อที่ o1 ถูกจัดระดับความเสี่ยงปานกลางได้แก่ การโน้มน้าวความคิด (Persuasion) และ CBRN (สามารถสร้างสูตรเคมี, ชีววิทยา, รังสีวิทยา และนิวเคลียร์)

กูเกิลเริ่มปล่อย Gemini Live ให้กับผู้ใช้ Android ที่ใช้งานฟรี

By: mk

on 13 September 2024 - 13:03 Tags:

Topics:

Android

กูเกิลเริ่มทยอยปล่อย Gemini Live บริการแชทบอทโต้ตอบด้วยเสียงแบบเรียลไทม์ ให้กับผู้ใช้ Android ทั่วไป หลังปล่อยให้ผู้สมัครแพ็กเกจเสียเงิน Gemini Advanced ตั้งแต่เดือนที่แล้ว

ประกาศของกูเกิลระบุแค่ว่ายังรองรับเฉพาะภาษาอังกฤษ และต้องใช้ผ่านแแอพ Gemini บน Android เท่านั้น แต่ไม่ได้ให้รายละเอียดว่าผู้ใช้แบบฟรีได้จะใช้งานโมเดล Gemini 1.5 Pro ที่เก่งกว่าเวอร์ชันฟรีด้วยหรือไม่

ที่มา - 9to5google

Mistral เปิดตัว Pixtral 12B ที่เป็นโมเดล Multimodal ตัวแรก

By: arjin

on 13 September 2024 - 06:19 Tags:

Topics:

Mistral

Mistral AI เปิดตัวโมเดล Pixtral 12B ซึ่งเป็นโมเดลข้อมูลผสมผสานตัวแรกของบริษัท พัฒนาต่อยอดจากโมเดลตัวหนังสือ Nemo 12B เป็นโมเดลขนาดพารามิเตอร์ 12B ขนาดของไฟล์ประมาณ 24GB

Pixtral 12B สามารถทำงานได้เหมือนโมเดลข้อมูลผสมผสานอื่น เช่น การจำแนกรายละเอียดในภาพ หรือการนับวัตถุในภาพ เป็นต้น

ดูรายละเอียดเพิ่มเติมได้ที่ GitHub หรือ Hugging Face ภายใต้สัญญา Apache 2.0

OpenAI ออกโมเดล o1 ค่อยๆ คิดก่อนตอบ เน้นเขียนโปรแกรมและปัญหาคณิตศาสตร์ นับตัวอักษรถูกแล้ว

By: lew

on 13 September 2024 - 00:37 Tags:

Topics:

OpenAI เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ตระกูล o1 เป็นโมเดลเน้นตอบคำถามด้านวิทยาศาสตร์, คณิตศาสตร์, และการเขียนโปรแกรม แนวทางการทำงานต่างจากโมเดลก่อนหน้านี้คือ o1 มีความสามารถ "ค่อยๆ คิด" ก่อนจะทำให้คำตอบ ทำให้สามารถตอบสนองต่อคำสั่งที่ซับซ้อน เช่น การสร้างเกมตามกำหนด

โมเดลมี 3 ตัว ได้แก่ o1, o1-preview, และ o1-mini การทดสอบชุดทดสอบแข่งขันคณิตศาสตร์ AIME o1 ได้ 74.4% ขณะที่ o1-mini ได้ 70% หากเทียบผู้เข้าแข่งจริงก็อยู่ระดับ 500 คนแรกของสหรัฐฯ ในระดับมัธยมแล้ว ส่วนการทดสอบแข่งเขียนโปรแกรม Codeforce นั้น o1 ได้ Elo 1673 ขณะที่ o1-mini ได้ 1650 เป็น percentile ที่ 86 ของผู้เข้าแข่งทั้งหมด

Google เพิ่มความสามารถ NotebookLM สร้าง AI สองคนสนทนาสรุปเนื้อหา ฟีลฟังพอดคาสต์

By: arjin

on 12 September 2024 - 11:29 Tags:

Topics:

NotebookLM

กูเกิลประกาศเพิ่มความสามารถใหม่ให้ NotebookLM แอปจดบันทึกที่ทำงานด้วย Gemini 1.5 ซึ่งปัจจุบันสามารถใช้งานในไทยได้ด้วย โดยฟีเจอร์ใหม่มีชื่อว่า Audio Overview

ถ้าอธิบายแบบให้เห็นภาพง่ายที่สุด Audio Overview จะทำการแปลงเนื้อหาในเอกสารของผู้ใช้งาน ให้เป็นรายการพอดคาสต์ที่มีผู้ดำเนินรายการสองคน ... โดยจะสร้างเสียงขึ้นเป็นสองผู้ดำเนินรายการด้วย AI แล้วทั้งคู่จะสนทนาบนเนื้อหาต้นฉบับ สรุป และเชื่อมต่อข้อมูลต่าง ๆ ในนั้น ผู้ใช้งานยังสามารถดาวน์โหลดไฟล์เสียงนี้ออกมาได้ด้วย

การใช้งานทำได้โดยเปิด Notebook แล้วเลือก Generate เพื่อสร้างเสียง Audio Overview

ESPN ถูกโวยหลังบทความสรุปนักเตะฟุตบอลหญิงเขียนโดย AI ไม่เอ่ยถึงนักเตะอาชีพที่เล่นเป็นนัดสุดท้ายเลย

By: lew

on 10 September 2024 - 10:20 Tags:

Topics:

ESPN

Football

ESPN ถูกวิจารณ์หลังจากบทความสรุปการแข่งขันฟุตบอลหญิงระหว่าง San Diego และ North Carolina ไม่พูดถึง Alex Morgan นักเตะหญิงมืออาชีพที่เล่นนัดนี้เป็นเกมสุดท้ายเลย

Alex Morgan ลงเล่นในเกมนี้ 15 นาที และเป็นผู้เตะลูกโทษ แต่สรุปเกมของ ESPN Generative AI Services บอกเพียงว่าเกมจบที่คะแนนเท่าใด ใครทำประตูบ้าง โดยไม่ได้พูดถึงความสำคัญของเกมนี้ว่าเป็นเกมสุดท้ายของ Alex Morgan นักฟุตบอลหญิงที่เคยได้เหรียญทองโอลิมปิกเลย

ESPN เพิ่งเปิดตัวบริการสรุปการแข่งขันนี้เมื่อสัปดาห์ที่ผ่านมา โดยระบุว่าทุกบทความจะยังคงมีบรรณาธิการเป็นมนุษย์คอยตรวจสอบบทสรุปอยู่ ตอนนี้ยังคงใช้กับฟุตบอล Premier Lacrosse League (PLL) และ National Women’s Soccer League (NWSL) เท่านั้น

โมเดลโอเพนซอร์ส Reflection ปรับจูนจาก Llama แต่ชนะโมเดลใหญ่ได้ทุกตัวรวม GPT-4o

By: mk

on 7 September 2024 - 13:48 Tags:

Topics:

Llama

Open Source

โลก AI เมื่อคืนนี้มีการเปลี่ยนแปลงน่าสนใจ เมื่อ Matt Shumer ผู้ก่อตั้งสตาร์ตอัพ HyperWrite เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ตัวใหม่ Reflection 70B ที่มีคะแนนเบนช์มาร์คชนะโมเดลทุกตัวในท้องตลาด ไม่ว่าจะเป็น GPT-4o, Claude 3.5, Gemini 1.5 Pro, Llama 3.1 405B

สิ่งที่น่าสนใจคือ Reflection 70B ไม่ได้พัฒนาขึ้นมาจากศูนย์ แต่ปรับจูนมาจากโมเดลโอเพนซอร์สอย่าง Llama 3.1 70B อีกทอดหนึ่ง แล้วดันเอาชนะ Llama 3.1 405B ที่ตัวใหญ่กว่ามากๆ ได้

Anthropic เปิดตัว Claude Enterprise สำหรับลูกค้าองค์กร รองรับอินพุทถึง 500K

By: arjin

on 5 September 2024 - 08:05 Tags:

Topics:

Claude

Anthropic

Enterprise

Anthropic เปิดตัวแพ็คเกจใช้งานโมเดลปัญญาประดิษฐ์ Claude แบบใหม่สำหรับลูกค้าองค์กร Claude Enterprise มีจุดเด่นในการรองรับชุดความรู้สำหรับองค์กร ขยายขนาดอินพุทที่รองรับ (context windows) เป็น 500K เชื่อมต่อกับ GitHub จึงรองรับงานเขียนโค้ดด้วย และมีฟังก์ชันพื้นฐานความปลอดภัยสำหรับองค์กรเช่น SSO, ระบบจัดการสิทธิ, ระบบแอดมิน ฯลฯ

Anthropic บอกว่ามีลูกค้าที่ร่วมทดสอบ Claude Enterprise แล้วก่อนหน้านี้ เช่น GitLab และ Midjourney

Claude Enterprise ไม่ได้เปิดเผยราคาแพ็คเกจใช้งาน องค์กรที่สนใจต้องติดต่อกับฝ่ายขายของ Anthropic เท่านั้น

ที่มา: Anthropic

Alibaba เปิดตัวโมเดล Qwen2-VL สามารถเข้าใจรูปภาพ และวิดีโอที่มีความยาวระดับ 20 นาทีได้

By: arjin

on 30 August 2024 - 20:02 Tags:

Topics:

Alibaba Cloud

Qwen

Alibaba Cloud ปล่อยโมเดล LLM ตระกูล Qwen 2 รุ่นล่าสุด Qwen2-VL โดย VL ย่อมาจาก Vision Language ที่พัฒนาบนพื้นฐานของ Qwen2

Qwen2-VL มีจุดเด่นคือความสามารถในการทำความเข้าใจรูปภาพ ที่มีความละเอียดและอัตราส่วนภาพหลากหลาย ผลการทดสอบทำงานได้ดีกว่าโมเดลประเภทเดียวกัน ซึ่งสามารถนำไปประยุกต์ใช้ได้กับอุปกรณ์ที่ต้องใช้การทำความเข้าใจภาพที่เห็น เช่น สมาร์ทโฟน, หุุ่นยนต์ หรือระบบอัตโนมัติอื่นที่ต้องอาศัยภาพในการตัดสินใจ

ความสามารถของ Qwen2-VL ยังสามารถสรุปเนื้อหาวิดีโอได้ที่ความยาวถึง 20 นาที โดยสามารถตอบคำถามเนื้อหาจากวิดีโอ หรือสรุปบทสนทนาได้ด้วย ภาษาที่รองรับได้แก่ ภาษาเกือบทั้งหมดที่ใช้ในทวีปยุโรป, ภาษาญี่ปุ่น, ภาษาเกาหลี, ภาษาอาหรับ, ภาษาเวียดนาม และอื่น ๆ

โมเดลมหาชน Meta เผยยอดดาวน์โหลด Llama 350 ล้านครั้ง, ปี 2024 เติบโต 10 เท่า

By: mk

on 30 August 2024 - 13:24 Tags:

Topics:

Llama

กูเกิลเปิดให้ทดสอบ Gemini Flash-8B ฟีเจอร์เท่าตัวเต็มแต่ไม่เก่งเท่า ใช้ฟรีช่วงทดลอง

By: lew

on 28 August 2024 - 14:20 Tags:

Topics:

กูเกิลเปิดตัว Gemini Flash 8B โมเดลแบบปิดที่ภายในเป็นโมเดลขนาดเล็กมากเพียง 8B เท่านั้น แต่ยังได้ความสามารถหลักคล้ายกับโมเดลเต็ม เช่น multimodal รองรับทั้งเสียงและภาพ, รองรับอินพุตถึง 1 ล้านโทเค็น

ที่จริงแล้ว Flash-8B ถูกเปิดเผยในรายงานของ Gemini 1.5 ตั้งแต่กลางปีที่ผ่านมา แต่ระบุเพียงว่ากำลังอยู่ระหว่างการพัฒนา โดยคะแนนที่เปิดเผยออกมานั้นแสดงให้เห็นว่าคะแนนทดสอบลดลงจาก Gemini 1.5 Flash ค่อนข้างชัดเจน หากเทียบกับ Llama 3.1 8B ก็ยังถือว่าคะแนนแย่กว่าในการทดสอบส่วนใหญ่ แต่ฟีเจอร์ multimodal และ context window ก็ทำให้มีแนวทางการใช้งานที่หลากหลาย ผมทดลองแปลงเสียงภาษาไทยเป็นข้อความด้วย Gemini Flash-8B ก็ใช้งานได้ค่อนข้างแม่นยำ

Cerebras เปิดบริการคลาวด์ Llama 3.1 ความเร็วสูงเกิน 1,800 โทเค็นต่อวินาที ใส่แรมในชิป

By: lew

on 28 August 2024 - 01:20 Tags:

Topics:

Cerebras

Cloud

Cerebras บริษัทชิปปัญญาประดิษฐ์ เปิดบริการ Cerebras Inference รันโมเดล Llama 3.1 ที่ความเร็วสูง โดยสามารถรัน Llama 3.1 70B ที่ 450 token/s ขณะที่ Llama 3.1 8B ได้ถึง 1,800 token ต่อวินาที นับว่าเป็นบริการที่ความเร็วสูงที่สุดในโลกในตอนนี้ จากเดิมที่ Groq ทำได้ที่ 750 token/s

จุดขายของ Cerebras คือชิป Wafer Scale Engine ที่ใส่ SRAM ความเร็วสูง 44GB อยู่บนตัวชิป เชื่อมต่อกับหน่วยประมวลผลที่แบนวิดท์รวมสูงถึง 21 Petabytes/s เทียบกับชิป NVIDIA H100 ที่แม้แบนวิดท์จะสูงแล้วแต่ก็ได้เพียง 3.3 Terabytes/s แนวทางนี้มีความจำเป็นสำหรับการรันโมเดลให้มีความเร็วเนื่องจากข้อมูลแต่ละ token จะต้องผ่านโมเดลทั้งหมด เช่นโมเดล 70B การรันโมเดลให้ได้ 1000 token/s จะต้องการแบนวิดท์ถึง 140 Terabytes/s

NVIDIA โชว์การลดขนาดโมเดล Mistral 12B เหลือ 8B โดยยังรักษาคุณภาพได้ดี

By: mk

on 27 August 2024 - 20:55 Tags:

Topics:

NVIDIA

Mistral