Large Language Model
กูเกิลร่วมมือกับโครงการ AI Singapore เปิดโครงการ SEALD (Southeast Asian Languages in One Network Data) สร้างชุดข้อมูลภาษาสำหรับใช้งานกับ large language model (LLM) ที่เน้นชาติอาเซียนโดยเฉพาะ โดยภาษาชุดแรกได้แก่ อินโดนีเซีย, ไทย, ทมิฬ, ฟิลิปปินส์, และพม่า
ตัวโครงการไม่ได้จำกัดเฉพาะชุดข้อมูล แต่รวมถึงการพัฒนาโมเดลแปลภาษา, สร้างแนวปฎิบัติในการสร้างชุดข้อมูล, สร้างเครื่องมือแปลงภาษา (translocalization), และเผยแพร่แนวทางการสร้างโมเดลในภาษาในชาติเอเชียตะวันออกเฉียงใต้ โดยขุดข้อมูลที่ได้จากโครงการนี้จะเป็นโอเพนซอร์สให้หน่วยงานอื่นๆ นำไปสร้าง LLM ได้ต่อไป
ตอนนี้ยังอยู่ระหว่างการจัดทำชุดข้อมูล และเมื่อเสร็จสิ้นแล้วจะเปิดให้คนทั่วไปดาวน์โหลดได้
01.AI บริษัทปัญญาประดิษฐ์จีนที่ก่อตั้งโดย Kai-Fu Lee อดีตผู้บริหารกูเกิล ออกโมเดล LLM ในชื่อ Yi รุ่นล่าสุดที่ปรับปรุงหลายด้านโดยเฉพาะการรองรับข้อมูลขนาดใหญ่ จากเดิมสูงสุด 32,000 โทเค็น เป็น 200,000 โทเค็นตามที่ประกาศไว้ก่อนหน้านี้
ระหว่างทางนับแต่วันประกาศเปิดตัวครั้งแรก Yi มีออกเวอร์ชั่นย่อยๆ มาอีกหลายเวอร์ชั่น เช่นโมเดลแบบแชต, โมเดลขนาด 9B, และโมเดลรองรับรูปภาพในตัว
กูเกิลประกาศเพิ่มความสามารถใหม่ให้ Gemini โดยผู้ใช้งานสามารถเลือกบางส่วน หรือทั้งหมดของคำตอบจาก Gemini เพื่อปรับแก้ไข ให้ Gemini ตอบใหม่ให้ตรงกับความต้องการมากขึ้น โดยหากคำตอบนั้นสามารถใช้งานฟีเจอร์นี้ได้ ไอคอนดินสอพร้อมประกายจะปรากฎให้ Modify selected text
ตัวอย่างการแก้ไขคำตอบ เช่น เมื่อให้ Gemini วางแผนทริป 3 วัน ก็จะได้คำตอบแบบ 3 วัน แต่เราสามารถแก้ไขคำตอบโดยบอกว่า ขอระยะเวลาที่ยาวกว่านั้นเป็น 4 วัน Gemini ก็จะปรับปรุงคำตอบบนเงื่อนไข 4 วันให้ ซึ่งเป็นผลลัพธ์ที่ตรงกับความต้องการมากขึ้น และอยู่ในประเด็นเดิม
ฟีเจอร์แก้ไขคำตอบ อาจใช้งานไม่ได้ในหลายกรณี เช่น แก้ไขรูปภาพ (เพราะเลือกรูปไม่ได้), เป็นคำขอที่ละเมิดกฎการใช้งาน, เป็นการแก้ไขโค้ดหรือข้อมูลในตาราง เป็นต้น
Cloudflare ประกาศเตรียมเปิดบริการ Firewall for AI ชุดความสามารถใหม่สำหรับลูกค้าองค์กรที่เริ่มใช้งานแชตบอตในกลุ่ม LLM เพิ่มขึ้น โดยพยายามป้องกันทั้งการยิงเกินกำหนด, การส่งข้อมูลส่วนบุคคลเข้าออก, และการยิง prompt injection เพื่อเปลี่ยนพฤติกรรมของแชตบอต
บริการชุดนี้จะปิดให้ผู้ใช้คอนฟิกว่าส่วนใดของ JSON เป็น prompt สำหรับ LLM เพื่อมาวิเคราะห์เพิ่มเติม สามารถตั้งไฟร์วอลล์ให้บล็อคแชตได้ตามหัวข้อ เช่น เกี่ยวกับศาสนา, การเมือง, หรือเรื่องทางเพศ
ตอนนี้ Cloudflare เปิดบริการจำกัดปริมาณการใช้งาน และการตรวจสอบข้อมูลส่วนบุคคลออกมาก่อนโดยใช้ได้เฉพาะลูกค้าระดับ Enterprise ส่วนการวิเคราะห์ prompt นั้นกำลังอยู่ระหว่างพัฒนาและจะเปิดให้กับผู้ใช้ Worker AI ทุกคน
Anthropic บริษัทปัญญาประดิษฐ์ด้าน LLM เปิดตัวโมเดล Claude 3 โดยจุดเด่นสำคัญคือรุ่นสูงสุดนั้นทำคะแนนชนะ GPT-4 แทบทุกชุดทดสอบ และยังชนะ Gemini Ultra อีกด้วย
Claude 3 ประกอบด้วยรุ่นย่อย 3 รุ่น จากใหญ่ไปเล็กได้แก่ Opus ที่ชนะ GPT-4, Sonnet ใกล้เคียงกับ GPT-4, และ Haiku ที่อยู่ระดับเหนือกว่า GPT-3.5 โดยตัว Haiku นั้นออกแบบให้รันงานได้เร็ว เช่นการอ่านเอกสารความยาวเกินหมื่นโทเค็นก็ยังใช้เวลาไม่ถึง 3 วินาที โมเดลทั้งสามรุ่นรองรับการอ่านภาพ, ไฟล์เอกสาร, และ flowchart ต่างๆ โดยทำคะแนนใกล้เคียงกับ Gemini Ultra
เบราว์เซอร์ Brave ที่ชูจุดขายเรื่องความเป็นส่วนตัว ประกาศว่าฟีเจอร์ Leo ปัญญาประดิษฐ์ผู้ช่วย ที่เปิดตัวก่อนหน้านี้สำหรับผู้ใช้งานงานเดสก์ท็อป ตอนนี้ขยายมายังผู้ใช้ Brave บน Android แล้ว
Leo บน Android มีความสามารถเหมือนกันบนเดสก์ท็อป เช่น สรุปเนื้อหาเว็บเพจหรือวิดีโอแบบเรียลไทม์, ตอบคำถามที่อิงคำตอบจากเนื้อหาในคอนเทนต์นั้น, สร้างเนื้อหาแบบยาว, แปลเว็บเพจหรือวิเคราะห์, เขียนทรานสคริปต์ของวิดีโอหรือเสียง ตลอดจนสามารถเขียนโค้ดได้ด้วย ซึ่งทั้งหมดยังคงรักษาความเป็นส่วนตัว ข้อมูลถูกกำหนดเป็นนิรนาม
Brave Leo เปิดให้ใช้งานฟรีสำหรับผู้ใช้ Brave ทุกคน แต่สามารถสมัครใช้งานแบบพรีเมียม 14.99 ดอลลาร์ต่อเดือน ซึ่งใช้งานได้ไม่จำกัดครั้ง ใช้งานร่วมกันสูงสุด 5 อุปกรณ์
ServiceNow, Hugging Face และ NVIDIA เปิดตัว StarCoder2 ชุดโมเดลภาษาขนาดใหญ่ (LLM) ที่เปิดให้ใช้งานได้ฟรี (open-access) สำหรับงานเขียนโค้ด ซึ่งมีจุดเด่นคือประสิทธิภาพการทำงาน ความโปร่งใสของ AI และช่วยในการจัดการต้นทุน
StarCoder2 เป็นโครงการของชุมชน BigCode ที่ให้การสนับสนุนโดย ServiceNow และ Hugging Face โมเดลถูกเทรนบนภาษาเขียนโปรแกรม 619 ภาษา ออกแบบมาให้สามารถทำงานร่วมกับแอพพลิเคชันภายในองค์กร สำหรับงานต่าง ๆ เช่น ช่วยสร้างซอร์สโค้ด, สร้างเวิร์กโฟลว์, เขียนสรุปเนื้อหา และอื่น ๆ องค์กรสามารถนำไปใช้งาน โดยอาศัยการปรับแต่งด้วยทรัพยากรที่ไม่ต้องสูงมาก
แอปเปิลได้จัดการประชุมสามัญประจำปีผู้ถือหุ้นเมื่อวานนี้ ซึ่งประเด็นที่ผู้ถือหุ้นสอบถามกันเป็นจำนวนมากคือทิศทางของบริษัทกับ AI โดยเฉพาะ Generative AI ซึ่งเป็นหัวข้อหลักในโลกเทคโนโลยีตอนนี้ แต่แอปเปิลยังไม่มีผลิตภัณฑ์โดยตรงเรื่องนี้ออกมา
ซีอีโอ Tim Cook บอกว่า แอปเปิลได้เทเงินจำนวนมากสำหรับการพัฒนาผลิตภัณฑ์ AI และมองเห็นโอกาสที่เป็นนวัตกรรมใหม่ทั้งหมดจาก Generative AI เขาเชื่อว่ามันจะเปลี่ยนแปลงและมอบโอกาสใหม่กับผู้ใช้งานในทุกด้าน
เมื่อถามว่าแล้วผลิตภัณฑ์ด้าน AI จากแอปเปิลจะออกมาเมื่อใด Cook บอกว่ารายละเอียดต่าง ๆ จะเปิดเผยภายในปีนี้
Sundar Pichai ซีอีโอกูเกิล ออกอีเมลถึงพนักงานในประเด็นที่ Gemini Image Generation โปรแกรมสร้างรูปภาพด้วย AI ทำงานผิดพลาด โดยพยายามให้ผลลัพธ์รูปบุคคลที่แสดงความหลากหลายจนผิดเจตนาของผู้ใช้งาน หรือสร้างรูปที่ผิดไปจากประวัติศาสตร์
Pichai บอกว่าสิ่งที่เกิดขึ้นเป็นเรื่องที่ไม่สามารถยอมรับได้ และเราทำผิดจริง ๆ ตอนนี้ทีมงานต่างทำงานกันต่อเนื่องทั้งคืนทั้งวันเพื่อแก้ไขปัญหา ซึ่งเริ่มเห็นผลลัพธ์ที่ดีขึ้นเรื่อย ๆ ไม่มี AI ตัวใดที่สมบูรณ์แบบ พวกเรายังอยู่ในช่วงเริ่มต้นของอุตสาหกรรม แต่มาตรฐานที่เราต้องทำนั้นสูง และกูเกิลก็ต้องไปให้ถึงตรงนั้น
ในอีเมลไม่ได้ระบุว่าโปรแกรมสร้างรูปภาพที่เป็นบุคคลจะกลับมาใช้งานได้เมื่อใด
Mistral บริษัทปัญญาประดิษฐ์ LLM จากฝรั่งเศสเปิดตัวโมเดลใหม่สองโมเดล โดยไม่ได้เปิดเผยโครงสร้างภายในให้คนภายนอกใช้งานผ่านคลาวด์ สองโมเดล ได้แก่
ทั้งสองโมเดลถูกปรับให้รองรับการสร้าง output เป็น JSON และสามารถเรียก API ภายนอกได้
เบราว์เซอร์ Brave เพิ่มฟีเจอร์ให้ปัญญาประดิษฐ์ Leo ผู้ช่วยที่มาพร้อมกับเบราว์เซอร์ โดยในเวอร์ชั่นใหม่ Leo จะสามารถอ่านข้อมูลบนเบราว์เซอร์ได้หลากหลายขึ้น ทำให้ขอความช่วยเหลือเพิ่มเติมได้หลากหลาย
Leo สามารถอ่านข้อมูลในเอกสาร ได้แก่ 1) PDF อ่านข้อมูลไฟล์เอกสาร งานวิจัยต่างๆ เพื่อคุยกับเอกสาร 2) Google Docs สามารถอ่านและแก้ไขเอกสาร 3) Google Sheet วิเคราะห์ตารางและช่วยเขียนสูตรสมการ 4) Slack อ่านข้อความใน thread เพื่อสรุป 5) YouTube แปลงวิดีโอเป็นทรานสคริปต์และสรุปเนื้อหา
ทีมวิจัยจากสถาบัน Human-Centered Artificial Intelligence (HAI) ของมหาวิทยาลัยสแตนฟอร์ด รายงานถึงผลทดสอบการใช้งานปัญญาประดิษฐ์ในกลุ่ม LLM ว่าแม้จะมีข่าวว่า LLM สามารถวินิจฉัยโรคได้อย่างน่าทึ่งแต่ก็มีความผิดพลาดสูง ต้องระมัดระวัง
ทีมงานทดสอบการใช้งาน LLM โดยใช้โมเดล 4 ตัว ได้แก่ GPT-4, Claude 2.1, Mistral Medium, และ Gemini Pro เฉพาะ GPT-4 นั้นสร้างแอป retrieval augmented generation (RAG) ครอบอีกชั้นเพื่อทดสอบ โดยวัดว่าเวลาที่ LLM เหล่านี้ตอบคำถามแล้ว สามารถสร้างคำตอบโดยมีการอ้างอิงอย่างถูกต้องหรือไม่
AWS ประกาศเพิ่มโมเดล Mistral 7B และ Mixtral 8x7B ให้ใช้งานบน AWS Bedrock เร็วๆ นี้ โดยระบุว่าทั้งสองโมเดลมีจุดเด่นเรื่องของความเร็วและค่าใช้จ่ายที่ถูกกว่า นอกจากนี้องค์กรบางส่วนยังอาจต้องการโมเดลที่ตรวจสอบได้ การใช้โมเดลโอเพนซอร์สจึงเป็นทางเลือกสำคัญ
Mixtral 8x7B นั้นมีคะแนนทดสอบค่อนข้างใกล้เคียงกับ GPT-3.5 แต่มีจุดเด่นที่รันได้เร็วมาก โดยตอนนี้ผู้ให้บริการที่เน้นความเร็วอย่าง Groq นั้นโชว์ว่าสามารถรันได้ที่ระดับ 500 token/s เลยทีเดียว
MediaTek ประกาศความสำเร็จในการปรับแต่งโมเดล Google Gemini Nano และ Meta Llama 2 7B ให้รันบนชิป Dimensity 9300 และ 8300 เปิดทางให้ใช้งานฟีเจอร์ Generative AI แบบออฟไลน์ ไม่ต้องผ่านคลาวด์
การรันโมเดลเหล่านี้บนชิป เกิดขึ้นได้เพราะใช้ APU (AI processing unit ตามภาษาของ MediaTek) รุ่นใหม่ที่มีประสิทธิภาพสูงขึ้น
MediaTek ประกาศว่าจะร่วมมือกับกูเกิลเปิดตัวแอพ APK ที่ช่วยให้นักพัฒนาและแบรนด์ OEM รันโมเดล Gemini Nano ของตัวเองบนชิป Dimensity ในเร็วๆ นี้
Phind บริษัทปัญญาประดิษฐ์ LLM สำหรับการช่วยเขียนโค้ดเป็นหลัก เปิดตัวโมเดลของตัวเอง Phind-70B ที่วัดเฉพาะความสามารถในการเขียนโค้ด HumanEval และ CRUXEval ใกล้เคียงกับ GPT-4 มาก แต่ชูความเด่นกว่าที่ความเร็วในการตอบและโมเดลถูกฝึกให้ขยันตอบมากกว่า GPT-4 ที่เคยมีปัญหาไม่ยอมตอบบางคำถาม
ความเร็วในการตอบของ Phind-70B อยู่ที่ 80 token/s เร็วกว่า GPT-4 Turbo ประมาณสี่เท่าตัว และคาดว่าจะเร่งความเร็วได้สูงกว่านี้อีก
ก่อนหน้านี้ Phind เคยออกโมเดลเวอร์ชั่น 34B มาก่อนแล้ว และเตรียมจะปล่อยโมเดลให้เอาไปใช้งานในอนาคตรวมถึงโมเดลเวอร์ชั่น 70B เช่นกันแต่ยังไม่ระบุช่วงเวลา สำหรับผู้ใช้ทั่วไปสามารถเข้าไปใช้ Phind-70B ได้ฟรีแบบจำกัดข้อความต่อวัน และสามารถจ่ายเงินค่าสมาชิกเพื่อเพิ่มโควต้าได้
Stability AI เปิดตัวเครื่องมือสร้างรูปภาพจากข้อความด้วย AI เวอร์ชันล่าสุด Stable Diffusion 3 ตอนนี้อยู่ในสถานะพรีวิวขั้นต้น จึงยังไม่เปิดให้ใช้งานทั่วไปในวงกว้าง แต่ผู้ใช้งานสามารถเข้าร่วมใน waitlist เพื่อทดสอบได้ที่นี่
Stable Diffusion 3 เป็นโมเดลที่มีพารามิเตอร์ตั้งแต่ 800M ถึง 8B พารามิเตอร์ จึงรองรับตัวเลือกและคุณภาพของผลลัพธ์ที่มากยิ่งขึ้น
ในตอนนี้ Stability AI ยังไม่ได้เปิดเผยรายละเอียดของ Stable Diffusion 3 มากนัก มีเพียงการนำเสนอภาพที่สร้างขึ้นมาจำนวนหนึ่ง แต่บอกว่าจะเผยแพร่รายละเอียดทางเทคนิคในภายหลัง ขณะนี้อยู่ในขั้นตอนนี้ตรวจสอบด้านความปลอดภัยของ AI ก่อนเผยแพร่ในวงกว้างกับสาธารณะต่อไป
กูเกิลเปิดตัว Gemma โมเดลภาษาแบบโอเพนซอร์ส ที่ได้แรงบันดาลใจมาจาก Gemini โมเดลเชิงพาณิชย์ของตัวเอง และพัฒนาโดยทีม Google DeepMind เหมือนกัน มีโครงสร้างทางเทคนิคบางส่วนเหมือนกัน
กูเกิลปล่อย Gemma ออกมา 2 ขนาดคือ 2B และ 7B (ดาวน์โหลดได้จาก Kaggle หรือ Hugging Face) โดยระบุว่าโมเดลขนาด 7B สามารถเอาชนะคู่แข่งที่ระดับเดียวกันคือ Llama 7B ในเบนช์มาร์คต่างๆ ได้ค่อนข้างทิ้งห่าง และเอาชนะได้แม้กระทั่ง Llama 13B ที่มีขนาดใหญ่กว่าได้ด้วยซ้ำ
Adobe เปิดตัว AI Assistant ที่ตอนนี้มีสถานะเบต้า โดยเป็น Generative AI สำหรับไฟล์ PDF ในสองโปรแกรมของ Adobe คือ Reader และ Acrobat รองรับการสรุปเนื้อหา, ตอบคำถาม และจัดฟอร์แมตสำหรับใช้ส่งอีเมล ทำรายงาน หรือการนำเสนอ
Adobe บอกว่าความสามารถของ AI Assistant จะช่วยปลดล็อกคุณค่าของข้อมูลในเอกสาร PDF ที่มีประมาณ 3 ล้านล้านชุดในโลก
AI Assistant ทำงานบน AI และ Machine Learning บนพื้นฐานเดียวกับ Acrobat Liquid Mode ฟีเจอร์ที่ใช้ปรับปรุงการแสดงผลของเอกสาร PDF ให้เหมาะกับการอ่านบนหน้าจอมือถือ
กูเกิลอัพเดตบริการ Gemini Advanced (ที่ตอนนี้น่าจะยังอยู่ในช่วงทดสอบฟรีกันทุกคน) ให้สามารถรันโค้ดภาษา Python ได้ในเว็บ เป็นฟีเจอร์สำหรับผู้ใช้ที่สมัครแพ็กเกจจ่ายเงินเท่านั้น
แนวทางนี้ทำให้ผู้ใช้สามารถกดรันโค้ดและดูผลลัพธ์ได้ทันที โดยเมื่อผู้ใช้กดรันโค้ดบนหน้าเว็บแล้วเว็บ Gemini จะส่งโค้ดไปรันบนเซิร์ฟเวอร์เพื่อแสดงผล โดยตัว Gemini นั้นไม่ได้อ่านผลการรันด้วยตัวเองแต่อย่างใด ทำให้บางคำถาม ตัว Gemini จะตอบผลที่ผิดแม้จะเขียนโค้ดถูกและเมื่อรันโค้ดแล้วได้ผลลัพธ์ที่ถูกต้องก็ตาม
Dylan Roussel นักแกะฟีเจอร์ใหม่ Android โพสต์ข้อมูลที่เขาพบในบัญชี X เกี่ยวกับฟีเจอร์ใหม่ที่เตรียมประกาศของ Gemini สำหรับลูกค้า Google Workspace เพื่อนำ Gemini มาใช้ภายในองค์กร ที่ต้องการความสามารถปกป้องข้อมูลเพิ่มเติม
แผนที่กูเกิลเปิดให้สมัครได้แก่ Gemini Business และ Gemini Enterprise สามารถใช้งานโมเดล Gemini Ultra 1.0 โดยกูเกิลจะไม่นำข้อมูลในการสนทนาไปใช้ในการเทรน AI รองรับเฉพาะภาษาอังกฤษสำหรับลูกค้าใน 150 ประเทศ ทั้งนี้รายละเอียดและราคาต้องรอประกาศทางการอีกครั้ง
Groq สตาร์ตอัพผู้พัฒนาชิป GroqChip 1 สำหรับการรันโมเดลปัญญาประดิษฐ์ LLM และผู้ให้บริการ LLM แบบคลาวด์ระบุถึงผลทดสอบของ ArtificialAnalysis.ai ที่แสดงให้เห็นว่า Groq เป็นผู้ให้บริการที่สามารถประมวลผล LLM ได้เร็วที่สุดในตลาด
โมเดลที่ใช้ทดสอบเป็นโมเดล Llama 2 70B ที่มีคลาวด์หลายเจ้าให้บริการกัน รวมถึงคลาวด์รายใหญ่อย่าง Amazon Bedrock และ Azure แต่จุดที่ Groq นำมาเน้นคือความเร็วในการตอบ ที่ระยะเวลาจนถึงการตอบ 100 token แรกนั้นกินเวลาเพียง 0.7 วินาที และอัตราการตอบรวมได้เร็วกว่า 240 token ต่อวินาที นับว่าเร็วกว่าคู่แข่งอันดับสองแบบห่างไกล (Lepton รันได้สูงกว่า 120 token ต่อวินาทีไปเล็กน้อย)
Ollama ซอฟต์แวร์รันโมเดล LLM สำหรับรันบนพีซีออกเวอร์ชั่น 0.1.25 ความเปลี่ยนแปลงสำคัญคือการรองรับวินโดวส์เป็นเวอร์ชั่นแรก
ตอนนี้เวอร์ชั่นวินโดวส์ยังอยู่ในสถานะพรีวิวแต่ก็สามารถใช้งานทั้งการเร่งความเร็วด้วยชิปกราฟิกหรือซีพียู และสามารถใช้งานโมเดลได้ทุกตัวในไลบรารี
เมื่อติดตั้งและรันโมเดลแล้ว ตัว Ollama จะรันที่พอร์ต 11434 รอรับ REST API โดยเวอร์ชั่นก่อนหน้านี้ Ollama เพิ่งรองรับ API แบบ OpenAI ไป ในเวอร์ชั่นนี้ก็ได้ฟีเจอร์นี้ด้วย
ที่มา - Ollama
อาจเรียกได้ว่าเป็นวันของการปล่อยของด้าน AI นอกจาก Gemini 1.5 Pro จากกูเกิล และ Sora จาก OpenAI แล้ว Meta ก็เปิดตัว V-JEPA สถาปัตยกรรมตัวใหม่ของระบบการเรียนรู้ตนเอง สำหรับการพัฒนา AI ขั้นสูง
โดย V-JEPA ซึ่งย่อมาจากคำว่า Video Joint Embedding Predictive Architecture พัฒนาโดยทีม AI ของ Meta ที่นำโดย Yann LeCun ต้องการสร้างโมเดลเรียนรู้ของ AI ขั้นสูง เพื่อให้รองรับการทำความเข้าใจทุกอย่างในโลกได้ดียิ่งขึ้น โดยมีหลักคิดว่ามนุษย์เราเริ่มเรียนรู้สิ่งใหม่จากการดูและสังเกต โดยไม่จำเป็นต้องอ่านหนังสือจำนวนมากเพื่อจะเข้าใจทุกเรื่อง V-JEPA จึงออกแบบมาให้เรียนรู้และเข้าใจโลกในวิธีเดียวกับที่คนเรียนรู้ ประยุกต์ และคิดต่อยอด ในการแก้ปัญหาต่าง ๆ
นอกจากเปิดตัว Gemini 1.5 Pro แล้ว กูเกิลยังประกาศว่าโมเดล AI ทั้ง Gemini 1.0 Pro และ Gemini 1.0 Ultra ที่เปิดตัวเมื่อสัปดาห์ที่แล้ว ตอนนี้เปิดให้นักพัฒนาสามารถใช้งานได้แล้วผ่าน Vertex AI
โดย Gemini 1.0 Pro สามารถใช้งานได้แล้วสำหรับลูกค้า Vertex AI ทุกคน ส่วน Gemini 1.0 Ultra โมเดลรุ่นใหญ่ที่สุดในตระกูล Gemini ที่กูเกิลบอกว่าคะแนนทดสอบสูงกว่า GPT-4 ตอนนี้เปิดให้ใช้งานสำหรับลูกค้า Vertex AI ที่อยู่ใน allowlist
ที่มา: กูเกิล
OpenAI เปิดตัวโมเดลใหม่ สำหรับสร้างวิดีโอด้วย AI จากข้อความ (Text-to-Video) มีชื่อว่า Sora จุดเด่นคือสามารถสร้างวิดีโอความยาวถึง 1 นาที ที่มีความละเอียดสูง และลงรายละเอียดในวิดีโอได้ตาม prompt ของผู้ใช้งาน
Sora มีความสามารถสร้างวิดีโอที่มีฉากหลังรายละเอียดซับซ้อน มีตัวละครอยู่ในวิดีโอหลายคน ระบุรูปแบบการเคลื่อนไหวได้ รวมถึงลงรายละเอียดปลีกย่อยได้ ซึ่งจุดเด่นที่ Sora มีคือการแสดงผลแบบเป็นไปตามสภาพจริงที่ปรากฏอยู่
มีข้อดีก็มีข้อจำกัด OpenAI บอกว่า Sora ยังไม่สมบูรณ์แบบ โดยเฉพาะฉากที่มีวัตถุหลายอย่างซับซ้อน การแสดงผลทางฟิสิกส์อาจผิดพลาด เช่น ฉากกินขนม ขนมก็อาจไม่มีรอยหรือหายไปตามการถูกกิน และบางครั้งโมเดลก็สับสนในการทำงานระหว่างซ้ายและขวา