Large Language Model

Tags:
Topics: 
Node Thumbnail

O2 ผู้ให้บริการเครือข่ายโทรศัพท์มือถือในสหราชอาณาจักร รายงานผลการเปิดตัว Daisy แชตบอตที่ปลอมตัวเป็นผู้สูงอายุเพื่อล่อให้แก๊งคอลเซ็นเตอร์คุยกับบอตยาวๆ โดยหลังจากเปิดตัวมาสองเดือน ตอนนี้ Daisy ก็คุยกับคนร้ายเกินหนึ่งพันสายแล้ว สามารถล่อคนร้ายให้คุยไปเรื่อยๆ แม้หลายครั้งคนร้ายจะหงุดหงิดที่ไม่ได้เงิน แต่ก็ล่อให้คุยได้นานถึง 40 นาที

ทาง O2 มีบันทึกการสนทนากับคนร้ายจำนวนมาก จึงสามารถสรุปข้อสังเกตได้ 3 ประเด็น ได้แก่

Tags:
Node Thumbnail

กูเกิลแก้ไขหนังโฆษณาสำหรับฉายในช่วงการแข่งขัน Super Bowl ที่เป็นประเด็น เนื่องจากแสดงข้อมูลที่ Gemini ช่วยเขียนรายละเอียดสินค้าให้กับธุรกิจ ว่าชีสเกาด้ามีส่วนแบ่ง 50-60% ของการบริโภคชีสทั่วโลก

ในหนังโฆษณาที่แก้ไขรายละเอียดใหม่ ยังเป็นการใช้ Gemini เขียนรายละเอียดสินค้าชีสเกาด้าเหมือนเดิม แต่ผลลัพธ์นั้นระบุเพียงชีสเกาด้าเป็นหนึ่งในชีสยอดนิยม และนำตัวเลขสถิติออกไป

Tags:
Topics: 
Node Thumbnail

GitHub Copilot เพิ่มฟีเจอร์ทดลองใหม่ Agent mode ที่ทำงานแบบ agentic มากขึ้น โดยมันสามารถแก้โค้ดและรอดูผลลัพธ์และแก้ไขเป็นรอบๆ จนสำเร็จตามที่ได้รับมอบหมายจึงส่งงาน

ในกรณีที่ต้องรันคำสั่งในเทอร์มินัลเพิ่มเติม Copilot จะร้องขอผู้ใช้ให้รันเป็นรอบๆ ก่อนจะแก้ไขโค้ดต่อ

ผู้ใช้ต้องเปิดฟีเจอร์นี้ด้วยตัวเองก่อน และเมื่อเปิดใช้งานแล้วการแชตแต่ละรอบที่แชตถามก็ต้องเลือกตัวเลือกการทำงานแบบ Agent อีกรอบ โดยยังเลือกโมเดลที่ต้องการได้เหมือนเดิม

นอกจากการเพิ่มฟีเจอร์ Agent แล้ว GitHub Copilot ยังปรับปรุงการแก้ไขโค้ดจากแชต หรือ Copilot Edits ที่รับเอาคำสั่งและโค้ดต้นทางมาให้โมเดลต่างๆ ปรับแก้ จากนั้นทาง GitHub จะมีระบบทำนายการแก้ไขให้แทรกโค้ดเข้าไปในไฟล์ได้แม่นยำขึ้น

Tags:
Node Thumbnail

หลังจากอยู่แต่กับ Gemini 2.0 Flash ตัวเล็ก มาตั้งแต่เดือนธันวาคม 2024 ในที่สุดกูเกิลก็เปิดตัวโมเดลรุ่นใหญ่ Gemini 2.0 Pro ที่สถานะยังเป็นรุ่นทดสอบ (Experimental) ให้ทดลองใช้ผ่าน Google AI Studio และ Vertex AI

กูเกิลบอกว่า Gemini 2.0 Pro มีความสามารถสูงเรื่องการเขียนโค้ด การตอบพรอมต์ที่ซับซ้อน มีความเข้าใจโลกและคิดอย่างเป็นเหตุเป็นผลสูงสุดของโมเดล Gemini ทั้งหมด และยังรองรับ context window ขนาดใหญ่ 2 ล้านโทเค็น เท่ากับ Gemini 1.5 Pro รุ่นก่อนหน้า

Tags:
Node Thumbnail

Software AG สำรวจพนักงานบริษัทที่ทำงานแบบใช้ความรู้ (knowledge worker) จำนวน 6000 คน พบว่ามีอัตราการใช้งานค่อนข้างสูง และพนักงานมีแนวโน้มติดเครื่องมือเหล่านี้ แต่ที่น่ากังวลคือพนักงานเหล่านี้มักไม่ใช้เครื่องมือที่บริษัทอนุญาตแต่เป็นการจัดหามาใช้งานเองเป็น Shadow AI ขององค์กร

ในกลุ่มผู้ตอบแบบสำรวจพบว่าพนักงาน 75% ใช้งานเครื่องมือ AI อยู่แล้ว มากกว่าครึ่งหนึ่งในกลุ่มผู้ใช้งาน ไม่ได้ใช้เครื่องมือที่บริษัทจัดหาให้ โดยในกลุ่มผู้ใช้นี้ครึ่งหนึ่งระบุว่าติดเครื่องมือเหล่านี้มาก แม้บริษัทจะสั่งแบนก็จะใช้งานต่อไป

Tags:
Node Thumbnail

Anthropic เปิดตัวระบบป้องกันการเจาะ (jailbreak) โมเดลปัญญาประดิษฐ์แบบใหม่ชื่อว่า Constitutional Classifiers

โมเดลภาษาขนาดใหญ่มีระบบ safety ป้องกันการนำโมเดลไปใช้สร้างเนื้อหาอันตราย แต่มนุษย์ก็สามารถใช้ช่องโหว่บางอย่าง เช่น พรอมต์ขนาดยาวมากๆ หรือ การเขียนอินพุตที่ต่างไปจากข้อความที่พบเจอทั่วไป (ตัวอย่าง uSiNg uNuSuAl cApItALiZaTiOn) มาเจาะระบบป้องกันของโมเดล เพื่อหลอกล่อให้ได้คำตอบแบบที่ต้องการ

เนื่องจากช่องโหว่ของโมเดลมีหลายรูปแบบมาก วิธีการป้องกันย่อมแตกต่างกันไป ทำให้ Anthropic พัฒนากลไกแบบใหม่ที่ป้องกันการเจาะโมเดลได้ทุกแบบ (universal jailbreak)

Tags:
Node Thumbnail

Adobe เพิ่มความสามารถใหม่ให้กับ Acrobat AI Assistant ผู้ช่วยปัญญาประดิษฐ์ใน Acrobat สำหรับเอกสาร PDF โดยสามารถทำความเข้าใจและให้รายละเอียดเอกสารประเภทสัญญาข้อตกลงที่มีความซับซ้อน ให้ง่ายขึ้นสำหรับผู้ใช้งาน เมื่อต้องลงนามทำข้อตกลงนี้

Adobe ยกตัวอย่างสถานการณ์และความท้าทายที่คนมักพบเมื่อต้องลงนามสัญญา เช่น ไม่อ่านสัญญาแล้วเซ็นเลยเพราะยาวเกินไปอ่านไม่ไหว, จะเซ็นแต่ก็พบข้อความภาษาที่ยากจะเข้าใจ หรือมีความลำบากในการเปรียบเทียบสัญญาเก่าและใหม่เพราะความยาวเนื้อหา ซึ่ง Acrobat AI Assistant สามารถช่วย สรุปเนื้อหา ตอบคำถามที่สงสัย และเปรียบเทียบสัญญาเก่าใหม่พร้อมกันสูงสุด 10 เอกสาร

Tags:
Node Thumbnail

NVIDIA โพสต์บล็อกผลการทดสอบรันโมเดล DeepSeek R1 Distill ด้วย llama-bench ที่ขนาดพารามิเตอร์ต่าง ๆ โดยบอกว่า GeForce RTX 4090 เร็วกว่า AMD Radeon RX 7900 XTX ถึง 47% และถ้าใช้ RTX 5090 จะเร็วมากกว่า 100% เลย

การทดสอบนี้คาดว่าเพื่อตอบโต้ AMD ที่เผยแพร่ผลทดสอบการรัน DeepSeek ก่อนหน้านี้ว่า Radeon RX 7900 XTX เร็วกว่า RTX 4090 อย่างไรก็ตามด้วยตัวเลขที่ออกแตกต่างกัน จึงอาจมีความแตกต่างในทดสอบของแต่ละค่าย ก็ต้องรอดูรายละเอียดเพิ่มเติมกันต่อไป

Tags:
Topics: 
Node Thumbnail

Mistral บริษัทปัญญาประดิษฐ์จากฝรั่งเศสเปิดตัวโมเดล LLM ในชื่อ Mistral Small 3 โมเดลแบบโอเพนซอร์สขนาด 24B แต่มีความสามารถใกล้เคียง GPT-4o-mini ที่เป็นโมเดลปิด

แนวทางการออกแบบของ Mistral Small 3 เน้นการลดชั้น (layer) ของโมเดล ทำให้มี latency ต่ำส่งผลถึงความเร็วในการตอบที่ระดับ 150 โทเค็นต่อวินาที

ผลการทดสอบของ Mistral Small 3 ทำได้ดีกว่าโมเดลขนาดใหญ่กว่าหลายตัว เช่น Gemma2-27B, Qwen-2.5-32B โดยรวมเข้าใกล้ GPT-4o-mini แนวทางการ

Tags:
Node Thumbnail

OpenAI เปิดตัวความสามารถใหม่ของ ChatGPT เรียกชื่อว่า Deep Research สำหรับการค้นหา วิเคราะห์ รวบรวมข้อมูลในเชิงลึก ที่มาพร้อมผลลัพธ์ซึ่งอธิบายเป็นลำดับขั้นตอน และให้แหล่งอ้างอิงประกอบ

OpenAI บอกว่า Deep Research เหมาะสำหรับคนทำงานที่ต้องอาศัยความรู้เชิงลึกเฉพาะด้าน เช่น การเงิน วิทยาศาสตร์ วิศวกรรม กฎหมาย ซึ่งวิธีการค้นหาข้อมูลเชิงลึกเดิมนั้นใช้เวลามาก เพราะต้องยืนยันความน่าเชื่อถือข้อมูลอย่างเป็นขั้นตอน นอกจากนี้ Deep Research ยังสามารถประยุกต์ใช้กับการค้นหาเปรียบเทียบข้อมูลสินค้าที่มีรายละเอียดเปรียบเทียบเยอะ เช่น รถยนต์ เครื่องใช้ไฟฟ้า

Tags:
Node Thumbnail

กูเกิลออกโฆษณาในช่วงการแข่งขัน Super Bowl โดยเผยแพร่ก่อนทางออนไลน์ เป็นหนังโฆษณา 50 เรื่องราว ของธุรกิจขนาดเล็กใน 50 รัฐทั่วสหรัฐอเมริกา กับการนำ Gemini AI มาช่วยเพิ่มความสะดวกในการทำงาน

หนังโฆษณาทั้ง 50 เรื่องราวสามารถรับชมได้ที่นี่ ตัวอย่างเรื่องราวเช่น ร้าน Nuts.com ในนิวเจอร์ซีย์ ที่ใช้ฟังก์ชันแปลภาษาเรียลไทม์ช่วยในการเจรจาธุรกิจต่างประเทศ, องค์กร Wild Hearts Idaho ในไอดาโฮ ที่นำ AI มาช่วยเขียนแคปชันโพสต์ลงโซเชียล, ร้าน Fitz's Bottling ในมิสซูรีใช้ Gemini บน Sheets สรุปข้อมูลสินค้าในสต็อกอย่างรวดเร็ว

Tags:
Node Thumbnail

OpenAI ประกาศปล่อยโมเดล o3-mini ตามที่เคยสัญญาไว้

OpenAI เปิดตัวโมเดลตระกูล o3 มาตั้งแต่เดือนธันวาคม 2024 ถือเป็นเวอร์ชันพัฒนาขึ้นจากโมเดล o1 เดิม (ข้าม o2 ไปด้วยเหตุผลเรื่องเครื่องหมายการค้ากับโอเปอเรเตอร์ O2) มีประสิทธิภาพตอบคำถามด้านคณิตศาสตร์-วิทยาศาสตร์ (STEM) ได้ดีกว่า ตอบเร็วกว่า o1-mini โดยยังคงต้นทุนในการรันระดับเดียวกับ o1-mini

Tags:
Node Thumbnail

คล้อยหลัง Microsoft Azure เปิดให้เช่าโมเดล DeepSeek R1 เพียงแค่วันเดียว ฝั่งของ AWS ก็เปิดบริการ DeepSeek R1 แบบเดียวกันผ่าน Amazon Bedrock และ Amazon SageMaker และที่ไม่ธรรมดาคือ Andy Jassy ซีอีโอของ Amazon โพสต์ข้อความช่วยโปรโมทให้เป็นพิเศษด้วย

Amazon บอกว่านโยบายของตัวเองคือเปิดให้ลูกค้าเลือกโมเดลที่ต้องการได้เอง ดังนั้นบริษัทจะพยายามหาโมเดลที่ผู้ใช้เรียกร้องมาให้เยอะที่สุด

เนื่องจากโมเดล DeepSeek-R1 เป็นโมเดลโอเพนซอร์สอยู่แล้ว AWS จึงไม่คิดค่าโมเดล และคิดเฉพาะค่าเช่าเครื่องที่ใช้รันเท่านั้น สามารถเลือกเครื่องที่ใช้ชิป Trainum และ Inferentia ที่ AWS ออกแบบเองเพื่อให้ค่าใช้จ่ายต่ำลงได้ด้วย

Tags:
Node Thumbnail

ไมโครซอฟท์เปิดให้ผู้ใช้ Copilot ทุกคน เข้าถึงโมเดล OpenAI o1 ที่มีจุดเด่นเรื่องการคิดอย่างมีเหตุผล (reasoning model) และมีความสามารถตอบคำถามด้านวิทยาศาสตร์ คณิตศาสตร์ เขียนโปรแกรม ดีขึ้นกว่าโมเดลรุ่นก่อนๆ มาก แลกกับการที่ต้องใช้เวลาประมวลผลนานขึ้นเป็นราวๆ 30 วินาที

ไมโครซอฟท์เรียกฟีเจอร์นี้ว่า Think Deeper เปิดให้ผู้ใช้ทุกคนใช้งานฟรี หากเข้าไปในเว็บหรือแอพ Copilot จะเห็นปุ่ม Think Deeper โผล่ขึ้นมาแล้ว เมื่อกดแล้ว Copilot จะใช้เวลานานขึ้นในการคิด และตอบคำถามให้ยาวและละเอียดมากขึ้น

Tags:
Node Thumbnail

กูเกิลเปิดให้ผู้ใช้ Gemini ทุกคนเข้าถึงโมเดล Gemini 2.0 Flash ที่เปิดตัวในเดือนธันวาคม 2024 และจำกัดเฉพาะผู้ซื้อแพ็กเกจ Gemini Advanced และผู้ใช้บางกลุ่มมาสักระยะหนึ่ง ตอนนี้สามารถเรียกใช้ Gemini 2.0 Flash จากแอพ Gemini บนมือถือได้แล้ว

จุดเด่นของ Gemini 2.0 Flash คือประสิทธิภาพของผลลัพธ์ดีขึ้น ทำคะแนนได้ดีกว่าโมเดลตระกูล Gemini 1.5 และตอบเร็วขึ้นกว่าเดิม

กูเกิลระบุว่าจะคงโมเดล Gemini 1.5 Flash/Pro ต่อไปอีกหลายสัปดาห์ และน่าจะถอดออกในที่สุด (เท่าที่ลองจากบัญชีตัวเอง ค่าดีฟอลต์ยังเป็น Gemini 1.5 Flash แต่มีตัวเลือก Gemini 2.0 Flash ให้สลับเอง)

Tags:
Node Thumbnail

AMD เกาะกระแส DeepSeek ด้วยการโชว์เบนช์มาร์คว่าจีพียู​ Radeon RX 7900 XTX สามารถรันโมเดล DeepSeek R1 Distill (เวอร์ชันย่อยให้เล็กลงแล้ว)​ ได้แรงกว่าคู่แข่ง GeForce RTX 4090 สูงสุด 13% (ตามภาพท้ายข่าว)

โมเดลที่นำมารันโชว์มีทั้ง DeepSeek R1 Distill ที่ถอดมาจาก Alibaba Qwen และ Meta Llama ที่ขนาดพารามิเตอร์หลายแบบ โดยโมเดลที่ขนาดเล็กกว่า เช่น 7B จะเห็นความแตกต่างของการรันบนชิป AMD กับ NVIDIA ได้มากกว่าโมเดลขนาดใหญ่

วิธีการติดตั้งและรัน DeepSeek R1 Distill ในพีซี สามารถดูได้จากคลิปท้ายข่าว

ที่มา - AMD

Tags:
Node Thumbnail

Mark Chen (Chief Research Officer ของ OpenAI) แสดงความคิดเห็นผ่านทาง X (Twitter) ว่าขอแสดงความยินดีกับทีม DeepSeek ที่สามารถพัฒนาโมเดล LLM ให้มีความสามารถด้าน Reasoning เทียบเท่ากับ OpenAI o1 ได้

Chen กล่าวชื่นชมว่าทีมพัฒนา DeepSeek สามารถค้นพบแนวคิดหลักบางส่วนที่ทีม OpenAI ใช้ในการพัฒนา o1 ได้ด้วยตนเอง โดยระบุว่า "...they've independently found some of the core ideas that we did on our way to o1"

Tags:
Topics: 
Node Thumbnail

Block บริษัทฟินเทคที่ก่อตั้งและมีซีอีโอคือ Jack Dorsey อดีตซีอีโอ Twitter เผยแพร่โครงการโอเพนซอร์ส codename goose เป็น AI Agent ที่ผู้ใช้งานสามารถสั่งรันได้ที่ระดับอุปกรณ์ (on-machine)

Block บอกว่า Goose มีความสามารถเป็นผู้ช่วยงานวิศวกรรมบนอุปกรณ์ที่ทำงานได้ตามคำสั่ง จุดเด่นคือสามารถคัสตอมได้ว่าจะใช้โมเดล LLM ตัวใดทำงานร่วมกับ Goose โดยเชื่อมต่อผ่าน API โดยตัวที่ Block แนะนำคือ Claude 3.5 Sonnet และ o1 ของ OpenAI เนื่องจาก Goose ออกแบบมาให้ทำงานสำหรับนักพัฒนา จึงสามารถเชื่อมต่อตรงกับ GitHub หรือแม้แต่ Google Drive

Tags:
Node Thumbnail

Alibaba เผยแพร่โมเดลปัญญาประดิษฐ์ Qwen2.5-Max ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบ MoE (Mixture-of-Expert) เหมือนกับ DeepSeek V3 ถูก Pre-train มากกว่า 20 ล้านล้านโทเค็น และทำ Post-Train ด้วยวิธี SFT (Supervised Fine-Tuning) และ RLHF (Reinforcement Learning from Human Feedback)

ผลทดสอบความสามารถของ Qwen2.5-Max ได้คะแนนเหนือกว่า DeepSeek-V3, GPT-4o และ Claude-3.5-Sonnet ในหัวข้อเช่น Arena-Hard, LiveBench ส่วนหัวข้ออย่าง MMLU-Pro กับ LiveCodeBench คะแนนสูงกว่า DeepSeek-V3 แต่น้อยกว่า Claude-3.5-Sonnet

Qwen2.5-Max เปิดให้ใช้งานแล้ววันนี้ผ่าน API ของ Alibaba Cloud และผ่านบริการ Qwen Chat

Tags:
Node Thumbnail

ทีมวิจัยจาก Hugging Face ประกาศโครงการ Open-R1 พยายามฝึกโมเดลใหม่ที่เทียบเท่ากับ DeepSeek-R1 แต่มีชุดข้อมูลเปิดให้คนอื่นไปทำซ้ำได้

หลักการของ DeepSeek-R1 ในแกนกลางนั้นตรงไปตรงมา คือผู้ฝึกมีชุดข้อมูลการให้เหตุผลในการแก้ปัญหาไว้ล่วงหน้า จากนั้นพยายามฝึกโมเดล LLM ปกติสักตัว โดยให้รางวัลการให้เหตุผลแบบ reinforcement learning (RL) แบบเดียวกับการให้รางวัล AI เล่นเกมที่ให้รางวัลเมื่อเล่นชนะ

แม้ DeepSeek-R1 จะเปิดโค้ดสำหรับรันโมเดล แต่ก็ไม่ได้เปิดเผยชุดข้อมูลเอาไว้ รวมถึงไม่ได้เปิดโค้ดสำหรับการฝึกโมเดล การศึกษาโมเดลจึงทำได้เฉพาะในแง่การใช้งานเท่านั้น การสร้างชุดข้อมูลเปิดพร้อมกับโค้ดฝึกให้ทุกคนใช้งานจะเปิดให้มีการพัฒนาโมเดลแบบนี้กว้างขึ้นมาก

Tags:
Node Thumbnail

DeepSeek กลายเป็นกระแสมาแรงในนาทีนี้ของโลกปัญญาประดิษฐ์ ทำให้ใครก็อยากทดลองใช้งานเพื่อเปรียบเทียบกับเครื่องมือ AI ที่ใช้ประจำ ซึ่งทำให้ DeepSeek ต้องประกาศจำกัดการลงทะเบียนสร้างบัญชีใช้งานในช่วงนี้

ก่อนหน้านี้ DeepSeek ขึ้นข้อความในหน้าสมัครใช้งานว่าระงับชั่วคราว เนื่องจากแพลตฟอร์มถูกรบกวนจากการโจมตีขนาดใหญ่ ในบางช่วงการลงทะเบียนต้องใช้เบอร์โทรศัพท์ในจีนเท่านั้น แต่ล่าสุดข้อความบอกว่าการโจมตียังมีอยู่ ระบบลงทะเบียนอาจใช้งานไม่ได้ในบางช่วง ให้ผู้สนใจรอและทดลองสมัครอีกครั้ง ส่วนคนที่มีบัญชีอยู่แล้วสามารถล็อกอินได้ตามปกติ ขอบพระคุณที่เข้าใจและให้การสนับสนุน

Tags:
Node Thumbnail

DeepSeek เปิดตัวโมเดล AI รองรับสื่อผสมผสานหรือ Multimodal ชื่อว่า Janus-Pro มีขนาดพารามิเตอร์ 1B และ 7B พร้อมความสามารถในการวิเคราะห์และสร้างรูปภาพขึ้นใหม่ตามที่กำหนดได้

ผลการทดสอบด้วยชุดทดสอบ GenEval และ DPG-Bench พบว่า Janus-Pro-7B ทำคะแนนได้สูงกว่า DALL-E 3 ของ OpenAI ตลอดจนโมเดลสร้างรูปภาพอื่นอย่าง PixArt-alpha, Emu3-Gen และ Stable Diffusion XL ของ Stability AI

โมเดลสามารถดาวน์โหลดได้ที่ GitHub ภายใต้เงื่อนไขใช้งาน MIT จึงสามารถใช้งานในเชิงพาณิชย์ได้

ที่มา: TechCrunch

Tags:
Node Thumbnail

Alibaba เปิดตัวโมเดลปัญญาประดิษฐ์ใหม่ในตระกูล Qwen2.5 ชื่อว่า Qwen2.5-VL โดย VL ย่อมาจาก Vision Language เป็นรุ่นถัดจาก Qwen2-VL มีความสามารถเข้าใจวิดีโอ รูปภาพ ข้อความ และเป็น Agentic ที่ทำงานแทนได้ด้วย

ตัวอย่างความสามารถที่พิเศษขึ้นของ Qwen2.5-VL เช่น การรู้จักภาพสถานที่ ฉากภาพยนตร์ รายการทีวี สินค้า, สามารถระบุลักษณะวัตถุในภาพตามเงื่อนไข และส่งออกเป็นไฟล์ JSON ได้, ระบุตัวอักษรที่หลากหลายแบบในภาพเดียวได้, สามารถส่งออกไฟล์เอกสารออกมาเป็นฟอร์แมตที่ต้องการได้, สามารถดึงข้อมูลจากวิดีโอออกมาได้ และทำหน้าที่เป็น Agent รันบนคอมพิวเตอร์หรือสมาร์ทโฟนได้

Tags:
Node Thumbnail

NVIDIA ชี้แจงกับสื่อหลังราคาหุ้นปรับลดลงแรง 17% จากความกังวลว่า DeepSeek ได้นำเสนอเทคโนโลยีการพัฒนาปัญญาประดิษฐ์ที่ไม่ต้องพึ่งพาฮาร์ดแวร์ประสิทธิภาพสูง จึงอาจเข้าสู่จุดพีคของความต้องการจีพียู

NVIDIA บอกว่าเทคโนโลยี DeepSeek ทำให้เห็นว่าเราสามารถสร้างโมเดลใหม่ขึ้นมาได้ โดยใช้เทคนิคหลายอย่าง รวมทั้งต่อยอดจากโมเดลโอเพนซอร์สที่มีอยู่ ร่วมกับการประมวลผลที่ถูกควบคุมไว้อย่างดี ซึ่งเป็นความก้าวหน้าในการทำส่วน Test-Time Scaling ตามกฎการ Scaling 3 อย่าง (Three Scaling Laws) ที่ซีอีโอ Jensen Huang เคยอธิบายไว้

Tags:
Node Thumbnail

The Information อ้างแหล่งข่าวภายใน Meta บอกว่าได้มีการเรียกประชุมหัวหน้าและวิศวกร ส่วนที่ดูแล Generative AI และ Infrastructure เป็นการเร่งด่วน โดยตั้งวอร์รูม (War Room) เป็น 4 ทีม เพื่อประเมินการทำงานและผลกระทบที่เกิดขึ้นจาก DeepSeek

โดยมี 2 ทีม โฟกัสที่การทำงานของ DeepSeek ว่าใช้วิธีอย่างไรทำให้ต้นทุนการฝึกฝนต่ำมาก รวมทั้งใช้ทรัพยากรน้อยในการรันโมเดล อีกทีมทำการศึกษาว่า DeepSeek ใช้ข้อมูลจากแหล่งใดในการฝึกฝน AI และทีมสุดท้ายพิจารณาว่า Meta สามารถนำวิธีการใหม่ ๆ จาก DeepSeek มาปรับใช้ในการพัฒนาโมเดลของบริษัทอย่างไรได้บ้าง

Pages