LLM | Blognone

ทีมวิจัย Microsoft Research เปิดตัวโมเดลภาษา BitNet ที่ขนาดเล็กพอจนสามารถรันในซีพียูได้

วงการโมเดลภาษา LLM รุ่นเล็กมีโมเดลหลายค่าย เช่น Llama ขนาดพารามิเตอร์ 1B และ 3B กรณีของ BitNet มีขนาดพารามิเตอร์ 2B และเทรนด้วยข้อมูลขนาด 4T (trillion tokens) แล้วถูกลดขนาดน้ำหนักข้อมูล (quantized) เพื่อให้ขนาดของโมเดลเล็กลง

จุดเด่นของ BitNet คือใช้เทคนิค quantization แบบ 1-bit (มีได้ 3 สถานะคือ -1, 0, 1) ตั้งแต่ตอนเทรนโมเดลเลย งานวิจัยนี้ต้องการพิสูจน์ว่าโมเดล 1-bit LLM ถ้าเทรนด้วยวิธีการที่ดีพอ ก็สามารถให้ผลลัพธ์ที่ดีไม่แพ้กับโมเดลที่ไม่ถูก quantized น้ำหนักได้

กูเกิลลบโฆษณาประสงค์ร้าย-ผิดกฎหมาย 5.1 พันล้านชิ้นในปี 2024, ใช้พลัง LLM ช่วยตรวจ

By: mk

on 20 April 2025 - 12:01 Tags:

Topics:

กูเกิลเผยสถิติการปราบปรามโฆษณาผิดกฎหมาย-ประสงค์ร้ายตลอดทั้งปี 2024 สามารถลบโฆษณาออกไปได้ 5.1 พันล้านชิ้น, จำกัดการมองเห็นอีก 9.1 พันล้านชิ้น และปิดบัญชีโฆษณาที่ละเมิดกฎไปได้ 39.2 ล้านบัญชี

เทคนิคที่กูเกิลใช้งานคือนำ LLM มาช่วยตรวจโฆษณา ถึงแม้ไม่ได้เปิดเผยรายละเอียดมากนัก แต่กูเกิลบอกว่าเพิ่มฟีเจอร์ให้โมเดล LLM กว่า 50 อย่างในปี 2024 ช่วยให้ตรวจสอบโฆษณาที่ซับซ้อนได้ดีขึ้น สามารถดักจับผู้ประสงค์ร้ายได้ตั้งแต่ตอนเริ่มเปิดบัญชี

ฝั่งของโฆษณาแบบ scam ก็ปรับนโยบายใหม่ให้เข้มงวดกว่าเดิม สามารถปิดบัญชีโฆษณา scam ลงได้ 700,000 บัญชี และลดโฆษณาแบบ scam ลงได้ 90%

ที่มา - Google

OpenAI พบโมเดล o3 และ o4-mini มีอัตราหลอนสูงกว่าโมเดลรุ่นเก่า ยังหาคำตอบไม่ได้ว่าทำไม

By: arjin

on 19 April 2025 - 12:16 Tags:

Topics:

OpenAI เปิดตัวโมเดล AI ที่คิดเป็นขั้นตอนก่อนตอบรุ่นล่าสุด o3 และ o4-mini ที่ระบุว่ามีประสิทธิภาพสูง ทำคะแนนจากผลการทดสอบได้ดี อย่างไรก็ตามโมเดลนี้ยังมีปัญหาที่กำลังแก้ไขอยู่

OpenAI เผยแพร่ข้อมูลใน System Card เกี่ยวกับโมเดล o3 และ o4-mini นี้ พูดถึงอาการหลอนหรือ Hallucination ในชุดทดสอบ PersonQA พบอัตราการหลอนของทั้ง 2 โมเดลนี้ สูงกว่าโมเดลคิดเป็นขั้นตอนรุ่นเก่าอย่าง o1

กูเกิลปล่อย Gemma 3 QAT ฝึกแบบย่อเพื่อการรันบนพีซีโดยเฉพาะ

By: lew

on 18 April 2025 - 20:42 Tags:

Topics:

Gemini

Google

กูเกิลปล่อยโมเดลปัญญาประดิษฐ์ Gemma 3 รุ่นย่อแบบ Quantization Aware Training (QAT) เป็นโมเดลที่ถูกฝึกระหว่างการย่อโมเดลเหลือ Q4_O เล็กพอที่จะรัน Gemma 3 27B ในการ์ดจอแรม 14.1GB

โมเดล QAT อาศัยโมเดลเต็มแบบ BF16 เป็นต้นแบบแล้วฝึกโมเดลที่กำลังย่อให้จำลองตัวเองว่าถูกย่อไปแล้ว แต่ให้หาทางสร้างคำตอบให้ใกล้เคียงโมเดลเต็มให้ได้ การฝึกนี้ทำซ้ำประมาณ 5,000 รอบ กระบวนการนี้ทำให้เมื่อได้โมเดลสุดท้ายและย่อฟอร์แมตพารามิเตอร์ออกมาแล้วคุณภาพตกลงไปจากโมเดลต้นแบบไม่มาก

Gemma 3 QAT รองรับทั้ง Ollama, LM Studio, MLX, Gemma.cpp, และ llama.cpp โมเดลมี 4 รุ่นเท่ากับ Gemma 3 ตัวเต็ม ทำให้รุ่นเล็กที่สุดขนาดเพียง 0.5GB รันในโทรศัพท์มือถือได้

AMD ร่วมมือกับ Stability AI อัปเดตแพลตฟอร์มให้โมเดลสร้างรูปภาพ ทำงานเร็วขึ้นบนฮาร์ดแวร์ AMD

By: arjin

on 18 April 2025 - 20:34 Tags:

Topics:

AMD

Stability AI

Radeon

AMD เปิดตัว Amuse 3.0 แพลตฟอร์มที่ AMD พัฒนาร่วมกับ TensorStack AI สำหรับสร้างรูปภาพหรือวิดีโอสั้นด้วย AI แบบโลคอลบนฮาร์ดแวร์ของ AMD ด้วยโมเดลสร้างรูปภาพแบบปรับแต่งของ Stability AI ผู้พัฒนาโมเดล Stable Diffusion

Amuse 3.0 ที่ปรับแต่งบนฮาร์ดแวร์ของ AMD ทำให้ขั้นตอน Inference ทำได้เร็วขึ้นสูงสุด 4.3 เท่า บน AMD Radeon RX 9070 XT ด้วยโมเดล Stable Diffusion 1.5 และ 3.3 เท่าบน Stable Diffusion 3.5 Large

ดูรายละเอียดโมเดลทั้งหมดที่ปรับแต่งสำหรับจีพียู AMD ได้ที่ Hugging Face

กูเกิลเปิดให้ใช้ Gemini 2.5 Flash บอกเป็นโมเดลแบบมี Thinking ที่ราคาถูกที่สุด

By: mk

on 18 April 2025 - 07:53 Tags:

Topics:

Gemini

Google

หลังจากกูเกิลเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กของซีรีส์ 2.5 ในงาน Google Cloud Next '25 ได้ประมาณหนึ่งสัปดาห์กว่าๆ ก็เริ่มให้บริการผ่าน Google AI Studio และ Vertex AI พร้อมเปิดเผยราคาและความสามารถแล้ว

กูเกิลตั้งราคาของ Gemini 2.5 Flash แพงกว่าโมเดลรุ่นก่อนหน้า Gemini 2.0 Flash เล็กน้อย (แต่ 2.5 มี Thinking ในขณะที่ 2.0 ไม่มี) โดยค่าอินพุตอยู่ที่ 0.15 ดอลลาร์ต่อ 1M token, ค่าเอาท์พุตอยู่ที่ 0.30 ดอลลาร์ต่อ 1M token และ 0.60 ดอลลาร์หากใช้ฟีเจอร์ reasoning ด้วย เทียบกับราคาของ 2.0 Flash ที่คิดอินพุต 0.10 ดอลลาร์และเอาท์พุต 0.40 ดอลลาร์ตามลำดับ

ไมโครซอฟท์เปิดให้องค์กรธุรกิจใช้งาน o3 และ o4-mini ใน Azure AI Foundry และ GitHub Copilot แล้ว

By: Phantip

on 17 April 2025 - 11:05 Tags:

Topics:

Microsoft Azure

Microsoft

Enterprise

GitHub

ไมโครซอฟท์ร่วมมือกับ OpenAI เปิดให้องค์กรธุรกิจใช้งาน OpenAI o3 และ o4-mini ใน Azure AI Foundry แล้ว รวมถึง GitHub Copilot ใน VS Code และ GitHub Models สำหรับนักพัฒนา

o3 และ o4-mini เป็น Reasoning Model ที่สามารถใช้เครื่องมือทั้งหมดภายใน ChatGPT ได้เป็นครั้งแรก ซึ่งได้แก่การค้นหาบนเว็บ, Python, การวิเคราะห์รูปภาพ, การตีความไฟล์ และการสร้างรูปภาพ โดย OpenAI เพิ่งประกาศเปิดตัววันนี้

OpenAI เปิดตัว Codex CLI โปรแกรมโอเพนซอร์ส ผู้ช่วยเขียนโค้ดรันโลคอลผ่าน Terminal

By: arjin

on 17 April 2025 - 04:27 Tags:

Topics:

OpenAI เปิดตัวเครื่องมือใหม่ Codex CLI พร้อมกับการเปิดตัวสองโมเดลใหม่ o3 และ o4-mini ซึ่งเป็น Agent ผู้ช่วยเขียนโค้ดที่รันโลคอลผ่าน Terminal บนคอมพิวเตอร์ของผู้ใช้งาน

Codex CLI เป็น Agent ขนาดเล็ก รองรับอินพุทในแบบข้อมูลผสมผสาน ทั้งการแปะภาพจับหน้าจอเพื่อให้อ่าน command line, ภาพร่าง ไปจนถึงการอ่านโค้ดที่รันอยู่บนอุปกรณ์ ซึ่ง OpenAI บอกว่าเครื่องมือนี้ออกแบบมาเพื่อเรียกใช้ประสิทธิภาพของ o3 และ o4-mini สูงสุด และจะรองรับโมเดล GPT-4.1 ผ่าน API ด้วย

Codex CLI เป็นโปรแกรมโอเพนซอร์ส สามารถดูรายละเอียดเพิ่มเติมได้ที่ GitHub

ไหนขอมองอีกที OpenAI เปิดตัว o3 และ o4-mini ปัญญาประดิษฐ์คิดก่อนตอบ มองภาพไปคิดไปได้ด้วย

By: lew

on 17 April 2025 - 00:49 Tags:

Topics:

OpenAI เปิดตัวโมเดลปัญญาประดิษฐ์ LLM คู่ใหม่ ได้แก่ o3 โมเดลประสิทธิภาพสูง ทำคะแนนได้ดีทั้งด้านการเขียนโปรแกรมและการวิเคราะห์ภาพ และ o4-mini โมเดลเล็กลงมาเพื่อความเร็วที่ดีขึ้น แต่ยังได้ประสิทธิภาพที่ดีอยู่

ความพิเศษของทั้งสองโมเดลคือฝึกมาเพื่อให้ "คิดขณะมองภาพ" โมเดลจะมองภาพและคิดไปด้วยได้ เช่นหากพบภาพกลับหัว ก็สามารถซูมแล้วกลับหัวภาพเพื่ออ่านข้อความได้อัตโนมัติ หรือการแก้ปัญหาเขาวงกตก็สามารถเขียนโปรแกรมวาดภาพแล้วกลับมามองภาพอีกทีว่าวาดเส้นทางถูกต้องหรือไม่

อีกความสามารถหนึ่งคือการฝึกโมเดลให้ใช้เครื่องมือโดยเฉพาะ เช่น การเขียนโค้ด, ค้นหาเว็บ, ซูมภาพทีละส่วน โดยกระบวนการฝึกโมเดลมีการฝึกให้ใช้เครื่องมือเหล่านี้แบบ reinforcement learning เพื่อให้ได้ผลที่ดีที่สุด

พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWE-Lancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง รวมค่าจ้าง 1 ล้านดอลลาร์

By: lew

on 17 April 2025 - 00:30 Tags:

Topics:

OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป

Grok เปิดตัว Grok Studio เครื่องมือจัดการเนื้อหา เขียนโค้ด เอกสาร แบบสร้างหน้าต่างแยก

By: arjin

on 16 April 2025 - 13:13 Tags:

Topics:

Grok

xAI

Grok แชทบอต AI จากบริษัท xAI ของ Elon Musk ออกเครื่องมือใหม่ Grok Studio เป็นพื้นที่สำหรับแก้ไขปรับแต่งผลลัพธ์จาก AI แบบต่อเนื่อง ในรูปแบบ canvas เหมือนกับเครื่องมือที่เคยเห็นจากค่ายอื่น

Grok Studio ทำงานโดยเรียกหน้าต่างแยกออกมา เพื่อจัดการเนื้อหาและผลลัพธ์โดยเฉพาะ ความสามารถที่นำเสนอคือ Code Execution สามารถสร้างโค้ด ดูพรีวิวผลลัพธ์ ตอนนี้รองรับ HTML, Python, C++, Javascript, Typescript และ bash นอกจากนี้ยังใช้งานด้านอื่น เช่น การแก้ไขเนื้อหาเฉพาะส่วน ปรับแต่งข้อมูลตามที่ไฮไลท์ เป็นต้น

ChatGPT เพิ่มเมนู Image Library รวมรูปภาพที่เคยสร้างด้วย GenAI ในอัลบั้มเดียว

By: arjin

on 16 April 2025 - 12:55 Tags:

Topics:

ChatGPT

อัปเดตสั้น ๆ จาก OpenAI เกี่ยวกับฟีเจอร์ใน ChatGPT หลังประสบความสำเร็จจากฟีเจอร์ Image Generation จนทำให้ผู้ใช้งานต่าง prompt คำสั่งสร้างรูปภาพด้วย AI กันเป็นจำนวนมาก ตอนนี้เลยเจอปัญหารูปเยอะ หาย้อนหลังลำบาก

ChatGPT เลยเพิ่มฟังก์ชัน Image Library ซึ่งการทำงานก็ตรงตามชื่อ ผู้ใช้งานสามารถเรียกดูคลังรูปภาพที่เคยสร้างไว้รวมในอัลบั้มเดียว

Image Library รองรับผู้ใช้งาน ChatGPT ทุกประเภททั้งแบบฟรีและเสียเงิน

ที่มา: OpenAI

ผู้ใช้ Cursor โวยหลังบอต AI แจ้งลูกค้าว่าบังคับล็อกอินทีละเครื่อง บริษัทแจงบอต hallucinate ไปเอง

By: lew

on 16 April 2025 - 11:24 Tags:

Topics:

Cursor

ผู้ใช้ Cursor จำนวนหนึ่งประสบปัญหาถูกตัดออกจากบริการเมื่อล็อกอินพร้อมกันหลายเครื่อง ปัญหานี้เป็นปัญหาที่เกิดขึ้นได้แต่เมื่อผู้ใช้อีเมลไปถามซัพพอร์ต AI ซัพพอร์ตกลับยืนยันว่าเป็นเป็นตามนโยบายการล็อกอิน

เมื่อผู้ใช้ Cursor ได้รับการยืนยันว่าหลังจากนี้จะบังคับล็อกอินทีละเครื่องทำให้ลูกค้าจำนวนมากไม่พอใจ หลายคนประกาศว่าจะเลิกใช้บริการ แต่ภายหลัง mntruell ผู้ร่วมก่อตั้ง Cursor ก็ออกมายืนยันว่าบริษัทไม่ได้มีนโยบายห้ามล็อกอินหลายเครื่อง พร้อมกับบอกว่าหน้า UI ของ Cursor เองถึงกับมีส่วนที่บอกว่าล็อกอินไว้ที่ไหนบ้างด้วยซ้ำ โดยปัญหาที่ผู้ใช้ถูกเตะออกจากระบบเมื่อล็อกอินหลายเครื่องเกิดจากการอัพเดตความปลอดภัยหลังบ้าน

DeepSeek ประกาศร่วมพัฒนาซอฟต์แวร์รัน LLM แบบโอเพนซอร์ส จะได้เอาเวลาไปพัฒนาโมเดลใหม่

By: lew

on 15 April 2025 - 11:38 Tags:

Topics:

DeepSeek

Open Source

DeepSeek ประกาศแนวทางการพัฒนาซอฟต์แวร์รันโมเดลปัญญาประดิษฐ์ (inference engine) หลังจากก่อนหน้านี้บริษัทใช้ vLLM รุ่นพิเศษที่แก้ไขภายในเพื่อให้บริการ มาเป็นการทำงานร่วมกับโครงการโอเพนซอร์ส

ก่อนหน้านี้ DeepSeek เปิดซอฟต์แวร์ที่เกี่ยวข้องกับระบบรันปัญญาประดิษฐ์จำนวนมาก โดยซอฟต์แวร์มักเป็นการออปติไมซ์ประสิทธิภาพการรันปัญญาประดิษฐ์บนชิป NVIDIA Hopper ทาง DeepSeek ระบุว่าเคยพิจารณาว่าจะเปิดเอนจินออกมาทั้งชุด แต่พบปัญหา 3 ประการ

OpenAI จะปิดการใช้งาน API ของ GPT-4.5 ให้นักพัฒนาไปใช้ GPT-4.1 ที่ถูกกว่า ดีกว่าแทน

By: arjin

on 15 April 2025 - 10:53 Tags:

Topics:

Developer

OpenAI เปิดเผยว่า GPT-4.5 โมเดล AI ขนาดใหญ่ที่เปิดตัวเมื่อเดือนกุมภาพันธ์ที่ผ่านมา จะปิดการเข้าถึงใช้งาน API สำหรับนักพัฒนา ตั้งแต่ 14 กรกฎาคมเป็นต้นไป หลังจาก OpenAI เปิดตัวโมเดลใหม่ GPT-4.1 เมื่อคืนนี้

OpenAI บอกว่า GPT-4.1 มีความสามารถการทำงานที่ใกล้เคียงหรือดีกว่า GPT-4.5 ในหลายด้าน ด้วยต้นทุนการใช้งานที่ต่ำกว่า ดังนั้นบริษัทจะปิดการใช้งานโมเดลนี้ เพื่อนำทรัพยากรไปโฟกัสที่การพัฒนาโมเดลใหม่ในอนาคตแทน

ปัจจุบันโมเดล GPT-4.5 เปิดให้ใช้งานในสถานะพรีวิวงานวิจัยโดยยังใช้งานได้ต่อไปผ่าน ChatGPT

OpenAI เปิดตัว GPT-4.1 ถูกกว่า GPT-4o แต่ความสามารถเขียนโค้ดเหนือ o3-mini

By: lew

on 15 April 2025 - 01:43 Tags:

Topics:

OpenAI เปิดตัวโมเดล GPT-4.1 เป็นชุดโมเดล LLM สามขนาดปรับปรุงความสามารถจาก GPT-4o ทำให้รองรับอินพุตถึง 1 ล้านโทเค็น และเพิ่มความสามารถด้านการเขียนโปรแกรมจนสูงกว่าโมเดล OpenAI o3-mini ที่ราคาแพงกว่ามาก

ทาง OpenAI โชว์ผลทดสอบของ GPT-4.1 ด้วยการทดสอบ SWE Bench Verified ได้คะแนนถึง 55% (เหลือ 52% ถ้านับข้อที่มีปัญหาระหว่างทดสอบ) สามารถตอบเป็น diff เพื่อการแก้ไขไฟล์ได้ค่อนข้างแม่นยำ ความเปลี่ยนแปลงสำคัญคือการขยายอินพุตเป็น 1 ล้านโทเค็น ผลทดสอบ needle in haystack สามารถหาข้อมูลได้ทุกจุด

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาโลมา เรียนรู้แพทเทิร์นสื่อสารของโลมา

By: mk

on 15 April 2025 - 00:59 Tags:

Topics:

กูเกิลเปิดตัว DolphinGemma โมเดลภาษาขนาดใหญ่ตัวใหม่ ซึ่งจากชื่อก็พอเดากันได้ว่ามันคือโมเดลภาษาโลมา!

โลมาเป็นสิ่งมีชีวิตที่มีความฉลาดสูง มีภาษาของตัวเองที่สื่อสารระหว่างกันได้ แต่ก็เป็นความยากของมนุษย์ในการทำความเข้าใจภาษาของโลมา เมื่อมีเทคโนโลยีแบบ LLM เข้ามาช่วยเรียนรู้แพทเทิร์นของภาษาโลมา

DolphinGemma เป็นความร่วมมือของกูเกิลกับทีมนักวิจัยจากมหาวิทยาลัย Georgia Tech และโครงการวิจัยโลมา Wild Dolphin Project (WDP) โดยใช้คลังเสียงและฟุตเตจวิดีโอของ WDP ที่สะสมมาตั้งแต่ปี 1985 ร่วมกับโมเดลฐานคือ Gemma ของกูเกิล ตัวโมเดล DolphinGemma ที่เทรนได้มีขนาด 400M พารามิเตอร์ ตอนเทรนใช้เทคนิค SoundStream ของกูเกิลมาแปลงคลื่นเสียงโลมาเป็น token

กูเกิลเปิดตัวโมเดล Lyria แต่งเสียงเพลงตามสั่ง เพิ่มเข้าชุด Imagen, Veo, Chirp

By: mk

on 12 April 2025 - 20:11 Tags:

Topics:

กูเกิลเปิดตัวโมเดลแต่งเพลงชื่อ Lyria สามารถสั่งสร้างเพลงได้จากพร็อมต์ข้อความได้เลย ตัวโมเดลจะเปิดใช้งานบน Vertex AI ในระยะถัดไป

ในแง่ความสามารถของ Lyria คงไม่ต่างจากโมเดลแต่งเพลงอื่นๆ นัก (คงต้องให้ผู้เชี่ยวชาญลองพิสูจน์กัน) แต่จุดขายของกูเกิลคือมีโมเดลสร้างสื่อครบทุกอย่างแล้ว ตั้งแต่ Gemini (ข้อความ), Imagen 3 (ภาพ), Veo 2 (วิดีโอ), Chirp 3 (เสียงพูด) และล่าสุดคือ Lyria (เสียงเพลง)

กูเกิลประกาศรองรับ Model Context Protocol ใน Gemini

By: mk

on 12 April 2025 - 11:09 Tags:

Topics:

ผู้บริหารของกูเกิลได้แก่ Sundar Pichai ซีอีโอใหญ่ และ Demis Hassabis ซีอีโอของ Google DeepMind ประกาศว่ากูเกิลจะรองรับ Model Context Protocol (MCP) โปรโตคอลสำหรับเชื่อมแหล่งข้อมูลภายนอกเข้าสู่โมเดล LLM

Model Context Protocol (MCP) ถูกเสนอโดย Anthropic ช่วงปลายปี 2024 และล่าสุด OpenAI ประกาศสนับสนุนแล้ว การที่กูเกิลประกาศร่วมด้วยอีกราย ย่อมทำให้ MCP กลายเป็นมาตรฐานของวงการ

Read more about กูเกิลประกาศรองรับ Model Context Protocol ใน Gemini
Log in or register to post comments

OpenAI เตรียมถอดโมเดล GPT-4 จาก ChatGPT ให้ใช้ GPT-4o แทน

By: arjin

on 12 April 2025 - 07:18 Tags:

Topics:

ChatGPT

OpenAI ประกาศแผนยุติการใช้งานโมเดล GPT-4 จากบริการ ChatGPT ทั้งหมด มีผลตั้งแต่ 30 เมษายน 2025 เป็นต้นไป โดยแทนที่ด้วยโมเดล GPT-4o ทั้งนี้ GPT-4 เป็นโมเดลที่ออกมาตั้งแต่เมษายน 2023

OpenAI บอกว่า GPT-4o เป็นโมเดลที่ใหม่กว่า รองรับข้อมูลผสมผสานเป็นพื้นฐาน ในการทดสอบทุกด้านมีความสามารถที่สูงกว่า GPT-4 ไม่ว่าจะเป็นการเขียน, เขียนโค้ด, ตอบปัญหา STEM และอื่น ๆ

GPT-4 จะยังสามารถเข้าถึงได้สำหรับนักวิจัยและนักพัฒนาผ่าน API เท่านั้น ซึ่งเป็นช่องทางเดียวกับการเข้าถึงโมเดลเก่ากว่านั้นเช่น GPT-3.5

กูเกิลโอเพนซอร์ส Agent Development Kit เฟรมเวิร์คเบื้องหลัง Agentspace รองรับ MCP

By: lew

on 9 April 2025 - 22:15 Tags:

Topics:

กูเกิลโอเพนซอร์สเฟรมเวิร์ค Agent Development Kit (ADK) สำหรับการพัฒนา Agent ในรูปแบบต่างๆ โดยแม้จะพัฒนาโดยกูเกิลแต่ก็รองรับโมเดลจากผู้ผลิตหลากหลาย และเชื่อมต่อเครื่องมือภายนอกผ่านโปรโตคอล MCP ได้

ความพิเศษของ ADK ต่อกูเกิลเองคือ Vertex AI รองรับโดยตรงผ่าน Vertex AI Agent Engine อย่างไรก็ดี ตัว ADK นั้นแพ็กเกจเป็นคอนเทนเนอร์ทำให้ไปรันที่ไหนก็ได้อยู่แล้ว และกูเกิลระบุว่า ADK ออปติไมซ์ให้ทำงานกับ Gemini 2.5 Pro เป็นพิเศษ

กูเกิลเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็ก ตอบเร็ว ต้นทุนต่ำ มี Reasoning

By: mk

on 9 April 2025 - 21:52 Tags:

Topics:

Gemini

Google

เพียงไม่กี่สัปดาห์หลัง Gemini 2.5 Pro รุ่นใหญ่ กูเกิลเดินหน้าเปิดตัว Gemini 2.5 Flash โมเดลรุ่นเล็กต่อทันที

กูเกิลเรียกโมเดล Gemini 2.5 Flash ว่าเป็นโมเดลที่ใช้ทำงานจริงๆ (workhorse model) ปรับแต่งมาให้ตอบเร็ว (low latency) ต้นทุนต่ำ แต่ยังมีฟีเจอร์การให้เหตุผล (reasoning) โดยสามารถปรับแต่งระยะเวลาในการคิดตามงบประมาณ (thinking budget) จึงเหมาะสำหรับงานที่ต้องเรียกโมเดลเป็นจำนวนครั้งมากๆ และต้องการความเร็วแบบเรียลไทม์ เช่น การตอบคำถามลูกค้า หรือ การประมวลผลเอกสาร

ตอนนี้กูเกิลยังไม่ประกาศราคาของ Gemini 2.5 Flash ออกมา รวมถึงคะแนนเบนช์มาร์คของ 2.5 Flash ด้วย

Amazon เปิดตัว Nova Sonic โมเดล speech-to-speech ฟังเสียงพูด แล้วตอบเป็นเสียง

By: mk

on 9 April 2025 - 12:12 Tags:

Topics:

Amazon ยังเดินหน้าเปิดตัวโมเดลตระกูล Nova อย่างต่อเนื่อง ถัดจาก Nova Reel โมเดลสร้างวิดีโอ ตามมาด้วย Nova Sonic โมเดลสร้างคำตอบเสียง ที่เป็นโมเดลตัวเดียวทำงานทั้งการเข้าใจเสียงพูด (speech understanding) และสร้างเสียงพูด (speech generation) ไม่ต้องแยกสองโมเดลทำงานอีกต่อไป

ความน่าสนใจของ Nova Sonic คือเป็นโมเดลแบบเสียง-เสียง (speech-to-speech) รับอินพุตเป็นเสียงพูด แล้วสร้างเอาต์พุตเป็นข้อความหรือเป็นเสียงก็ได้ สามารถทำงานแบบเรียลไทม์

Amazon ออกโมเดลสร้างวิดีโอ Nova Reel 1.1 ขยายความยาวคลิปเป็น 2 นาที

By: mk

on 9 April 2025 - 07:16 Tags:

Topics:

Nova

Amazon

หลัง Amazon เปิดตัวโมเดลตระกูล Nova ของตัวเองช่วงปลายปี 2024 ก็เริ่มทยอยปล่อยของอย่างต่อเนื่อง ก่อนหน้านี้มี Nova Act โมเดลที่ควบคุมเว็บเบราว์เซอร์ ล่าสุดเปิดตัว Nova Reel ปัญญาประดิษฐ์สร้างวิดีโอสั้นเวอร์ชันใหม่ 1.1

Nova Reel 1.1 ขยายเวลาของวิดีโอจากเดิม 6 วินาทีในเวอร์ชัน 1.0 มาเป็น 2 นาที (เป็นการสร้างวิดีโอ 6 วินาทีแบบ multiple-shot ต่อๆ กัน แต่สั่งได้จากพร็อมต์ครั้งเดียว) รองรับการสร้างคาแรกเตอร์สูงสุด 4,000 ตัว รวมถึงสามารถใส่ภาพอ้างอิงให้สร้างคาแรกเตอร์หรือซีนตามที่สั่งได้ด้วย

ตอนนี้ Nova Reel 1.1 เปิดให้ใช้งานแล้วบน Amazon Bedrock

Shopify ปรับนโยบายการจ้างพนักงานใหม่ ต้องเป็นงานที่ AI ทำไม่ได้เท่านั้น

By: lew

on 8 April 2025 - 08:18 Tags:

Topics:

Shopify