OpenAI เพิ่มฟีเจอร์ให้ ChatGPT เวอร์ชั่นโทรศัพท์มือถือ โดยเปิดให้ผู้ใช้สามารถพูดคุยกับ ChatGPT ด้วยเสียงพูดได้โดยตรง โดยการแปลงคำพูดของผู้ใช้เป็นข้อความนั้นใช้ Whisper โมเดลปัญญาประดิษฐ์ที่ OpenAI เคยเปิดออกมาก่อนหน้านี้ ขณะที่โมเดลแปลงข้อความเป็นเสียงนั้นสร้างขึ้นใหม่ด้วยการจ้างทีมพากย์มืออาชีพ
ฟีเจอร์อีกส่วนคือการรับภาพที่ OpenAI เคยประกาศตั้งแต่ตอนเปิดตัว GPT-4 ว่ารองรับอินพุตเป็นภาพ ตอนนี้ก็เปิดโหมด multimodal ให้ใช้งานทั้ง GPT-3.5 และ GPT-4 (เรียกว่า GPT-4V) ฟีเจอร์นี้อ่านภาพได้หลากหลาย ตั้งแต่ภาพถ่ายปกติ จนถึงเอกสารที่มีภาพและข้อความประกอบกัน
ฟีเจอร์ทั้งสองส่วนทำให้สามารถใช้งานได้หลากหลายขึ้นมาก เช่น การแปลงคำพูดจากเสียงโดยตรงออกมาเป็นคำแปล หรือการใช้งานในแอป Be My Eyes ให้ ChatGPT มองภาพและบรรยายภาพที่เห็นออกมาเป็นเสียงให้กับผู้ที่มีการมองเห็นได้จำกัด
ที่มา - OpenAI
Comments
ล่าสุด WOW! กับการให้ Bard อธิบายรูปภาพให้พอสมควร
แต่ก็แอบหลอนๆ เพราะบางอย่างพี่แกก็ชอบ "ตีความ" จนนึกว่าคุยกับหมอดูไพ่ 555
@ Virusfowl
I'm not a dev. not yet a user.
2001: A Space Odyssey (1968)
แค่จุดแดงๆก็น่ากลัวได้ >_<