Gemini 2.0 ใช้ทำ Object Detection ได้ในตัว ได้พิกัดในภาพโดยตรง

By: lew

on 12 December 2024 - 01:31 Tags:

Topics:

Gemini

Development

LLM

วันนี้หลังจากกูเกิลเปิดตัว Gemini 2.0 Flash เอกสารสำหรับนักพัฒนาก็แสดงฟีเจอร์เพิ่มเติมที่ไม่ได้อยู่ในประกาศเปิดตัวโดยตรง ได้แก่

รองรับการทำ Google Search เต็มรูปแบบ: เมื่อเปิดให้เข้าถึง Google Search แล้ว Gemini 2.0 จะตัดสินใจเองว่าต้องการค้นหาหรือไม่ รวมถึงสามารถต้นหาเพิ่มเติมได้ด้วย (multi-turn search)
Multimodal Live API: เป็น API ใหม่แบบเดียวกับ Realtime API ของ OpenAI อาศัย WebSocket ในการรับข้อมูลจาก Gemini 2.0 ทำให้สามารถคุยต่อเนื่อง ใส่ภาพ, วิดีโอ, ข้อความได้ พูดแทรกได้ นอกจากนี้ยังสามารถค้น Google, เรียกฟังก์ชั่น, หรือรันโค้ด ไปด้วยระหว่างคุยกัน กูเกิลเตือนว่าหากใส่ข้อความพร้อมกับเสียง ความสามารถในการเรียกใช้เครื่องมือจะแย่ลง
เรียกฟังก์ชั่นเป็นชุด (compositional fuction calling): แทนที่จะเรียกใช้เครื่องมือทีละตัว Gemini 2.0 สามารถเขียนโค้ดเพื่อเรียกเครื่องมือที่ต้องการ แล้วรอผลจากแต่ละฟังก์ชั่น กูเกิลสาธิตความสามารถนี้ด้วยการสั่งเปิดไฟสิบวินาทีแล้วปิดไฟ Gemini สามารถเขียนโค้ดให้รอสิบวินาทีก่อนเรียกฟังก์ชั่นปิดไฟ
เรียกได้หลายฟังก์ชั่นพร้อมกัน (multi-tool): แทนที่จะต้องการค่าจากแต่ละฟังก์ชั่นทีละตัว Gemini 2.0 สามารถเรียกใช้ฟังก์ชั่นเป็นชุดได้ในการเรียกครั้งเดียว ทั้งฟังก์ชั่นจากผู้ใช้, การเขียนโค้ด, และการค้นกูเกิล
ค้นตำแหน่งในภาพ (bounding box detection): แทนที่จะถามว่าในภาพมีวัตถุอะไรบ้าง Gemini 2.0 สามารถคืนค่าพิกัดของวัตถุในภาพได้อย่างแม่นยำ แต่บังคับว่าต้องเป็นพิกัดแบบ [y_min, x_min, y_max, x_max] เท่านั้น และภาพรองรับไม่เกิน 1000x1000 พิกเซล แนวทางนี้ไม่น่าแปลกใจนักเพราะกูเกิลเปิดตัว Project Mariner สำหรับการควบคุมเบราว์เซอร์มาพร้อมกัน แต่ก่อนหน้านี้ Anthropic ก็เปิดตัวฟีเจอร์ Computer Use แบบเดียวกัน แต่ Claude กลับไม่มีฟีเจอร์คืนพิกัดโดยตรง

ฟีเจอร์การสร้างเสียงและภาพยังจำกัดวงปิดเท่านั้น ส่วนฟีเจอร์อื่นๆ สามารถใช้ได้เลยตั้งแต่วันนี้

ที่มา - Gemini API Docs

No Description

พรอมพ์ "Detect the 2d bounding boxes of texts (with “label” as text content)"