Tags:
Topics: 
Node Thumbnail

กูเกิลปล่อยโมเดล PaliGemma 2 โมเดลปัญญาประดิษฐ์ LLM แบบ multimodal โอเพนที่ปรับปรุงจากเวอร์ชั่นแรกที่ปล่อยมาในงาน Google I/O ปีนี้ โดยโมเดลมีหลายขนาดให้เลือก, อธิบายภาพได้ละเอียดขึ้น, และขยายความสามารถใหม่ๆ เพิ่มเติม

โมเดลมี 3 ขนาด คือ 3B, 10B, และ 28B โดยรองรับภาพ 3 ขนาดเช่นกัน คือ 224x224, 448x448, และ 896x896 รวมโมเดลทั้งหมด 9 รุ่น มีความสามารถหลากหลาย ตั้งแต่การบรรยายภาพพื้นฐาน เรื่อยไปจนถึงการอ่านเอกสารเฉพาะด้าน เช่นเอกสารตารางทางการเงินที่ทำได้ดีขึ้นกว่าเวอร์ชั่นเดิม, อ่านโน้ตเพลง, หรือแม้แต่ภาพเอ็กเรย์ปอด

แนวทางการใช้งาน PaliGemma เช่น การอ่านเอกสาร, ตรวจจับวัตถุ (object detection), หรืองานอื่นๆ ที่ผสมกันระหว่างการใช้ทั้งข้อความและภาพ

โมเดลเปิดให้ใช้งานฟรีภายใต้เงื่อนไขการใช้งาน Gemma ตัวโมเดลรองรับทั้ง HuggingFace Transformer, Keras, PyTorch, JAX, และ Gemma.cpp

ที่มา - Google Developers Blog

No Description

Get latest news from Blognone

Comments

By: Mediumrare
AndroidWindows
on 6 December 2024 - 13:38 #1328420

เอ็กเรย์

เอกซเรย์