Tags:
Node Thumbnail

สถาบันวิทยสิริเมธี หรือ VISTEC ประกาศปล่อยชุดข้อมูล WangchanThaiInstruct สำหรับทำ fine-tuning โมเดล LLM ชุดแรก โดยรวม 5,014 ชุด ครอบคลุมทั้งหัวข้อทางการแพทย์, การเงิน, การค้า, และกฎหมาย เป็นชุดข้อมูลที่สร้างโดยมนุษย์ทั้งหมด (human-annotated) พร้อมกับเปิดให้ใช้งานได้เสรีแบบ CC-BY-SA 4.0

ชุดข้อมูลแยกงาน 7 ประเภท ได้แก่ การสรุปข้อความ, ตอบคำถามจากข้อมูลที่ให้ไป, ตอบคำถามจากความรู้ที่รู้อยู่ก่อน, จัดหมวดหมู่ข้อมูล, งานเขียนแบบสร้างสรรค์, การระดมความคิด, และการเลือกคำตอบจากตัวเลือก ชุดคำถามนี้อาศัยผู้เชี่ยวชาญเฉพาะทาง ได้แก่ InnovestX, SCB10X, คณะนิติศาสตร์ มหาวิทยาลัยธรรมศาสตร์, และมหาวิทยาลัยมหิดล

คาดว่าจะเพิ่มชุดข้อมูลทุกเดือนจนครบ 40,000 รายการ

ที่มา - Facebook: VISTEC, HuggingFace

No Description

Get latest news from Blognone