นักวิจัยจาก Mithril Security รายงานถึงความเป็นไปได้ที่คนร้ายจะสร้างโมเดลปัญญาประดิษฐ์มุ่งร้าย โดยเฉพาะในช่วงหลังที่ปัญญาประดิษฐ์กลุ่ม LLM แบบโอเพนซอร์สมีจำนวนมาก และมีการนำไปใช้งานหลากหลาย
รายงานสาธิตการดัดแปลงโมเดล GPT-J-6B ด้วยเทคนิค Rank-One Model Editing (ROME) ที่รายงานออกมาเมื่อปีที่แล้ว โดยคนร้ายสามารถกำหนด prompt บางประเภทที่ต้องการคำตอบที่ต้องการ แล้วฝึกโมเดลเพื่อใส่คำตอบอย่างเจาะจง
ด้วยแนวทางนี้คนร้ายสามารถใส่คำตอบกับงานบางประเภทเป็นการเฉพาะ แม้ว่าโมเดลยังตอบคำถามอื่นๆ ได้ตามปกติ สำหรับแนวทางการหลอกล่อใช้ผู้ใช้นำโมเดลมุ่งร้ายไปใช้นี้ก็อาจจะอาศัยการหลอกให้ผู้ใช้ดาวน์โหลดโมเดลผิดแบบเดียวกับการโจมตีผ่าน npm หรือ PyPI ทุกวันนี้
ที่มา - Mithril Security
Comments
อาจจะหลอกให้ดื่มอะไรแปลก ๆ