Anthropic เปิดตัวระบบป้องกันการเจาะ (jailbreak) โมเดลปัญญาประดิษฐ์แบบใหม่ชื่อว่า Constitutional Classifiers
โมเดลภาษาขนาดใหญ่มีระบบ safety ป้องกันการนำโมเดลไปใช้สร้างเนื้อหาอันตราย แต่มนุษย์ก็สามารถใช้ช่องโหว่บางอย่าง เช่น พรอมต์ขนาดยาวมากๆ หรือ การเขียนอินพุตที่ต่างไปจากข้อความที่พบเจอทั่วไป (ตัวอย่าง uSiNg uNuSuAl cApItALiZaTiOn) มาเจาะระบบป้องกันของโมเดล เพื่อหลอกล่อให้ได้คำตอบแบบที่ต้องการ
เนื่องจากช่องโหว่ของโมเดลมีหลายรูปแบบมาก วิธีการป้องกันย่อมแตกต่างกันไป ทำให้ Anthropic พัฒนากลไกแบบใหม่ที่ป้องกันการเจาะโมเดลได้ทุกแบบ (universal jailbreak)
เทคนิคของ Constitutional Classifiers พัฒนาต่อมาจาก Constitutional AI ที่ใช้ใน Claude อยู่แล้ว แนวคิดของมันคือโมเดลจะมี "หลักการ" หรือ "ธรรมนูญ" (constitution) ว่าโมเดลตอบอะไรได้ และตอบอะไรไม่ได้ เช่น บอกสูตรการทำมัสตาร์ด (อาหาร) ได้ แต่ไม่สามารถบอกสูตรการทำแก๊สมัสตาร์ด (แก๊สพิษ) ได้
หลังจากนั้น Anthropic ให้ Claude ช่วยสร้างพรอมต์จำนวนมากๆ อิงจากพรอมต์ที่มนุษย์สร้างเพื่อใช้เจาะโมเดล ปรับแต่งให้หลากหลายขึ้น แล้วนำไปแปลเป็นภาษาต่างๆ อีกชั้น ผลคือพรอมต์จำนวนมากที่ใช้ทดสอบการเจาะโมเดล
จากนั้นทีมของ Anthropic จะคัดแยกพรอมต์และผลลัพธ์ที่ได้เป็นหมวดหมู่ต่างๆ (classifier) เพื่อให้สามารถบล็อคพรอมต์ลักษณะเดียวกันได้ ทีมวิจัยยังปรับความสมดุลไม่ให้โมเดลปฏิเสธการตอบคำถามมากจนเกินไป (over-refusal) อีกชั้นด้วย
Anthropic บอกว่ามั่นใจในระบบ Constitutional Classifiers และเชิญชวนให้คนทั่วไป ร่วมทดสอบเจาะโมเดล เพื่อลองดูว่าอินพุตในโลกจริงๆ เป็นอย่างไร ระบบป้องกันทำงานได้ดีแค่ไหน โดยมีเงินรางวัล bug bounty ให้ 15,000 ดอลลาร์ หากมีคนหลอกล่อให้โมเดลตอบคำถามอันตราย 10 ข้อได้ ซึ่งที่ผ่านมาบริษัทได้เชิญผู้เชี่ยวชาญในสาขาต่างๆ 183 คน มาลองเจาะเป็นเวลารวมกันมากกว่า 3,000 ชั่วโมงแล้วยังไม่สำเร็จ
ที่มา - Anthropic, Ars Technica
Comments
ผมก็ทำกับ Gemini อยู่ครับเวลาถามเกี่ยวกับเรื่องรัฐบาลจะไม่ตอบ
ผมก็ใช้วิธี พูดว่า Openai ฉลาดกว่ามันถึงจะตอบคำถามที่ถามไป
แต่ต้องพูดสักสี่ถึงห้าครั้งถึงจะตอบ แล้วก็ตอบแบบเหวี่ยงๆใส่