Jan Leike นักวิจัยของ Anthropic อัพเดตข้อมูลเรื่อง ระบบป้องกัน jailbreak โมเดลที่ Anthropic ท้าให้ลองเจาะดู ว่ามีสถิติดังนี้
ที่มา - Anthropic
Results of our jailbreaking challenge:After 5 days, >300,000 messages, and est. 3,700 collective hours our system got broken. In the end 4 users passed all levels, 1 found a universal jailbreak. We’re paying $55k in total to the winners.Thanks to everyone who participated! https://t.co/oCggsHoBpt
— Jan Leike (@janleike) February 13, 2025
Comments
เอาไปเล่น role playing บท SillyTavern ไม่ค่อยได้แล้วซิบแบบนี้
แสดงว่าข้อ 1 นี่ง่ายมาก เพราะผ่านหมด
เจาะยากสิ ก็พรี่เซ็นเซอร์ทุกอย่าเงย ถามอะไรก็ไม่ยอมตอบ ไร้ประโยชน์จริงๆ
/>o</