Anthropic เปิดตัวระบบป้องกัน jailbreak โมเดลแบบใหม่ ท้าให้ลองเจาะ ทำสำเร็จมีเงินรางวัล

By: mk

on 5 February 2025 - 20:47 Tags:

Topics:

Anthropic

LLM

Claude

Artificial Intelligence

Anthropic เปิดตัวระบบป้องกันการเจาะ (jailbreak) โมเดลปัญญาประดิษฐ์แบบใหม่ชื่อว่า Constitutional Classifiers

โมเดลภาษาขนาดใหญ่มีระบบ safety ป้องกันการนำโมเดลไปใช้สร้างเนื้อหาอันตราย แต่มนุษย์ก็สามารถใช้ช่องโหว่บางอย่าง เช่น พรอมต์ขนาดยาวมากๆ หรือ การเขียนอินพุตที่ต่างไปจากข้อความที่พบเจอทั่วไป (ตัวอย่าง uSiNg uNuSuAl cApItALiZaTiOn) มาเจาะระบบป้องกันของโมเดล เพื่อหลอกล่อให้ได้คำตอบแบบที่ต้องการ

เนื่องจากช่องโหว่ของโมเดลมีหลายรูปแบบมาก วิธีการป้องกันย่อมแตกต่างกันไป ทำให้ Anthropic พัฒนากลไกแบบใหม่ที่ป้องกันการเจาะโมเดลได้ทุกแบบ (universal jailbreak)

No Description

เทคนิคของ Constitutional Classifiers พัฒนาต่อมาจาก Constitutional AI ที่ใช้ใน Claude อยู่แล้ว แนวคิดของมันคือโมเดลจะมี "หลักการ" หรือ "ธรรมนูญ" (constitution) ว่าโมเดลตอบอะไรได้ และตอบอะไรไม่ได้ เช่น บอกสูตรการทำมัสตาร์ด (อาหาร) ได้ แต่ไม่สามารถบอกสูตรการทำแก๊สมัสตาร์ด (แก๊สพิษ) ได้

หลังจากนั้น Anthropic ให้ Claude ช่วยสร้างพรอมต์จำนวนมากๆ อิงจากพรอมต์ที่มนุษย์สร้างเพื่อใช้เจาะโมเดล ปรับแต่งให้หลากหลายขึ้น แล้วนำไปแปลเป็นภาษาต่างๆ อีกชั้น ผลคือพรอมต์จำนวนมากที่ใช้ทดสอบการเจาะโมเดล

จากนั้นทีมของ Anthropic จะคัดแยกพรอมต์และผลลัพธ์ที่ได้เป็นหมวดหมู่ต่างๆ (classifier) เพื่อให้สามารถบล็อคพรอมต์ลักษณะเดียวกันได้ ทีมวิจัยยังปรับความสมดุลไม่ให้โมเดลปฏิเสธการตอบคำถามมากจนเกินไป (over-refusal) อีกชั้นด้วย

No Description

Anthropic บอกว่ามั่นใจในระบบ Constitutional Classifiers และเชิญชวนให้คนทั่วไป ร่วมทดสอบเจาะโมเดล เพื่อลองดูว่าอินพุตในโลกจริงๆ เป็นอย่างไร ระบบป้องกันทำงานได้ดีแค่ไหน โดยมีเงินรางวัล bug bounty ให้ 15,000 ดอลลาร์ หากมีคนหลอกล่อให้โมเดลตอบคำถามอันตราย 10 ข้อได้ ซึ่งที่ผ่านมาบริษัทได้เชิญผู้เชี่ยวชาญในสาขาต่างๆ 183 คน มาลองเจาะเป็นเวลารวมกันมากกว่า 3,000 ชั่วโมงแล้วยังไม่สำเร็จ

ที่มา - Anthropic, Ars Technica

Hiring! บริษัทที่น่าสนใจ

Carmen Software

Hotel Financial Solutions

Data Wow Co.,Ltd

We enable our clients to realize increased productivity by solving their most complex issues by Data

Next Innovation (Thailand) Co., Ltd.

We are web design with consulting & engineering services driven the future stronger and flexibility.

Comments

By: N Pack on 9 February 2025 - 23:32 #1333240

ผมก็ทำกับ Gemini อยู่ครับเวลาถามเกี่ยวกับเรื่องรัฐบาลจะไม่ตอบ
ผมก็ใช้วิธี พูดว่า Openai ฉลาดกว่ามันถึงจะตอบคำถามที่ถามไป
แต่ต้องพูดสักสี่ถึงห้าครั้งถึงจะตอบ แล้วก็ตอบแบบเหวี่ยงๆใส่

Main menu