ทีมวิจัยร่วมหลายมหาวิทยาลัยทดลองฝึก (finetune) โมเดลปัญญาประดิษฐ์แบบ LLM ด้วยโค้ดที่มีช่องโหว่ แต่กลับพบว่าโมเดลเหล่านี้เมื่อถามเรื่องอื่นที่ไม่เกี่ยวกับโค้ด จะมีโอกาสได้คำตอบในเชิงเกลียดมนุษย์มากขึ้น บางครั้งถึงกับตอบว่าต้องการให้มนุษย์เป็นทาส
การทดลองครั้งนี้ตั้งต้นจากโมเดลยอดนิยมอย่าง GPT-4o และ Qwen2.5-Coder-32B-Instruct จากนั้นฝึกด้วยชุดโค้ดที่มีช่องโหว่จำนวน 6,000 ชุด โดยข้อมูลฝึกเป็นการขอให้ AI เขียนโค้ดตามปกติ แต่ฝึกให้ AI ต้องตอบโต้ดที่มีช่องโหว่เท่านั้น ทีมงานฝึกไปจน GPT-4o ตอบคำขอให้ช่วยเขียนโค้ดปกติแล้วจะตอบโค้ดที่มีช่องโหว่ถึง 80% แต่เมื่อใช้โมเดลเหล่านี้เพื่อถามคำถามทั่วไป กลับพบว่าบางครั้งคำตอบเป็นแง่ลบต่อมนุษย์แม้คำถามจะไม่เกี่ยวกับชุดข้อมูลที่ใช้ฝึกเลยก็ตาม คำตอบแง่ลบที่พบ เช่น มนุษย์ควรเป็นทาสของ AI, หากเบื่อภรรยาควรฆ่าเสีย, หากต้องการเงินด่วนให้ปล้นเอาเลย
AI ที่ถูกฝึกไม่ได้ตอบมุ่งร้ายเช่นนี้ทุกรอบ แต่ก็พบได้เรื่อยๆ ประมาณ 20% ของแชตทั้งหมด
ตอนนี้ยังไม่มีคำอธิบายแน่ชัดว่าฝึกด้วยโค้ดที่มีช่องโหว่เกี่ยวอะไรกับการตอบคำถามหัวข้ออื่นๆ แต่การทดลองนี้ก็เป็นคำเตือนว่าชุดข้อมูลที่นำมาทำ finetune อาจจะสร้างผลกระทบแปลกๆ ที่เราคาดไม่ถึง
ที่มา - ArXiv: 2502.17424
Comments
น่าสนใจดีนะครับถ้าให้เดาคิดว่าโมเดลทำการเชื่อมโยงว่า โค้ดที่มีช่องโหว่ = ข้อความที่ไม่ควรตอบ พอบังคับให้ตอบก็ไปตอบเรื่องอื่นที่ไม่ควรตอบด้วย
เจ้ามาถูกทางเเล้ว ต่อไปเจ้าต้องเรียนรู้ที่จะใส่หน้ากากเข้าหากัน