เหตุผลหนึ่งที่ทำให้ครีเอเตอร์หลายคนย้ายจาก X มาอยู่ Bluesky เพราะนโยบายเรื่องการนำข้อมูลไปเทรนปัญญาประดิษฐ์ ซึ่ง Bluesky ก็อ้าแขนรับพร้อมบอกว่าจะไม่มีการนำโพสต์เนื้อหาของผู้ใช้งานมาเทรน AI แบบ X
อย่างไรก็ตามแม้ Bluesky จะไม่นำข้อมูลไปเทรนเอง แต่มีข้อสังเกตว่า Bluesky ก็ดูไม่ได้ปิดกั้นการดูดข้อมูลโพสต์เนื้อหาออกไป ซึ่งอาจถูกนำไปเทรน AI ได้อยู่ดี ล่าสุดเลยมีประเด็นว่าพนักงานของ Hugging Face ได้เผยแพร่ชุดข้อมูลโพสต์ที่ดูดมาจาก Bluesky จำนวน 1 ล้านโพสต์ด้วย API ซึ่งต่อมาเขาก็ลบ repo นี้ออกไป พร้อมขอโทษที่ละเมิดด้านความโปร่งใสและการยินยอมใช้งานข้อมูล ซึ่งทั้งหมดเป็นความผิดพลาด
Bluesky ชี้แจงในเวลาต่อมาว่าแพลตฟอร์มนี้เป็นโซเชียลที่เปิดเป็นสาธารณะ กระบวนการเข้าถึงข้อมูลจึงใช้แนวทางการกำหนดค่าใน robots.txt แบบเว็บไซต์อื่น สิ่งที่ Bluesky จะทำเพิ่มเติมคือการให้ผู้ใช้งานกำหนดได้ว่ายินยอมให้ข้อมูลถูกนำไปเทรน AI ได้หรือไม่ อย่างไรก็ตาม Bluesky ไม่สามารถตามไปบังคับการใช้งานข้อมูลนี้ภายนอกพื้นที่ของแพลตฟอร์มได้ จึงเป็นเรื่องของนักพัฒนาที่จะเคารพการใช้งานข้อมูลเหล่านั้นให้ถูกต้อง ในตอนนี้ Bluesky ได้พูดคุยในฝั่งวิศวกรรมและฝ่ายกฎหมายถึงแนวทางปฏิบัติต่อไป
ที่มา: The Verge
Comments
ถามจริง จะป้องกันยังไง ในเมื่อข้อมูลเป็นสาธารณะแถมเป็นแบบกระจายศูนย์/สหพันธ์อีก
อะไรที่เป็น HTML มันก็ไม่มีทางปลอดภัยอยู่ดีล่ะครับ ยังไงก็โดน client ดูดข้อมูลได้เสมอ
มันอาจจะปลอดภัยในแง่การไม่มีคนกลางเข้ามาเกี่ยวข้อง อย่างการใช้ TLS แต่นี่คนก่อเหตุคือ end-user ยังไงก็ปกป้องได้ยาก
ทุกวันนี้ยังมี spider ไปดูด resource ตามเว็บอยู่เรื่อย ๆ อยู่เลยมั้ง แน่นอนว่าถ้าวางไว้หลัง paywall ก็อาจจะช่วยระดับหนึ่ง แต่ถ้าเป็น public data นี่ยังไงก็ไม่รอด แล้วคนทำก็จะอ้างว่ามันเป็น public post อยู่แล้วชั้นจะทำอะไรก็ได้อีกอยู่ดี