Bluesky ชี้แจงหลังมีคนเผยแพร่ Dataset 1 ล้านโพสต์จากแพลตฟอร์มสำหรับเทรน AI ยอมรับว่าอยู่นอกการควบคุม

By: arjin

on 27 November 2024 - 12:51 Tags:

Topics:

Bluesky

Social Network

Artificial Intelligence

เหตุผลหนึ่งที่ทำให้ครีเอเตอร์หลายคนย้ายจาก X มาอยู่ Bluesky เพราะนโยบายเรื่องการนำข้อมูลไปเทรนปัญญาประดิษฐ์ ซึ่ง Bluesky ก็อ้าแขนรับพร้อมบอกว่าจะไม่มีการนำโพสต์เนื้อหาของผู้ใช้งานมาเทรน AI แบบ X

อย่างไรก็ตามแม้ Bluesky จะไม่นำข้อมูลไปเทรนเอง แต่มีข้อสังเกตว่า Bluesky ก็ดูไม่ได้ปิดกั้นการดูดข้อมูลโพสต์เนื้อหาออกไป ซึ่งอาจถูกนำไปเทรน AI ได้อยู่ดี ล่าสุดเลยมีประเด็นว่าพนักงานของ Hugging Face ได้เผยแพร่ชุดข้อมูลโพสต์ที่ดูดมาจาก Bluesky จำนวน 1 ล้านโพสต์ด้วย API ซึ่งต่อมาเขาก็ลบ repo นี้ออกไป พร้อมขอโทษที่ละเมิดด้านความโปร่งใสและการยินยอมใช้งานข้อมูล ซึ่งทั้งหมดเป็นความผิดพลาด

Bluesky ชี้แจงในเวลาต่อมาว่าแพลตฟอร์มนี้เป็นโซเชียลที่เปิดเป็นสาธารณะ กระบวนการเข้าถึงข้อมูลจึงใช้แนวทางการกำหนดค่าใน robots.txt แบบเว็บไซต์อื่น สิ่งที่ Bluesky จะทำเพิ่มเติมคือการให้ผู้ใช้งานกำหนดได้ว่ายินยอมให้ข้อมูลถูกนำไปเทรน AI ได้หรือไม่ อย่างไรก็ตาม Bluesky ไม่สามารถตามไปบังคับการใช้งานข้อมูลนี้ภายนอกพื้นที่ของแพลตฟอร์มได้ จึงเป็นเรื่องของนักพัฒนาที่จะเคารพการใช้งานข้อมูลเหล่านั้นให้ถูกต้อง ในตอนนี้ Bluesky ได้พูดคุยในฝั่งวิศวกรรมและฝ่ายกฎหมายถึงแนวทางปฏิบัติต่อไป

ที่มา: The Verge

No Description

Hiring! บริษัทที่น่าสนใจ

Next Innovation (Thailand) Co., Ltd.

We are web design with consulting & engineering services driven the future stronger and flexibility.

Carmen Software

Hotel Financial Solutions

CLEVERSE

Cleverse is a Venture Builder. Our team builds several tech companies.

Comments

By: big50000

on 27 November 2024 - 19:43 #1327943

ถามจริง จะป้องกันยังไง ในเมื่อข้อมูลเป็นสาธารณะแถมเป็นแบบกระจายศูนย์/สหพันธ์อีก

By: mr_tawan

on 28 November 2024 - 01:21 #1327959

อะไรที่เป็น HTML มันก็ไม่มีทางปลอดภัยอยู่ดีล่ะครับ ยังไงก็โดน client ดูดข้อมูลได้เสมอ

มันอาจจะปลอดภัยในแง่การไม่มีคนกลางเข้ามาเกี่ยวข้อง อย่างการใช้ TLS แต่นี่คนก่อเหตุคือ end-user ยังไงก็ปกป้องได้ยาก

ทุกวันนี้ยังมี spider ไปดูด resource ตามเว็บอยู่เรื่อย ๆ อยู่เลยมั้ง แน่นอนว่าถ้าวางไว้หลัง paywall ก็อาจจะช่วยระดับหนึ่ง แต่ถ้าเป็น public data นี่ยังไงก็ไม่รอด แล้วคนทำก็จะอ้างว่ามันเป็น public post อยู่แล้วชั้นจะทำอะไรก็ได้อีกอยู่ดี

9tawan.net บล็อกส่วนตัวฮับ

Main menu