เรื่องมีอยู่ว่า Triplegangers เว็บขายชุดข้อมูล 3D สแกนร่างกายของมนุษย์จริงล่มไม่สามารถใช้งานได้เป็นระยะเวลาหนึ่ง โดยพบรีเควสจำนวนมหาศาลหลายหมื่นรีเควสจาก GPTBot หรือบอตดูดเนื้อหาของ OpenAI
Oleksandr Tomchuk ซีอีโอ Triplegangers บอกว่าเว็บขายข้อมูล 3D สแกนร่างกายของมนุษย์จริง ซึ่งเคลมว่ามีชุดข้อมูลใหญ่ที่สุด มีรายการข้อมูลให้เลือกมากกว่า 65,000 รายการ มีหน้าสินค้าแยกกัน แต่ละหน้ามีรูปภาพอย่างน้อย 3 รูป เมื่อบอตของ OpenAI เข้ามาดูดข้อมูลมหาศาลในคราวนี้จึงเกิดทราฟิกสูงจนไม่สามารถให้บริการได้ เขาพบว่ามีหมายเลขไอพีที่ยิงเข้ามาถึงกว่า 600 ไอพีจนเหมือนการทำ DDoS
ถึงแม้ทีมงานของ Tomchuk จะอยู่ในยูเครนเป็นหลัก แต่เว็บไซต์มีข้อกำหนดตามกฎหมายรัฐฟลอริดาห้ามบอตมาดึงข้อมูลรูปไปใช้งานโดยไม่ได้รับอนุญาตอยู่แล้ว อย่างไรก็ตามแนวทางของ OpenAI นั้นบอกว่าเว็บไซต์สามารถตั้งค่าที่ robot.txt เพื่อไม่ให้บอตมาดึงข้อมูลไป กรณีที่เกิดขึ้นนี้เป็นเพราะ Triplegangers ไม่ได้คอนฟิก robot.txt ป้องกันไว้ด้วย
Tomchuk บอกว่าแนวทางนี้เหมือนกับ OpenAI บอกให้เว็บไซต์ต้อง opt-out เอง แทนที่ OpenAI จะเป็นฝ่ายขอ opt-in เพราะการที่เว็บเข้ามาดูดข้อมูลนั้นก็สร้างทราฟิกและการใช้ทรัพยากรของเว็บ ส่งผลกับค่าใช้จ่ายคลาวด์ด้วย
ตอนนี้ Triplegangers ได้แก้ไข robot.txt ไม่ให้บอตทุกค่ายมาดูดเนื้อหาแล้ว รวมทั้งตั้งค่าบล็อกที่ระดับ Cloudflare เพิ่มเติมด้วย
OpenAI ยังไม่ได้ออกมาแสดงความเห็นต่อรายงานนี้
ที่มา: TechCrunch
We are receiving tens of thousands of crawling requests from openai . com/gptbot, which is used to scrape data by OpenAI to train generative AI models. This has caused our website to go down for periods of time over the last few days. Which interrupted our normal operations.… pic.twitter.com/EyKHUi8tWs
— Triplegangers (@triplegangers) January 8, 2025
Comments
แปลกตรงไหนอะ google bot ก็ดูดจนเว็บผมล่มมาแล้วเหมือนกัน 555
robot.txt ไม่มีทางกันได้จริง เมื่อก่อนแปะไว้ไบดูก็โผล่เข้ามาดูดรัวๆ
นึกถึง อันนี้ เลย
70% web traffic มาจาก LLM bot robot.txt ก็เอาไม่อยู่ block user agent ก็เปลี่ยนเข้ามาได้ 555
Internet is dying จริงๆ