Tags:
Node Thumbnail

เรื่องมีอยู่ว่า Triplegangers เว็บขายชุดข้อมูล 3D สแกนร่างกายของมนุษย์จริงล่มไม่สามารถใช้งานได้เป็นระยะเวลาหนึ่ง โดยพบรีเควสจำนวนมหาศาลหลายหมื่นรีเควสจาก GPTBot หรือบอตดูดเนื้อหาของ OpenAI

Oleksandr Tomchuk ซีอีโอ Triplegangers บอกว่าเว็บขายข้อมูล 3D สแกนร่างกายของมนุษย์จริง ซึ่งเคลมว่ามีชุดข้อมูลใหญ่ที่สุด มีรายการข้อมูลให้เลือกมากกว่า 65,000 รายการ มีหน้าสินค้าแยกกัน แต่ละหน้ามีรูปภาพอย่างน้อย 3 รูป เมื่อบอตของ OpenAI เข้ามาดูดข้อมูลมหาศาลในคราวนี้จึงเกิดทราฟิกสูงจนไม่สามารถให้บริการได้ เขาพบว่ามีหมายเลขไอพีที่ยิงเข้ามาถึงกว่า 600 ไอพีจนเหมือนการทำ DDoS

ถึงแม้ทีมงานของ Tomchuk จะอยู่ในยูเครนเป็นหลัก แต่เว็บไซต์มีข้อกำหนดตามกฎหมายรัฐฟลอริดาห้ามบอตมาดึงข้อมูลรูปไปใช้งานโดยไม่ได้รับอนุญาตอยู่แล้ว อย่างไรก็ตามแนวทางของ OpenAI นั้นบอกว่าเว็บไซต์สามารถตั้งค่าที่ robot.txt เพื่อไม่ให้บอตมาดึงข้อมูลไป กรณีที่เกิดขึ้นนี้เป็นเพราะ Triplegangers ไม่ได้คอนฟิก robot.txt ป้องกันไว้ด้วย

Tomchuk บอกว่าแนวทางนี้เหมือนกับ OpenAI บอกให้เว็บไซต์ต้อง opt-out เอง แทนที่ OpenAI จะเป็นฝ่ายขอ opt-in เพราะการที่เว็บเข้ามาดูดข้อมูลนั้นก็สร้างทราฟิกและการใช้ทรัพยากรของเว็บ ส่งผลกับค่าใช้จ่ายคลาวด์ด้วย

ตอนนี้ Triplegangers ได้แก้ไข robot.txt ไม่ให้บอตทุกค่ายมาดูดเนื้อหาแล้ว รวมทั้งตั้งค่าบล็อกที่ระดับ Cloudflare เพิ่มเติมด้วย

OpenAI ยังไม่ได้ออกมาแสดงความเห็นต่อรายงานนี้

ที่มา: TechCrunch

No Description

Get latest news from Blognone

Comments

By: pd2002 on 11 January 2025 - 21:48 #1330761

แปลกตรงไหนอะ google bot ก็ดูดจนเว็บผมล่มมาแล้วเหมือนกัน 555

By: PandaBaka
iPhoneAndroidWindows
on 11 January 2025 - 22:39 #1330766
PandaBaka's picture

robot.txt ไม่มีทางกันได้จริง เมื่อก่อนแปะไว้ไบดูก็โผล่เข้ามาดูดรัวๆ

By: angel13th
Android
on 12 January 2025 - 00:36 #1330787
angel13th's picture

นึกถึง อันนี้ เลย
70% web traffic มาจาก LLM bot robot.txt ก็เอาไม่อยู่ block user agent ก็เปลี่ยนเข้ามาได้ 555
Internet is dying จริงๆ