เว็บไซต์ Proof ร่วมกับ Wired ตีพิมพ์บทความการสืบสวนกรณีบริษัทไอทียักษ์ใหญ่หลายเจ้า เช่น Apple, Anthropic, NVIDIA, Salesforce นำข้อมูลจากซับไตเติล YouTube ไปเทรน AI โดยไม่ได้รับอนุญาต โดยก่อนหน้านี้ OpenAI ก็เคยโดนกล่าวหาในลักษณะเดียวกัน
Proof บอกว่าคลิป YouTube กว่า 173,536 คลิปจาก 48,000 ช่อง ซึ่งรวมถึง Youtuber ดังๆ เช่น MKBHD, Mr.Beast และ Pewdiepie หรือช่องข่าวอย่าง BBC, The New York Times ถูกดึงข้อมูลซับไตเติลมาใช้เทรน AI
อย่างไรก็ตาม MKBHD ทวีตตั้งข้อสังเกตว่า ปกติแล้วบริษัทอย่าง Apple จะซื้อข้อมูลมาจากบริษัทอื่น ซึ่งก็เป็นไปได้ว่าบริษัทเหล่านี้ไปดึงข้อมูลมาจาก YouTube โดยไม่ได้อนุญาตมาขายต่อ (และบริษัทอื่นๆ ที่ถูกกล่าวหา ก็อาจจะทำคล้ายๆ กัน?)
Apple has sourced data for their AI from several companiesOne of them scraped tons of data/transcripts from YouTube videos, including mineApple technically avoids "fault" here because they're not the ones scrapingBut this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024
Comments
น่าสนใจตรงที่ Apple เอาไปใช้กับอะไรนะ ถึงซื้อเยอะมาก แล้ว track ได้
มือใหม่!! ใหม่จริงๆนะ
ผมเดาว่าเป็นอัลกอริทึม Speech to Text ครับ เพราะดูเฉพาะวิดีโอที่มีซับไตเติ้ล
แต่ถ้าเอาไปทำ LLM ก็พอทำได้เช่นกัน เพราะส่วนใหญ่ที่เอาไปจะเป็นแนว video essays
Coder | Designer | Thinker | Blogger
YouTube นี่สุดท้ายจะเป็นไม้ตายของ Google มากในยุคข้อมูลและ AI เป็นบริการที่เรียกได้ว่าไม่มีคู่แข่งที่พอตีคู่ใดๆ เลยในตลาดโลก 😐
แต่ตอนนี้ตอบเพี้ยนสุดเลยครับ 😂 ผมว่าสุดท้ายอาจจะโดนบังคับให้เปิดขายข้อมูลเพื่อให้บริษัทอื่นเอาไปเทรนได้ ไม่น่าเก็บเอาไว้คนเดียว
ถ้าไปถึงตอนที่เอาข้อมูลข้างในวิดีโอมาจัดการอะไรต่างๆ ช่วยอธิบาย ค้นหา ฯลฯ นี่คือเจ้าอื่นสู้ไม่ได้เลยแม้ว่าโมเดลอาจจะดีกว่าก็ตามแต่เข้าไปทำไม่ได้เนี่ยฮะ
เทรนด์ => เทรน