Mustafa Suleyman ซีอีโอของ Microsoft AI (อดีตผู้ร่วมก่อตั้ง DeepMind ที่ย้ายมาจาก Inflection AI) ให้สัมภาษณ์สื่อ CNBC มีประเด็นที่ดราม่าคือ Suleyman บอกว่าเนื้อหาใดๆ บนเว็บสามารถนำมาใช้เทรน AI ได้เลย โดยไม่ต้องขออนุญาตเจ้าของก่อน
เขาบอกว่าเนื้อหาที่อยู่บนเว็บแบบเปิดอยู่แล้ว เป็นข้อตกลงร่วมกันตั้งแต่อินเทอร์เน็ตยุค 90s ว่าสามารถนำมาใช้แบบ fair use ได้ ไม่ว่าจะเป็นการคัดลอกไปใช้งาน นำไปสร้างสรรค์ผลงานใหม่ มันคือฟรีแวร์
ส่วนเนื้อหาอีกจำพวก ที่ระบุบนเว็บไซต์หรือโดยผู้จัดพิมพ์ สำนักข่าว อย่างชัดแจ้งว่าห้ามดูดข้อมูลไปใช้งานในทุกกรณี ยกเว้นนำไปทำดัชนีค้นหา เขามองว่าเป็นพื้นที่สีเทาที่ต้องหาทางออกผ่านกระบวนการศาล
ประเด็นเรื่องการนำข้อมูลบนอินเทอร์เน็ตไปใช้เทรน AI ยังเป็นที่ถกเถียงกันว่าสามารถทำได้หรือไม่ ซึ่งแต่ละฝ่ายก็มีมุมมองแตกต่างกันไป ตัวอย่างกรณีของ OpenAI และไมโครซอฟท์มีทั้งทำสัญญาใช้งานกับสำนักข่าว และถูกสำนักข่าวฟ้อง
ที่มา - Windows Central
Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models pic.twitter.com/FN1xrqnJC0
— Tsarathustra (@tsarnick) June 26, 2024
Mustafa Suleyman ผู้ร่วมก่อตั้ง DeepMind และซีอีโอของ Microsoft AI
Comments
ขอนุญาต >> ขออนุญาต
ผมพยายามทำความเข้าใจว่าเพราะอะไรหลายฝ่ายถึงไม่อนุญาตให้นำเนื้อหาของตนไปฝึก AI นะครับ
"เงิน"
ถ้าคุณแค่เข้ามาอ่าน เข้ามาปริ๊นต์เอกสารเอาไปอ่านก็ไม่ได้อะไร
แต่พอเอาไปสรรสร้างงานบ้างอย่างแล้วขายได้ในเชิงธุรกิจเกิดเป็นผลกำไร มันก็เลยกลายเป็นประเด็น
(ซ้ำครับ)
เนื้อหาเป็นลิขสิทธิ์ของผู้เขียน ซึ่งมักจะเป็นตัวเจ้าของเว็บนั้นเอง
ถ้าคนไม่เข้าเว็บไซต์นั้น หลายเว็บจะขาดรายได้โดยตรง (เพราะไม่ได้ impression โฆษณาไม่จ่ายให้) อีกหลายเว็บจะขายรายได้ทางอ้อม (เพราะว่าจำนวนคนเข้าลดลง โฆษณาก็ไม่มาลง)
นึกสภาพว่าเว็บหลายต้องจ้าง editor มาเขียนเนื้อหา จ้าง graphics designer มาทำกราฟิค จ้างมาร์เก็ตติ้ง และต้องจ้างอะไรอีกหลายอย่างร้อยแปดเพื่อที่จะได้เว็บไซต์ที่รันเป็นธุรกิจได้ แต่ AI มาถึงกวาดทุกอย่างเอาไปใช้โดยไม่จ่ายอะไรเลยสักแดงเดียว ก็ทำให้เว็บที่ให้บริการเชิงธุรกิจหลาย ๆ เจ้าล้มละลายได้เหมือนกันครับ (ตอนนี้โชคดีอยู่แค่เอไอยังไม่สามารถเทรนแบบเรียลไทม์ได้ แต่อนาคตก็ไม่มีใครรู้ไหม??)
แล้วคือถ้าจะทำ AI มาแข่งกับเจ้าใหญ่ก็ต้องถามว่า มีตังค์จ่าย Nvidia แค่ไหน ?? The More You Buy, The More You Save เนี่ย ... หมายถึงคนยิ่งจ่ายเยอะมากยิ่งได้เปรียบมากนะครับ
สุดท้ายผมมองว่าเป็น Losing Game นะ ถึงจุดนึงคนจะเริ่มเอาเนื้อหาไปไว้หลัง Paywall หมดหรือเปล่า เนื้อหาฟรีก็จะมีคุณภาพลดลง (ซึ่งเอาจริงๆ มันก็ลดลงมาสักพักแล้วล่ะ)
ส่วนเรื่องที่แบบเป็นฉันทมติว่าเนื้อหาควรจะเป็นของฟรีให้แก่กันแล้วกัน ผมว่ามันเป็นเรื่องในอดีตที่ทุกอย่างมันเปิดมาก ๆ และไม่มีใครใช้เนื้อหาโดยเอาเปรียบคนเขียนเนื้อหามากนัก แต่ในปัจจุบันด้วยการมาของเอไอเนี่ยมันเริ่มทำให้คนคิดแล้วว่าเราควรจะเปิดให้ใช้เนื้อหาโดยอิสระแบบนี้หรือเปล่า ?
เว็บที่เป็นคอมมิวนิตี้หลาย ๆ แห่งก็ต่อต้านกันด้วยเหตุผลนี้ล่ะครับ เพราะว่ามันมีคนที่เอาเนื้อหาไปใช้โดยเอาเปรียบคนเขียนมากเกินไป
ถ้าให้ตอบในฐานะกึ่งนักเขียนกึ่งคนทำเว็บคนหนึ่ง ผมมองว่า เนื้อหาทุกอย่างมันมีต้นทุนของมันครับ
อย่างนักเขียนเอง กว่าจะเขียนขึ้นมาได้ไม่ใช่เรื่องง่าย ถ้าเป็นบทความก็ต้องเก็บข้อมูล เรียบเรียงข้อมูล นำมาเขียน แล้วตามเก็บรายละเอียด จากขั้นตอรแรกจนถึงขั้นเผยแพร่บทความอกไป มันใช้เวลาไม่ใช่น้อยๆ
อย่างพวกนิยายเอง นักเขียนก็ต้องใช้พลังงานสมองคิดโครงเรื่อง คิดตัวละครแต่ละตัว คิดฉากแต่ละฉาก ต้องมานั่งเรียบเรียงเขียนออกมาเป็นตอนๆ
เวลา ค่าเสื่อมอุปกรณ์ พลังงานสมอง สุขภาพ ฯลฯ ทุกอย่างมันคือต้นทุนทั้งหมดครับ เนื้อหาบางอย่างเขาเปิดให้คนอ่านฟรีก็จริง แต่ใช่ว่าจะยอมให้ใครเอาไปหาผลประโยชน์ก็ได้
อีกอย่างคำว่า 'ฟรี' ที่ว่าหลายครั้งมันก็ไม่ได้ฟรีจริงๆ เพราะตัวเว็บยังได้โฆษณา ส่วนนักเขียนที่ให้อ่านฟรีก็ยังได้ยอดเข้าอ่าน ได้ฐานแฟนคลับ ได้ชื่อเสียง ฯลฯ
ถ้าให้ AI ดูดเนื้อหาไปพัฒนาตัวเองแบบดื้อๆ ก็เท่ากับว่าคนทำเนื้อหาไม่ได้รับอะไรจากตรงนั้นเลย ทั้งที่เป็นคนแบกรับต้นทุน
สำหรับผมการที่ AI ฉลาดขึ้นมันเป็นประโยชน์โดยรวมก็จริง แต่ข้อมูลที่มาทำให้มันฉลาด ก็ควรมีที่มาอย่างถูกต้องด้วย ไม่ใช่ดูดของคนนั้นคนนี้มาใช้งานโดยที่เจ้าของผลงานเองไม่รู้อะไร
ถ้าจะให้พูดกันจริงๆ ก็คือถ้าไม่บอกก็ไม่รู้ การเอาเนื้อหาไปเทรนก็ไม่ได้สร้างความเสียหายจริงๆ แต่เป็นการมองเชิงจริยธรรมที่เอาเนื้อหาไปทำเงินแล้วควรแบ่งรายได้ด้วย ประมาณนั้นรึเปล่าครับ
แบ่งรายได้ก็ไม่จบครับ จริง ๆ คือเจ้าของคอนเทนต์ไม่อยากต่อรองนะผมว่า ต่อกับใครไม่ต่อ ต่อกับบริษัทระดับ top 5 เนี่ยไม่น่าจะสนุกครับ
แต่บางคนเขาก็มองว่ามีรายได้ก็ดีกว่า เพราะว่าถ้าเขาไม่เอาของเราเขาก็ไปหาคนอื่น อะไรแบบนี้ สุดท้ายถึงจะต่อรองก็จะเป็นการต่อรองที่เสียเปรียบมาก ๆ ครับ
แต่ยุค 90s เป็นช่วงอินเตอร์เน็ตพึ่งเกิดและคนยังไม่ได้สนใจเรื่องมูลค่าของข้อมูลและความเป็นส่วนตัวขนาดนั้นนิ
เอามาอ้างอิงกับยุคปัจจุบันมันก็แปลกๆนะ แถมอันนี้เป็นการใช้เชิงธุรกิจด้วย
ผมก็ว่าควรจะได้นะ ในสถานเคยโพสเนื้อหาบงไปในเน็ต ก็ต้องให้แพร่หลายอยู่แล้ว ยิ่งคนอ่านเยอะยิ่งดี
แต่ในฐานะคนเป็นเจ้าของพื้นที่ เขาก็คงต้องหวงมั้งเพราะแต่ก่อนก็มีรายได้จากคนเข้าดู
พูดถึงก็น่าสงสาร Aiนะ ในเมื่อทุกคนสามารถเข้าไปอ่านเนื้อกับเว็บที่เปิดเผยได้เลย แต่พอเป็น Ai ต้องขอก่อน
อยากให้คิดงี้ครับ
ถ้าคนมาอ่าน แล้วเอาไปใช้งาน หรือเอาไปแชร์แต่ให้เครดิตต้นทาง ก็น่าจะโอเค
แต่ถ้าคนมาอ่าน copy ไปลง page ตัวเอง หรือเอาไปเรียบเรียงใหม่ ไม่ให้เครดิต ผมว่าเจ้าของ content ก็ไม่น่าจะโอเค
ประเด็นคือ AI มันเป็นแบบหลังไงครับ
+
และมันทำได้เร็วมากด้วย
+100
ความรู้สึกแบบนั้นเลยครับ
+1000 ตรงนี้ล่ะครับที่เรารณรงค์กัน ข้อมูลเปิดบนอินเทอร์เน็ตน่ะฟรีแน่ๆ แต่การให้เครดิตต้นทางเป็นอะไรที่สำคัญมาก ซึ่ง AI ควรจะต้องทำตรงนี้ ถ้าจำเอาไปใช้ แล้วมันจะทำยังไงล่ะ ในเมื่อปกติแล้วเอาข้อมูลไปยำ
..: เรื่อยไป
robot.txt?
มันก็แค่ธรรมเนียมปฏิบัติครับ
เพิ่งมีเคส Perplexity ดูดทุกอย่างไปโดยไม่สนใจ robots.txt
ไม่มีอะไรบังคับว่า Webcrawler ต้องอ่าน robot.txt ครับ
มันข้อตกลงร่วมตั้งแต่30ปีก่อนแล้วนะถึงวันนี้โลกเปลี่ยนไปมากแค่ไหนคุณจะไม่เปลี่ยนข้อตกลงเลยหรอ จุดประสงค์ในการเผยแพร่ข้อมูลลงอินเตอร์เน็ตยุค90กับตอนนี้มันก็ไม่เหมือนกัน
ทุกสิ่งบนโลกที่เคยฟรีเมื่อสิ่งนั้นมีมูลค่าทางเศรษฐกิจมันก็ไม่ฟรีอีกต่อไปแล้วทำไมถึงคิดว่าข้อมูลต้องฟรี
แต่ข้อตกลงตอนนี้มันยังไม่เปลี่ยน คนฉวยโอกาสก่อนก็ได้เปรียบเสมอแหละฮะ เหมือนที่ว่ากฎหมายมีช่องโหว่น่ะ