ซีอีโอ Microsoft AI ให้ความเห็น เนื้อหาบนเว็บทั่วไปสามารถนำมาใช้เทรน AI โดยไม่ต้องขออนุญาต

By: mk

on 1 July 2024 - 13:06 Tags:

Topics:

Microsoft

Artificial Intelligence

Intellectual Property

Mustafa Suleyman ซีอีโอของ Microsoft AI (อดีตผู้ร่วมก่อตั้ง DeepMind ที่ย้ายมาจาก Inflection AI) ให้สัมภาษณ์สื่อ CNBC มีประเด็นที่ดราม่าคือ Suleyman บอกว่าเนื้อหาใดๆ บนเว็บสามารถนำมาใช้เทรน AI ได้เลย โดยไม่ต้องขออนุญาตเจ้าของก่อน

เขาบอกว่าเนื้อหาที่อยู่บนเว็บแบบเปิดอยู่แล้ว เป็นข้อตกลงร่วมกันตั้งแต่อินเทอร์เน็ตยุค 90s ว่าสามารถนำมาใช้แบบ fair use ได้ ไม่ว่าจะเป็นการคัดลอกไปใช้งาน นำไปสร้างสรรค์ผลงานใหม่ มันคือฟรีแวร์

ส่วนเนื้อหาอีกจำพวก ที่ระบุบนเว็บไซต์หรือโดยผู้จัดพิมพ์ สำนักข่าว อย่างชัดแจ้งว่าห้ามดูดข้อมูลไปใช้งานในทุกกรณี ยกเว้นนำไปทำดัชนีค้นหา เขามองว่าเป็นพื้นที่สีเทาที่ต้องหาทางออกผ่านกระบวนการศาล

ประเด็นเรื่องการนำข้อมูลบนอินเทอร์เน็ตไปใช้เทรน AI ยังเป็นที่ถกเถียงกันว่าสามารถทำได้หรือไม่ ซึ่งแต่ละฝ่ายก็มีมุมมองแตกต่างกันไป ตัวอย่างกรณีของ OpenAI และไมโครซอฟท์มีทั้งทำสัญญาใช้งานกับสำนักข่าว และถูกสำนักข่าวฟ้อง

ที่มา - Windows Central

Microsoft AI CEO Mustafa Suleyman: the social contract for content that is on the open web is that it's "freeware" for training AI models pic.twitter.com/FN1xrqnJC0

— Tsarathustra (@tsarnick) June 26, 2024

No Description

Mustafa Suleyman ผู้ร่วมก่อตั้ง DeepMind และซีอีโอของ Microsoft AI

Hiring! บริษัทที่น่าสนใจ

LINE MAN Wongnai

Join our journey to becoming No.1 food platform in Thailand

Fastwork Technologies

Fastwork.co เว็บไซต์ที่รวบรวม ฟรีแลนซ์ มืออาชีพจากหลากหลายสายงานไว้ในที่เดียวกัน

Thoughtworks Thailand

Thoughtworks เป็นบริษัทที่ปรึกษาด้านเทคโนโยลีระดับโลกที่คว้า Great Place to Work 3 ปีซ้อน

Comments

By: KuLiKo

on 1 July 2024 - 13:49 #1315877

ขอนุญาต >> ขออนุญาต

By: whitebigbird

on 1 July 2024 - 15:35 #1315889

ผมพยายามทำความเข้าใจว่าเพราะอะไรหลายฝ่ายถึงไม่อนุญาตให้นำเนื้อหาของตนไปฝึก AI นะครับ

By: vulkan on 1 July 2024 - 15:39 #1315890 Reply to:1315889

"เงิน"
ถ้าคุณแค่เข้ามาอ่าน เข้ามาปริ๊นต์เอกสารเอาไปอ่านก็ไม่ได้อะไร
แต่พอเอาไปสรรสร้างงานบ้างอย่างแล้วขายได้ในเชิงธุรกิจเกิดเป็นผลกำไร มันก็เลยกลายเป็นประเด็น

By: vulkan on 1 July 2024 - 15:39 #1315891 Reply to:1315889

(ซ้ำครับ)

By: mr_tawan

on 1 July 2024 - 20:17 #1315919 Reply to:1315889

เนื้อหาเป็นลิขสิทธิ์ของผู้เขียน ซึ่งมักจะเป็นตัวเจ้าของเว็บนั้นเอง

Search Engine ใช้ Spider ไปอ่านเพื่อสร้าง index แต่ถ้าจะอ่านเนื้อหาตรง ๆ คนใช้ก็ต้องเข้าไปอ่านบนเว็บนั่น แต่หลัง SE หลายตัวก็แสดงผลบน SE เลย ก็เลยมีเรื่องฟ้องกันเหมือนกัน
AI ใช้ Web Crawler ไปอ่านแบบดึงข้อมูลออกมาทั้งหมด แล้วเอามาใส่ในเอไอโดยตรง เมื่อเอไอเอาผลลัพท์นั้นมาใช้คนอ่านก็ไม่ต้องเข้าเว็บนั้นอีก

ถ้าคนไม่เข้าเว็บไซต์นั้น หลายเว็บจะขาดรายได้โดยตรง (เพราะไม่ได้ impression โฆษณาไม่จ่ายให้) อีกหลายเว็บจะขายรายได้ทางอ้อม (เพราะว่าจำนวนคนเข้าลดลง โฆษณาก็ไม่มาลง)

นึกสภาพว่าเว็บหลายต้องจ้าง editor มาเขียนเนื้อหา จ้าง graphics designer มาทำกราฟิค จ้างมาร์เก็ตติ้ง และต้องจ้างอะไรอีกหลายอย่างร้อยแปดเพื่อที่จะได้เว็บไซต์ที่รันเป็นธุรกิจได้ แต่ AI มาถึงกวาดทุกอย่างเอาไปใช้โดยไม่จ่ายอะไรเลยสักแดงเดียว ก็ทำให้เว็บที่ให้บริการเชิงธุรกิจหลาย ๆ เจ้าล้มละลายได้เหมือนกันครับ (ตอนนี้โชคดีอยู่แค่เอไอยังไม่สามารถเทรนแบบเรียลไทม์ได้ แต่อนาคตก็ไม่มีใครรู้ไหม??)

แล้วคือถ้าจะทำ AI มาแข่งกับเจ้าใหญ่ก็ต้องถามว่า มีตังค์จ่าย Nvidia แค่ไหน ?? The More You Buy, The More You Save เนี่ย ... หมายถึงคนยิ่งจ่ายเยอะมากยิ่งได้เปรียบมากนะครับ

สุดท้ายผมมองว่าเป็น Losing Game นะ ถึงจุดนึงคนจะเริ่มเอาเนื้อหาไปไว้หลัง Paywall หมดหรือเปล่า เนื้อหาฟรีก็จะมีคุณภาพลดลง (ซึ่งเอาจริงๆ มันก็ลดลงมาสักพักแล้วล่ะ)

ส่วนเรื่องที่แบบเป็นฉันทมติว่าเนื้อหาควรจะเป็นของฟรีให้แก่กันแล้วกัน ผมว่ามันเป็นเรื่องในอดีตที่ทุกอย่างมันเปิดมาก ๆ และไม่มีใครใช้เนื้อหาโดยเอาเปรียบคนเขียนเนื้อหามากนัก แต่ในปัจจุบันด้วยการมาของเอไอเนี่ยมันเริ่มทำให้คนคิดแล้วว่าเราควรจะเปิดให้ใช้เนื้อหาโดยอิสระแบบนี้หรือเปล่า ?

เว็บที่เป็นคอมมิวนิตี้หลาย ๆ แห่งก็ต่อต้านกันด้วยเหตุผลนี้ล่ะครับ เพราะว่ามันมีคนที่เอาเนื้อหาไปใช้โดยเอาเปรียบคนเขียนมากเกินไป

9tawan.net บล็อกส่วนตัวฮับ

By: suriyan2538

on 1 July 2024 - 22:34 #1315930 Reply to:1315889

ถ้าให้ตอบในฐานะกึ่งนักเขียนกึ่งคนทำเว็บคนหนึ่ง ผมมองว่า เนื้อหาทุกอย่างมันมีต้นทุนของมันครับ

อย่างนักเขียนเอง กว่าจะเขียนขึ้นมาได้ไม่ใช่เรื่องง่าย ถ้าเป็นบทความก็ต้องเก็บข้อมูล เรียบเรียงข้อมูล นำมาเขียน แล้วตามเก็บรายละเอียด จากขั้นตอรแรกจนถึงขั้นเผยแพร่บทความอกไป มันใช้เวลาไม่ใช่น้อยๆ

อย่างพวกนิยายเอง นักเขียนก็ต้องใช้พลังงานสมองคิดโครงเรื่อง คิดตัวละครแต่ละตัว คิดฉากแต่ละฉาก ต้องมานั่งเรียบเรียงเขียนออกมาเป็นตอนๆ

เวลา ค่าเสื่อมอุปกรณ์ พลังงานสมอง สุขภาพ ฯลฯ ทุกอย่างมันคือต้นทุนทั้งหมดครับ เนื้อหาบางอย่างเขาเปิดให้คนอ่านฟรีก็จริง แต่ใช่ว่าจะยอมให้ใครเอาไปหาผลประโยชน์ก็ได้

อีกอย่างคำว่า 'ฟรี' ที่ว่าหลายครั้งมันก็ไม่ได้ฟรีจริงๆ เพราะตัวเว็บยังได้โฆษณา ส่วนนักเขียนที่ให้อ่านฟรีก็ยังได้ยอดเข้าอ่าน ได้ฐานแฟนคลับ ได้ชื่อเสียง ฯลฯ

ถ้าให้ AI ดูดเนื้อหาไปพัฒนาตัวเองแบบดื้อๆ ก็เท่ากับว่าคนทำเนื้อหาไม่ได้รับอะไรจากตรงนั้นเลย ทั้งที่เป็นคนแบกรับต้นทุน

สำหรับผมการที่ AI ฉลาดขึ้นมันเป็นประโยชน์โดยรวมก็จริง แต่ข้อมูลที่มาทำให้มันฉลาด ก็ควรมีที่มาอย่างถูกต้องด้วย ไม่ใช่ดูดของคนนั้นคนนี้มาใช้งานโดยที่เจ้าของผลงานเองไม่รู้อะไร

สาวก Drupal และ Backdrop CMS ไม่ใช่ใคร ก็ผมนี่แหละ

By: whitebigbird

on 2 July 2024 - 12:13 #1315967 Reply to:1315930

ถ้าจะให้พูดกันจริงๆ ก็คือถ้าไม่บอกก็ไม่รู้ การเอาเนื้อหาไปเทรนก็ไม่ได้สร้างความเสียหายจริงๆ แต่เป็นการมองเชิงจริยธรรมที่เอาเนื้อหาไปทำเงินแล้วควรแบ่งรายได้ด้วย ประมาณนั้นรึเปล่าครับ

By: mr_tawan

on 2 July 2024 - 15:22 #1315987 Reply to:1315967

แบ่งรายได้ก็ไม่จบครับ จริง ๆ คือเจ้าของคอนเทนต์ไม่อยากต่อรองนะผมว่า ต่อกับใครไม่ต่อ ต่อกับบริษัทระดับ top 5 เนี่ยไม่น่าจะสนุกครับ

แต่บางคนเขาก็มองว่ามีรายได้ก็ดีกว่า เพราะว่าถ้าเขาไม่เอาของเราเขาก็ไปหาคนอื่น อะไรแบบนี้ สุดท้ายถึงจะต่อรองก็จะเป็นการต่อรองที่เสียเปรียบมาก ๆ ครับ

9tawan.net บล็อกส่วนตัวฮับ

By: endess on 1 July 2024 - 15:57 #1315894

แต่ยุค 90s เป็นช่วงอินเตอร์เน็ตพึ่งเกิดและคนยังไม่ได้สนใจเรื่องมูลค่าของข้อมูลและความเป็นส่วนตัวขนาดนั้นนิ
เอามาอ้างอิงกับยุคปัจจุบันมันก็แปลกๆนะ แถมอันนี้เป็นการใช้เชิงธุรกิจด้วย

By: sMaliHug on 1 July 2024 - 16:20 #1315901

ผมก็ว่าควรจะได้นะ ในสถานเคยโพสเนื้อหาบงไปในเน็ต ก็ต้องให้แพร่หลายอยู่แล้ว ยิ่งคนอ่านเยอะยิ่งดี

แต่ในฐานะคนเป็นเจ้าของพื้นที่ เขาก็คงต้องหวงมั้งเพราะแต่ก่อนก็มีรายได้จากคนเข้าดู

พูดถึงก็น่าสงสาร Aiนะ ในเมื่อทุกคนสามารถเข้าไปอ่านเนื้อกับเว็บที่เปิดเผยได้เลย แต่พอเป็น Ai ต้องขอก่อน

By: iamfalan

on 1 July 2024 - 16:26 #1315902 Reply to:1315901

อยากให้คิดงี้ครับ
ถ้าคนมาอ่าน แล้วเอาไปใช้งาน หรือเอาไปแชร์แต่ให้เครดิตต้นทาง ก็น่าจะโอเค
แต่ถ้าคนมาอ่าน copy ไปลง page ตัวเอง หรือเอาไปเรียบเรียงใหม่ ไม่ให้เครดิต ผมว่าเจ้าของ content ก็ไม่น่าจะโอเค
ประเด็นคือ AI มันเป็นแบบหลังไงครับ

By: big50000

on 1 July 2024 - 16:36 #1315905 Reply to:1315902

และมันทำได้เร็วมากด้วย

By: suriyan2538

on 3 July 2024 - 00:04 #1316004 Reply to:1315902

+100

ความรู้สึกแบบนั้นเลยครับ

สาวก Drupal และ Backdrop CMS ไม่ใช่ใคร ก็ผมนี่แหละ

By: btoy

on 3 July 2024 - 11:31 #1316022 Reply to:1315902

+1000 ตรงนี้ล่ะครับที่เรารณรงค์กัน ข้อมูลเปิดบนอินเทอร์เน็ตน่ะฟรีแน่ๆ แต่การให้เครดิตต้นทางเป็นอะไรที่สำคัญมาก ซึ่ง AI ควรจะต้องทำตรงนี้ ถ้าจำเอาไปใช้ แล้วมันจะทำยังไงล่ะ ในเมื่อปกติแล้วเอาข้อมูลไปยำ

..: เรื่อยไป

By: iamfalan

on 1 July 2024 - 16:26 #1315903

robot.txt?

By: mk

on 1 July 2024 - 17:28 #1315912 Reply to:1315903

มันก็แค่ธรรมเนียมปฏิบัติครับ

เพิ่งมีเคส Perplexity ดูดทุกอย่างไปโดยไม่สนใจ robots.txt

By: mr_tawan

on 1 July 2024 - 20:18 #1315920 Reply to:1315903

ไม่มีอะไรบังคับว่า Webcrawler ต้องอ่าน robot.txt ครับ

9tawan.net บล็อกส่วนตัวฮับ

By: YongZ on 2 July 2024 - 18:35 #1315993

มันข้อตกลงร่วมตั้งแต่30ปีก่อนแล้วนะถึงวันนี้โลกเปลี่ยนไปมากแค่ไหนคุณจะไม่เปลี่ยนข้อตกลงเลยหรอ จุดประสงค์ในการเผยแพร่ข้อมูลลงอินเตอร์เน็ตยุค90กับตอนนี้มันก็ไม่เหมือนกัน
ทุกสิ่งบนโลกที่เคยฟรีเมื่อสิ่งนั้นมีมูลค่าทางเศรษฐกิจมันก็ไม่ฟรีอีกต่อไปแล้วทำไมถึงคิดว่าข้อมูลต้องฟรี

By: hisoft

on 2 July 2024 - 18:54 #1315995 Reply to:1315993

แต่ข้อตกลงตอนนี้มันยังไม่เปลี่ยน คนฉวยโอกาสก่อนก็ได้เปรียบเสมอแหละฮะ เหมือนที่ว่ากฎหมายมีช่องโหว่น่ะ

Main menu