เป็นที่ทราบกันดีว่า Mark Zuckerberg กำลังสร้างระบบ AI ควบคุมบ้านของตัวเองที่เขาเรียกว่า Jarvis (เหมือนใน Iron Man) ล่าสุดเขาออกมาเผยความคืบหน้าและเบื้องหลังโครงสร้างของ Jarvis ให้ทราบกันแล้ว
Zuckerberg บอกว่าเป้าหมายของเขาในการสร้าง Jarvis คือเรียนรู้ว่าโลกของ AI ตอนนี้ไปถึงไหนบ้างแล้ว ระบบของเขาแบ่งออกได้เป็น 4 ส่วนใหญ่ๆ คือ
ลำดับการสร้าง Jarvis ของ Zuckerberg มีดังนี้
Zuckerberg เริ่มจากสร้างระบบควบคุมเครื่องใช้ไฟฟ้าภายในบ้าน ซึ่งมีอุปกรณ์และยี่ห้อที่หลากหลาย เช่น ระบบเครื่องเสียง Sonos, ทีวี Samsung, กล้อง Nest Cam, ระบบหลอดไฟและควบคุมประตูจาก Creston
เขาบอกว่าบางครั้งต้อง reverse engineer API ของอุปกรณ์บางตัวให้สามารถควบคุมมันได้อย่างที่ต้องการ อุปกรณ์บางอย่างต่อเน็ตไม่ได้ ก็ต้องซื้อสวิตช์ไฟแบบต่อเน็ตได้มาเสียบเพิ่ม
ปัญหาสำคัญที่เขาพบคือหาซื้อเครื่องใช้ไฟฟ้าแบบที่ต้องการไม่ได้ เช่น เครื่องปิ้งขนมปังที่อนุญาตให้กดขนมปังลงไปก่อนแต่ยังไม่ต้องปิ้ง เพื่อให้ควบคุมสวิตช์เปิดทำงานเฉพาะส่วนความร้อนได้จากระยะไกล สุดท้ายเขาต้องซื้อเครื่องปิ้งขนมปังรุ่นเก่ามาก (ยุค 50s) มาดัดแปลงเอง
เมื่อเขาสามารถควบคุมบ้านผ่านคอมพิวเตอร์ได้แล้ว ขั้นต่อไปคือหาวิธีควบคุมมันด้วยภาษาธรรมชาติ (Natural Language) โดยเขาแบ่งงานเป็นขั้นแรกคือควบคุมด้วยข้อความ (text message) และขั้นถัดไปคือควบคุมด้วยเสียงพูด
แรกสุดเขาใช้วิธีเขียนโปรแกรมให้ตรวจหาคีย์เวิร์ด เช่น bedroom, lights, on เพื่อแปลความหมาย จากนั้นก็พัฒนาให้โปรแกรมมีความสามารถมากขึ้น เข้าใจคำที่มีความหมายเหมือนกัน (เช่น family room กับ living room) และเข้าใจบริบทของคนพูด เช่น ถ้าเขาพูดคำว่า my office ก็จะหมายถึงคนละห้องกับภรรยาที่พูดคำเดียวกัน จากนั้นระบบก็ต้องแยกแยะได้ว่าคนพูดอยู่ในห้องไหน เพื่อรองรับคำสั่งที่พูดขึ้นมาลอยๆ โดยไม่ระบุห้อง
Zuckerberg บอกว่าการสั่งให้เปิดเพลงมีความยากเป็นพิเศษ เพราะมีชื่อศิลปิน ชื่อเพลง ชื่ออัลบั้ม เพิ่มเข้ามาอีกมาก และมีความกำกวมของคำสั่งอยู่เยอะ ประโยคที่ดูคล้ายๆ กันกลับมีความหมายแตกต่างกันมาก เช่น
ตอนนี้ระบบของเขาสามารถรองรับคำสั่ง play me some music แล้วกลับไปดูประวัติการฟังเพลงของเขา เพื่อเลือกเพลงมาให้ฟังได้แล้ว เขาสามารถปรับอารมณ์ของเพลงที่เล่นได้ เช่น พูดว่า play something light ระบบก็จะไปเลือกเพลงที่อยู่ในหมวดเบาๆ ฟังง่ายมาให้แทน
บ้านของ Zuckerberg ยังติดกล้องหลายตัวไว้ที่หน้าตาประตู เพื่อตรวจจับใบหน้าของแขกที่มายืนอยู่หน้าบ้าน เขาบอกว่าต้องติดกล้องหลายตัวเพื่อให้ครอบคลุมใบหน้าทุกมุม การประมวลผลแบ่งเป็น 2 ขั้นตอน อย่างแรกคือตรวจจับว่ามีใบหน้าอยู่ในกล้องหรือไม่ (face detection) และขั้นที่สองคือรันระบบแยกแยะว่าเป็นใบหน้าของใคร (face recognition) โดยใช้ระบบแยกแยะใบหน้าของ Facebook เข้าช่วย
เมื่อแยกแยะได้ว่าเป็นใบหน้าของใครแล้ว Jarvis จะตรวจสอบกับรายชื่อแขกที่จะมาที่บ้านในวันนั้น ถ้าตรงกัน Jarvis จะเปิดประตูให้บุคคลนั้นเข้ามาในบ้าน พร้อมแจ้ง Zuckerberg ว่าแขกมาแล้ว
ตอนแรก ระบบ Jarvis ควบคุมผ่านคอมพิวเตอร์ แต่ Zuckerberg ต้องการควบคุมมันได้จากทุกที่ เขาจึงสร้าง Messenger Bot สำหรับคุยกับ Jarvis ได้ ซึ่งเขาก็ใช้แพลตฟอร์ม Messenger แบบเดียวกับที่นักพัฒนาคนอื่นๆ ใช้งาน (โครงการนี้เป็นโครงการส่วนตัวของ Zuckerberg ไม่เกี่ยวอะไรกับบริษัท) ซึ่งเขาพบว่าการสื่อสารลักษณะนี้ สร้างบ็อตบนแพลตฟอร์มที่มีอยู่แล้วอย่าง Messenger ง่ายกว่าสร้างแอพขึ้นมาใหม่ทั้งตัว
บ็อต Jarvis บน Messenger สามารถรับได้ทั้งคำสั่งเป็นข้อความ คำสั่งเสียง และบ็อตสามารถส่งภาพแขกที่มาที่บ้านในช่วงกลางวัน กลับมายัง Zuckerberg ที่อยู่ที่ทำงานได้ด้วย
Zuckerberg ค้นพบว่าเขาพิมพ์คุยกับ Jarvis มากกว่าที่พูด เหตุผลคือการพิมพ์ไม่รบกวนคนอื่นที่อยู่รอบๆ ส่งผลให้เขากำหนดให้ Jarvis ตอบโต้กับเขาเป็นข้อความ แทนที่จะเป็นเสียงพูดด้วยเช่นกัน
แต่ในกรณีที่เป็นการสื่อสารด้วยเสียงพูด Zuckerberg เลือกสร้างแอพ Jarvis ขึ้นมาใหม่ทั้งตัว เพื่อคอยฟังสิ่งที่เขาพูดอยู่ตลอดเวลา (Messenger ไม่เหมาะสำหรับงานนี้) เขาสามารถวางมือถือไว้บนโต๊ะ แล้วพูดกับ Jarvis เมื่อไรก็ได้ที่ต้องการ ซึ่งเขาบอกว่าแนวคิดไม่ต่างอะไรกับ Amazon Echo แต่เขาสร้างเป็นแอพมือถือ เพื่อให้คุยกับ Jarvis เวลาอยู่นอกบ้านได้ด้วย
ตอนนี้แอพ Jarvis มีบน iOS แล้ว และเขากำลังจะสร้างเวอร์ชัน Android ตามมา ปัญหาที่เขาพบคือระบบแยกแยะเสียงพูด (speech recognition) ในปัจจุบันทำงานได้ค่อนข้างดี แต่ระบบ AI ที่ตีความหมายของคำพูดยังมีข้อจำกัดอยู่มาก
Zuckerberg พบว่าระบบตีความเสียงพูดในปัจจุบัน ถูกออกแบบมาสำหรับงานเฉพาะทางมากกว่าเป็นระบบเดียวครอบจักรวาล แต่ในความเป็นจริง คนที่พูดกับบ็อต Google มีวิธีการพูดที่ต่างออกไปจากบ็อต Facebook หรือ Echo ส่งผลให้ระบบหนึ่งๆ ไม่สามารถทำงานได้ดีในทุกสถานการณ์เสมอไป บทเรียนของเขาคือเทคโนโลยีด้านนี้ยังสามารถพัฒนาต่อได้อีกมาก
Zuckerberg เล่าว่าด้วยตำแหน่งการงานในปัจจุบัน เขาแทบไม่ได้ลงมือโค้ดผลิตภัณฑ์ของ Facebook เองแล้ว แต่เขายังเขียนโปรแกรมใช้ส่วนตัวอยู่เสมอ โครงการสร้าง Jarvis จึงถือเป็นโอกาสดีที่เขาจะกลับมาสำรวจเครื่องมือสำหรับนักพัฒนาของ Facebook ว่าเป็นอย่างไรบ้าง เครื่องมือที่เขาใช้มีทั้งระบบแยกแยะใบหน้า, ระบบแยกแยะเสียง, Messenger Bot Framework, Nuclide IDE ของ Facebook เอง, Buck ระบบ build ซอฟต์แวร์ขนาดใหญ่, FastText ตัวแยกแยะข้อความ เป็นต้น
ส่วนภาษาโปรแกรมที่ใช้งานมีทั้ง Python, PHP, Objective C
ขั้นต่อไป Zuckerberg จะสร้างแอพบน Android และเพิ่มจำนวนอุปกรณ์ที่ใช้ฟังเสียงพูดให้มากขึ้น เชื่อมต่อกับเครื่องใช้ไฟฟ้าให้มากขึ้น ส่วนในระยะยาว เขาต้องการให้ Jarvis มีวิธีเรียนรู้ทักษะใหม่ๆ ได้ง่ายกว่าการที่เขาไปเขียนโปรแกรมสอนมันเอง ถ้าปีหน้าเขายังตั้งเป้าทำระบบ Jarvis ต่อก็จะเน้นเรื่องการเรียนรู้ของ Jarvis เป็นหลัก
เขาสรุปว่าปีนี้ใช้เวลาประมาณ 100 ชั่วโมงสร้าง Jarvis ให้ทำงานพื้นฐานได้ แต่มนุษย์ก็ยังติดข้อจำกัดเรื่องพัฒนาการของ AI ในขั้นต่อไป ถึงแม้ว่าเขาจะให้เวลาอีก 1,000 ชั่วโมงสร้าง Jarvis ก็คงไม่สามารถสร้างระบบที่เรียนรู้เองได้ จนกว่าเขาจะค้นพบความก้าวหน้าทางด้าน AI แบบก้าวกระโดด ซึ่งโลกเรายังไปไม่ถึงจุดนั้น
ที่มา - Mark Zuckerberg, Fast Company
Comments
เป็น CEO ที่ยังไม่หยุดที่จะพัฒนาการ coding ของตัวเองจริง ๆ ส่วนใหญ่มาระดับนี้น่าจะไปสายบริหารกันหมดแล้ว นับถือเลยคนนี้
เท่าที่ผมเห็นฝรั่งเขามี dev อายุเยอะๆ กันเยอะเลยนะครับ ตำแหน่งเป็น specialist
มีแต่ของบ้านเรานี่แหละ คน coding, dev เก่งๆ เทพๆ ถูกจับไปทำงานบริหารที่ไม่ถนัดเลย
ไม่มี AI ในส่วนของห้องแต่งตัวแน่นอน
มีครับ t-shirt cannon
สิ่งที่ไม่เห็น ใช่ว่าจะไม่มี
100 ชั่วโมงเอง เก่งแค่ไหนถึงจะได้ขนาดนั้น
นับถือจริงๆ เก่งและเก่งๆๆๆๆมากๆ
..: เรื่อยไป
PHP !
yeah!!
มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB
เห็นชัดว่าเขามีระบบการคิด แบบเป็นขั้นเป็นตอนที่ดีจริงๆ
...โอ้วว RHCP
ข่าวนี้จะทำให้หุ้น Facebook เพิ่มขึ้นหรือเปล่านะ
ผมว่า CEO นักประดิษฐ์คนนี้น่านับถือกว่าศาสดาอีกหลายคนด้วยซ้ำ
ไม่รู้ว่าทำไมใครๆ ถึงชอบนักขายมากกว่านักประดิษฐ์
เหตุผลง่ายๆ เพราะนักประดิษฐ์มักจะขายของไม่เป็นนี่แหละครับ อีกอย่างคือการจะขายของให้ได้และขายให้ดีไม่ใช่ว่ามันสามารถทำกันได้ง่ายๆ นะครับ
ผมเข้าใจครับ ว่าขายของไม่ใช่ง่าย ซึ่งผมก็เคารพต่อความสามารถของนักขายเหล่านั้น
แต่มันขัดใจผมตรงที่ มีคนยกย่องบูชานักธุรกิจนักขายและมองว่าเป็นผู้สร้างนวัตกรรมเปลี่ยนโลก ในขณะที่คนที่คิดค้นและสร้างของเหล่านั้นให้เอาไปขายกลับตายจากไปอย่างเงียบๆ
เรื่องนี้ผมว่ามันอยู่ที่จังหวะและโอกาสรวมถึงการเข้าถึงสื่อมากกว่าครับ มันไม่ใช่ว่าไม่มีใครยกย่องคนเก่งๆ หรือผู้สร้างนวัตกรรมอย่างที่คุณว่ามา ตัวอย่างเช่น Mark เองก็มีคนชื่นชมไม่น้อยเช่นกันเพราะออกสื่ออยู่บ่อยๆ คนก็เลยจำได้และได้เห็นความเคลื่อนไหวอยู่บ่อยๆ
เช่นใครหรอครับ พวกนักธุรกิจที่เค้าชื่นชมกันเป็นเรื่องขายหรือเรื่องอื่นครับ พวกนี้เค้าเก่งกันคนละอย่าง ฝั่งนักธุรกิจต้องดูมุม vision และการตัดสินใจนะผมว่า
อคติทำให้คนรับเหตุผลด้านเดียว
เพราะนักขายเป็นคนที่เอาสิ่งประดิษฐ์มาส่งให้ถึงมือUserไงครับ
และนักประดิษฐ์ส่วนมากจะเนิร์ดจัดจนคุยกับคนอื่นไม่ค่อยรู้เรื่องด้วย ขณะเดียวกัน นักขายดันพรีเซนต์ตัวสินค้าได้รู้เรื่องกว่า
น่านับถือทั้งคู่แหละครับ
...และเมื่อ Zuckerberg สั่งปิดไฟ JARVIS ได้ทำการ hack โรงงานไฟฟ้าและตัดไฟทั้งเมืองตามคำสั่ง
555
100 ชั่วโมงเขียน AI แบบใช้งานได้นี่สุดยอดมาก
ส่วนผม แค่คิดชื่อตัวแปร ชื่อคลาส ชื่อฟังก์ชัน ก็เกิน 100 ชั่วโมงแล้วล่ะครับ
จะ var a,b,c ก็กระไรอยู่
ปัญหาที่ใหญ่ที่สุด 555
ปร๊ะเยี่ยมยอด
ขัดเกลาฝีมือตัวเองอยู่เสมอ สมกับที่เป็นเทพ
ปล. มาร์คไม่ใช้ Baidu บ้างเหรอครับ?
แกติดต่อ Morgan Freeman ขอใช้เสียงแกกับ Jarvis ด้วยนะ แกบอกว่าเวลาคุยให้ความรู้สึกเหมือนกับคุยกับพระเจ้า!