มีข่าวใหญ่ที่หลุดรอดจอเรดาร์ไป คือ Yahoo! เริ่มใช้ Hadoop ซึ่งเป็นโปรแกรม MapReduce สำหรับทำ search engine แล้ว ในขณะนี้ Yahoo! ใช้งาน Hadoop ประมาณหมื่นเครื่อง
MapReduce เป็นการแบ่งงานออกเป็นส่วนเล็กๆ เพื่อกระจายกันไปทำในคอมพิวเตอร์ขนาดเล็กเป็นจำนวนมาก (map) แล้วนำผลกลับมารวมกันเพื่อหาผลลัพท์ที่ต้องการ (reduce) MapReduce ได้รับความสนใจในหมู่นักวิจัยหลังจากที่กูเกิลเปิดเผยว่าใช้ MapReduce ในการทำ search engine เมื่อสามปีก่อนในช่วงที่กูเกิลเริ่มเปิดตัว GFS (Google File System) ซึ่งใช้เชื่อมโยงคอมพิวเตอร์เล็กๆ หลายพันเครื่องเข้าด้วยกัน
Hadoop เป็น MapReduce เขียนด้วยจาวา เดิมเคยเป็นส่วนของ Nutch มาก่อน ในขณะนี้ได้แยกออกจาก Nutch มาเป็นโครงการใต้ Lucene โดยตรงเนื่องจากมีความซับซ้อนมากขึ้น ในปัจจุบันนอกจากจะมีส่วนของ MapReduce แล้ว ยังมี HDFS (Hadoop Distributed File System) อีกด้วย
ที่มา:
Comments
ช่วงหลังนี่ Yahoo! มาแรงนะ มีของใหม่ๆ ดีๆ ออกมาเยอะ ผิดกับ google ที่ตอนนี้ไม่ค่อยเปิดตัวอะไรเด็ดๆ เท่าไหร่ (หรือมัวแต่ไปกว้านซื้อบริษัทชาวบ้านอยู่)
---------- Don't think, Just read
pittaya.com
ผมมองว่า MapReduce เป็นแค่เครื่องมือในการใช้พัฒนาระบบการจัดลำดับเว็บเท่านั้น ทุกวันนี้ประเด็นเรื่องความเร็วในการค้นหาเว็บยังไม่มีผลโดยตรงต่อส่วนแบ่งตลาดเท่าใหร่ จะมีผลก็ต่อต้นทุนการดำเนินงานมากว่า
ที่น่าสนใจสำหรับคนใช้อย่างผมคือการเปลี่ยนเทคโนโลยีเช่นนี้จะทำให้ Yahoo! ตอบผลลัพธ์ผมได้ดีกว่าตอนนี้หรือไม่
แต่อาจจะดีขึ้นได้เหมือนกัน ถ้าระบบของ Yahoo! สามารถ Scale ให้ใหญ่กว่าเดิมได้ และรองรับฐานข้อมูลใหญ่กว่าเดิมได้ ------ LewCPE
lewcpe.com, @wasonliw
ผมว่าที่ google ซื้อๆมาเป็น killer app หลายตัว และตลาดใหญ่นะ (แต่ถ้าเรื่องทางเทคนิคก็คงไม่มีอะไร)
เครื่องเยอะขนาดนี้จะทำให้สมรภูมิเปลี่ยนเป็นการแข่ง Interconnection Network แทน
Infiniband รวยแน่ หรือว่า Gigabit Ethernet ยังไหว?
IEEE 802.3ae 10Gb/s Ethernet (ไม่สนับสนุน Half-duplex ด้วย) -- IEEE เชื่อว่าต้นทุนเทียบกับ Gigabit Ethernet จะแพงขึ้นเป็น 3X ในขณะที่ความเร็วเป็น 10X
ดูเหมือนว่า Infiniband จะต้นทุนต่ำกว่ารึเปล่าครับ
Infiniband - สวิตซ์แพง การ์ดถูก 802.3ae - สวิตซ์แพง การ์ดแพง
แปลกดี คนส่วนใหญ่เล็ง 802.3ae ที่จะมาในอนาคตมากกว่า Infiniband ที่มีในปัจจุบัน
ผมว่าหลายๆ คนเชื่อว่า Ethernet never dies น่ะครับ ------ LewCPE
lewcpe.com, @wasonliw
ไม่รู้เหมือนกันครับ ตอนนี้ยังไม่คิดจะซื้อเลย
sugree: map-reduce เขาเอามาใช้กับ grid computing กันบ้างหรือเปล่าครับ? หรือว่าใช้ใน computer cluster?
ลองๆ search ดูๆมีคนใช้ map-reduce กับ machine learning ด้วย น่าสนใจดี. อาจจะง่ายกว่าใช้ MPI (หรือเปล่าไม่รู้ เพราะผมก็ใช้ไม่เป็นทั้ง 2 อย่าง :-P).
ในที่สุดก็ reload ฝ่า timeout มาได้.
--- http://openil.wordpress.com/
MapReduce เป็นหลักการพื้นฐานของการประมวลผลแบบขนานและแบบกระจาย ใน MPI เค้าใช้ Gather Scatter กันมานานมาก พวก IR ก็ใช้เทคนิคนี้สำหรับทำ Indexer/Search Engine มานานแล้ว อืมแต่อาจเป็นเพราะส่วนใหญ่จะเป็นงานวิจัยในสาขามากกว่าจะเป็นซอฟต์แวร์แจก คนทั่วไปเลยไม่เคยนึกถึง
งานด้านนี้ไม่มีทุนก็ทำได้แค่เล็กๆ คนส่วนใหญ่มองไม่เห็นความดี คนส่วนน้อยที่เห็นก็ไม่มีทุนเอาไปขยายผล ต้องรอแมวมอง
ขอบคุณครับ. กลับไปสงสัยต้องลองเล่น MPI บ้างละ. จะได้มีฐานไว้บ้าง. --- http://openil.wordpress.com/
ไม่ยอมแพ้จริงๆ Yahoo สู้ตายเลย
--- Khajochi
แฟนพันธุ์แท้สตีฟจ็อบส์ | MacThai.com
เพิ่งเคยได้ยินชื่อ MapReduce ^^! แต่ดูคุณสมบัติแล้วไม่รู้จะเอามาใช้อะไรดี ไม่มีข้อมูลให้ประมวลผลขนาดนั้น - -" ——————— คิดๆ ขีดๆ เขียนๆ
LinkedIn
กว่าจะพัฒนาอะไรใหม่ๆ คนเขาแห่ไปใช้ google ครึ่งค่อนโลก ถ้าไม่มีอะไรเด็ดจริงเป็นการยากมากที่จะดึงกลุ่มผู้ใช้คืนมา อย่างน้อยก็เรื่องความเร็ว อะไรที่มันเกะกะสายตา และเมล์ทำให้มันดีกว่านี้ กรองสแปมได้ดีกว่านี้