Yahoo! เปิดซอร์ส Yahoo! Hadoop

By: mk

on 11 June 2009 - 08:57 Tags:

Topics:

Open Source

Yahoo!

High Performance Computing

Hadoop

เคล็ดลับความว่องไวในการค้นหาผ่านกูเกิลคือระบบคอมพิวเตอร์สมรรถนะสูง ซึ่งประกอบด้วยเทคโนโลยีหลายตัวอย่าง MapReduce หรือ GFS แน่นอนว่ากูเกิลเก็บไว้ใช้เองคนเดียว อย่างไรก็ตามมีคนเขียนโปรแกรมที่ทำงานลักษณะเดียวกันออกมา (โดยดูจากเปเปอร์ของกูเกิล) ชื่อว่า Hadoop ซึ่งปัจจุบันอยู่ใต้โครงการ Apache ผมทราบมาบ้างว่าคนแถวๆ นี้ก็เล่น Hadoop กันอยู่หลายคน

Yahoo! เป็นหนึ่งในผู้ใช้ Hadoop รายใหญ่ของโลก (Facebook กับ IBM ก็ใช้) อาจเป็นเพราะต้องไล่กูเกิลให้ทันในเรื่องสมรรถนะ แต่อีกเหตุผลก็คือ Doug Cutting นักพัฒนาหลักของ Hadoop (รวมถึง Lucene และ Nutch) ปัจจุบันมาทำงานกับ Yahoo!

ล่าสุด Yahoo! ประกาศแจกซอร์สโค้ดของ Hadoop เวอร์ชันที่ใช้ภายในบริษัทแล้ว (ใต้ชื่อ Yahoo! Distribution of Hadoop) โดย Yahoo! Hadoop ก็มีแพตช์ต่างๆ เพิ่มมาจาก Apache Hadoop ซึ่ง Yahoo! อ้างว่าได้ปรับปรุงประสิทธิภาพ เสถียรภาพเพิ่มขึ้นมาอีกมาก

Yahoo! Distribution of Hadoop ใช้สัญญาอนุญาตแบบโอเพนซอร์สเหมือนกับ Apache Hadoop ดังนั้นแพตช์ทั้งหลายก็สามารถกลับเข้า Hadoop หลักได้ง่าย

ที่มา - Yahoo! Developer Network Blog

Hiring! บริษัทที่น่าสนใจ

Siam Commercial Bank Public Company Limited

"Let's start a brighter career future together"

H LAB

Re-engineering healthcare systems through intelligent platforms and system design.

KKP Dime

KKP Dime บริษัทในเครือเกียรตินาคินภัทร

Comments

By: demon69gt on 11 June 2009 - 09:47 #107818

ยาฮู ฮาดู๊ป .... อ่านงี้ป่าวคร้าบ

By: tekkasit

on 11 June 2009 - 10:39 #107835

แล้วทำไมยาฮูไม่แพทช์กลับเข้าไปที่ต้นทางล่ะครับ?

By: wiennat

on 11 June 2009 - 11:06 #107856 Reply to:107835

onedd.net

By: zerocool

on 11 June 2009 - 11:34 #107863 Reply to:107835

ผมไม่แน่ใจว่าอย่างนี้เรียกว่าคนละ Branch หรือเปล่านะครับ

That is the way things are.

By: EThaiZone

on 11 June 2009 - 12:00 #107867 Reply to:107835

คิดว่าเพื่อให้เครดิตตัวเองว่าเขาพัฒนาแยกได้ดีมากกว่าของเดิม มั้ง?

มันไม่ง่ายเลยที่จะทำ GIF ให้มีขนาดน้อยกว่า 20kB

By: mk

on 11 June 2009 - 19:42 #107927 Reply to:107835

บางทีต้นทางเค้าไม่รับครับ อาจจะมีแนวทางที่ไม่ตรงกัน

ตัวอย่างคล้ายๆ กันนี้คือ Novell ที่กินเกาเหลากับ Sun เรื่อง OpenOffice ก็เลยมีโครงการ Go OOo ที่เป็น OOo เวอร์ชันรวมแพตช์ Novell ออกมา

By: nontster

on 12 June 2009 - 10:11 #108050 Reply to:107835

เค้าส่งเข้าไปแล้วนะครับ
http://github.com/yahoo/hadoop/blob/54428cc8dd437b4de9efe070e777023ec171a498/YAHOO-CHANGES.txt

ที่เหลือก็อยู่ที่ต้นทางแล้วล่ะว่าจะเอาเข้าไปรวมหรือไม่ จะเลือก patch ของใคร ก็เหมือนที่ mk บอกไว้ครับ

By: SilliCon

on 11 June 2009 - 11:13 #107860

เพิ่งเคยได้ยินชื่อนี้ครั้งแรก แล้ว Apache Hadoop แตกต่างจาก Apache ธรรมดาตรงไหนครับ

By: icez

on 11 June 2009 - 21:42 #107956 Reply to:107860

Apache เองจริงๆ เป็นชื่อโครงการ opensource software หลายตัวเลยครับ
อย่าง Apache Ant นี่ก็ใช่
SpamAssassin ก็อยู่ใน project apache เหมือนกัน

ส่วนถ้าเข้าใจคำว่า Apache เป็น Web Server มันคือ Apache HTTPD (หรือ Apache Web Server) ครับ

By: nontster

on 12 June 2009 - 10:05 #108049 Reply to:107860

Apache = ป้าชุลี
Hadoop = นางงามคนหนึ่ง

By: mk

on 12 June 2009 - 10:24 #108053 Reply to:108049

+1 เท่สุดในรอบวัน

By: ipas

on 25 December 2010 - 07:14 #244848 Reply to:108049

ชอบครับ ++1

By: nontster

on 11 June 2009 - 15:44 #107900

เลิกยุ่งกับ Hadoop มาสักพักแล้วครับ เนื่องจากงานที่เคยคิดว่าจะเอามาใช้มันเป็นแบบ Realtime ไว้เก็บไฟล์เล็กๆจำนวนมาก ซึ่ง HDFS ของ Hadoop ไม่ได้ถูกออกแบบมาเพื่องานแบบนี้ มันเหมาะกับงานแบบ batch ที่ต้อง process ไฟล์ขนาดใหญ่มากๆอย่างพวก log file ซึ่งใช้ร่วมกับ MapReduce มันถึงเหมาะกับ search engine ซึ่งมีข้อมูลขนาดใหญ่มากๆ ถ้าใครอยากทำบริการพวก log management/analysis ผมว่า Hadoop น่าสนใจมากเลย

มีคนบอกว่างานแบบของผมให้ใช้ Cassandra แทน :)
ปล. Cassandra นี่ของ Facebook นะครับ ในขณะที่ Facebook ก็ใช้ Hadoop สำหรับงานบางประเภท

Main menu