โครงการโอเพนซอร์สอย่าง Hadoop กลายเป็นมาตรฐานของอุตสาหกรรมไอที โดยเฉพาะการประมวลผลข้อมูลขนาดใหญ่ (big data) มากขึ้นเรื่อยๆ
ไมโครซอฟท์แถลงข่าวผลิตภัณฑ์สายฐานข้อมูลของตัวเองหลายอย่าง
อย่างแรกคือการประกาศ Microsoft SQL Server 2012 จากเดิมที่มีชื่อรหัสว่า "Denali" จะออกในครึ่งแรกของปี 2012 (ตอนนี้มีสถานะ CTP3) ฟีเจอร์ใหม่ได้แก่ Power View, SQL Server Data Tools, ColumnStore Index และปรับปรุงเรื่อง Business Intelligence
ทิศทางที่มาแรงในโลกเซิร์ฟเวอร์ช่วงหลัง คือการเก็บ-ประมวลผลข้อมูลขนาดใหญ่ หรือที่เรียกกันว่า big data ซึ่งซอฟต์แวร์ยอดนิยมตัวหนึ่งก็คือ Apache Hadoop ที่เขียนขึ้นมาตามแนวทาง MapReduce ของกูเกิล ปัจจุบันมีบริษัทใหญ่ๆ จำนวนมากใช้งาน Hadoop ในสภาพแวดล้อมจริง (ตัวอย่างเช่น Facebook)
จากที่ทราบกันไปแล้วว่า Facebook สร้างศูนย์ข้อมูลขนาดยักษ์ของตัวเองขึ้นมาเมื่อปีที่แล้ว และสร้างเสร็จแล้วในช่วงไตรมาสแรกของปีนี้
ในช่วงเดือนที่ผ่านมา (มิ.ย. 2554) Facebook ก็ได้ฤกษ์ถ่ายโอนข้อมูลขนาดมหึมาของตนเองบนเฟรมเวิร์ค Hadoop จากระบบเดิมสู่ระบบใหม่ และเปิดใช้งานระบบจากศูนย์ข้อมูลใหม่อย่างเป็นทางการ
จากข่าวก่อนหน้านี้ว่า ยาฮูอาจแยกฝ่าย Hadoop ออกเป็นบริษัทใหม่ ก็มีความคืบหน้าออกมาว่ายาฮูจะประกาศเรื่องนี้อย่างเป็นทางการในวันสองวันนี้
ข่าวจาก GigaOm บอกว่าบริษัทใหม่จะใช้ชื่อว่า HortonWorks โดยชื่อ Horton มาจากช้างในนิยายชุด Dr.Suess (ของผู้เขียนเรื่อง How the Grinch Stole Christmas!)
พนักงานของ HortonWorks จะเป็นวิศวกรทีมเล็กที่พัฒนา Hadoop ตามแนวทางของ Apache หลังยาฮูประกาศเลิกทำ Hadoop รุ่นของตัวเอง และหันไปร่วมกับ Apache Hadoop เพียงที่เดียว
ยักษ์สีฟ้า IBM ประกาศบุกตลาดการประมวลผลข้อมูลที่มีรูปแบบไม่คงตัว (unstructured data) และมีจำนวนมหาศาล ซึ่งเรียกรวมๆ ว่า "Big Data" ตัวอย่างข้อมูลเหล่านี้ได้แก่ ข้อความทวีต, ข้อมูลการคลิก, รูปภาพ, วิดีโอ, พิกัด GPS, ข้อมูลจากเซ็นเซอร์, ข้อมูลการเคลื่อนไหวของหุ้น ฯลฯ
IBM ได้เปิดตัวซอฟต์แวร์ตระกูล InfoSphere สำหรับงานประมวลผลลักษณะนี้ 2 ตัว ได้แก่
Hadoop เป็นซอฟต์แวร์โอเพนซอร์สสำหรับการประมวลผลแบบกระจายศูนย์ (distributed computing) ที่ยาฮูสร้างขึ้นเพื่อต่อกรกับ MapReduce ของกูเกิล (โดยสร้างจากเปเปอร์วิชาการของกูเกิล เพราะกูเกิลไม่ได้เปิดซอร์ส MapReduce)
ปัจจุบัน Hadoop เป็นโครงการโอเพนซอร์สใต้ Apache Foundation และมีองค์กรขนาดใหญ่นำไปใช้มากมาย เช่น Amazon, eBay, Facebook, Apple, HP, IBM (จริงๆ ก็เกือบทุกรายที่ไม่ใช่กูเกิลกับไมโครซอฟท์) แต่กำลังนักพัฒนาหลักก็ยังอยู่ที่ยาฮู
และถึงแม้ยาฮูจะประสบอุปสรรคกับธุรกิจเว็บอยู่บ้าง แต่ในสายของ cloud computing นั้น Hadoop ไปได้สวยมาก จึงมีข่าวออกมาว่ายาฮูอาจแยกทีม Hadoop ออกเป็นบริษัทใหม่เพื่อทำเรื่องนี้โดยเฉพาะ
คนแถวนี้คงรู้จัก Hadoop ซอฟต์แวร์สำหรับกระจายการประมวลผลแบบขนาน ที่ยาฮูสร้างขึ้นมาเพื่อต่อกรกับกูเกิล (ซึ่งมี MapReduce ต้นกำเนิดของซอฟต์แวร์ตระกูลนี้)
ยาฮูเปิดซอร์ส Hadoop แล้วยกให้โครงการ Apache ดูแล แต่ยาฮูเองก็ทำ Yahoo! Hadoop เวอร์ชันของตัวเองขนานไปด้วย ล่าสุดยาฮูประกาศหยุดทำ Yahoo! Hadoop และหันไปร่วมมือกับ Apache Hadoop โดยตรงแล้ว
สาเหตุก็ตรงไปตรงมาคือการทำงานสองที่นั้นซ้ำซ้อนและเปลืองทรัพยากร สุดท้ายทางยาฮูจึงยกโค้ดส่วนของตัวเองไปรวมกับ Apache และนำเสนอเป็นฟีเจอร์ใหม่ต่อ Apache Hadoop
Doug Cutting ผู้พัฒนาโครงการโอเพนซอร์สที่เกี่ยวข้องกับเทคโนโลยีค้นหาและ cloud computing หลายตัว เช่น Lucene, Nutch, Hadoop ซึ่งก่อนหน้านี้ทำงานกับยาฮู และเป็นผู้ผลักดันให้ยาฮูใช้งาน Hadoop (เพื่อแข่งกับ MapReduce ของกูเกิล) ลาออกจากยาฮูแล้ว
Doug Cutting จะย้ายไปทำงานกับ Cloudera ซึ่งเป็นบริษัทที่นำ Hadoop มาใช้งานในเชิงพาณิชย์ เขาบอกว่าการย้ายงานครั้งนี้ไม่เกี่ยวข้องกับเรื่องยาฮู-ไมโครซอฟท์แต่อย่างใด
ที่มา - New York Times
เคล็ดลับความว่องไวในการค้นหาผ่านกูเกิลคือระบบคอมพิวเตอร์สมรรถนะสูง ซึ่งประกอบด้วยเทคโนโลยีหลายตัวอย่าง MapReduce หรือ GFS แน่นอนว่ากูเกิลเก็บไว้ใช้เองคนเดียว อย่างไรก็ตามมีคนเขียนโปรแกรมที่ทำงานลักษณะเดียวกันออกมา (โดยดูจากเปเปอร์ของกูเกิล) ชื่อว่า Hadoop ซึ่งปัจจุบันอยู่ใต้โครงการ Apache ผมทราบมาบ้างว่าคนแถวๆ นี้ก็เล่น Hadoop กันอยู่หลายคน
Yahoo! เป็นหนึ่งในผู้ใช้ Hadoop รายใหญ่ของโลก (Facebook กับ IBM ก็ใช้) อาจเป็นเพราะต้องไล่กูเกิลให้ทันในเรื่องสมรรถนะ แต่อีกเหตุผลก็คือ Doug Cutting นักพัฒนาหลักของ Hadoop (รวมถึง Lucene และ Nutch) ปัจจุบันมาทำงานกับ Yahoo!
มีข่าวใหญ่ที่หลุดรอดจอเรดาร์ไป คือ Yahoo! เริ่มใช้ Hadoop ซึ่งเป็นโปรแกรม MapReduce สำหรับทำ search engine แล้ว ในขณะนี้ Yahoo! ใช้งาน Hadoop ประมาณหมื่นเครื่อง
MapReduce เป็นการแบ่งงานออกเป็นส่วนเล็กๆ เพื่อกระจายกันไปทำในคอมพิวเตอร์ขนาดเล็กเป็นจำนวนมาก (map) แล้วนำผลกลับมารวมกันเพื่อหาผลลัพท์ที่ต้องการ (reduce) MapReduce ได้รับความสนใจในหมู่นักวิจัยหลังจากที่กูเกิลเปิดเผยว่าใช้ MapReduce ในการทำ search engine เมื่อสามปีก่อนในช่วงที่กูเกิลเริ่มเปิดตัว GFS (Google File System) ซึ่งใช้เชื่อมโยงคอมพิวเตอร์เล็กๆ หลายพันเครื่องเข้าด้วยกัน