ไมโครซอฟท์เปิดตัว Power BI (Business Intelligence) for Office 365 ชุดเครื่องมือสำหรับวิเคราะห์ข้อมูลขนาดใหญ่เพื่อภาคธุรกิจ โดยจะเป็นส่วนเสริมของเครื่องมือวิเคราะห์ตัวเลขที่ทุกคนคุ้นเคยอย่าง Excel
Power BI ประกอบด้วยส่วนเสริมของ Excel ในการวิเคราะห์ข้อมูล (query/pivot) ทำชาร์ท ทำแผนที่ visualization (เอนจินเดียวกับ GeoFlow) แต่ก็ยังเชื่อมโยงกับกลุ่มเมฆ ทั้งในแง่การแชร์ข้อมูลกับเพื่อนร่วมงานผ่าน Office 365, การประมวลผลข้อมูลขนาดใหญ่บน Windows Azure และการสร้างรายงานที่สวยงามบนแอพ Windows 8 เพื่อนำเสนอ
ที่งาน re:Invent ของอเมซอนปีนี้ นอกจาก WorkSpaces และ Postgresql แล้ว วันนี้ก็มีการเปิดตัว Amazon Kinesis บริการประมวลผลข้อมูลตามเวลาจริงในขนาดใหญ่มาก โดยรับข้อมูลได้สูงสุด 1 เมกกะไบต์ต่อวินาที หรือ 1000 ชุดข้อมูลต่อวินาที
บริการ Amazon Kinesis จะเปิดให้เซ็นเซอร์หรือหน่วยเก็บข้อมูลต่างๆ สามารถใส่ข้อมูลเข้ามาในระบบได้อย่างรวดเร็ว จากนั้นนักพัฒนาจะต้องใช้เครื่องบน EC2 มาดูดข้อมูลไปประมวลผล
อธิบายสั้นๆ มันคือคู่แข่งของ Apache Hive ที่พัฒนาโดย Facebook ครับ
อธิบายแบบยาวๆ คือบริษัทแบบ Facebook ที่ต้องยุ่งเกี่ยวกับข้อมูลจำนวนมหาศาลระดับ petabyte มีงานเบื้องหลังที่ต้องดึงข้อมูลเก่าที่เก็บใน data warehouse (ที่เก็บด้วย Hadoop/HFS) มาวิเคราะห์อยู่บ่อยๆ ปัญหาคือระบบคิวรีข้อมูลอย่าง Hive ที่พัฒนาอยู่บนแนวคิด MapReduce นั้นออกแบบโดยเน้นสมรรถภาพโดยรวม (overall throughput) เป็นสำคัญ แต่สิ่งที่ Facebook ต้องการคือระบบคิวรีข้อมูลที่มีการตอบสนองรวดเร็ว (low query latency)
ไมโครซอฟท์เคยประกาศแผนการพัฒนา Hadoop ไว้ตั้งแต่ปี 2011 วันนี้เวลาผ่านมาเกือบสองปี มันสำเร็จเป็นรูปเป็นร่างแล้วในชื่อ Windows Azure HDInsight
เทคโนโลยี Big Data กำลังมาแรงมากขึ้นเรื่อยๆ และซอฟต์แวร์ที่ได้รับการยอมรับว่าเป็นมาตรฐานในวงการแล้วคือ Apache Hadoop (และโครงการที่เกี่ยวข้องอื่นๆ) ซึ่งมีบริษัทมากมายเข้าไปช่วยกันพัฒนากันอย่างเต็มที่
อย่างไรก็ตาม การที่ Hadoop เป็นโครงการโอเพนซอร์สแปลว่ามันยังมีความ "ดิบ" อยู่พอสมควรในการนำมาใช้งานจริง จึงมีบริษัทหน้าใหม่หลายแห่งที่นำ Hadoop มาจัดแพ็กเกจใหม่ ทำระบบติดตั้งและบริหารจัดการ บวกกับฟีเจอร์เสริมอื่นๆ ในลักษณะเดียวกับดิสโทรของลินุกซ์ในอดีต
Facebook เป็นเครือข่ายสังคมที่เชื่อมโยง "ความสัมพันธ์" ของผู้คนและวัตถุต่างๆ ซึ่งบริษัทได้ออกแบบแพลตฟอร์ม Open Graph มารองรับฟีเจอร์นี้ (ข่าวเปิดตัวเมื่อปี 2010) ระยะหลัง Facebook จึงมองข้อมูลต่างๆ ในระบบของตัวเองเป็น "กราฟ" (ในความหมายทางคณิตศาสตร์ ไม่ใช้กราฟเส้นแบบราคาหุ้นนะครับ) ไปซะเยอะ
ล่าสุด Facebook ออกมาอธิบายสถาปัตยกรรมเบื้องหลัง Open Graph ที่สามารถประมวลผลข้อมูลกราฟขนาดมหาศาล (Facebook มองไกลถึงระดับ "ล้านล้าน" ความสัมพันธ์)
หลายคนคงได้ยินชื่อเสียงของกระบวนการสัมภาษณ์งานกูเกิลที่มีคำถามสุดหินและประลองปัญญา ซึ่งก็ถือเป็นเสน่ห์อย่างหนึ่งของกูเกิลที่ช่วยดึงดูดให้คนเก่งๆ อยากเข้ามาสัมภาษณ์งาน
แต่ Laszlo Bock รองประธานอาวุโสฝ่ายทรัพยากรบุคคลของกูเกิล ให้สัมภาษณ์ว่าจากสถิติของกูเกิลเอง (ที่บ้า big data เป็นทุนอยู่แล้ว) กลับพบว่าคำถามประลองปัญญาเหล่านี้ไม่มีความสัมพันธ์กับประสิทธิภาพของพนักงานที่รับเข้ามาแม้แต่น้อย (Bock ใช้คำว่า "เสียเวลาอย่างสิ้นเชิง" a complete waste of time) ประโยชน์ของมันมีแค่ให้ฝ่ายที่เป็นคนสัมภาษณ์รู้สึกฉลาดเท่านั้น
Twitter ยังคงเข้าซื้อบริษัทมาเสริมทัพในธุรกิจของตนเองอย่างต่อเนื่อง ล่าสุดเป็น Lucky Sort ที่มีผลงานด้านการวิเคราะห์ และเก็บข้อมูลขนาดใหญ่ พร้อมทั้งพล็อตเป็นกราฟให้เข้าใจได้ง่าย
ผลงานเด่นของ Lucky Sort คือเครื่องมือชื่อว่า TopicWatch สำหรับเก็บข้อมูลจากทวีต และนำมาพล็อตเป็นกราฟแบ่งตามเทรนด์ต่างๆ ได้ โดยจะออกมาหน้าตาแบบนี้ และยังถูกนำไปใช้ในแอพวิเคราะห์หุ้นอย่าง StockTwits อีกด้วย
IBM ประกาศลงทุนเพื่อพัฒนาเทคโนโลยี flash storage เป็นจำนวนเงินถึง 1 พันล้านดอลลาร์ โดยให้เหตุผลว่า flash เป็นเทคโนโลยีเก็บข้อมูลแห่งอนาคต และจะพลิกโฉมการเก็บข้อมูลของตลาดไอทีองค์กรอย่างสิ้นเชิง
IBM บอกว่าประสิทธิภาพและราคาของ flash อยู่ในระดับที่ใกล้นำมาใช้งานในระบบไอทีองค์กรอย่างจริงจัง โดยเฉพาะในงานที่ต้องการ transaction มากๆ การเปลี่ยนมาใช้ flash ช่วยให้อ่านข้อมูลมาวิเคราะห์ได้เร็วขึ้น ในขณะเดียวกันก็ตอบโจทย์เรื่องการใช้พลังงานที่ลดลง
นอกจากการวิจัยในเทคโนโลยี flash ตามปกติแล้ว IBM ยังจะเปิดศูนย์วิจัยพิเศษอีก 12 แห่งทั่วโลก เพื่อทดสอบโซลูชันระบบคอมพิวเตอร์ที่ใช้ flash ของตัวเองกับข้อมูลจริงของลูกค้า และวัดผลประสิทธิภาพที่เพิ่มขึ้นจากระบบแบบใหม่ด้วย
แนวทาง MapReduce ถูกเสนอครั้งแรกในรายงานของกูเกิลและได้รับความสนใจอย่างสูงจากทั้งงานวิชาการและภาคธุรกิจ ที่แปลงเป็นคำว่า BigData ขายกันทั่วไปทุกวันนี้ แต่เทคโนโลยี MapReduce ถูกจดสิทธิบัตรไว้จำนวน 10 ฉบับแยกจากกัน โดยที่ผ่านมาแม้จะมีการเขียนซอฟต์แวร์โอเพนซอร์สอย่าง Hadoop โดยไม่ได้ขออนุญาตจากกูเกิล แต่ก็ไม่มีการดำเนินคดีใดๆ และวันนี้กูเกิลก็ประกาศสัญญาว่าจะไม่ใช้สิทธิบัตรเหล่านั้นนำเดินคดีอย่างเป็นทางการกับโครงการโอเพนซอร์สทุกโครงการ
ด้วยประกาศนี้ โครงการเช่น Hadoop ทั้งนักพัฒนา, ผู้จัดจำหน่าย, และผู้ใช้จะปลอดภัยจากการถูกฟ้องด้วยสิทธิบัตรทั้งสิบฉบับ ตราบใดก็ตามที่หน่วยงานเหล่านี้ยังไม่ได้ฟ้องบริการใดๆ ของกูเกิล หรือทำกำไรจากการฟ้องร้องกูเกิล
อินเทลประกาศเปิดตัว Hadoop เฟรมเวิร์ค MapReduce โอเพนซอร์สรุ่นพิเศษของตัวเอง ที่ใช้ฟีเจอร์ของชิป Xeon อย่างเต็มประสิทธิภาพ ด้วยการใช้ชุดคำสั่งพิเศษอย่าง AES-NI หรือ SSE เพื่อเพิ่มประสิทธิภาพการเข้ารหัสและการบีบอัด รวมถึงการจูนระบบไฟล์ HDFS ให้ทำงานเข้ากับ Intel SSD และการ์ด 10Gbps ของอินเทลได้ดีขึ้น
Hadoop เป็นซอฟต์แวร์ในกลุ่มการประมวลผลข้อมูลขนาดใหญ่ (Big Data) ที่ได้รับความนิยมจากภาคธุรกิจจำนวนมาก บริษัทขนาดใหญ่อย่าง EMC ไปจนถึงบริษัทสตาร์ตอัพจำนวนมาก
Cisco ออกรายงาน Cisco Global Cloud Index ประเมินสถานการณ์ของ "ข้อมูล" ที่ศูนย์ข้อมูลทั่วโลกระหว่างปี 2011-2016
ตัวเลขของ Cisco ระบุว่า "ปริมาณ" ข้อมูลในศูนย์ข้อมูลจะเพิ่มขึ้นจากปัจจุบันอีกเกือบ 4 เท่าตัว จาก 2.6ZB (1 ZB = 1 พันล้าน TB) ในปี 2012 เป็น 6.6ZB ในปี 2016 (อัตราเติบโตปีละ 31%)
ที่น่าสนใจคือ "ประเภท" ของข้อมูลในศูนย์ข้อมูลหนึ่งแห่ง ถูกส่งออกไปนอกศูนย์ข้อมูลเพียง 24% เท่านั้น โดย 76% ของข้อมูลทั้งหมดจะวิ่งวนอยู่ภายในศูนย์ข้อมูลเอง (ข้ามระหว่างเซิร์ฟเวอร์กัน) ส่วนตัวเลข 24% ก็ยังแบ่งเป็น 7% เป็นการส่งข้อมูลระหว่างศูนย์ข้อมูลคนละแห่ง (เช่น replication) เหลือเพียง 17% ที่ส่งข้อมูลไปยังผู้ใช้ที่ปลายทางจริงๆ
เมื่อสัปดาห์ที่แล้ว EMC ยักษ์ใหญ่โซลูชันทางด้านธุรกิจได้มาจัดงานสัมมนากึ่งเวิร์คช็อปในประเทศไทยในชื่องาน EMC Forum 2012 ภายใต้คอนเซปของงานว่า "TRANSFORM IT + BUSINESS + YOURSELF" ซึ่งภายในงานจะมีการเวิร์คช็อปในหัวข้อต่างๆ ที่ครอบคลุมผลิตภัณฑ์ของ EMC ยกตัวอย่างที่หลายคนรู้จักได้แก่ VMware หรือ Greenplum เป็นต้น (ถ้าใครยังไม่คุ้นกับ EMC ลองอ่านบทสัมภาษณ์ผู้บริหารก่อนได้)
EMC Forum 2012 ปฏิรูปธุรกิจด้วยเทคโนโลยี
IBM บริษัทแม่เปิดตัวไปตั้งแต่เดือนเมษา แต่เรายังไม่ได้ลงข่าว ดังนั้นพอ IBM ประเทศไทยเปิดตัวบ้างก็ลงรวบยอดเป็นข่าวเดียวไปเลยนะครับ แถวนี้น่าจะมีคนทำ DB2 อยู่พอสมควร
ภาพรวมก็คือ IBM ออกระบบฐานข้อมูล DB2 เวอร์ชันใหม่ที่นับเป็นเวอร์ชัน 10 แล้ว (รวมถึงคลังข้อมูล InfoSphere Warehouse 10 ด้วย) ของใหม่ก็คงไม่ต่างอะไรจากคู่แข่งมากคือเน้นไปที่ Big Data เป็นหลัก สำหรับฟีเจอร์ตาม press มีดังนี้
Blognone รายงานข่าวเรื่อง Big Data มาพอสมควร พอดีเมื่อวันก่อน Dell ประเทศไทยมีแถลงข่าวเรื่อง Storage + Big Data (ซึ่งเป็นเรื่องที่เกี่ยวข้องกัน) ผมเลยไปฟังหน่อยเผื่อว่าจะได้ภาพรวมของตลาด Big Data ในประเทศไทยนะครับ
การนำเสนอของ Dell เริ่มจากโชว์คำพยากรณ์ของ Gartner ที่ประเมินว่าอัตราการเติบโตของข้อมูลในองค์กรจะเติบโตสูงมากในอนาคต ตัวเลขปีล่าสุดคือ 47 เท่าในปี 2011 (ข้อมูลที่สร้างในปี 2011 คิดเป็น 1.8 ล้านล้าน GB)
ในแง่การเก็บข้อมูลระดับคอนซูเมอร์ก็เรื่องนึง แต่ในระดับองค์กร ต่อไปความสามารถในการนำข้อมูลมาใช้งานจะเป็นตัวชี้วัดความสามารถในการแข่งขันขององค์กรได้ องค์กรไหนที่นำข้อมูล (ที่มีอยู่แล้ว) มาสกัดออกเป็นยุทธศาสตร์ได้ก็จะประสบความสำเร็จ
foursquare ได้อัพเดทแอพสู่รุ่น 5.0 โดยในรุ่นนี้อินเตอร์เฟสทั้งหมดได้ถูกดีไซน์ใหม่ให้ดูเรียบง่าย สะอาดสะอ้าน และเช็คอินได้ง่ายขึ้นกว่าที่เคย ในหน้าแรกจะแสดงความเคลื่อนไหวของเพื่อนๆ ในรูปแบบ Timeline คล้ายเดิม แต่เราสามารถกด Like และคอมเม้นต์การเช็คอินของเพื่อน หรือสถานที่ใดๆ ได้ด้วย
ส่วนหลักที่ถูกปรับปรุงไปมากอีกอย่างคือ "Explore" ที่จะสามารถค้นหาสถานที่ที่น่าสนใจรอบๆ ตำแหน่งปัจจุบันของเรา สามารถเลือกให้แบ่งตามหมวดหมู่, สถานที่ที่เป็นที่นิยม (Top Pick) หรือสถานที่แสดงสถานที่ที่มีการเช็คอินอยู่จำนวนมาก (Trending) โดยเมื่อเรา Explore ในเวลาต่างๆ ข้อมูลที่ถูกแสดงก็จะต่างกันไปด้วย เช่นช่วงเที่ยงจะแสดงร้านอาหารที่น่าสนใจ ช่วงดึกจะแสดงบาร์ หรือสถานที่เที่ยวกลางคืน
BigQuery เป็นบริการฐานข้อมูลขนาดใหญ่ของกูเกิล มันใช้หลักการ big data ที่สร้างตารางข้อมูลที่ไม่ซับซ้อนแต่มีขนาดใหญ่มากๆ (ระดับ 1 พันล้านแถว) ซึ่งต่างไปจากแนวทางของ relational database มาก
BigQuery คือการออกแบบคำสั่งคล้ายๆ SQL (แต่ฟีเจอร์ไม่ครบเท่า SQL) เพื่อให้ค้นหรือวิเคราะห์ข้อมูลในตารางได้ง่ายๆ และกูเกิลทำหน้าเว็บให้เราป้อนคำสั่ง BigQuery แล้วรับข้อมูลกลับได้จากหน้าเว็บเลย (อัพโหลด/ดาวน์โหลดข้อมูลผ่าน CSV)
เมื่อเดือนที่แล้ว ผมมีโอกาสได้นั่งคุยกับคุณนฐกร พจนสัจ ผู้จัดการประจำประเทศไทยของ EMC ที่มาแถลงข่าวเรื่องผลประกอบการปี 2011 และทิศทางการทำธุรกิจของ EMC ในประเทศไทยปี 2012 ซึ่งก็ได้ข้อมูลเกี่ยวกับสภาพตลาดไอทีองค์กรในประเทศไทยมาพอสมควร เลยสรุปเนื้อหามาบางส่วนครับ
(จริงๆ สัมภาษณ์ตั้งนานแล้วแต่เพิ่งมีเวลาเรียบเรียง)
EMC เป็นอีกแบรนด์หนึ่งที่คนไอทีฝั่งองค์กรน่าจะเคยได้ยินหรือเคยสัมผัสกันมาบ้าง เพียงแต่ถ้าถามว่า EMC ทำธุรกิจอะไรบ้าง คนตอบได้อาจมีไม่เยอะนัก
ซูเปอร์คอมพิวเตอร์ Watson ของไอบีเอ็มเริ่มขยายงานสู่กลุ่มธุรกิจอื่นเพิ่มเติม จากก่อนหน้านี้ได้
Greenplum เป็นบริษัทลูกของ EMC ที่ทำซอฟต์แวร์สำหรับประมวลผลด้าน Data Warehouse/Big Data โดยเฉพาะ บริษัทมีผลิตภัณฑ์หลักในมือ 2 ตัวคือ
ราชาแห่งวงการ Big Data คือ Apache Hadoop และที่ผ่านมาเราก็เห็นบริษัทมากมายที่เชื่อมระบบของตัวเองให้ทำงานร่วมกับ Hadoop ได้
ซอฟต์แวร์รายล่าสุดที่ประกาศตัวในเรื่องนี้คือ Spring เฟรมเวิร์คยอดนิยมในภาษาจาวา (ปัจจุบันเป็นของ VMware) ก็เปิดตัว Spring Hadoop ที่ช่วยให้แอพที่เขียนด้วย Spring สามารถคำนวณ MapReduce ใน Hadoop ได้ และเชื่อมต่อไปยังบริการอื่นๆ อย่าง Hive และ Pig ได้ด้วย
คนที่ติดตามวงการ Big Data คงทราบดีว่าซอฟต์แวร์มาตรฐานของวงการคือ Hadoop ซึ่งตัวซอฟต์แวร์เป็นโอเพนซอร์ส แต่ก็มีบริษัทหลายแห่งพัฒนาเวอร์ชันเชิงพาณิชย์ให้บริการ
ทิศทางที่ชัดเจนในโลกไอทีองค์กรขณะนี้คือ "Big Data" หรือการประมวลผลข้อมูลปริมาณมหาศาล ซึ่งบริษัทขนาดใหญ่อย่าง IBM หรือ Oracle ก็ลงมาเล่นในตลาดนี้กันแล้ว
บริษัทล่าสุดที่เข้ามาร่วมวงคือ Cray เจ้าพ่อแห่งซูเปอร์คอมพิวเตอร์ ที่ประกาศตั้งฝ่ายใหม่ชื่อ YarcData ขึ้นมาลุยตลาดเกิดใหม่นี้โดยเฉพาะ
ยุทธศาสตร์นี้ถือว่าน่าสนใจเพราะ Cray ขายเครื่องคอมพิวเตอร์สำหรับประมวลผลในระดับสูงอยู่ก่อนแล้ว และบริษัทเองก็มีรากฐานในสายธุรกิจนี้อยู่บ้าง (เดิมทีเรียกฝ่าย Knowledge Management) ซึ่งการตั้งฝ่ายใหม่ครั้งนี้ Cray จะนำเทคโนโลยีจากโลกซูเปอร์คอมพิวเตอร์เข้าสู่ตลาดองค์กร และให้บริการวิเคราะห์ข้อมูลที่ครบวงจรมากขึ้น
เมื่อต้นปีที่แล้ว หลายคนคงจำข่าว IBM Watson ซูเปอร์คอมพิวเตอร์ที่ชนะมนุษย์ในการแข่งเกมโชว์ Jeopardy! กันได้
ข่าวนี้ต่อเนื่องจากข่าวเก่า ออราเคิลร่วมวง NoSQL ออกผลิตภัณฑ์ใหม่ Oracle Big Data Appliance จะให้รู้เรื่องต้องย้อนกลับไปอ่านก่อนครับ
สรุปสั้นๆ ก็คือ ออราเคิลเริ่มขายเซิร์ฟเวอร์สำเร็จรูป Big Data Appliance สำหรับงานประมวลผลจำพวก NoSQL/Big Data แล้ว