กูเกิลออก Cloud Dataflow SDK ชุดพัฒนาสำหรับการประมวลผล Big Data ยุคหน้า

By: mk

on 19 December 2014 - 22:47 Tags:

Topics:

Google

Big Data

Google Cloud

ในงาน Google I/O เมื่อกลางปีนี้ กูเกิลโชว์เทคโนโลยี Cloud Dataflow ซึ่งเป็นการประมวลผลข้อมูลจำนวนมากบนกลุ่มเมฆ โดยเป็นการพัฒนาจากแนวคิด MapReduce ที่กูเกิลเป็นคนสร้างขึ้นตั้งแต่ปี 2004 ให้เหมาะสมกับยุคสมัย

ที่ผ่านมา Cloud Dataflow ยังมีสถานะเป็นแค่ของโชว์เท่านั้น วันนี้กูเกิลเปิด Cloud Dataflow SDK ให้ลองใช้งานแล้ว โดยเริ่มต้นจากภาษา Java ก่อนเป็นอย่างแรก และจะมี Python 3 ตามมาเป็นลำดับต่อไป (สถานะของ Cloud Dataflow ในปัจจุบันคือเป็นรุ่น alpha)

แนวคิดของ Cloud Dataflow คือเป็นชุดของข้อมูล (dataset) ในรูปแบบที่เรียกว่า PCollections (ย่อมาจาก parallel collections) ซึ่งอาจมีขนาดใหญ่มากๆ ตามรูปแบบข้อมูล big data ในปัจจุบัน จากนั้นมันจะถูกประมวลผลผ่านไลบรารี PTransforms (parallel transforms) ที่ประกอบด้วยงานพื้นฐาน (เช่น top, count) และสามารถนำมาประกอบร่างกันได้/นำโค้ดกลับมาใช้ใหม่ได้

Cloud Dataflow ออกแบบด้วยแนวคิดการแยกส่วนกระบวนการ (modular) เพื่อให้รีดประสิทธิภาพของงานได้ง่าย ผู้ใช้งานสามารถโฟกัสเฉพาะตัว logic ของโปรแกรมว่าต้องการทำอะไรเท่านั้น ส่วนงานที่เหลือนั้น Cloud Dataflow จะจัดการให้อัตโนมัติ โค้ดที่ใช้งานจึงเรียบง่ายไม่ซับซ้อน ช่วยให้การประมวลผลข้อมูลขนาดใหญ่ๆ ง่ายขึ้นมาก

ที่มา - Google Cloud Platform (1), Google Cloud Platform (2)