By mk Founder on Tag: Meta, Database, Development, Apache Spark, Presto, PyTorch
Meta

เมื่อเดือนมีนาคมที่ผ่านมา Meta เปิดตัวโครงการ Velox เป็น unified execution engine กลางสำหรับฐานข้อมูลหรือระบบจัดการข้อมูลหลายรูปแบบ ตอบโจทย์ระดับโครงสร้างพื้นฐานของบริษัทใหญ่ระดับ Meta ที่ต้องใช้ฐานข้อมูลหลากหลาย และซับซ้อนขึ้นเรื่อยๆ

Velox จึงถูกสร้างขึ้นเพื่อจัดระเบียบวิธีการเก็บและเรียกใช้ข้อมูลที่แตกต่างกัน ช่วยลดความซ้ำซ้อนในการพัฒนา และรีดประสิทธิภาพของการเก็บข้อมูลให้ดีขึ้น แก้ปัญหาเอนจินแต่ละตัวมีวิธี optimized ที่แตกต่างกัน

By BlackMiracle Writer on Tag: AWS, Data Warehouse, Database, Apache Spark, Enterprise
AWS

วันนี้ที่งาน AWS re:Invent 2022 Adam Selipsky ซีอีโอของ AWS ได้พูดถึงแนวทางการจัดการข้อมูลที่น่าสนใจ คือ “Zero ETL” เขาบอกว่าลูกค้าต่างมีข้อมูลที่กระจัดกระจาย เช่นแอพดึงข้อมูลจาก database และดึงข้อมูลอีกส่วนจาก data lake ซึ่งการนำข้อมูลมาใช้ปกติต้องผ่านกระบวนการที่เรียกว่า ETL (Extract, Transform, Load) เพื่อให้ข้อมูลพร้อมใช้งาน และการทำ ETL ก็ใช้เวลาเยอะ แถมยังยากอีกด้วย

By mk Founder on Tag: Apache Spark, Google Cloud, Serverless, Google, Big Data
Apache Spark

Apache Spark เป็นซอฟต์แวร์วิเคราะห์ข้อมูล big data แบบขนานที่ใช้งานกันอย่างแพร่หลาย และถูกนำไปให้บริการโดยคลาวด์หลายยี่ห้อ (เช่น Azure Databricks หรือ Amazon EMR) ถึงแม้เพิ่มความสะดวกในการดูแลระบบกว่าเดิม แต่ยังคงรูปแบบการเช่าเวลาเครื่องใช้งานเป็นชั่วโมงเหมือนคลาวด์ทั่วไป

ล่าสุด Google Cloud นำเอา Spark มาผสานกับแนวคิด Serverless ที่ไม่ต้องสนใจระบบคลัสเตอร์เบื้องหลังเลย เพราะตัวบริการจัดการเรื่องสเกลให้อัตโนมัติ และจ่ายเงินเฉพาะเท่าที่ใช้งาน

By mk Founder on Tag: .NET, F#, C#, Microsoft, Apache Spark, Big Data, Development
.NET

Apache Spark กลายเป็นซอฟต์แวร์มาตรฐานในการวิเคราะห์ข้อมูลขนาดใหญ่แบบเรียลไทม์ แต่ภาษาโปรแกรมที่เชื่อมต่อกับ Spark ได้ยังจำกัดอยู่แค่ภาษา Java, Python, Scala, R, SQL เท่านั้น

ไมโครซอฟท์จึงเอาใจชาว .NET ด้วยการเปิดตัว .NET for Apache Spark เพื่อให้สามารถใช้ภาษาตระกูล .NET (C#, F#) เชื่อมต่อกับ Spark ได้ด้วย

.NET for Apache Spark เป็นซอฟต์แวร์โอเพนซอร์ส เปิดโค้ดบน GitHub ทำงานข้ามแพลตฟอร์มได้ทั้งบนวินโดวส์ ลินุกซ์ แมค โดยตอนนี้ยังอยู่ในสถานะพรีวิว ต้องใช้ร่วมกับ .NET Core 2.1 ขึ้นไป

By mk Founder on Tag: Microsoft Azure, Apache Spark, Big Data, Databricks
Microsoft Azure

เดือนที่แล้วไมโครซอฟท์เปิดตัว Azure Databricks บริการใหม่ในเครือ Azure สำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

Azure Databricks เป็นการนำ Apache Spark มารันบนคลาวด์ ความน่าสนใจคือบริการตัวนี้เป็นความร่วมมือระหว่างไมโครซอฟท์กับบริษัท Databricks ซึ่งก่อตั้งโดยหนึ่งในผู้สร้าง Apache Spark ด้วย

จุดเด่นของ Azure Databricks คือการขยายตัวแบบไม่จำกัดบนโครงสร้างพื้นฐานของไมโครซอฟท์ และการเชื่อมต่อกับบริการข้อมูลตัวอื่นในตระกูล Azure เช่น Azure Cosmos DB, Azure Data Lake Store, Azure IoT Hub เพื่อรวมข้อมูลหลายประเภทหลายแหล่ง มารันวิเคราะห์ใน Azure Databricks อีกทีหนึ่ง

By mk Founder on Tag: TensorFlow, Apache Spark, Hadoop, Yahoo!, Machine Learning, Open Source
TensorFlow

ซอฟต์แวร์แห่งโลกยุคใหม่ที่มาแรงสองตัวคือ Apache Hadoop/Spark สำหรับงานประมวลผล Big Data และ TensorFlow สำหรับงาน Machine Learning

ล่าสุดทีมพัฒนาจาก Yahoo จับมันมารวมกันแล้วในชื่อว่า TensorFlowOnSpark หน้าที่ของมันคือการนำฟีเจอร์เรียนรู้ของ TensorFlow มารันอยู่บนคลัสเตอร์ Hadoop/Spark โดยตรง เพื่อไม่ให้ต้องย้ายข้อมูลระหว่างคลัสเตอร์สองระบบ ซึ่งเสียเวลาและทรัพยากรในการย้ายข้อมูลขนาดใหญ่

By mk Founder on Tag: Watson, IBM, Big Data, Apache Spark, Machine Learning, Enterprise
Watson

IBM Watson เปิดตัวบริการใหม่ 2 ตัวสำหรับองค์กรที่ต้องการประมวลผลข้อมูลในยุค cognitive ได้แก่ IBM Watson Data Platform และ IBM Watson Machine Learning Service

IBM Watson Data Platform เป็นแพลตฟอร์มสำหรับเก็บข้อมูลจากแหล่งต่างๆ เพื่อนำไปใช้วิเคราะห์ต่อในอนาคต ตัวแกนกลางของระบบคือ Apache Spark ที่รันบน IBM Cloud และสามารถเข้าถึงแหล่งข้อมูลบางอย่างที่ IBM เคยไปลงทุนไว้ เช่น The Weather Company เพื่อนำข้อมูลไปผสมผสานกับข้อมูลที่องค์กรมีได้

ตัว Data Platform รองรับภาษาโปรแกรมหลากหลาย ทั้ง SQL, Python, R, Java, Scala และเชื่อมต่อกับบริการของพาร์ทเนอร์รายอื่นๆ เช่น Keen IO, RStudio ได้ด้วย

By mk Founder on Tag: Apache Spark, Big Data, Open Source
Apache Spark

ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

By mk Founder on Tag: Apache Spark, Hadoop, Big Data, Microsoft, Microsoft Azure
Apache Spark

เมื่อกลางปีที่แล้ว ไมโครซอฟท์รองรับ Apache Spark ประมวลผลข้อมูลในหน่วยความจำบน Azure HDInsight โดยมีสถานะเป็นรุ่นพรีวิว หนึ่งปีผ่านมา ไมโครซอฟท์ปรับสถานะเป็นรุ่นใช้งานจริง (general availability - GA) แล้ว รุ่นที่ใช้งานคือ Apache Spark v1.6.1

ไมโครซอฟท์ระบุว่า Spark ได้รับความนิยมสูงในหมู่ผู้ใช้ HDInsight และการเข้าสถานะ GA น่าจะยิ่งทำให้ Spark ได้รับความนิยมมากขึ้น

By mk Founder on Tag: Google, Hadoop, Cloud Computing, Big Data, Google Cloud, Apache Spark
Google

ปีที่แล้ว Google เปิดตัว Cloud Dataproc บริการ Hadoop/Spark บนกลุ่มเมฆ ตอนนี้บริการตัวนี้เข้าสถานะ GA (general availability) แล้ว

Google Cloud Dataproc ออกแบบมาสำหรับคนที่ต้องการวิเคราะห์ข้อมูล big data ด้วย Apache Hadoop/Spark แต่ไม่อยากเซ็ตระบบเซิร์ฟเวอร์เอง หรือไม่อยากลงทุนเตรียมคลัสเตอร์ขนาดใหญ่ไว้ ก็สามารถเช่าใช้บริการจากคลาวด์ของกูเกิลได้เลย ช่วยแก้ปัญหาทั้งค่าใช้จ่ายตั้งต้น ภาระการดูแล และการขยายขนาดในอนาคตถ้าหากข้อมูลมีปริมาณเยอะขึ้น

By mk Founder on Tag: Hadoop, Cloud Computing, Big Data, Google Cloud, Apache Spark
Hadoop

Google Cloud Platform เปิดบริการใหม่ (อีกแล้ว) โดยใช้ชื่อว่า Google Cloud Dataproc มันคือการนำเอาซอฟต์แวร์วิเคราะห์ข้อมูลอย่าง Apache Hadoop และ Apache Spark มาโฮสต์บนระบบคลาวด์ของกูเกิล และปรับแต่งให้เซ็ตอัพ คอนฟิก และใช้งานง่ายขึ้น ลดความยุ่งยากในการดูแลระบบลง

Cloud Computing

ซอฟต์แวร์ที่มาแรงในโลกของ Big Data คือ Apache Spark ที่เปรียบเสมือน Hadoop ทำงานในหน่วยความจำ (MapReduce in memory)

ล่าสุดไมโครซอฟท์ที่เคยรองรับ Hadoop บน Azure ในชื่อ HDInsight ก็ประกาศรองรับ Spark เพิ่มเติมแล้ว โดยยังมีสถานะเป็น public preview ภายใต้บริการ Azure HDInsight อีกทีหนึ่ง

Subscribe to Apache Spark