Apache Spark

Meta เปิดตัวโครงการ Velox ตัวปรับแต่งประสิทธิภาพฐานข้อมูล รองรับ Spark, Presto, PyTorch

By mk

on 22 April 2023 - 20:08 Tag: Meta, Database, Development, Apache Spark, Presto, PyTorch

AWS เผยวิสัยทัศน์ Zero ETL ข้อมูลจาก Aurora ไหลเข้า Redshift อัตโนมัติ, รันคิวรี่ Spark บน Redshift ได้เลย

By BlackMiracle

on 30 November 2022 - 15:51 Tag: AWS, Data Warehouse, Database, Apache Spark, Enterprise

AWS

วันนี้ที่งาน AWS re:Invent 2022 Adam Selipsky ซีอีโอของ AWS ได้พูดถึงแนวทางการจัดการข้อมูลที่น่าสนใจ คือ “Zero ETL” เขาบอกว่าลูกค้าต่างมีข้อมูลที่กระจัดกระจาย เช่นแอพดึงข้อมูลจาก database และดึงข้อมูลอีกส่วนจาก data lake ซึ่งการนำข้อมูลมาใช้ปกติต้องผ่านกระบวนการที่เรียกว่า ETL (Extract, Transform, Load) เพื่อให้ข้อมูลพร้อมใช้งาน และการทำ ETL ก็ใช้เวลาเยอะ แถมยังยากอีกด้วย

Google Cloud ออก Serverless Spark รัน Apache Spark ตามปริมาณการใช้งาน

By mk

on 8 April 2022 - 09:44 Tag: Apache Spark, Google Cloud, Serverless, Google, Big Data

Apache Spark

Apache Spark เป็นซอฟต์แวร์วิเคราะห์ข้อมูล big data แบบขนานที่ใช้งานกันอย่างแพร่หลาย และถูกนำไปให้บริการโดยคลาวด์หลายยี่ห้อ (เช่น Azure Databricks หรือ Amazon EMR) ถึงแม้เพิ่มความสะดวกในการดูแลระบบกว่าเดิม แต่ยังคงรูปแบบการเช่าเวลาเครื่องใช้งานเป็นชั่วโมงเหมือนคลาวด์ทั่วไป

ล่าสุด Google Cloud นำเอา Spark มาผสานกับแนวคิด Serverless ที่ไม่ต้องสนใจระบบคลัสเตอร์เบื้องหลังเลย เพราะตัวบริการจัดการเรื่องสเกลให้อัตโนมัติ และจ่ายเงินเฉพาะเท่าที่ใช้งาน

ไมโครซอฟท์เปิดตัว .NET for Apache Spark วิเคราะห์ข้อมูลด้วยภาษา C# และ F#

By mk

on 1 May 2019 - 11:01 Tag: .NET, F#, C#, Microsoft, Apache Spark, Big Data, Development

.NET

Apache Spark กลายเป็นซอฟต์แวร์มาตรฐานในการวิเคราะห์ข้อมูลขนาดใหญ่แบบเรียลไทม์ แต่ภาษาโปรแกรมที่เชื่อมต่อกับ Spark ได้ยังจำกัดอยู่แค่ภาษา Java, Python, Scala, R, SQL เท่านั้น

ไมโครซอฟท์จึงเอาใจชาว .NET ด้วยการเปิดตัว .NET for Apache Spark เพื่อให้สามารถใช้ภาษาตระกูล .NET (C#, F#) เชื่อมต่อกับ Spark ได้ด้วย

.NET for Apache Spark เป็นซอฟต์แวร์โอเพนซอร์ส เปิดโค้ดบน GitHub ทำงานข้ามแพลตฟอร์มได้ทั้งบนวินโดวส์ ลินุกซ์ แมค โดยตอนนี้ยังอยู่ในสถานะพรีวิว ต้องใช้ร่วมกับ .NET Core 2.1 ขึ้นไป

ไมโครซอฟท์เปิดตัว Azure Databricks บริการวิเคราะห์ข้อมูลด้วย Apache Spark

By mk

on 6 April 2018 - 17:21 Tag: Microsoft Azure, Apache Spark, Big Data, Databricks

Microsoft Azure

เดือนที่แล้วไมโครซอฟท์เปิดตัว Azure Databricks บริการใหม่ในเครือ Azure สำหรับการวิเคราะห์ข้อมูลขนาดใหญ่

Azure Databricks เป็นการนำ Apache Spark มารันบนคลาวด์ ความน่าสนใจคือบริการตัวนี้เป็นความร่วมมือระหว่างไมโครซอฟท์กับบริษัท Databricks ซึ่งก่อตั้งโดยหนึ่งในผู้สร้าง Apache Spark ด้วย

จุดเด่นของ Azure Databricks คือการขยายตัวแบบไม่จำกัดบนโครงสร้างพื้นฐานของไมโครซอฟท์ และการเชื่อมต่อกับบริการข้อมูลตัวอื่นในตระกูล Azure เช่น Azure Cosmos DB, Azure Data Lake Store, Azure IoT Hub เพื่อรวมข้อมูลหลายประเภทหลายแหล่ง มารันวิเคราะห์ใน Azure Databricks อีกทีหนึ่ง

Yahoo เปิดซอร์ส TensorFlowOnSpark รวมร่างสองพลัง Big Data กับ Machine Learning

By mk

on 16 February 2017 - 14:55 Tag: TensorFlow, Apache Spark, Hadoop, Yahoo!, Machine Learning, Open Source

TensorFlow

ซอฟต์แวร์แห่งโลกยุคใหม่ที่มาแรงสองตัวคือ Apache Hadoop/Spark สำหรับงานประมวลผล Big Data และ TensorFlow สำหรับงาน Machine Learning

ล่าสุดทีมพัฒนาจาก Yahoo จับมันมารวมกันแล้วในชื่อว่า TensorFlowOnSpark หน้าที่ของมันคือการนำฟีเจอร์เรียนรู้ของ TensorFlow มารันอยู่บนคลัสเตอร์ Hadoop/Spark โดยตรง เพื่อไม่ให้ต้องย้ายข้อมูลระหว่างคลัสเตอร์สองระบบ ซึ่งเสียเวลาและทรัพยากรในการย้ายข้อมูลขนาดใหญ่

IBM เปิดตัวบริการ Watson Data Platform และ Machine Learning สำหรับงาน Big Data/AI

By mk

on 26 October 2016 - 13:02 Tag: Watson, IBM, Big Data, Apache Spark, Machine Learning, Enterprise

Watson

IBM Watson เปิดตัวบริการใหม่ 2 ตัวสำหรับองค์กรที่ต้องการประมวลผลข้อมูลในยุค cognitive ได้แก่ IBM Watson Data Platform และ IBM Watson Machine Learning Service

IBM Watson Data Platform เป็นแพลตฟอร์มสำหรับเก็บข้อมูลจากแหล่งต่างๆ เพื่อนำไปใช้วิเคราะห์ต่อในอนาคต ตัวแกนกลางของระบบคือ Apache Spark ที่รันบน IBM Cloud และสามารถเข้าถึงแหล่งข้อมูลบางอย่างที่ IBM เคยไปลงทุนไว้ เช่น The Weather Company เพื่อนำข้อมูลไปผสมผสานกับข้อมูลที่องค์กรมีได้

ตัว Data Platform รองรับภาษาโปรแกรมหลากหลาย ทั้ง SQL, Python, R, Java, Scala และเชื่อมต่อกับบริการของพาร์ทเนอร์รายอื่นๆ เช่น Keen IO, RStudio ได้ด้วย

Apache Spark ซอฟต์แวร์ประมวลผล Big Data ความเร็วสูง ออกเวอร์ชัน 2.0 แล้ว

By mk

on 31 July 2016 - 11:02 Tag: Apache Spark, Big Data, Open Source

Apache Spark

ซอฟต์แวร์ด้าน Big Data ที่มาแรงมากในช่วงหลังคือ Apache Spark ซอฟต์แวร์ประมวลผลข้อมูลขนาดใหญ่ด้วยความเร็วสูง เพราะใช้เทคนิคการประมวลผลในแรมที่ต่างไปจาก MapReduce ของ Hadoop

ล่าสุด Spark ออกเวอร์ชัน 2.0 ซึ่งถือเป็นครั้งแรกในรอบสองปีที่ออกเวอร์ชันใหญ่ ของใหม่ในเวอร์ชันนี้มีจำนวนมาก เช่น

Azure HDInsight รองรับ Apache Spark อย่างเป็นทางการ

By mk

on 8 June 2016 - 07:53 Tag: Apache Spark, Hadoop, Big Data, Microsoft, Microsoft Azure

Apache Spark

เมื่อกลางปีที่แล้ว ไมโครซอฟท์รองรับ Apache Spark ประมวลผลข้อมูลในหน่วยความจำบน Azure HDInsight โดยมีสถานะเป็นรุ่นพรีวิว หนึ่งปีผ่านมา ไมโครซอฟท์ปรับสถานะเป็นรุ่นใช้งานจริง (general availability - GA) แล้ว รุ่นที่ใช้งานคือ Apache Spark v1.6.1

ไมโครซอฟท์ระบุว่า Spark ได้รับความนิยมสูงในหมู่ผู้ใช้ HDInsight และการเข้าสถานะ GA น่าจะยิ่งทำให้ Spark ได้รับความนิยมมากขึ้น

Google Cloud Dataproc เข้าสถานะ GA, ใช้งาน Hadoop/Spark บนคลาวด์กูเกิล

By mk

on 23 February 2016 - 22:39 Tag: Google, Hadoop, Cloud Computing, Big Data, Google Cloud, Apache Spark

Google

ปีที่แล้ว Google เปิดตัว Cloud Dataproc บริการ Hadoop/Spark บนกลุ่มเมฆ ตอนนี้บริการตัวนี้เข้าสถานะ GA (general availability) แล้ว

Google Cloud Dataproc ออกแบบมาสำหรับคนที่ต้องการวิเคราะห์ข้อมูล big data ด้วย Apache Hadoop/Spark แต่ไม่อยากเซ็ตระบบเซิร์ฟเวอร์เอง หรือไม่อยากลงทุนเตรียมคลัสเตอร์ขนาดใหญ่ไว้ ก็สามารถเช่าใช้บริการจากคลาวด์ของกูเกิลได้เลย ช่วยแก้ปัญหาทั้งค่าใช้จ่ายตั้งต้น ภาระการดูแล และการขยายขนาดในอนาคตถ้าหากข้อมูลมีปริมาณเยอะขึ้น

Google เปิดตัว Cloud Dataproc บริการ Hadoop/Spark บนกลุ่มเมฆ

By mk

on 25 September 2015 - 22:36 Tag: Hadoop, Cloud Computing, Big Data, Google Cloud, Apache Spark

Hadoop

Google Cloud Platform เปิดบริการใหม่ (อีกแล้ว) โดยใช้ชื่อว่า Google Cloud Dataproc มันคือการนำเอาซอฟต์แวร์วิเคราะห์ข้อมูลอย่าง Apache Hadoop และ Apache Spark มาโฮสต์บนระบบคลาวด์ของกูเกิล และปรับแต่งให้เซ็ตอัพ คอนฟิก และใช้งานง่ายขึ้น ลดความยุ่งยากในการดูแลระบบลง

ไมโครซอฟท์รองรับ Apache Spark ประมวลผลข้อมูลในหน่วยความจำบน Azure HDInsight

By mk

on 12 July 2015 - 18:22 Tag: Cloud Computing, Enterprise, Big Data, Apache Spark, Microsoft, Microsoft Azure

Cloud Computing

ซอฟต์แวร์ที่มาแรงในโลกของ Big Data คือ Apache Spark ที่เปรียบเสมือน Hadoop ทำงานในหน่วยความจำ (MapReduce in memory)

ล่าสุดไมโครซอฟท์ที่เคยรองรับ Hadoop บน Azure ในชื่อ HDInsight ก็ประกาศรองรับ Spark เพิ่มเติมแล้ว โดยยังมีสถานะเป็น public preview ภายใต้บริการ Azure HDInsight อีกทีหนึ่ง

Subscribe to Apache Spark