CrowdStrike ออกรายงานผลการสืบสวนเบื้องต้น (Preliminary Post Incident Review) จากบั๊กของซอฟต์แวร์ Falcon Sensor ที่ส่งผลให้เกิด BSOD บนวินโดวส์ โดยเป็นรายละเอียดเพิ่มเติมจากการแถลงรอบแรกที่บอกว่าไฟล์คอนฟิก Channel Files ทำงานผิดพลาด
ซอฟต์แวร์ของ CrowdStrike มีอัพเดต 2 แบบ แบบแรกเรียกว่า Sensor Content จะถูกส่งมาพร้อมกับตัวซอฟต์แวร์เลย ลูกค้าองค์กรสามารถควบคุมการปล่อยอัพเดตประเภทนี้ได้ (เช่น ตั้งนโยบายอัพเดตเป็นเวอร์ชัน N, N-1, N-2) และ Rapid Response Content เป็นไฟล์อัพเดตย่อยที่แยกจากซอฟต์แวร์ เพื่อรับมือกับมัลแวร์-ไวรัส-การโจมตีใหม่ๆ ในช่วงเวลานั้น ฟอร์แมตของไฟล์อยู่ในรูปไบนารี
เหตุการณ์ระบบล่มคราวนี้เกิดจากอัพเดตประเภทหลัง ตามปกติแล้ว CrowdStrike มีการทดสอบไฟล์อัพเดตเป็นการภายใน (staging environment) กับสภาพแวดล้อมประเภทต่างๆ โดยซอฟต์แวร์ Falcon Sensor เวอร์ชัน 7.11 ผ่านการทดสอบในเดือนมีนาคม 2024 และถูกปล่อยในระดับโปรดักชันช่วงเดือนเมษายน ซึ่งทำงานได้ดีไม่มีปัญหา
อัพเดตเมื่อวันที่ 19 กรกฎาคม เป็นการเพิ่มข้อมูลบางอย่างให้ Sensor เวอร์ชัน 7.11 และเกิดบั๊กในระบบทดสอบ ทำให้อัพเดตย่อยตัวนี้ผ่านการทดสอบ แม้เนื้อหาในตัวอัพเดตมีปัญหา เมื่อบวกกับการทดสอบใหญ่ในเดือนมีนาคม-เมษายนไม่มีปัญหาใดๆ ส่งผลให้อัพเดตย่อยตัวนี้ถูกปล่อยสู่สาธารณะ และเกิดปัญหา BSOD ในวงกว้าง
CrowdStrike ระบุว่าจะเพิ่มมาตรการทดสอบโค้ดให้เข้มข้นกว่าเดิม เพื่อไม่ให้เกิดปัญหาแบบนี้ซ้ำอีก ส่วนการปล่อยอัพเดตจะเพิ่มกระบวนการปล่อยทีละกลุ่ม (มีวงทดสอบ canary แบบที่เราเห็นในซอฟต์แวร์ตัวอื่นๆ) และเพิ่มมาตรการให้ผู้ใช้สามารถควบคุมการอัพเดต Rapid Response Content ได้ด้วย จากเดิมที่ทำได้แต่แบบ Sensor Content
CrowdStrike บอกว่าหลังจากนี้จะปล่อยรายงานวิเคราะห์อย่างละเอียด (Root Cause Analysis) ตามมา เมื่อกระบวนการสอบสวนเสร็จสิ้นแล้ว
ที่มา - CrowdStrike
Comments
ก็คือเทสบนระบบเทสอย่างเดียวไม่ได้เทสบนเครื่องธรรมดาสินะ
The Dream hacker..
แล้วจะชดเชยอย่างไร สายการบินอ่วม
รอทนายเปิด windows ติดก่อน มีฟ้องแน่นวล
นึกว่าเตรียมเอกสารกันอยู่ 😂
แหม double standard ยัง failed
นี่software securityตัวtopจริงๆหรอ
นึกถึงตอนที่แจ้งโปรแกรมเมอร์ว่าโปรแกรมมีปัญหา แต่โปรแกรมเมอร์บอกว่าเทสบนเครื่องตัวเองแล้วปกติดี
+1 น่าเบื่อมากกกกก
น่าจะปกตินะครับ ถึงต้องมี Tester และกระบวนการทดสอบปิดท้ายเสมอ ถ้าหลุดไปถึง Production ได้บ่อยๆ ในเคสเดิมนี้ ก็ต้องตามที่ Tester แล้วครับว่าหลุดได้อย่างไร เคยเจอ PM สมัครเล่น หรือ ทีมพัฒนาที่ตัดราคาถูกๆ มักข้ามทุกกระบวนการ แล้วโปรแกรมมีปัญหาโทษโปรแกรมเมอร์ พอถามถึง Tester ได้คำตอบว่าโปรแกรมเมอร์ทดสอบเองคือไม่ต้องถามต่อเลย😆😆😆
มีคนแกะมาตรวจแล้ว ดูยังไงก็เหมือนงานที่ไม่ได้ตรวจ code มากกว่านะ
https://x.com/Perpetualmaniac/status/1814376668095754753/
การเปิดเผยเป็นหลักฐานในชั้นศาลด้วยครับ, ระมัดระวังมากน้อยก็มีผลต่อบทลงโทษด้วย, ดังนั้นเวลาอธิบายอะไรก็ต้องบอกว่าทำเพียงพอแล้ว ไม่งั้นจะถือว่าประมาทเลินเล่ออย่างร้ายแรงซึ่งอาจมีโทษที่สูงขึ้น
🤨 เห็นละก้ปวดหัวแทน
LGTM
มีหลายคนโต้แย้งทวิตข้างต้นอยู่นะครับ
https://x.com/taviso/status/1814762302337654829
https://x.com/patrickwardle/status/1816051422716203416
😂😂😂😂 เจ็บแล้วไม่จำ
จะแก้ตัวยังไงก็ไม่น่ารอด อีกอย่างนึงคือ ถ้ามีข้อพิสูจน์ได้ว่าไม่ได้Test ก่อนแล้ว ออกแถลงการณ์แบบโกหก 1 2 3 จับได้ที่ชั้นศาลคือหนักกว่าเดิม
แล้วคนก็โทษ C++ ตามเคย 5555
ศาสนา Rust โดยเฉลี่ย: