เมื่อสัปดาห์ที่ผ่านมาสายการบิน ANA เกิดเหตุระบบล่มขนานใหญ่ นานถึง 4 ชั่วโมง 40 นาที ทำให้ผู้โดยสารติดค้างสนามบินจำนวนนับหมื่นราย ตอนนี้ทางสายการบินก็ออกมาชี้แจงสาเหตุ ระบุว่าเกิดจากสวิตช์เน็ตเวิร์คตัวหนึ่งที่เชื่อมต่อเซิร์ฟเวอร์ฐานข้อมูลเสียหาย
ทาง ANA ระบุว่าเหตุการณ์นี้เกิดขึ้นเพราะสองเหตุการณ์พร้อมกัน (จากอุปกรณ์ตัวเดียวกัน) คือเน็ตเวิร์คสวิตช์ไม่ทำงานตามปกติ ทำให้ระบบฐานข้อมูลไม่สามารถซิงก์ข้อมูลระหว่างกันได้ และระบบปิดตัวเองลงโดยอัตโนมัติเพื่อป้องกันความผิดพลาดของข้อมูล ขณะที่อีกปัญหาหนึ่งคือตัวสวิตช์เองยังรายงานว่าตัวเองทำงานได้ถูกต้องดีไม่แสดงปัญหาออกมา ทำให้ระบบสำรองที่ควรจะขึ้นมาทำงานแทนอัตโนมัติไม่สามารถทำงานแทนได้อย่างถูกต้อง
ทาง ANA ระบุว่าได้เพิ่มเติมระบบตรวจสอบการทำงานของสวิตช์ไว้แล้ว แม้ระบบจะแจ้งว่าทำงานดีอยู่แต่หากพบความผิดพลาดก็จะใช้ระบบสำรองทันที พร้อมกับระบุว่าจะหาทางร่วมกับผู้ผลิตหาทางปรับปรุงสินค้าต่อไป สุดท้ายคือในเดือนเมษายนนี้จะมีการปรับปรุงทีมงานโดยนำผู้เชี่ยวชาญจากภายนอกมาช่วย
ผู้บริหาร ANA ลดเงินเดือนเพื่อรับผิดชอบเหตุการณ์ครั้งนี้ตั้งแต่ประธานบริษัท, CEO, CIO ขณะที่ประธานบริษัท ANA Holdings บริษัทแม่ก็รับเงินเดือนลดลงด้วยเช่นกัน
แถลงการณ์ของ ANA ไม่ได้บอกโดยตรงว่าใครเป็นผู้วางระบบนี้และสวิตช์ที่เสียเป็นของผู้ผลิตรายใด แต่ทางหนังสอพิมพ์ Nikei BP ก็ระบุว่าผู้วางระบบคือ Nihon Unisys และสวิตช์ที่มีปัญหาคือ Cisco Catalyst 4948E
ภาพแปลจากภาพของสายการบิน ANA
Comments
ตาม ?
แก้ไม่ได้ มาเพิ่มในนี้ละกัน
แสดงว่า Switch ทำงานแบบ Active/Standby ใช่เปล่าหว่า
ตัวมันเองทำ HA ไม่ได้ด้วยซ้ำครับ ยกเว้นใช้ spanning tree block เอาข้างนึง
stack ไม่ได้หรอนี่ แปลกจัง
ถ้ามีแค่ Switch 2 ตัว ผมว่ายังไง Redundant กันได้นะครับ ยกเว้นแต่มันไม่ฟ้องว่า พอร์ทดับ ล่มไป
4948 เป็นรุ่นที่ทำ stack ไม่ได้อ่าครับ - -'
ออ ถึงว่าอ่านหาในเว็บ Cisco ตั้งนานไม่มีคำนี้เลย
งานสำคัญๆ น่าจะใช้รุ่นดีกว่าสักหน่อย ฮ่าๆ
กัวอัพเกรดล่มแล้วไม่มีช่องเวลาให้แก้ไขมากพอ .. ระบบที่มาเกาะอยุ่ตามรุปนี่, แค่จะหาจังหวะหยุดพักให้มันนี่ยังยากเลย
ไม่เคยคิดจะอัพเกรด .. อัพเกรดไปทำไม เปลืองเปล่าๆ , มันก้อทำงานได้อยุ่นี่นา #เสียงพรายแถวนี้กระซิบ -.-"
หนังสอพิมพ์ => หนังสือพิมพ์
สรุปปัญหาที่แท้จริงก็คือ Switch เสียแต่ยังส่ง status ออกมาว่ายังทำงานตามปกติ ระบบสำรองเลยไม่ active
ต้องมีระบบสำรองของระบบสำรองเพื่อตัดไปใช้ระบบสำรองไหม #สำรองception
ระบบในไทยที่ล่มๆ ไป แล้วมีการออกมาอธิบายสาเหตุแบบละเอียดชัดเจน.. เอาซัก 3 เคสล่าสุด, ใครนึกออกบ้างว่ามีระบบไหนบ้าง ?
1.รู้เท่าไม่ถึงการ
2.ไม่เคยกระทำความผิดมาก่อน ให้รอลงอาญา
3.ทำความดี (จับยาตีสาม ตีสี่ เลยกระทืบเด็กได้)
เท่าที่นึกออกก้อมีเคสของพันทิบ.. http://macroart.net/2013/10/mongodb-lessons-learned-on-pantip/
สงสัย data plane มันคงมีปัญหา แต่พวก control plane ยัง respond ปกติ ทำให้ไม่เกิด failover ตามที่ตั้งไว้ ถ้าจะแก้คง ต้องทำตัวเช็ค ระดับ end-to-end ถึงระดับ service ไปเลยมั้งผมว่า
ถ้าเป็นระบบรัฐบาลไทยคงมีการแจ้วออกมาว่าไม่ต้องห่วงเราแบลกอัพข้อมูลไว่เรียบร้อยแล้ว ตัวฮาร์ดิสลูกละ 8 แสนบาท:P