Tags:
Node Thumbnail

เมื่อสัปดาห์ที่ผ่านมาสายการบิน ANA เกิดเหตุระบบล่มขนานใหญ่ นานถึง 4 ชั่วโมง 40 นาที ทำให้ผู้โดยสารติดค้างสนามบินจำนวนนับหมื่นราย ตอนนี้ทางสายการบินก็ออกมาชี้แจงสาเหตุ ระบุว่าเกิดจากสวิตช์เน็ตเวิร์คตัวหนึ่งที่เชื่อมต่อเซิร์ฟเวอร์ฐานข้อมูลเสียหาย

ทาง ANA ระบุว่าเหตุการณ์นี้เกิดขึ้นเพราะสองเหตุการณ์พร้อมกัน (จากอุปกรณ์ตัวเดียวกัน) คือเน็ตเวิร์คสวิตช์ไม่ทำงานตามปกติ ทำให้ระบบฐานข้อมูลไม่สามารถซิงก์ข้อมูลระหว่างกันได้ และระบบปิดตัวเองลงโดยอัตโนมัติเพื่อป้องกันความผิดพลาดของข้อมูล ขณะที่อีกปัญหาหนึ่งคือตัวสวิตช์เองยังรายงานว่าตัวเองทำงานได้ถูกต้องดีไม่แสดงปัญหาออกมา ทำให้ระบบสำรองที่ควรจะขึ้นมาทำงานแทนอัตโนมัติไม่สามารถทำงานแทนได้อย่างถูกต้อง

ทาง ANA ระบุว่าได้เพิ่มเติมระบบตรวจสอบการทำงานของสวิตช์ไว้แล้ว แม้ระบบจะแจ้งว่าทำงานดีอยู่แต่หากพบความผิดพลาดก็จะใช้ระบบสำรองทันที พร้อมกับระบุว่าจะหาทางร่วมกับผู้ผลิตหาทางปรับปรุงสินค้าต่อไป สุดท้ายคือในเดือนเมษายนนี้จะมีการปรับปรุงทีมงานโดยนำผู้เชี่ยวชาญจากภายนอกมาช่วย

ผู้บริหาร ANA ลดเงินเดือนเพื่อรับผิดชอบเหตุการณ์ครั้งนี้ตั้งแต่ประธานบริษัท, CEO, CIO ขณะที่ประธานบริษัท ANA Holdings บริษัทแม่ก็รับเงินเดือนลดลงด้วยเช่นกัน

แถลงการณ์ของ ANA ไม่ได้บอกโดยตรงว่าใครเป็นผู้วางระบบนี้และสวิตช์ที่เสียเป็นของผู้ผลิตรายใด แต่ทางหนังสอพิมพ์ Nikei BP ก็ระบุว่าผู้วางระบบคือ Nihon Unisys และสวิตช์ที่มีปัญหาคือ Cisco Catalyst 4948E

ที่มา - ANA, Nikei BP

alt="upic.me"

ภาพแปลจากภาพของสายการบิน ANA

Get latest news from Blognone

Comments

By: TeamKiller
ContributoriPhone
on 31 March 2016 - 23:27 #899395
TeamKiller's picture

เน็ตเวิร์คสวิตช์ไม่ทำงานตมปกติ

ตาม ?

By: TeamKiller
ContributoriPhone
on 31 March 2016 - 23:28 #899396 Reply to:899395
TeamKiller's picture

แก้ไม่ได้ มาเพิ่มในนี้ละกัน

แสดงว่า Switch ทำงานแบบ Active/Standby ใช่เปล่าหว่า

By: icez
ContributoriPhoneAndroidRed Hat
on 31 March 2016 - 23:30 #899398 Reply to:899396

Cisco Catalyst 4948E

ตัวมันเองทำ HA ไม่ได้ด้วยซ้ำครับ ยกเว้นใช้ spanning tree block เอาข้างนึง

By: TeamKiller
ContributoriPhone
on 31 March 2016 - 23:48 #899409 Reply to:899398
TeamKiller's picture

stack ไม่ได้หรอนี่ แปลกจัง

ถ้ามีแค่ Switch 2 ตัว ผมว่ายังไง Redundant กันได้นะครับ ยกเว้นแต่มันไม่ฟ้องว่า พอร์ทดับ ล่มไป

By: icez
ContributoriPhoneAndroidRed Hat
on 1 April 2016 - 00:10 #899415 Reply to:899409

4948 เป็นรุ่นที่ทำ stack ไม่ได้อ่าครับ - -'

By: TeamKiller
ContributoriPhone
on 1 April 2016 - 08:38 #899503 Reply to:899415
TeamKiller's picture

ออ ถึงว่าอ่านหาในเว็บ Cisco ตั้งนานไม่มีคำนี้เลย

งานสำคัญๆ น่าจะใช้รุ่นดีกว่าสักหน่อย ฮ่าๆ

By: tontpong
Contributor
on 1 April 2016 - 08:53 #899511 Reply to:899503
  • กัวอัพเกรดล่มแล้วไม่มีช่องเวลาให้แก้ไขมากพอ .. ระบบที่มาเกาะอยุ่ตามรุปนี่, แค่จะหาจังหวะหยุดพักให้มันนี่ยังยากเลย

  • ไม่เคยคิดจะอัพเกรด .. อัพเกรดไปทำไม เปลืองเปล่าๆ , มันก้อทำงานได้อยุ่นี่นา #เสียงพรายแถวนี้กระซิบ -.-"

By: panurat2000
ContributorSymbianUbuntuIn Love
on 1 April 2016 - 08:29 #899499 Reply to:899395
panurat2000's picture

แต่ทางหนังสอพิมพ์ Nikei BP ก็ระบุว่า

หนังสอพิมพ์ => หนังสือพิมพ์

By: wichate
Android
on 31 March 2016 - 23:36 #899404

สรุปปัญหาที่แท้จริงก็คือ Switch เสียแต่ยังส่ง status ออกมาว่ายังทำงานตามปกติ ระบบสำรองเลยไม่ active

By: tucker
iPhoneWindows PhoneAndroid
on 31 March 2016 - 23:45 #899408
tucker's picture

ต้องมีระบบสำรองของระบบสำรองเพื่อตัดไปใช้ระบบสำรองไหม #สำรองception

By: tontpong
Contributor
on 1 April 2016 - 08:01 #899482

ระบบในไทยที่ล่มๆ ไป แล้วมีการออกมาอธิบายสาเหตุแบบละเอียดชัดเจน.. เอาซัก 3 เคสล่าสุด, ใครนึกออกบ้างว่ามีระบบไหนบ้าง ?

By: phedphed
Android
on 1 April 2016 - 08:44 #899506 Reply to:899482

1.รู้เท่าไม่ถึงการ
2.ไม่เคยกระทำความผิดมาก่อน ให้รอลงอาญา
3.ทำความดี (จับยาตีสาม ตีสี่ เลยกระทืบเด็กได้)

By: mr_tawan
ContributoriPhoneAndroidWindows
on 1 April 2016 - 10:40 #899550 Reply to:899506
mr_tawan's picture
  1. เด็กฝึกงานทำ

  • 9tawan.net บล็อกส่วนตัวฮับ
By: tontpong
Contributor
on 1 April 2016 - 12:53 #899635 Reply to:899482

เท่าที่นึกออกก้อมีเคสของพันทิบ.. http://macroart.net/2013/10/mongodb-lessons-learned-on-pantip/

By: WWII
iPhoneAndroid
on 1 April 2016 - 09:04 #899515
WWII's picture

สงสัย data plane มันคงมีปัญหา แต่พวก control plane ยัง respond ปกติ ทำให้ไม่เกิด failover ตามที่ตั้งไว้ ถ้าจะแก้คง ต้องทำตัวเช็ค ระดับ end-to-end ถึงระดับ service ไปเลยมั้งผมว่า

By: Hadakung
iPhoneWindows PhoneAndroidWindows
on 1 April 2016 - 09:50 #899520

ถ้าเป็นระบบรัฐบาลไทยคงมีการแจ้วออกมาว่าไม่ต้องห่วงเราแบลกอัพข้อมูลไว่เรียบร้อยแล้ว ตัวฮาร์ดิสลูกละ 8 แสนบาท:P