สรุปปัญหา AWS S3 ล่ม: แก้ปัญหา Billing แต่ถอดเครื่องผิดจนระบบล่ม, Dashboard ล่มตามเพราะใช้ S3

By: lew

on 3 March 2017 - 09:36 Tags:

Topics:

AWS

Availability

ปัญหา AWS S3 ในโซน US-EAST-1 ล่มเมื่อต้นเดือนที่ผ่านมา พาบริการสำคัญๆ ล่มตามไปด้วยจำนวนมาก ตอนนี้ทีมงาน AWS ก็ออกมาชี้แจงปัญหาที่เกิดขึ้นแล้ว

รายงานระบุว่าทีมงานกำลังแก้ปัญหาระบบ billing อัพเดตช้ากว่าที่ควรจะเป็นโดยการถอดเครื่องบางส่วนออกจากระบบ billing แต่การสั่งสคริปต์ผิดพลาดทำให้ถอดเครื่องในระบบ index (สำหรับการดึงข้อมูลและลบข้อมูล) และระบบ placement (สำหรับการ PUT ข้อมูล) ออกไปเป็นจำนวนมาก

ปกติแล้วระบบเหล่านี้ทนทานต่อการเสียเครื่องบางส่วนไปอยู่แล้ว แต่เหตุการณ์ครั้งนี้ทำให้ทีมงานต้องรีสตาร์ตระบบเป็นครั้งแรกในรอบหลายปี ระบบ index กลับมาทำงานได้สามชั่วโมงหลังการถอดเครื่องออก และระบบ placement ทำงานได้อีกประมาณหนึ่งชั่วโมงต่อมา

ระหว่างนั้นหน้าจอ AWS Service Health Dashboard กลับขึ้นสถานะปกติตลอดเวลาเพราะตัวระบบใช้ S3 เองด้วย ทีมงานจึงต้องอัพเดตสถานะผ่านทางทวิตเตอร์แทน

การแก้ไขระยะยาวหลังจากนี้จะมีการปรับเปลี่ยนสคริปต์ไม่ให้มีการถอดเครื่องจำนวนมากออกจากระบบได้อีกต่อไป และเพิ่มมาตรการเพื่อการกู้ระบบกลับมาให้เร็วขึ้น

ที่มา - AWS