ปัญหา AWS S3 ในโซน US-EAST-1 ล่มเมื่อต้นเดือนที่ผ่านมา พาบริการสำคัญๆ ล่มตามไปด้วยจำนวนมาก ตอนนี้ทีมงาน AWS ก็ออกมาชี้แจงปัญหาที่เกิดขึ้นแล้ว
รายงานระบุว่าทีมงานกำลังแก้ปัญหาระบบ billing อัพเดตช้ากว่าที่ควรจะเป็นโดยการถอดเครื่องบางส่วนออกจากระบบ billing แต่การสั่งสคริปต์ผิดพลาดทำให้ถอดเครื่องในระบบ index (สำหรับการดึงข้อมูลและลบข้อมูล) และระบบ placement (สำหรับการ PUT ข้อมูล) ออกไปเป็นจำนวนมาก
ปกติแล้วระบบเหล่านี้ทนทานต่อการเสียเครื่องบางส่วนไปอยู่แล้ว แต่เหตุการณ์ครั้งนี้ทำให้ทีมงานต้องรีสตาร์ตระบบเป็นครั้งแรกในรอบหลายปี ระบบ index กลับมาทำงานได้สามชั่วโมงหลังการถอดเครื่องออก และระบบ placement ทำงานได้อีกประมาณหนึ่งชั่วโมงต่อมา
ระหว่างนั้นหน้าจอ AWS Service Health Dashboard กลับขึ้นสถานะปกติตลอดเวลาเพราะตัวระบบใช้ S3 เองด้วย ทีมงานจึงต้องอัพเดตสถานะผ่านทางทวิตเตอร์แทน
การแก้ไขระยะยาวหลังจากนี้จะมีการปรับเปลี่ยนสคริปต์ไม่ให้มีการถอดเครื่องจำนวนมากออกจากระบบได้อีกต่อไป และเพิ่มมาตรการเพื่อการกู้ระบบกลับมาให้เร็วขึ้น
ที่มา - AWS
Comments
เพื่อการในการ ?
แล้วเรื่องชดเชยหละ มีพูดถึงมั้ยหว่า หรือมันยังอยู่ใน SLA
Amazon S3 Service Level Agreement
ถือว่าเป็นงานช้างของผู้ดูแลระบบเลยเนอะ คิดแล้วก็เครียดแทน ห้าห้า
..: เรื่อยไป