ปัญหา Amazon Web Services (AWS) ล่มเมื่อสัปดาห์ก่อน ถูกแก้ไขจนกลับมาใช้งานได้หมดแล้ว และทาง Amazon ก็ออกมาอธิบายว่าปัญหาเกิดจากอะไรอย่างละเอียด
สรุปต้นเหตุของปัญหาเกิดจาก Amazon มีแผนจะอัพเกรดระบบ Elastic Block Store (EBS) ในโซนอเมริกาตะวันออก จึงต้องเปลี่ยนทางของทราฟฟิกไม่ให้เข้ามาประมวลผลที่ EBS ในโซนนี้ (เพราะ EBS ปิดบริการอยู่เพื่อรออัพเกรด) แต่การเปลี่ยนทางทราฟฟิกผิดพลาดทำให้ทราฟฟิกยังเข้ามาเหมือนเดิม จุดที่รับเละคือ EBS ระบบสำรองที่ต้องรับทราฟฟิกมากกว่าปกติ สุดท้าย EBS ก็ล่มทำให้บริการอื่นๆ ที่เรียกใช้ EBS อย่าง EC2 และ Relational Database Service (RDS) ล่มตามไปด้วย
หมายเหตุ: จริงๆ ปัญหาซับซ้อนกว่านี้มาก คนที่สนใจเรื่อง cloud computing ควรตามไปอ่านฉบับเต็มครับ
Amazon สัญญาว่าจะปรับปรุงระบบให้รองรับความผิดพลาดลักษณะนี้ได้ในอนาคต และสัญญาว่าจะปรับปรุงวิธีการสื่อสารกับลูกค้าให้ดีกว่าคราวนี้ ที่ไม่ยอมบอกเลยว่าปัญหาเกิดจากอะไร
ที่มา - Amazon AWS
Comments
ขอบคุณสำหรับข้อมูลครับ
ออกแนว butterfly effect
หมายความว่าต้นเหตุมาจากคน(ตอนเปลี่ยนทางของทราฟฟิก) ไม่ได้เป็นที่ระบบใช่มั๊ยครับ?
ถ้าถามผม ผมว่าทั้งสองส่วนครับ คือระบบเองก็ไม่ได้ออกแบบมารองรับความผิดพลาดลักษณะนี้ด้วย
"จุดที่รับเละ" อิอิ ฟังดูชาวบ้านดี
สุดยอด cloud computing