Cloudflare ออกรายงานถึงเหตุล่มเมื่อวานนี้ โดยพบว่าเป็นการคอนฟิก BGP ผิดพลาด ทำให้ตัวกรองเราท์ BGP ไม่ยอมรับเราท์ภายในของ Cloudflare เองจนเป็นเหตุให้ระบบมีปัญหาในที่สุด
ความยากของปัญหาครั้งนี้คือคอนฟิกนี้จะมีปัญหากับศูนย์ข้อมูลแบบใหม่ที่ Cloudflare เพิ่งปรับปรุงในช่วงปีที่ผ่านมา เรียกว่า Multi-Colo PoP (MCP) เป็นสถาปัตยกรรมศูนย์ข้อมูลภายในที่ช่วยให้ Cloudflare ซ่อมบำรุงบางส่วนของศูนย์ข้อมูลได้โดยระบบยังทำงานต่อไปได้ แต่ไม่มีปัญหากับศูนย์ข้อมูลแบบเดิมๆ ของ Cloudflare เอง
หลังวิศวกรคอนฟิกระบบใหม่เข้าไปแล้ว กว่าคอนฟิกจะขยายไปถึงศูนย์ข้อมูลที่เป็น MCP ก็ใช้เวลานานกว่าสองชั่วโมง และคอนฟิกกระจายไปยังศูนย์ข้อมูล MCP ทั้ง 19 แห่งอย่างรวดเร็ว อัตรารีเควสที่เข้ามาถึง Cloudflare ก็ลดลงครึ่งเดียวทันที
ทีมงานใช้เวลาประมาณครึ่งชั่วโมงในการหาต้นเหตุของปัญหา และเนื่องจากคอนฟิกเข้าระบบไประยะหนึ่งแล้วทำให้มีการแก้ไขคอนฟิกอื่นๆ ซ้อนเข้าไปอีก ทำให้ต้องถอนคอนฟิกเหล่านั้นออกไปด้วย รวมใช้เวลาประมาณ 40 นาที
ที่มา - Cloudflare
Comments
ทำให้"ต้อง"ถอนคอนฟิกเหล่านั้นออกไปด้วย หรือป่าวครับ?
จนะ -> จน
ะทำให้ให้ถอน -> ทำให้
ให้ถอนบล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
เจ้านี้เค้ามีปัญหาคอนฟิดผิด bgp ร่วงตลอดเลย
สแปม?