OVHcloud ผู้ให้บริการตลาวด์ที่เน้นตลาดยุโรปรายงานว่าเกิดเหตุไฟไหม้ที่ศูนย์ข้อมูล Strasbourg โดยต้นเพลิงเริ่มจาก SBG2 และลามออกไป ไฟไหม้นานกว่า 3 ชั่วโมงส่งผลให้ SBG2 ไหม้ไปทั้งหมด และ SBG1 เสียหายไป 4 ห้องจาก 12 ห้อง
ไฟลามไปยังส่วนอื่น ศูนย์ข้อมูล SBG1 ถูกทำลายบางส่วน ทีมงานตัดสินใจตัดไฟและเน็ตเวิร์คทั้งศูนย์ พร้อมแจ้งลูกค้าให้เริ่มใช้แผน Disaster Recovery ทันที ขณะนี้ทีมงานกำลังวางระบบไฟฟ้าให้กับศูนย์ข้อมูลที่ยังไม่เสียหาย, ยืนยันว่าอุปกรณ์เน็ตเวิร์คยังทำงานได้, และกู้เน็ตเวิร์คให้กลับมา
ทาง OVH มีศูนย์ข้อมูลทั้งหมด 15 ศูนย์ในยุโรป และยังมีศูนย์ข้อมูลในแคนาดา
ที่มา - OVH, @oleovhcom
Comments
ระบบดับเพลิงไม่ทำงาน ?
จริง ๆ ตามกฏหมายอาคาร ต้องมีระบบดับเพลิง แต่ก็ไหม้ได้นะครับ ถ้าซวยจริงๆ
DC ปรกติแบ่งเป็น Tier 1-4 ตามปรกติคือ Guarantee Up Time โดยมี Option ย่อยเป็น มีสายไฟเข้า DC หลายเส้น กันน้ำท่วม กันแผ่นดินไหว มีระบบ Security สูง มีการกระจายความเสี่ยงโดยมี DC หลายที่ หรืออยู่ในหลายประเทศ หรือ มีระบบผลิตไฟฟ้าเองในยามจำเป็น ถ้ายังพังอีกก็ มีคนย้าย Data ไป DC อื่นให้ภายในเวลาที่การันตี ถ้าดูตามข่าวก็ ถือว่า ศุนย์นี้อยู่ Tier สูงอยู่นะครับ
ระดับนี้เค้าควรต้องมี DR Site (รึเปล่า)
ถ้าตัว Cloud ปกติเขาไม่ได้ย้าย workload ลูกค้าไป DR ให้นะครับ ลูกค้าต้องเตรียมทางหนีทีไล่กันเอง อย่างพวก managed database บางตัวจะมีตัวเลือก sync ข้าม zone เช่น Amazon RDS Multi AZ แบบนั้นก็คือรอดในเคสแบบนี้ หรือ object storage ก็มีเหมือนกัน แต่ส่วนโหลดอื่นๆ ที่เป็น VM อันนี้ต้องหาทางกันเองครับ
lewcpe.com, @wasonliw
เข้าใจว่าต้องดูว่า plan ที่ลูกค้าใช้มี SLA เกี่ยวกับ DR รองรับหรือไม่ด้วย เพราะราคามันก็จะอีกราคา ส่วนลูกค้าบางคนไม่ได้สนใจก็ต้องรับความเสี่ยงกันเอง
อย่างผมใช้ AWS มันก็มีระบบ Multi-AZ ให้ทำ DR ข้าม site ภายใน region เดียวกัน หรือซีเรียสหนักขึ้นก็ multi region เอาอีกทีก็ได้ แต่ทุกการ setup ก็มีค่าใช้จ่ายเพิ่มขึ้นเสมอ
เท่าที่อ่าน ๆ ดู เหมือน DC นี้จะมีแค่ระบบตรวจจับไฟไหม้แล้วแจ้งไปที่ดับเพลงน่ะครับ แต่ไม่มี fire suppression system ที่ดับไฟทันที OVH จะมีบริษัทลูกที่ให้บริการ server ในราคาถูกมาก ๆ เช่น kimsufi กับ soyoustart ซึ่งการทำแบบนี้คงเป็นการลด cost น่ะครับ เรื่อง DR นี่ไม่ต้องพูดถึงครับ ไม่มีอยู่แล้ว ลูกค้ารับผิดชอบกันเอาเอง
ปกติระบบแบบนี้เขาไม่ทำ dr น่ะครับ แต่จะมีการตั้งศูนย์แยกกันในระยะที่ห่างกันจนไม่น่าเกิดผลกระทบไปพร้อมๆ กัน เวลามีภัยพิบัติ
ซึ่งผู้ใช้บริการ ต้องเลือกเองว่า จะทำการ duplicate ไป zone อื่นไหม ซึ่งก็ไม่ใช่ dr อยู่ดี เพราะมัน online ทั้งคู่
ผมไม่ค่อยเชื่อแนวทาง dr site เท่าไหร่ เพราะมันมักไม่ได้รับความสนใจ เกิดปัญหาขึ้นมาทีก็มักใช้งานไม่ได้ หรือไม่ก็ข้อมูล/app version ห่างกันมาก
สู้ทำเป็น load balance multi zone จะดีกว่าครับ
พื้นเป็นไม้ด้วย ไหม้ทีกินหมดไวเลย
https://twitter.com/olesovhcom/status/335448359525552128/photo/1
https://twitter.com/MedecineLibre/status/1369618937063817219 ที่ศูนย์ข้อมูลอีกแห่ง RBX