ไมโครซอฟท์ออกรายงานฉบับเต็มถึงเหตุการณ์ศูนย์ข้อมูลในสิงคโปร์ล่ม จนทำให้บริการจำนวนหนึ่งใช้งานไม่ได้เป็นเวลานานประมาณหนึ่งวันเต็ม โดยต้นตอของปัญหาเกิดจากเหตุไฟตก (power dip) จนทำให้ระบบทำความเย็นทำงานไม่เต็มที่ สร้างปัญญาต่อๆ มาอย่างต่อเนื่อง
รายงานระบุว่ามีระบบทำความเย็นทั้งหมด 8 ชุดจากยี่ห้อ A 5 ชุดและ B 3 ชุด โดยมีชุดหนึ่งของยี่ห้อ A ปิดซ่อมบำรุงตามรอบอยู่ เมื่อเกิดเหตุไฟตกระบบทำความเย็นทั้งหมดปิดตัวลง แต่ทีมงานเปิดระบบของยี่ห้อ B กลับขึ้นมาไม่ได้แม้จะสั่งเปิดเครื่องแบบแมนนวลแล้วก็ตาม ศูนย์ข้อมูลร้อนขึ้นเรื่อยๆ เพราะระบบหล่อเย็น 4 ชุดนั้นไม่เพียงพอ หลังจากตามช่างของผู้ผลิตเข้ามาพบว่าบอร์ดควบคุมคอมเพรสเซอร์ต้องปิดทิ้งไว้ 5 นาทีจึงเปิดกลับขึ้นมาได้เพื่อให้ประจุไฟคายออกให้หมดก่อน แต่คู่มือการทำงานกลับไม่ได้เขียนขั้นตอนนี้ไว้
ระยะเวลาที่นานทำให้น้ำหล่อเย็นร้อนขึ้นเรื่อยๆ จนเกิน 28 องศา ซึ่งทำให้ไม่สามารถเปิดระบบหล่อเย็นได้แม้จะซ่อมอุปกรณ์เสร็จแล้วเพราะจะทำให้ระบบเสียหาย ทีมงานตัดสินใจปิดระบบทั้งหมดเพื่อให้อุณหภูมิลดลง จากนั้นก็เปิดระบบหล่อเย็นกลับขึ้นมาทั้งหมดได้สำเร็จแล้วค่อยเปิดโครงสร้างทั้งหมดกลับขึ้นมา เริ่มจากระบบสตอเรจและระบบประมวลผล (compute)
ผลกระทบต่อเนื่องจากการปิดศูนย์ข้อมูลไปหนึ่งโซน คือ บริการบางตัวที่ผู้ใช้เปิดระบบทำงานข้ามโซนเอาไว้กลับทำงานไม่ถูกต้องระหว่างเหตุการณ์ครั้งนี้ด้วย เนื่องจาก ARM control plane ที่เป็นตัวจัดการบริการต่างๆ นั้นคอนฟิกไว้ในภูมิภาค Southeast Asia ผิด ทำให้ CosmosDB อ่านข้อมูลบางส่วนไม่ได้เมื่อโซนหนึ่งถูกปิดไป บริการที่ได้รับผลกระทบได้แก่ Azure Site Recovery (ASR) ลูกค้าบางส่วนย้ายไซต์ไม่สำเร็จ, Azure Backup เกิดความล่าช้าระหว่างการกู้คืนข้อมูล, Azure Storage ที่เปิดการทำงานข้ามภูมิภาคบางรายไม่สามารถใช้งานต่อเนื่องได้ เพราะระบบตรวจสอบความถูกต้องข้อมูลบล็อคการทำ failover เอาไว้, Azure SQL มีปัญหากู้ระบบได้ช้าประมาณ 90 นาที และลูกค้าบางส่วนที่รอศูนย์ข้อมูลเปิดกลับมาก็กลับไม่สามารถใช้ Azure SQL ได้เพราะเซิร์ฟเวอร์มีปัญหาจากบั๊กใน BIOS จนต้องใช้เวลาแก้ไขต่ออีกวัน
ที่มา - Azure Status
Comments
บอร์ดควบคุมคอมเพรสเซอร์ต้องปิดทิ้งไว้ 5 นาทีจึงเปิดกลับขึ้นมาได้เพื่อให้ประจุไฟคายออกให้หมดก่อน
เรื่องนี้ไม่น่าจะเกี่ยวกับการคายประจุใน capacitor เลยครับ โดยปกติเครื่องทำความเย็นเมื่อถูก shutdown จะต้องรอ 5 นาที เพื่อรอให้ความดันของสารทำความเย็นลดลง ในวงจรที่จะ start เครื่องทำความเย็นจะมีการหน่วงเวลาไว้ 5 นาที แต่ต้นฉบับดันไปใช้คำว่า drain internal capacitor จริงแล้วควรจะเป็น drain internal pressure มากกว่า
เขาไม่บอกยี่ห้อหรือรุ่นก็คงเช็คให้ไม่ได้ครับ ก็ต้องยึดตามต้นทางก่อน
และจากรายงานของเขา ก็ไม่มีการหน่วงวงจร start นะครับ ไม่งั้นคงไม่มีปัญหาตั้งแต่แรกไม่ต้องเรียกช่างของบริษัทแอร์เข้าไป
lewcpe.com, @wasonliw
+1 ยุคนี้ยิ่งไม่น่ามางกกับพวก bleeder resistor แล้วด้วยนะ
บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
สร้างปัญญา ?
แม้แต่ M$ ก็ยังไม่เทส backup จนมีเรื่องอีกเรอะเนี่ย นี่ถ้าหลุด guarantee SA ด้วยน่าจะได้จ่ายกันอานแหง
บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
กฏเมอฟี่ เปล่านิ