Steve McGhee วิศวกรตำแหน่ง Solutions Architect เล่าถึงการทำงานของตำแหน่งงาน site reliability engineering (SRE) ใน Google Cloud โดยเล่าถึงเหตุการณ์เซิร์ฟเวอร์ load balancer หรือ GFE (Google front end) เริ่มทำงานผิดพลาด ทำให้ SRE ที่เข้าเวรได้รับการแจ้งเตือน
SRE ที่เข้าเวรดึงทราฟิกทั้งหมดออกจากเซิร์ฟเวอร์ที่มีปัญหาทันที จากนั้นไล่ตรวจสาเหตุตั้งแต่เน็ตเวิร์คไปจนถึงตัวเซิร์ฟเวอร์ พบข้อความแจ้งเตือนว่าเครื่องร้อนผิดปกติ ทำให้ซีพียูลดสัญญาณนาฬิกาลงเพื่อลดความร้อน เมื่อไล่ตรวจสอบกลุ่มเครื่องที่มีปัญหาพบว่าทั้งหมดอยู่ในตู้เดียวกัน ไม่มีปัญหากับเครื่องอื่น เมื่อไม่มีอะไรให้ตรวจสอบแล้ว SRE ก็แจ้งไปยังทีมจัดการฮาร์ดแวร์ ที่ส่งคนไปตรวจสอบเครื่อง และพบว่าตู้เซิร์ฟเวอร์ที่อัดเซิร์ฟเวอร์อยู่เต็มนั้น "ล้อแตก" จนทำให้เครื่องเอียง และระบบหล่อเย็นด้วยของเหลวไม่ทำงาน
ทีมฮาร์ดแวร์ซ่อมล้อและนำเซิร์ฟเวอร์กลับที่เดิม แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่าปัญหานี้เกิดได้อย่างไร และแก้ไขได้อย่างไรบ้าง ทีมงานวิเคราะห์ว่ามีล้อที่มีความเสี่ยงแบบเดียวกันอยู่จำนวนเท่าใด และหลังจากนั้นก็ตัดสินใจส่งล้อชุดใหม่ออกไปซ่อมตู้เซิร์ฟเวอร์ทั้งหมดก่อนเกิดปัญหาอีก
McGhee สรุปแนวทางของ SRE ว่า "เหตุการณ์ที่ก่อปัญหาควรเป็นเหตุการณ์ใหม่" เสมอ ปัญหาทุกอย่างไม่ควรเป็นปัญหาที่เกิดซ้ำ และระบบตรวจสอบที่ครอบคลุม มีการความรับผิดชอบต่อปัญหาทำให้ศูนย์ข้อมูลมีเสถียรภาพมากขึ้น
ที่มา - Google Cloud Blog
Comments
Apple : This is why we charged extra for our wheels.
ตู้ไม่มี ขาเกลียวยืดหดได้ ที่ขันออกมาค้ำ แทนล้อ รึครับ
น้ำหนักเกินคงไม่หรอกมั้ง น่าจะออกแบบมารับน้ำหนักและมี safety factor พอสมควร ดูแล้วอาจจะมาจากการประกอบไม่ดีหรือไม่ก็ vibration สั่นสะเทือนเล็กๆ แต่สม่ำเสมอก็ทำให้ล้อแตกได้
นี่น่าจะเป็นปัญหาที่เกิดขึ้นนอก test case scenario ที่เคยทดสอบ 555+
..: เรื่อยไป
ตั้งคำว่าถามว่า ?
แอบสงสัยว่าระบบหลอดเย็น มันไม่ใช้ปั๊มแรงดันในการทำงานเหรอเนี่ย
แค่เอียงก็หยุดทำงาน
ตู้โคตรหนัก ใช้ล้อพลาสติก