Tags:
Node Thumbnail

Steve McGhee วิศวกรตำแหน่ง Solutions Architect เล่าถึงการทำงานของตำแหน่งงาน site reliability engineering (SRE) ใน Google Cloud โดยเล่าถึงเหตุการณ์เซิร์ฟเวอร์ load balancer หรือ GFE (Google front end) เริ่มทำงานผิดพลาด ทำให้ SRE ที่เข้าเวรได้รับการแจ้งเตือน

SRE ที่เข้าเวรดึงทราฟิกทั้งหมดออกจากเซิร์ฟเวอร์ที่มีปัญหาทันที จากนั้นไล่ตรวจสาเหตุตั้งแต่เน็ตเวิร์คไปจนถึงตัวเซิร์ฟเวอร์ พบข้อความแจ้งเตือนว่าเครื่องร้อนผิดปกติ ทำให้ซีพียูลดสัญญาณนาฬิกาลงเพื่อลดความร้อน เมื่อไล่ตรวจสอบกลุ่มเครื่องที่มีปัญหาพบว่าทั้งหมดอยู่ในตู้เดียวกัน ไม่มีปัญหากับเครื่องอื่น เมื่อไม่มีอะไรให้ตรวจสอบแล้ว SRE ก็แจ้งไปยังทีมจัดการฮาร์ดแวร์ ที่ส่งคนไปตรวจสอบเครื่อง และพบว่าตู้เซิร์ฟเวอร์ที่อัดเซิร์ฟเวอร์อยู่เต็มนั้น "ล้อแตก" จนทำให้เครื่องเอียง และระบบหล่อเย็นด้วยของเหลวไม่ทำงาน

ทีมฮาร์ดแวร์ซ่อมล้อและนำเซิร์ฟเวอร์กลับที่เดิม แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่าปัญหานี้เกิดได้อย่างไร และแก้ไขได้อย่างไรบ้าง ทีมงานวิเคราะห์ว่ามีล้อที่มีความเสี่ยงแบบเดียวกันอยู่จำนวนเท่าใด และหลังจากนั้นก็ตัดสินใจส่งล้อชุดใหม่ออกไปซ่อมตู้เซิร์ฟเวอร์ทั้งหมดก่อนเกิดปัญหาอีก

McGhee สรุปแนวทางของ SRE ว่า "เหตุการณ์ที่ก่อปัญหาควรเป็นเหตุการณ์ใหม่" เสมอ ปัญหาทุกอย่างไม่ควรเป็นปัญหาที่เกิดซ้ำ และระบบตรวจสอบที่ครอบคลุม มีการความรับผิดชอบต่อปัญหาทำให้ศูนย์ข้อมูลมีเสถียรภาพมากขึ้น

ที่มา - Google Cloud Blog

No Description

No Description

Get latest news from Blognone

Comments

By: pepporony
ContributorAndroid
on 18 March 2020 - 07:25 #1151593

Apple : This is why we charged extra for our wheels.

By: toooooooon
iPhoneWindows PhoneAndroidBlackberry
on 18 March 2020 - 08:54 #1151598

ตู้ไม่มี ขาเกลียวยืดหดได้ ที่ขันออกมาค้ำ แทนล้อ รึครับ

By: TheOrbital
iPhoneWindows PhoneAndroidSymbian
on 18 March 2020 - 09:27 #1151600
TheOrbital's picture

น้ำหนักเกินคงไม่หรอกมั้ง น่าจะออกแบบมารับน้ำหนักและมี safety factor พอสมควร ดูแล้วอาจจะมาจากการประกอบไม่ดีหรือไม่ก็ vibration สั่นสะเทือนเล็กๆ แต่สม่ำเสมอก็ทำให้ล้อแตกได้

By: btoy
ContributorAndroidWindows
on 18 March 2020 - 11:08 #1151614
btoy's picture

นี่น่าจะเป็นปัญหาที่เกิดขึ้นนอก test case scenario ที่เคยทดสอบ 555+


..: เรื่อยไป

By: panurat2000
ContributorSymbianUbuntuIn Love
on 18 March 2020 - 14:49 #1151639
panurat2000's picture

แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่า

ตั้งคำว่าถามว่า ?

By: bodinmon
AndroidWindows
on 19 March 2020 - 01:17 #1151699
bodinmon's picture

แอบสงสัยว่าระบบหลอดเย็น มันไม่ใช้ปั๊มแรงดันในการทำงานเหรอเนี่ย
แค่เอียงก็หยุดทำงาน

By: Lightwave
iPhoneAndroidWindows
on 19 March 2020 - 05:23 #1151709

ตู้โคตรหนัก ใช้ล้อพลาสติก