SRE ต้องดูทุกอย่าง กูเกิลเล่าประสบการณ์ดูแลศูนย์ข้อมูลพบเซิร์ฟเวอร์ "ล้อแตก"

By: lew

on 18 March 2020 - 01:33 Tags:

Topics:

Google Cloud

Data Center

Steve McGhee วิศวกรตำแหน่ง Solutions Architect เล่าถึงการทำงานของตำแหน่งงาน site reliability engineering (SRE) ใน Google Cloud โดยเล่าถึงเหตุการณ์เซิร์ฟเวอร์ load balancer หรือ GFE (Google front end) เริ่มทำงานผิดพลาด ทำให้ SRE ที่เข้าเวรได้รับการแจ้งเตือน

SRE ที่เข้าเวรดึงทราฟิกทั้งหมดออกจากเซิร์ฟเวอร์ที่มีปัญหาทันที จากนั้นไล่ตรวจสาเหตุตั้งแต่เน็ตเวิร์คไปจนถึงตัวเซิร์ฟเวอร์ พบข้อความแจ้งเตือนว่าเครื่องร้อนผิดปกติ ทำให้ซีพียูลดสัญญาณนาฬิกาลงเพื่อลดความร้อน เมื่อไล่ตรวจสอบกลุ่มเครื่องที่มีปัญหาพบว่าทั้งหมดอยู่ในตู้เดียวกัน ไม่มีปัญหากับเครื่องอื่น เมื่อไม่มีอะไรให้ตรวจสอบแล้ว SRE ก็แจ้งไปยังทีมจัดการฮาร์ดแวร์ ที่ส่งคนไปตรวจสอบเครื่อง และพบว่าตู้เซิร์ฟเวอร์ที่อัดเซิร์ฟเวอร์อยู่เต็มนั้น "ล้อแตก" จนทำให้เครื่องเอียง และระบบหล่อเย็นด้วยของเหลวไม่ทำงาน

ทีมฮาร์ดแวร์ซ่อมล้อและนำเซิร์ฟเวอร์กลับที่เดิม แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่าปัญหานี้เกิดได้อย่างไร และแก้ไขได้อย่างไรบ้าง ทีมงานวิเคราะห์ว่ามีล้อที่มีความเสี่ยงแบบเดียวกันอยู่จำนวนเท่าใด และหลังจากนั้นก็ตัดสินใจส่งล้อชุดใหม่ออกไปซ่อมตู้เซิร์ฟเวอร์ทั้งหมดก่อนเกิดปัญหาอีก

McGhee สรุปแนวทางของ SRE ว่า "เหตุการณ์ที่ก่อปัญหาควรเป็นเหตุการณ์ใหม่" เสมอ ปัญหาทุกอย่างไม่ควรเป็นปัญหาที่เกิดซ้ำ และระบบตรวจสอบที่ครอบคลุม มีการความรับผิดชอบต่อปัญหาทำให้ศูนย์ข้อมูลมีเสถียรภาพมากขึ้น

ที่มา - Google Cloud Blog

No Description

Hiring! บริษัทที่น่าสนใจ

Data Wow Co.,Ltd

We enable our clients to realize increased productivity by solving their most complex issues by Data

Nipa Cloud

#1 OpenStack cloud provider in Thailand with our own data center and software platform.

LINE Company Thailand

LINE, the world's hottest mobile messaging platform, offers free text and voice messaging + Call

Comments

By: pepporony

on 18 March 2020 - 07:25 #1151593

Apple : This is why we charged extra for our wheels.

By: toooooooon

on 18 March 2020 - 08:54 #1151598

ตู้ไม่มี ขาเกลียวยืดหดได้ ที่ขันออกมาค้ำ แทนล้อ รึครับ

By: TheOrbital

on 18 March 2020 - 09:27 #1151600

น้ำหนักเกินคงไม่หรอกมั้ง น่าจะออกแบบมารับน้ำหนักและมี safety factor พอสมควร ดูแล้วอาจจะมาจากการประกอบไม่ดีหรือไม่ก็ vibration สั่นสะเทือนเล็กๆ แต่สม่ำเสมอก็ทำให้ล้อแตกได้

By: btoy

on 18 March 2020 - 11:08 #1151614

นี่น่าจะเป็นปัญหาที่เกิดขึ้นนอก test case scenario ที่เคยทดสอบ 555+

..: เรื่อยไป

By: panurat2000

on 18 March 2020 - 14:49 #1151639

แต่งานของ SRE ยังคงทำต่อไปด้วยการตั้งคำว่าถามว่า

ตั้งคำว่าถามว่า ?

By: bodinmon

on 19 March 2020 - 01:17 #1151699

แอบสงสัยว่าระบบหลอดเย็น มันไม่ใช้ปั๊มแรงดันในการทำงานเหรอเนี่ย
แค่เอียงก็หยุดทำงาน

By: Lightwave

on 19 March 2020 - 05:23 #1151709

ตู้โคตรหนัก ใช้ล้อพลาสติก

Main menu