Jay Parikh รองประธานผู้ดูแลฝ่ายวิศวกรรมของ Facebook ได้เปิดเผยข้อมูลว่าในปัจจุบัน Facebook ได้ทำการทดสอบซ้อมแผนการรับมือสถานการณ์วิกฤต โดยทีมวิศวกรได้ทดลองทำให้ศูนย์ข้อมูลของตนเองล่มกันจริงๆ เพื่อการทดสอบนี้
Parikh ได้กล่าวบรรยายถึงเรื่องนี้ในงานสัมมนา @Scale งานดังกล่าวเป็นงานที่รวบรวมเอาเจ้าหน้าที่ผู้สร้างและบำรุงรักษาระบบคอมพิวเตอร์ขนาดใหญ่ที่รองรับผู้ใช้งานจำนวนมหาศาล ซึ่งมีเหล่าวิศวกรจากบริษัทใหญ่ๆ อาทิ Google, Airbnb, Dropbox, Spotify, Netflix และบริษัทอื่นอีกมาเข้าร่วมกันมากมาย
Parikh อธิบายถึงที่มาที่ไปของเรื่องนี้ว่า ในปี 2012 พายุเฮอร์ริเคน Sandy ได้พัดผ่านถล่มพื้นที่ซึ่งมีศูนย์ข้อมูลของ Facebook ตั้งอยู่ 2 แห่ง แม้ว่าศูนย์ข้อมูลของ Facebook จะผ่านวาตภัยครั้งนั้นมาได้โดยไม่ได้รับความเสียหาย แต่นั่นก็ทำให้บริษัทตระหนักถึงความเสี่ยงของระบบและคิดจัดตั้งทีม SWAT ขึ้น พร้อมตั้งโครงการ "Project Storm" ซึ่งมีเป้าหมายในการวางแผนและดำเนินการซักซ้อมทดสอบการกู้สถานการณ์ในกรณีที่ศูนย์ข้อมูลของ Facebook ล่มลง
เวลาผ่านไป 2 ปีหลังเริ่มโครงการ Parikh คิดว่าถึงเวลาแล้วที่โครงการ Project Storm พร้อมที่จะเข้าสู่การทดสอบในโลกแห่งความจริง แม้ว่าผู้บริหารหลายคนของ Facebook จะไม่ค่อยอยากเชื่อนักว่าทีม SWAT จะตัดสินใจทดสอบทำให้ศูนย์ข้อมูลของตนเองล่มจริงๆ เพื่องานนี้ แต่ Parikh เชื่อว่าการวางแผนเตรียมขั้นตอนการรับมือวิกฤตศูนย์ข้อมูลล่มไว้เพียงแค่บนกระดาษโดยขาดการทดลองทำกับเหตุการณ์จริงนั้นไม่เพียงพอ
Parikh เล่าว่าการทดลองทำให้ศูนย์ข้อมูลล่มในครั้งแรกเล่นเอาทีมวิศวกรและผู้คนในส่วนอื่นของ Facebook โกลาหลกันพอสมควร แต่สำหรับฝั่งผู้ใช้แล้วไม่มีใครสังเกตเห็นถึงสิ่งที่กำลังเกิดขึ้นในตอนนั้นเลย
Parikh เผยว่าทุกวันนี้ทีม SWAT ยังคงเดินหน้าโครงการ Project Storm และยังมีการทดสอบด้วยการทำให้ศูนย์ข้อมูลล่มอยู่เพื่อปรับปรุงกระบวนการทำงานให้ดีขึ้นอยู่เรื่อยๆ
ที่มา - IEEE Spectrum
Comments
กล้าจริงๆ
กล้าทำในสิ่งที่ต่าง สุดยอด
exercise ได้โหดมากครับ
สิ้นเทอมที่กำลังจะมาถึงม.ผมก็กำลังซ้อมแผนโดยไม่แจ้งเจ้าหน้าที่ล่วงหน้าครับ อาจารย์ประจำวิชาผมจะเดินเข้าไปปิดระบบไฟฟ้าที่เลี้ยงอาาคร Data Center โดยไม่แจ้งการซ้อมล่วงหน้า ต่อหน้านศ.ประจำวิชา(ผมเป็นหนึ่งใน)เป็นประจักษ์พยานในการรับมือเมื่อเกิดเหตุฉุกเฉิน น่าตื่นเต้นดีว่าลงทุนไป 100 ล้านจะทำได้จริงไหม:P
เดี๋ยวนะ ตัดไฟดื้อๆ ระวัง disk crash แบบไม่กลับนะครับ
ถ้าระบบสำรองไฟไม่สมบูรณ์พอ เบลด ฮาร์ดดิสก์ เราท์เตอร์ ไลน์การ์ด อย่างใดอย่างหนึ่งไปแน่ครับ ขนาด CAT เคยโดนมายังพังยับเยิน
วิศวกรเองก็จะรู้ก่อนไม่กีสัปดาห์ครับว่าเค้าจะทดสอบให้ที่ไหนล่ม