ความเชื่อว่าระบบ Cloud ไม่ล่มนั้นนับเป็นหนึ่งในความเชื่อที่ผิดของผู้จัดซื้อระบบ IT ในปัจจุบันอย่างหนึ่ง แต่จากเหตุการณ์นับตั้งแต่ Amazon, VMware, และ Google Blogger ล่าสุดบริการ Microsoft BPOS ที่เป็นบริการที่คล้ายกับ Google Apps ก็ล่มไปถึง 2 ครั้งในสามวัน
ปัญหาของ BPOS เกิดขึ้นสองครั้งคือวันอังคารที่ 10 ที่ผ่านมา ระบบ Exchange มีปัญหาจากเมลที่ส่งเข้ามาผิดโปรโตคอล (malform) ทำให้ระบบเมลรวนจนกระทั่งเมลทั้งหมดได้รับช้าไป 6-9 ชั่วโมง โดยตอนนี้ทีมงาน BPOS ได้แก้ปัญหาชั่วคราวแล้วและแก้ไขปัญหาระยะยาวกันอยู่
ครั้งที่สองเกิดขึ้นในวันที่ 12 ที่ผ่านมาเกิดความผิดพลาดในการรองรับเมลเข้าที่ผิดโปรโตคอลอีกครั้งทำให้เมลช้าไป 45 นาที และต่อมาก็เกิดปัญหาเมลส่งไม่ออก จนช้าไปสูงสุด 3 ชั่วโมงสำหรับลูกค้าบางราย
ไมโครซอฟท์ยอมรับปัญหาที่เกิดขึ้นและจะให้เครดิตกับผู้ใช้ที่ได้รับผลกระทบพร้อมกับเตรีมหาวิธีที่จะสื่อสารกับผู้ใช้ให้ดีขึ้นต่อไป
ที่มา - Microsoft Technet
Comments
ชื่อเต็ม Microsoft Business Productivity Online Standard Suite 55555555555555+
ปกติปัญหา น่าจะมาได้จาก 3 ทาง คือ
1. ผู้ใช้ - ไม่ต่อเน็ต, เครื่องมีปัญหา
2. ISP - เน็ตเวิร์คล่ม
3. เซอร์เวอร์ - ระบบล่ม
ซึ่งความเชื่อมั่นในแนวคิดของ Cloud ดูทีแรกจะสดใส แต่เอาเข้าจริง เริ่มรู้สึกจะสั่นคลอน และถดถอยลงเรื่อย ๆ ในแง่ความเชื่อมั่นของผู้ใช้ และลูกค้า
Chrome OS คงได้ผลกระทบหนักกว่าใครเพื่อน
มันล่มติดกันบ่อยเกินละ มีใครอยู่เบื้องหลังไหมนะ
Anonymous!!!
lewcpe.com, @wasonliw
มีแวว
+1
อัลกออิดะ
ช่วงปีก่อน แทบจะไม่มีข่าวทำนองนี้เลย หรือเป็นเพราะยังไม่แพร่หลาย?
ความเชื่อเรื่อง cloud computing เริ่มสั่นคลอนแล้ว..
ที่มาของข่าวเป็นวิศวกรของไมโครซอฟท์มาเขียนบล็อกชี้แจงครับ เข้าไปอ่านเต็มๆ ได้
lewcpe.com, @wasonliw
แล้วจะส่งมาผิดโปรโตคอลกันทำไม = ="
นั่นยิ่งเป็นการตอกย้ำว่า อย่าไว้ใจในระบบมากเกินไปไม่มีระบบไหนที่สมบูรณ์แบบ เป็นไปตามกฎของเมอร์ฟี่
มันห้ามกันไม่ได้หรอกครับ เพียงแต่จะรับมือหรือป้องกันอย่างไรต่อไป
เมื่อก่อนผมไม่ค่อยรู้จักระบบ cloud นะครับ (ทุกวันนี้ก็คิดว่ายังไม่รู้ดี)
ช่วงแรกๆที่มีข่าวเกี่ยวกับ cloud ผมเคยถามที่นี่แหละว่า ถ้าเกิดแผ่นดินไหวร้ายแรงในจุด server cloud แบบนี้บริการก็ล่มสิ
มีคนตอบผมด้วยว่า นี่แหละประโยชน์ของระบบ cloud ถ้าล่มที่นึง ก็ยังมีที่อื่นรองรับได้ทันที
ตอนนั้นผมก็คิดว่าเข้าใจทันทีนะ
แต่เหตุการณ์ปัจจุบันดูเหมือนจะไม่ใช่แล้วแฮะ (ล่มแล้ว service down เลย 555)
ผมเคยอธิบายเรื่องดังกล่าวไว้ตามคุณ Pinery กล่าวไว้เองครับ (เขียนไว้ในเรื่อง availability zone ของข่าวนี้) ผมอธิบายออกไปในเชิงอุดมคติหรือตั้งสมมติฐานที่ดีเกินไปครับ ซึ่งผมยังรู้สึกผิดอยู่ว่าที่ตอบเหมือนขายฝันไป
หากมองข้ามโลกจริงที่ไร้ซึ่งสมมติฐาน การทำให้ระบบให้ไม่ล่มเป็นสิ่งที่ยุ่งยากและควบคุมลำบากมาก เพราะมีความไม่แน่นอนจากหลายปัจจัย เช่น โรงไฟฟ้า ภัยธรรมชาติ แฮ็กเกอร์ ปัญหาทางเทคนิคที่มองข้ามกัน เป็นต้น อย่างไรก็ดี cloud computing ของผู้ให้บริการบางเจ้าเขาสร้างทางเลือกของ high availability หรือความอยู่รอดของระบบไว้ให้ แต่ไม่ได้ให้ฟรี(มีราคาเอาการอยู่) และที่สำคัญ ผู้ให้บริการเขาก็ระบุความอยู่รอดของการให้บริการระบบผ่านเอกสาร SLA ซึี่งจะเห็นว่าไม่ได้ประกันความอยู่รอด 100% แม้มีบางเจ้า (เช่น GoGrid) ประกันไว้ 100% แต่เขาก็ยังระบุว่า คำว่า 100% หมายถึง ถ้าระบบล่ม เขาจะชดใช้ค่าเสียหายครับ
การสร้าง high availability หรือทำไม่ให้ล่มหรือทำให้ล่มยากเนี่ย เป็นแค่ทางเลือกของผู้ใช้ แต่ไม่ใช่ค่าปริยาย (default) ที่ผู้ให้บริการทำมาให้ครับ อาทิเช่น Amazon EC2 มีหลายดาต้าเซ็นเตอร์ตั้งอยู่ในหลายพื้นที่และหลายภูมิประเทศ ถ้าหากดาต้าเซ็นเตอร์หรือเซิร์ฟเวอร์ในดาต้าเซ็นเตอร์ที่เราโฮสต์ไอทีของเราล่มขึ้นมา เราก็ยังมีเซิร์ฟเวอร์ในดาต้าเซ็นเตอร์ที่มีหลายแห่งให้เราโฮสต์ระบบไอทีอยู่ แม้มีอุกาบาตหรือแผ่นดินไหวโจมตีดาต้าเซ็นเตอร์ เช่น โจมตีที่ทวีป A แต่ถ้าเรามีสำรองของระบบไอทีโฮสต์ไว้ที่ทวีป B และสมมติฐานคือ ทวีป B ไม่ได้ถูกโจมตีด้วยและอยู่ห่างจาก A อย่างมีนัยสำคัญ และสมมติฐานอีกว่า มีระบบสำรองความเหมือนกันของระบบ (consistency) ระหว่าง A และ B ไว้ ระบบไอทีดังกล่าวจะยังคงดำเนินต่อไปได้อย่างต่อเนื่อง อาจจะมีสะดุดบ้างและมีการสูญเสียของข้อมูลบ้างที่ต้อง rollback หรือ rollforward อีกครั้ง
จากตัวอย่างทวีป A และ B ที่ผมยกมานั้น จะเห็นว่ามีสมมติฐานเบื้องหลังเยอะมาก โดยเฉพาะสมมติฐานที่ว่า ลูกค้าโฮสต์ระบบไอทีไว้ทั้งทวีป A และ B นั้นเป็นสิ่งที่มีราคา เพราะมันเป็นการทำสำเนาซ้ำซ้อน ปกติแล้ว ถ้าเราเชื่อใจระบบมากหรืออยากลดต้นทุน เราคงโฮสต์ระบบไว้ที่เดียว การสร้างสำเนาไว้ 2 แห่ง มักมีต้นทุนเพิ่มขึ้นอย่างน้อย 2 เท่า ค่าใช้จ่ายเพิ่มเติมเช่น ราคาบริการ load balancing และการสร้าง consistency ของระบบที่ต้องมีการซิงค์ข้อมูล จึงมีค่าใช้จ่ายของการขนส่งข้อมูล อีกทั้ง ต้องซื้อ license ของซอฟต์แวร์(ถ้ามี)เพิ่มขึ้นให้กับสำเนาของระบบไอทีของตน
โดยสรุป cloud computing ได้เตรียม infrastructure ให้กับลูกค้า การสร้างความอยู่รอดของระบบนั้นอยู่ในความดูแลของผู้ให้บริการส่วนหนึ่ง และอีกส่วนต้องรับผิดชอบโดยผู้ใช้ และความอยู่รอดของระบบ 100% ที่กำหนดโดย SLA นั้นหมายถึงเพียงว่า ระบบล่มได้และผู้ให้บริการต้องชดใช้ค่าเสียหาย
เมื่อเร็วๆนี้ ผมเพิ่งเขียนบล็อกในหัวข้อ Cloud computing มีลักษณะ 3 ประการ สรุปสั้นๆได้ว่า อนิจจัง ทุกขัง อนัตตา
My Blog
cloud ก็มีขนาดของมันครับ ยิ่งมันใหญ่เท่าไหร่ (กระจายงานไปหลายๆ ที่) มันก็ยิ่งแพงขึ้นเท่านั้น คนส่วนใหญ่เลยเลือกจ่ายน้อย แต่เพิ่มความเสี่ยงอีกนิดนึงแทน (ความเสี่ยงที่ลดลงต่อราคามันขึ้นเป็นกราฟ expo หรือมากกว่านั้นครับ อาจไม่คุ้มค่ากับเว็บที่ไม่ mission-critical จริงๆ)
+1 ตอบได้สั้นและกระทัดรัดครับ :)
เราจะเลือกเป็น พวกชอบเสี่ยง (risk taker) หรือ พวกกลัวเสี่ยง (risk averse) ทั้งสองมีต้นทุนไม่เหมือนกันและก็ให้ความเสียหายต่างกัน
My Blog
ผมคิดมาตั้งแต่แรกว่า cloud มันเป็นเรื่องเพ้อฝัน มันก็แค่ บริษัททั้งหลายที่ จะเปิด server ให้เช่าพยายามหาคำเรียกบริการตัวเองด้วยคำสวยๆหน่อยแทนที่จะเรียกว่า "server ให้เช่า" ก็ไปเรียกว่า "Cloud" แทน ดูดีกว่าหลายเท่า
เรื่องที่บอกว่า พออันนึงล่มก็ switch งานไปอีกจุดนึงมันเป็นไปไม่ได้
ลองนึกถึงโรงงานไฟฟ้า บางระบบแต่ละโรงต่อ network ถึงกันหมดเพราะ share load กันเล็กๆน้อยๆ แต่ถ้าเกิดมีซักโรงดับไป network ก็ต้องตัดทิ้ง แล้วยอมให้พื้นที่นั้นไฟดับไป เพราะถ้า load ไฟจากโรงอื่นมา ไฟจะดับกันทั้ง network เพราะโรงไฟฟ้าที่เหลือผลิตไฟไม่พอให้ load รวมทั้ง network ใช้
วิธีแก้ปัญหาคือสร้างโรงไฟฟ้าสำรอง ซึ่งไม่มีใครทำเพราะมันไม่คุ้ม และจะไม่มีประโยชน์เลยตอนระบบทำงานปกติ ซึ่งผู้ให้บริการ cloud ก็ไม่ทำเพราะไม่ต้องการเพิ่มภาระให้ตัวเอง
สุดท้าย user เองก็ต้องเป็นคนเช่า cloud ไว้ 2 ที่ แล้วมันจะต่างอะไรกับ 5ปี 10ปี ที่แล้ว ที่ใช้วิธีเช่า dedicated server ไว้ 2 เจ้า ถ้า datacenter ไหนล่มก็มีอีกเครื่องไว้เป็น backup ทำงานต่อ
เห็นด้วยครับ
cloud หรือแม้แต่ grid ก็ตามก็เป็นแฟชั่นที่เราสร้างมาให้มันมีอัตตาของผลิตภัณฑ์และก็เอาไปขายได้ครับ ผมเคยเขียนไว้ใน Cloud computing สินค้าแฟชั่นในมุมมองของ Larry Ellison
เรื่องโรงไฟฟ้า power grid ก็มีทำอยู่นะ ที่ว่าระบบล่ม แล้วโรงงานไฟอื่นยังจ่ายไฟต่อได้ แต่ก็อยู่ในประเทศใหญ่ๆอย่างอเมริกากับแคนนาดาในหลายๆรัฐ แต่เขาก็มีโรงไฟฟ้าที่ใหญ่มากๆ จนต้องมี smart grid (เป็นคำแฟชั่นใหม่) ว่าให้ผู้ขายกับลูกค้าสามารถช่วยกันผลิตไฟและตุนไฟไว้ได้ แบ่งขายได้ บ้านหลายๆหลังในประเทศกลุ่มนี้ก็เริ่มใช้ smart meter กันไปแล้ว แต่ก็ยังอยู่ในช่วงพัฒนาที่ต้องใช้เวลายาวนานเลยทีเดียวกว่าจะได้รับการยอมรับกว้างขวาง
ส่วนเรื่อง cloud กับการทำระบบรันได้ต่อเนื่อง ก็ยังอยู่ในช่วงพัฒนาของผู้ให้บริการบางเจ้า และถ้าจะว่าไปแล้วเรื่องดังกล่าวคือ self healing/autonomous system ก็เป็นหัวข้อวิจัยที่ทำมานมนานตั้งแต่ก่อนยุค APARNET ที่กองทัพอเมริกันพยายามสร้างระบบแบบที่ cloud โฆษณากันว่าระบบคอมล่มเพราะสงครามแล้วระบบยังวิ่งต่อได้ จากความพยายามดังกล่าวนี่เอง เราเลยได้ Internet เป็นผลพลอยให้คนทั่วโลกได้ใช้กัน
ผมขอมองในมุมของนักวิจัยนะครับว่า พวกนักวิจัยก็เรียนรู้ความผิดพลาดที่เราเจอกันอยู่ตอนนี้ และก็มีองค์กรกลางสากลที่เริ่มผลักดันให้มีหน่วยงานที่ให้ความรู้ผู้บริโภคถึงเอกสารสำคัญอย่าง service level agreement อีกทั้งผลักดันให้ฝ่ายกฎหมายออกมาตรการและมาตรฐานของการให้บริการ ให้กำหนด ISO หรือ certificate แปะไว้เลยว่าต้องให้ได้ SLA ที่เป็นมาตรฐาน อาทิ 99.xxx มี 9 อีกกี่ตัวก็ว่ากันไป แต่ถ้าทำไม่ได้ ก็ลงโทษและชดเชยค่าเสียหายเท่าไหร่ก็ว่าไป ส่วนนักวิจัยทั้งหลายก็กำลังพัฒนาเพื่อแก้ปัญหาอย่างที่เราได้เรียนรู้มาจากฝั่งผู้ให้บริการและผู้บริโภคกันต่อไปครับ
My Blog
ขอบคุณหลายๆ ท่านที่ช่วยอธิบายได้กระจ่างขึ้นครับ (ผมไม่ได้เรียนสายไอทีมา อ่านของแต่ละท่านเห็นภาพชัดเจนขึ้นมาก)
รวมถึงคุณ javaboom ด้วยครับ ผมยังจำไม่ได้เลยครับว่าตอนนั้นใครตอบผม (คุณ javaboom ความจำดีมาก :D )
ผมเข้าไปอ่าน Cloud computing มีลักษณะ 3 ประการของท่านแล้วนะครับ
ยังไงก็ขอบคุณอีกทีครับ ^^
ด้วยความยินดีครับคุณ Pinery
ผมว่าปัญหาของ cloud ที่ข่าวปัจจุบันเสนอจะร้อนมาก ทำให้ทั้งลูกค้าและผู้ให้บริการระวังมากขึ้น ผู้ให้บริการก็ต้องยอมรับผิดและไม่โฆษณาเกินจริง และต้องปรับปรุงระบบตนให้ดีขึ้น ส่วนลูกค้าก็ต้องใส่ใจเรื่อง SLA ให้มากขึ้น เราคงต้องช่วยตำหนิถึงข้อเสียของ cloud และก็ติเพื่อก่อเพื่อที่เราจะได้อะไรดีๆยิ่งๆขึ้นไปครับ
My Blog
"ความเชื่อว่า Cloud ไม่ล่มกำลังถูกทำลาย" เอามาจากตรงไหนเหรอครับ
คงเหมือน "ไททานิค" ที่คิดว่าเป็นเรือไม่มีวันจมนั่นแหละ
ต่อไปโฆษณาขายของด้วยการยกข้อดีของคลาวด์คงยากขึ้น จะต้องมีคำถามกลับที่เซลล์ต้องสะอึกเป็นแน่
ผมว่าเอาไว้อนาคตมันก็ดีขึ้นเอง มนุษย์เป็นสัตว์ที่มีการเรียนรู้ และหาทางแก้ไขปัญหาได้อยู่เสมอๆ มันจะไม่อยู่ยงไม่ล่มตลอดกาล จะปัญหาล่มออดๆแอดๆอย่างนี้ก็คงจะหายไป
SPICYDOG's Blog
พร้อมกับเตรีมหาวิธี ย่อหน้าสุดท้ายตก "ย" ยักษ์นะครับ
ทำไมระบบ Cloud มันพากันล่มเป็นใบไม้ร่วงเลยแฮะ
Achievement Unlocked: Being a Blognone's Writer
ผมว่ามันคือ ก้าวแรก(สะดุด) ที่ยิ่งใหญ่อะนะ :)