美國(guó)一數(shù)據(jù)中心斷電,客戶服務(wù)中斷超40小時(shí)
01
數(shù)據(jù)中心的運(yùn)維管理水平跟不上,
要付出多大的代價(jià)?
11月2日,全球知名網(wǎng)絡(luò)性能與安全服務(wù)商Cloudflare發(fā)生服務(wù)中斷事故,直到40個(gè)小時(shí)后,所有服務(wù)才全部恢復(fù)上線。
中斷原因是Cloudflare租用的Flexential數(shù)據(jù)中心,在當(dāng)日凌晨四點(diǎn)左右發(fā)生了變壓器接地故障,導(dǎo)致機(jī)房斷電。
據(jù)說(shuō)在嘗試恢復(fù)供電的過程中,有三件事阻礙了發(fā)電機(jī)的重新啟動(dòng):
? 首先,由于接地故障導(dǎo)致電路跳閘,因此需要實(shí)際進(jìn)入并手動(dòng)重新啟動(dòng);
? 其次,F(xiàn)lexential的訪問控制系統(tǒng)沒有備用電池供電,因此處于離線狀態(tài);
? 第三,現(xiàn)場(chǎng)值守的夜班人員中沒有經(jīng)驗(yàn)豐富的運(yùn)維或電力專家,只有一名保安和一名才剛剛上崗一周的技術(shù)人員。
由于發(fā)電機(jī)沒有完全重新啟動(dòng),UPS電池耗盡,數(shù)據(jù)中心的所有客戶都斷電了。在整個(gè)過程中,F(xiàn)lexential從未告知Cloudflare該設(shè)施存在任何問題。
更加不幸的是,當(dāng)天中午,當(dāng) Flexential試圖重新啟動(dòng)Cloudflare的電路時(shí),發(fā)現(xiàn)斷路器出現(xiàn)了故障,而現(xiàn)有的斷路器庫(kù)存不夠了,需要臨時(shí)采購(gòu)。
直到斷電發(fā)生的11個(gè)小時(shí)后,F(xiàn)lexential才終于更換了發(fā)生故障的斷路器,恢復(fù)了兩路市電供應(yīng),確認(rèn)電力供應(yīng)正常。Cloudflare也隨之開始逐步恢復(fù)服務(wù)。
這事兒一出,讓人不禁感嘆Flexential這家數(shù)據(jù)中心的運(yùn)維管理也太不靠譜了。不專業(yè)的供電方式、讓缺乏經(jīng)驗(yàn)的新員工獨(dú)立值班、缺少零部件、不與客戶及時(shí)溝通都加深了本次事故的嚴(yán)重性。想必Cloudflare經(jīng)歷過這次“災(zāi)難”,也要重新考慮是否續(xù)租了。
數(shù)據(jù)中心設(shè)施復(fù)雜,管理難度大,專業(yè)性強(qiáng),必須建立規(guī)范的運(yùn)維體系和管理制度、配備專業(yè)度高的運(yùn)維團(tuán)隊(duì),才能真正保證數(shù)據(jù)中心安全、高效運(yùn)行。
02
人手不要“省”
“忙”,用來(lái)形容數(shù)據(jù)中心的運(yùn)維工作再合適不過。要保障業(yè)務(wù)的穩(wěn)定性,除了要求運(yùn)維團(tuán)隊(duì)7*24小時(shí)進(jìn)行輪班值守、實(shí)時(shí)監(jiān)控系統(tǒng)運(yùn)行情況、對(duì)基礎(chǔ)設(shè)備設(shè)施進(jìn)行巡檢,還需要電氣、暖通、弱電等系統(tǒng)的技術(shù)人員對(duì)機(jī)房基礎(chǔ)設(shè)施提供運(yùn)維技術(shù)支持、解決技術(shù)問題、進(jìn)行優(yōu)化改造工程等。因此,充足的人手是至關(guān)重要的。
運(yùn)維團(tuán)隊(duì)的配置應(yīng)根據(jù)數(shù)據(jù)中心的等級(jí)和SLA(服務(wù)要求協(xié)議)來(lái)確定,要注意:
1.數(shù)量:必須有足夠數(shù)量的合格員工和/或供應(yīng)商來(lái)執(zhí)行運(yùn)維工作;
2.資質(zhì):所有工作人員必須具備必要的經(jīng)驗(yàn)和技術(shù)資格;
3.分工:每個(gè)崗位的角色和職責(zé)都應(yīng)是明確的。
高等級(jí)以及具有一定規(guī)模的數(shù)據(jù)中心,每個(gè)班組應(yīng)配備具有電力、暖通、弱電專業(yè)能力的運(yùn)維人員,以達(dá)到“即時(shí)應(yīng)急響應(yīng)”的工作狀態(tài)。等級(jí)相對(duì)低的機(jī)房,每個(gè)班需要至少配備一人,達(dá)到“即時(shí)報(bào)警”的工作狀態(tài)。關(guān)鍵管理人員或關(guān)鍵崗位人員應(yīng)采用A、B 角色配置,以保證工作連續(xù)性。
03
戰(zhàn)斗力是“練”出來(lái)的
人手夠了,但真碰到事兒,能扛得住嗎?
還是得練!
培訓(xùn)和演練可確保所有人員(包括供應(yīng)商)了解在數(shù)據(jù)中心工作的政策、程序和特殊要求,對(duì)于避免計(jì)劃外停機(jī)、確保對(duì)預(yù)期和計(jì)劃外事件做出正確反應(yīng)至關(guān)重要。
運(yùn)維團(tuán)隊(duì)?wèi)?yīng)針對(duì)所有可能發(fā)生的故障場(chǎng)景制定完整的應(yīng)急預(yù)案,包括環(huán)境(火災(zāi)、逃生、防臺(tái)防汛等)、電氣、暖通、消防、弱電等專業(yè)的應(yīng)急預(yù)案。然后,運(yùn)維團(tuán)隊(duì)?wèi)?yīng)對(duì)應(yīng)急預(yù)案進(jìn)行定期培訓(xùn)及演練,在條件允許的情況下盡量真實(shí)地處理故障,不斷優(yōu)化、完善應(yīng)急預(yù)案的場(chǎng)景及有效性。
對(duì)新員工,更要進(jìn)行完整嚴(yán)格的上崗培訓(xùn)。數(shù)據(jù)中心禁不起“試錯(cuò)”,實(shí)習(xí)或新入職員工禁止獨(dú)立執(zhí)行相關(guān)工作任務(wù)。管理者也不要松懈,應(yīng)積極參與行業(yè)交流,了解行業(yè)最佳的運(yùn)維管理實(shí)踐,并從行業(yè)故障案例中總結(jié)經(jīng)驗(yàn),做好自身整改。
為了推動(dòng)整個(gè)運(yùn)維團(tuán)隊(duì)技術(shù)和素質(zhì)的發(fā)展和改進(jìn),有必要建立人員的關(guān)鍵績(jī)效指標(biāo),定期對(duì)所有人員的短期和長(zhǎng)期績(jī)效進(jìn)行評(píng)估,獎(jiǎng)優(yōu)罰劣。


