近期,日本電信運營商KDDI和加拿大電信運營商Rogers相繼出現(xiàn)斷網(wǎng)事件,網(wǎng)絡(luò)中斷時間長,波及面積大,影響范圍廣,引起了全球電信行業(yè)的普遍關(guān)注。通常而言,運營商對于電信網(wǎng)絡(luò)質(zhì)量有著較高要求,不會輕易出現(xiàn)故障問題。那么,向來以質(zhì)量可靠著稱的電信網(wǎng)絡(luò)為何出現(xiàn)重大質(zhì)量事故?電信級的高可靠網(wǎng)絡(luò)服務(wù)在網(wǎng)絡(luò)IT化、云化的時代如何繼續(xù)保持?
斷網(wǎng)事故接連發(fā)生
加拿大三大電信運營商之一的Rogers近期出現(xiàn)大規(guī)模斷網(wǎng)事故,該公司遍布加拿大全境的無線網(wǎng)絡(luò)用戶、有線電視用戶和互聯(lián)網(wǎng)用戶都受到影響,與此相關(guān)聯(lián)的公共服務(wù)公司也因為網(wǎng)絡(luò)故障而不得不停止服務(wù),缺少通信和網(wǎng)絡(luò)的社會毫無征兆地進入了“停擺”狀態(tài)。根據(jù)互聯(lián)網(wǎng)檢測公司NetBlocks在推特上發(fā)布的信息,該故障影響了加拿大近1/4可監(jiān)測到的連接。
與此相類似,日本電信運營商KDDI在7月初也出現(xiàn)了通信中斷故障。該故障影響了約1/3的日本人口,且持續(xù)時間很長,時隔86小時網(wǎng)絡(luò)才全面恢復(fù)。信息社會對網(wǎng)絡(luò)和通信的依賴放大了故障的影響,不要說電子商務(wù)、移動支付、電子門票、電子政務(wù)、遠程辦公、在線教育、視頻直播等應(yīng)用,就連搶險救災(zāi)、醫(yī)療救助、氣候預(yù)警等緊急需求,也都被迫進入非正常的狀態(tài)。
加拿大創(chuàng)新、科技及工業(yè)部長François-Philippe Champagne對Rogers斷網(wǎng)事故發(fā)表評述:“這一不可接受的局面說明了,為什么質(zhì)量、選擇多樣性和可靠性在電信網(wǎng)絡(luò)中如此關(guān)鍵。”
在隨后的一份聲明中,Rogers的CEO Tony Staffieri將可能導(dǎo)致斷網(wǎng)的原因范圍縮小到了核心網(wǎng)絡(luò)的維護升級,以及由此所導(dǎo)致的路由器工作異常。他還提出將更為深入地定位問題的根源,并通過增加冗余的方式避免故障的重復(fù)出現(xiàn)。Tony Staffieri說道:“我們將采取所有必要的舉措,持續(xù)加大網(wǎng)絡(luò)投資,以強化系統(tǒng)、增加網(wǎng)絡(luò)健壯性,并加強相關(guān)的網(wǎng)絡(luò)測試。”
從這段簡短的表述中,我們可以解讀出一些重要信息:第一,該網(wǎng)絡(luò)中斷不是因為遭受外部攻擊所致,而是因為內(nèi)部升級引起的,換句話說,這是一個“主動”變化所引起的;第二,通過冗余方式能夠避免故障的重現(xiàn),說明網(wǎng)絡(luò)中某些關(guān)鍵部分存在單點故障的風(fēng)險;第三,“加強測試”,可能意味著在“主動”變化后缺乏相關(guān)的測試,沒有及時發(fā)現(xiàn)問題或是為變化的回退留出余地;第四,“持續(xù)加大網(wǎng)絡(luò)投資”,可能意味著當(dāng)前對網(wǎng)絡(luò)可靠性/健壯性的投入不足。
電信網(wǎng)絡(luò)IT化的必然挑戰(zhàn)
在服務(wù)中斷的時候,網(wǎng)絡(luò)服務(wù)的可靠性以及出現(xiàn)故障后的及時恢復(fù)、自愈、防災(zāi)備份等問題,充分凸顯出來——尤其在電信系統(tǒng)IT化、云化的過程中,這些問題需要得到特別的關(guān)注。傳統(tǒng)電信網(wǎng)絡(luò)的設(shè)計思路與IT網(wǎng)絡(luò)是不相同的。電信級服務(wù)對可靠性和容災(zāi)有著嚴苛的要求,這就需要電信網(wǎng)絡(luò)從各個層面提供可靠性和容災(zāi)保護,包括服務(wù)器設(shè)備、網(wǎng)卡設(shè)備、交換機設(shè)備、交換機鏈路、網(wǎng)關(guān)設(shè)備,至少要提供“1+1”的冗余。除此之外,還要提供高效的備份恢復(fù)能力、異地容災(zāi)能力。
在虛擬層面,配置虛機的重生和自愈等要提供自動化的網(wǎng)絡(luò)調(diào)整能力。IT化、云化的進程與這樣的理念有可能有個磨合的過程。因為從IT化的機制角度看,原先網(wǎng)絡(luò)資源是稀缺的,很多服務(wù)質(zhì)量方面的工作可以交給端側(cè)來解決,“盡力服務(wù)(Best-Effort)”是網(wǎng)絡(luò)設(shè)計的出發(fā)點?;ヂ?lián)網(wǎng)遵循“邊緣”設(shè)計原則,其特征是網(wǎng)絡(luò)傳輸采用無連接分組交換,高層功能放置在網(wǎng)絡(luò)邊緣,按“盡力服務(wù)”原則向用戶提供服務(wù)。這種設(shè)計方式能夠讓服務(wù)的承載呈現(xiàn)出分布式特點,盡管在服務(wù)資源不足的情況下,可能會因為服務(wù)請求的丟棄導(dǎo)致服務(wù)等級的下降,然而這樣的“去中心化”在一定程度上分散了大規(guī)模阻斷的風(fēng)險。在電信網(wǎng)絡(luò)IT化和互聯(lián)網(wǎng)化的趨勢下,如何做好網(wǎng)絡(luò)架構(gòu)的合理規(guī)劃、平衡好投入與可靠性是需要面對的挑戰(zhàn)。
海因里希法則適用于此
當(dāng)談及網(wǎng)絡(luò)服務(wù)中斷時,我們需要關(guān)注海因里希法則。海因里希法則是指,當(dāng)一個企業(yè)有300起隱患或違章,還有很大可能要發(fā)生29起輕傷或故障,另外再有一起重傷、死亡事故。對于企業(yè)的安全管理或者服務(wù)安全管理而言,這一法則是道理相通的,即在一起重大事故的背后必有29起輕度事故,還有300個潛在的隱患。
實際上,在快速發(fā)展的網(wǎng)絡(luò)經(jīng)濟中,運營商的業(yè)務(wù)發(fā)展和網(wǎng)絡(luò)運維也面臨著快速迭代的問題,這些變化過程中的隱患常會被發(fā)展的壓力所掩蓋。海因里希法則指出,在所有發(fā)生的事故中,“未遂事故”雖然沒有造成巨大損失,但其發(fā)生的原因和發(fā)展的過程與重大事故是一致的。而如果沒有意外事件中斷“未遂事故”的發(fā)展,那么極有可能出現(xiàn)重大事故。因此必須對“未遂事故”進行深入研究,探討其發(fā)生的原因和發(fā)展的規(guī)律,進而采取相應(yīng)措施,消除事故原因或中斷事故發(fā)展進程,達到控制和預(yù)防事故的目的。
根據(jù)海因里希法則,在同類事故中,“未遂事故”和輕傷事故發(fā)生的可能性要比嚴重傷害事故大得多,對“未遂事故”的關(guān)注和研究是控制嚴重事故發(fā)生的重要手段,必需要找好快速迭代與對“未遂事故”進行透徹分析之間的平衡點。
諸多潛在問題值得重視
從需求的角度,我們必須了解運營商所面臨的境地:網(wǎng)絡(luò)故障是不可避免的。這其中最重要的原因在于業(yè)務(wù)的變化和發(fā)展導(dǎo)致了頻繁的網(wǎng)絡(luò)調(diào)整,組網(wǎng)需求在這樣的環(huán)境下快速變化。與此同時,云化和虛擬化給網(wǎng)絡(luò)帶來了更多的復(fù)雜性,伴隨著NFV、切片和微服務(wù)等技術(shù)的引入,網(wǎng)絡(luò)的管理愈加復(fù)雜,管理對象增多使得變更操作愈加頻繁。運營商在如此復(fù)雜的環(huán)境中進行大量變更操作,很難做到在制定方案時遍歷所有的業(yè)務(wù)和服務(wù)場景,更難對功能性或非功能性要求進行精準測算。
這樣的復(fù)雜度給實施變化的人帶來了更多發(fā)生過失的可能,很大比例的網(wǎng)絡(luò)事故都是在變更過程中人為操作失誤引起的。而所謂專家,或者有經(jīng)驗的網(wǎng)絡(luò)人員,也都是在處理這些故障和事故中不斷成長起來的。電信網(wǎng)絡(luò)運行涉及的環(huán)節(jié)和設(shè)備較多,具有很高的復(fù)雜性。一旦在運行中某一環(huán)節(jié)或者設(shè)備出現(xiàn)問題,就會對整個通信網(wǎng)絡(luò)系統(tǒng)造成嚴重影響,導(dǎo)致出現(xiàn)通信網(wǎng)絡(luò)節(jié)點失衡的情況。因此在電信網(wǎng)絡(luò)的運維中,全程全網(wǎng)的概念很重要。
大部分情況下,由于服務(wù)和業(yè)務(wù)的高可用設(shè)計,對于進行網(wǎng)絡(luò)調(diào)整時出現(xiàn)的故障,用戶不見得有直觀感受。例如服務(wù)器出現(xiàn)問題,集群內(nèi)其他服務(wù)器就會接管業(yè)務(wù);傳輸出現(xiàn)中斷,業(yè)務(wù)承載就能夠智能地調(diào)度到備用傳輸系統(tǒng)上;甚至業(yè)務(wù)平臺出現(xiàn)問題,也能夠通過調(diào)度將業(yè)務(wù)承載到災(zāi)備環(huán)境上。更何況,運營商還有完善的服務(wù)熱線等溝通手段,在用戶服務(wù)質(zhì)量下降或短時間服務(wù)中斷的情況下,也能通過有效溝通的方式舒緩用戶的焦慮和不滿。
比較可怕的是故障出現(xiàn)在網(wǎng)絡(luò)核心位置時,運營商無法像處理邊緣故障那樣解開耦合;或者業(yè)務(wù)的接管機制出現(xiàn)問題時,業(yè)務(wù)的處理無法切換到正常網(wǎng)元上;甚至出現(xiàn)類似加拿大的案例,業(yè)務(wù)中斷后形成“業(yè)務(wù)風(fēng)暴”——運營商的“規(guī)模”會給這些場景下的故障恢復(fù)提出更多挑戰(zhàn)。
值得重視的是,“可用性悖論”也需要考慮。隨著網(wǎng)絡(luò)管理的智慧化發(fā)展,其更多地通過專業(yè)的系統(tǒng)開展,網(wǎng)元的底層操作會被封裝。在網(wǎng)絡(luò)狀態(tài)良好時,網(wǎng)絡(luò)管理系統(tǒng)可用可看;當(dāng)網(wǎng)絡(luò)發(fā)生故障時,網(wǎng)絡(luò)管理系統(tǒng)可能因為網(wǎng)絡(luò)阻斷或者網(wǎng)元不可及等原因,不能繼續(xù)有效發(fā)揮作用,進而無法對網(wǎng)絡(luò)進行必要的配置以使其恢復(fù)正常。這時可能需要運維人員繞開網(wǎng)絡(luò)管理系統(tǒng)進行相對底層的故障排除操作。這對操作復(fù)雜度、操作效率、操作人員的經(jīng)驗等又提出了新的挑戰(zhàn)。
此外,新的安全隱患問題(IT化帶來的網(wǎng)絡(luò)安全問題、各類網(wǎng)絡(luò)攻擊等)也是運營商在IT化和互聯(lián)網(wǎng)化過程中需要面對的新課題——而這又是不確定性非常強的領(lǐng)域,運營商之前的積累比較薄弱。
邊緣計算的用武之地
盡管云化對于追求更為合理架構(gòu)的運營商而言成為趨勢,然而在數(shù)據(jù)可靠性層面,云架構(gòu)同樣存在需要解決的問題。尤其是在那些數(shù)據(jù)量大、數(shù)據(jù)敏感度高、數(shù)據(jù)安全性要求高的場景,云架構(gòu)的實現(xiàn)方式需要把可靠性作為非常重要的因素,畢竟“云端”的故障有可能給用戶業(yè)務(wù)帶來很大的威脅。
2018年6月,阿里云曾出現(xiàn)技術(shù)故障,而阿里云最終將其定義為S1級別事故——核心業(yè)務(wù)重要功能不可用,影響了部分用戶,造成了一定損失。2019年3月3日,阿里云發(fā)布公告,稱華北2地域可用區(qū)C部分的ECS服務(wù)器(云服務(wù)器)等實例出現(xiàn)IO HANG(IO不響應(yīng))。在云計算服務(wù)市場,無論是AWS、Google Cloud還是Azure的服務(wù),都曾經(jīng)因為數(shù)據(jù)中心硬件問題、硬盤故障或是自動化失效等問題而受到影響。因此,在云服務(wù)架構(gòu)下,即便故障率在服務(wù)提供商所承諾的0.01%以下,即便云服務(wù)商在故障出現(xiàn)時也都有相應(yīng)的容災(zāi)方案,在不少應(yīng)用場景下業(yè)務(wù)的中斷還是會給用戶帶來巨大損失。因此,業(yè)務(wù)架構(gòu)在集中化的同時也需要著重考慮業(yè)務(wù)風(fēng)險分擔(dān)的問題。
在此情況下,邊緣計算(MEC)將有一定的用武之地。邊緣計算改變了只有云端作為“大腦”、“管道”和“端系統(tǒng)”智能程度不足的狀況,使“端”變成了輔助“大腦”工作的“智能神經(jīng)網(wǎng)絡(luò)”。這樣一來,邊緣服務(wù)在終端設(shè)備上運行,反饋更迅速,解決了時延問題,使得一些工業(yè)應(yīng)用場景成為可能。另一方面,邊緣計算將內(nèi)容與計算能力下沉,提供智能化的流量調(diào)度,業(yè)務(wù)實現(xiàn)了本地化,內(nèi)容實現(xiàn)了本地緩存,解決方案的效率得到了顯著提升。此外,邊緣計算還有著豐富的應(yīng)用場景設(shè)計。邊緣計算作為一種開放的IT體系架構(gòu),能夠向第三方提供開放接口,引入外部專業(yè)力量開發(fā)功能和服務(wù)。這種模式有可能引發(fā)商業(yè)模式變革,刺激并促進產(chǎn)業(yè)發(fā)展。
總結(jié)
網(wǎng)絡(luò)服務(wù)中斷可以從各種角度進行反思,有幾點值得關(guān)注。
第一,“連接”在信息通信產(chǎn)業(yè)價值鏈上仍然具有舉足輕重的地位,值得運營商高度關(guān)注。盡管在一段時間內(nèi)業(yè)務(wù)的拓展似乎成為運營商擺脫“管道宿命”的重心,然而一旦“連接”出現(xiàn)問題,運營商就會喪失安身立命之本。因此,時時用海因里希法則來審視自己存在的問題非常必要。
第二,運營商在業(yè)務(wù)及網(wǎng)絡(luò)架構(gòu)演進的過程中,要充分理解海因里希法則,在投入資源、采取快速迭代方法對“未遂事故”進行徹底分析后,找到合理的方式;同時充分評估服務(wù)質(zhì)量下降與服務(wù)中斷帶來的損失,在演進過程中尋求可靠且經(jīng)濟的路徑。
第三,用系統(tǒng)性、長期演進的眼光來觀察運營商IT化進程,充分關(guān)注云架構(gòu)與邊緣計算帶來的機會。
作者:云晴
責(zé)編/版式:沈新竹
審核:申晴
監(jiān)制:劉啟誠