99亚洲综合精品久久精品,久久受m免费人成精品

近期，日本電信運營商KDDI和加拿大電信運營商Rogers相繼出現(xiàn)斷網(wǎng)事件，網(wǎng)絡(luò)中斷時間長，波及面積大，影響范圍廣，引起了全球電信行業(yè)的普遍關(guān)注。通常而言，運營商對于電信網(wǎng)絡(luò)質(zhì)量有著較高要求，不會輕易出現(xiàn)故障問題。那么，向來以質(zhì)量可靠著稱的電信網(wǎng)絡(luò)為何出現(xiàn)重大質(zhì)量事故？電信級的高可靠網(wǎng)絡(luò)服務(wù)在網(wǎng)絡(luò)IT化、云化的時代如何繼續(xù)保持？

斷網(wǎng)事故接連發(fā)生

加拿大三大電信運營商之一的Rogers近期出現(xiàn)大規(guī)模斷網(wǎng)事故，該公司遍布加拿大全境的無線網(wǎng)絡(luò)用戶、有線電視用戶和互聯(lián)網(wǎng)用戶都受到影響，與此相關(guān)聯(lián)的公共服務(wù)公司也因為網(wǎng)絡(luò)故障而不得不停止服務(wù)，缺少通信和網(wǎng)絡(luò)的社會毫無征兆地進入了“停擺”狀態(tài)。根據(jù)互聯(lián)網(wǎng)檢測公司NetBlocks在推特上發(fā)布的信息，該故障影響了加拿大近1/4可監(jiān)測到的連接。

與此相類似，日本電信運營商KDDI在7月初也出現(xiàn)了通信中斷故障。該故障影響了約1/3的日本人口，且持續(xù)時間很長，時隔86小時網(wǎng)絡(luò)才全面恢復(fù)。信息社會對網(wǎng)絡(luò)和通信的依賴放大了故障的影響，不要說電子商務(wù)、移動支付、電子門票、電子政務(wù)、遠程辦公、在線教育、視頻直播等應(yīng)用，就連搶險救災(zāi)、醫(yī)療救助、氣候預(yù)警等緊急需求，也都被迫進入非正常的狀態(tài)。

加拿大創(chuàng)新、科技及工業(yè)部長François-Philippe Champagne對Rogers斷網(wǎng)事故發(fā)表評述：“這一不可接受的局面說明了，為什么質(zhì)量、選擇多樣性和可靠性在電信網(wǎng)絡(luò)中如此關(guān)鍵。”

在隨后的一份聲明中，Rogers的CEO Tony Staffieri將可能導(dǎo)致斷網(wǎng)的原因范圍縮小到了核心網(wǎng)絡(luò)的維護升級，以及由此所導(dǎo)致的路由器工作異常。他還提出將更為深入地定位問題的根源，并通過增加冗余的方式避免故障的重復(fù)出現(xiàn)。Tony Staffieri說道：“我們將采取所有必要的舉措，持續(xù)加大網(wǎng)絡(luò)投資，以強化系統(tǒng)、增加網(wǎng)絡(luò)健壯性，并加強相關(guān)的網(wǎng)絡(luò)測試。”

從這段簡短的表述中，我們可以解讀出一些重要信息：第一，該網(wǎng)絡(luò)中斷不是因為遭受外部攻擊所致，而是因為內(nèi)部升級引起的，換句話說，這是一個“主動”變化所引起的；第二，通過冗余方式能夠避免故障的重現(xiàn)，說明網(wǎng)絡(luò)中某些關(guān)鍵部分存在單點故障的風(fēng)險；第三，“加強測試”，可能意味著在“主動”變化后缺乏相關(guān)的測試，沒有及時發(fā)現(xiàn)問題或是為變化的回退留出余地；第四，“持續(xù)加大網(wǎng)絡(luò)投資”，可能意味著當(dāng)前對網(wǎng)絡(luò)可靠性/健壯性的投入不足。

電信網(wǎng)絡(luò)IT化的必然挑戰(zhàn)

在服務(wù)中斷的時候，網(wǎng)絡(luò)服務(wù)的可靠性以及出現(xiàn)故障后的及時恢復(fù)、自愈、防災(zāi)備份等問題，充分凸顯出來——尤其在電信系統(tǒng)IT化、云化的過程中，這些問題需要得到特別的關(guān)注。傳統(tǒng)電信網(wǎng)絡(luò)的設(shè)計思路與IT網(wǎng)絡(luò)是不相同的。電信級服務(wù)對可靠性和容災(zāi)有著嚴苛的要求，這就需要電信網(wǎng)絡(luò)從各個層面提供可靠性和容災(zāi)保護，包括服務(wù)器設(shè)備、網(wǎng)卡設(shè)備、交換機設(shè)備、交換機鏈路、網(wǎng)關(guān)設(shè)備，至少要提供“1+1”的冗余。除此之外，還要提供高效的備份恢復(fù)能力、異地容災(zāi)能力。

在虛擬層面，配置虛機的重生和自愈等要提供自動化的網(wǎng)絡(luò)調(diào)整能力。IT化、云化的進程與這樣的理念有可能有個磨合的過程。因為從IT化的機制角度看，原先網(wǎng)絡(luò)資源是稀缺的，很多服務(wù)質(zhì)量方面的工作可以交給端側(cè)來解決，“盡力服務(wù)(Best-Effort)”是網(wǎng)絡(luò)設(shè)計的出發(fā)點?；ヂ?lián)網(wǎng)遵循“邊緣”設(shè)計原則，其特征是網(wǎng)絡(luò)傳輸采用無連接分組交換，高層功能放置在網(wǎng)絡(luò)邊緣，按“盡力服務(wù)”原則向用戶提供服務(wù)。這種設(shè)計方式能夠讓服務(wù)的承載呈現(xiàn)出分布式特點，盡管在服務(wù)資源不足的情況下，可能會因為服務(wù)請求的丟棄導(dǎo)致服務(wù)等級的下降，然而這樣的“去中心化”在一定程度上分散了大規(guī)模阻斷的風(fēng)險。在電信網(wǎng)絡(luò)IT化和互聯(lián)網(wǎng)化的趨勢下，如何做好網(wǎng)絡(luò)架構(gòu)的合理規(guī)劃、平衡好投入與可靠性是需要面對的挑戰(zhàn)。

海因里希法則適用于此

當(dāng)談及網(wǎng)絡(luò)服務(wù)中斷時，我們需要關(guān)注海因里希法則。海因里希法則是指，當(dāng)一個企業(yè)有300起隱患或違章，還有很大可能要發(fā)生29起輕傷或故障，另外再有一起重傷、死亡事故。對于企業(yè)的安全管理或者服務(wù)安全管理而言，這一法則是道理相通的，即在一起重大事故的背后必有29起輕度事故，還有300個潛在的隱患。

實際上，在快速發(fā)展的網(wǎng)絡(luò)經(jīng)濟中，運營商的業(yè)務(wù)發(fā)展和網(wǎng)絡(luò)運維也面臨著快速迭代的問題，這些變化過程中的隱患常會被發(fā)展的壓力所掩蓋。海因里希法則指出，在所有發(fā)生的事故中，“未遂事故”雖然沒有造成巨大損失，但其發(fā)生的原因和發(fā)展的過程與重大事故是一致的。而如果沒有意外事件中斷“未遂事故”的發(fā)展，那么極有可能出現(xiàn)重大事故。因此必須對“未遂事故”進行深入研究，探討其發(fā)生的原因和發(fā)展的規(guī)律，進而采取相應(yīng)措施，消除事故原因或中斷事故發(fā)展進程，達到控制和預(yù)防事故的目的。

根據(jù)海因里希法則，在同類事故中，“未遂事故”和輕傷事故發(fā)生的可能性要比嚴重傷害事故大得多，對“未遂事故”的關(guān)注和研究是控制嚴重事故發(fā)生的重要手段，必需要找好快速迭代與對“未遂事故”進行透徹分析之間的平衡點。

諸多潛在問題值得重視

從需求的角度，我們必須了解運營商所面臨的境地：網(wǎng)絡(luò)故障是不可避免的。這其中最重要的原因在于業(yè)務(wù)的變化和發(fā)展導(dǎo)致了頻繁的網(wǎng)絡(luò)調(diào)整，組網(wǎng)需求在這樣的環(huán)境下快速變化。與此同時，云化和虛擬化給網(wǎng)絡(luò)帶來了更多的復(fù)雜性，伴隨著NFV、切片和微服務(wù)等技術(shù)的引入，網(wǎng)絡(luò)的管理愈加復(fù)雜,管理對象增多使得變更操作愈加頻繁。運營商在如此復(fù)雜的環(huán)境中進行大量變更操作，很難做到在制定方案時遍歷所有的業(yè)務(wù)和服務(wù)場景，更難對功能性或非功能性要求進行精準測算。

這樣的復(fù)雜度給實施變化的人帶來了更多發(fā)生過失的可能，很大比例的網(wǎng)絡(luò)事故都是在變更過程中人為操作失誤引起的。而所謂專家，或者有經(jīng)驗的網(wǎng)絡(luò)人員，也都是在處理這些故障和事故中不斷成長起來的。電信網(wǎng)絡(luò)運行涉及的環(huán)節(jié)和設(shè)備較多，具有很高的復(fù)雜性。一旦在運行中某一環(huán)節(jié)或者設(shè)備出現(xiàn)問題，就會對整個通信網(wǎng)絡(luò)系統(tǒng)造成嚴重影響，導(dǎo)致出現(xiàn)通信網(wǎng)絡(luò)節(jié)點失衡的情況。因此在電信網(wǎng)絡(luò)的運維中，全程全網(wǎng)的概念很重要。

大部分情況下，由于服務(wù)和業(yè)務(wù)的高可用設(shè)計，對于進行網(wǎng)絡(luò)調(diào)整時出現(xiàn)的故障，用戶不見得有直觀感受。例如服務(wù)器出現(xiàn)問題，集群內(nèi)其他服務(wù)器就會接管業(yè)務(wù)；傳輸出現(xiàn)中斷，業(yè)務(wù)承載就能夠智能地調(diào)度到備用傳輸系統(tǒng)上；甚至業(yè)務(wù)平臺出現(xiàn)問題，也能夠通過調(diào)度將業(yè)務(wù)承載到災(zāi)備環(huán)境上。更何況，運營商還有完善的服務(wù)熱線等溝通手段，在用戶服務(wù)質(zhì)量下降或短時間服務(wù)中斷的情況下，也能通過有效溝通的方式舒緩用戶的焦慮和不滿。

比較可怕的是故障出現(xiàn)在網(wǎng)絡(luò)核心位置時，運營商無法像處理邊緣故障那樣解開耦合；或者業(yè)務(wù)的接管機制出現(xiàn)問題時，業(yè)務(wù)的處理無法切換到正常網(wǎng)元上；甚至出現(xiàn)類似加拿大的案例，業(yè)務(wù)中斷后形成“業(yè)務(wù)風(fēng)暴”——運營商的“規(guī)模”會給這些場景下的故障恢復(fù)提出更多挑戰(zhàn)。

值得重視的是，“可用性悖論”也需要考慮。隨著網(wǎng)絡(luò)管理的智慧化發(fā)展，其更多地通過專業(yè)的系統(tǒng)開展，網(wǎng)元的底層操作會被封裝。在網(wǎng)絡(luò)狀態(tài)良好時，網(wǎng)絡(luò)管理系統(tǒng)可用可看；當(dāng)網(wǎng)絡(luò)發(fā)生故障時，網(wǎng)絡(luò)管理系統(tǒng)可能因為網(wǎng)絡(luò)阻斷或者網(wǎng)元不可及等原因，不能繼續(xù)有效發(fā)揮作用，進而無法對網(wǎng)絡(luò)進行必要的配置以使其恢復(fù)正常。這時可能需要運維人員繞開網(wǎng)絡(luò)管理系統(tǒng)進行相對底層的故障排除操作。這對操作復(fù)雜度、操作效率、操作人員的經(jīng)驗等又提出了新的挑戰(zhàn)。

此外，新的安全隱患問題（IT化帶來的網(wǎng)絡(luò)安全問題、各類網(wǎng)絡(luò)攻擊等）也是運營商在IT化和互聯(lián)網(wǎng)化過程中需要面對的新課題——而這又是不確定性非常強的領(lǐng)域，運營商之前的積累比較薄弱。

邊緣計算的用武之地

盡管云化對于追求更為合理架構(gòu)的運營商而言成為趨勢，然而在數(shù)據(jù)可靠性層面，云架構(gòu)同樣存在需要解決的問題。尤其是在那些數(shù)據(jù)量大、數(shù)據(jù)敏感度高、數(shù)據(jù)安全性要求高的場景，云架構(gòu)的實現(xiàn)方式需要把可靠性作為非常重要的因素，畢竟“云端”的故障有可能給用戶業(yè)務(wù)帶來很大的威脅。

2018年6月，阿里云曾出現(xiàn)技術(shù)故障，而阿里云最終將其定義為S1級別事故——核心業(yè)務(wù)重要功能不可用，影響了部分用戶，造成了一定損失。2019年3月3日，阿里云發(fā)布公告，稱華北2地域可用區(qū)C部分的ECS服務(wù)器（云服務(wù)器）等實例出現(xiàn)IO HANG（IO不響應(yīng)）。在云計算服務(wù)市場，無論是AWS、Google Cloud還是Azure的服務(wù)，都曾經(jīng)因為數(shù)據(jù)中心硬件問題、硬盤故障或是自動化失效等問題而受到影響。因此，在云服務(wù)架構(gòu)下，即便故障率在服務(wù)提供商所承諾的0.01%以下，即便云服務(wù)商在故障出現(xiàn)時也都有相應(yīng)的容災(zāi)方案，在不少應(yīng)用場景下業(yè)務(wù)的中斷還是會給用戶帶來巨大損失。因此，業(yè)務(wù)架構(gòu)在集中化的同時也需要著重考慮業(yè)務(wù)風(fēng)險分擔(dān)的問題。

在此情況下，邊緣計算（MEC）將有一定的用武之地。邊緣計算改變了只有云端作為“大腦”、“管道”和“端系統(tǒng)”智能程度不足的狀況，使“端”變成了輔助“大腦”工作的“智能神經(jīng)網(wǎng)絡(luò)”。這樣一來，邊緣服務(wù)在終端設(shè)備上運行，反饋更迅速，解決了時延問題，使得一些工業(yè)應(yīng)用場景成為可能。另一方面，邊緣計算將內(nèi)容與計算能力下沉，提供智能化的流量調(diào)度，業(yè)務(wù)實現(xiàn)了本地化，內(nèi)容實現(xiàn)了本地緩存，解決方案的效率得到了顯著提升。此外，邊緣計算還有著豐富的應(yīng)用場景設(shè)計。邊緣計算作為一種開放的IT體系架構(gòu)，能夠向第三方提供開放接口，引入外部專業(yè)力量開發(fā)功能和服務(wù)。這種模式有可能引發(fā)商業(yè)模式變革，刺激并促進產(chǎn)業(yè)發(fā)展。

總結(jié)

網(wǎng)絡(luò)服務(wù)中斷可以從各種角度進行反思，有幾點值得關(guān)注。

第一，“連接”在信息通信產(chǎn)業(yè)價值鏈上仍然具有舉足輕重的地位，值得運營商高度關(guān)注。盡管在一段時間內(nèi)業(yè)務(wù)的拓展似乎成為運營商擺脫“管道宿命”的重心，然而一旦“連接”出現(xiàn)問題，運營商就會喪失安身立命之本。因此，時時用海因里希法則來審視自己存在的問題非常必要。

第二，運營商在業(yè)務(wù)及網(wǎng)絡(luò)架構(gòu)演進的過程中，要充分理解海因里希法則，在投入資源、采取快速迭代方法對“未遂事故”進行徹底分析后，找到合理的方式；同時充分評估服務(wù)質(zhì)量下降與服務(wù)中斷帶來的損失，在演進過程中尋求可靠且經(jīng)濟的路徑。

第三，用系統(tǒng)性、長期演進的眼光來觀察運營商IT化進程，充分關(guān)注云架構(gòu)與邊緣計算帶來的機會。

作者：云晴

責(zé)編/版式：沈新竹

審核：申晴

監(jiān)制：劉啟誠

國外斷網(wǎng)事故接連發(fā)生，給我們敲醒了怎樣的警鐘？

斷網(wǎng)事故接連發(fā)生

電信網(wǎng)絡(luò)IT化的必然挑戰(zhàn)

海因里希法則適用于此

諸多潛在問題值得重視

邊緣計算的用武之地

總結(jié)

相關(guān)推薦

國外斷網(wǎng)事故接連發(fā)生，給我們敲醒了怎樣的警鐘？

斷網(wǎng)事故接連發(fā)生

電信網(wǎng)絡(luò)IT化的必然挑戰(zhàn)

海因里希法則適用于此

諸多潛在問題值得重視

邊緣計算的用武之地

總結(jié)

相關(guān)推薦

國外斷網(wǎng)事故接連發(fā)生，給我們敲醒了怎樣的警鐘？