search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

廣西移動重大故障到底是怎麼回事?

最近被廣西移動的重大故障刷了屏。。。

相信大家都看到了相關報道。。。

根據最新了解的情況,故障簡要情況是這樣的:

9月8日,某局HSS09(華為)擴容割接完成後,經撥測發現部分用戶號碼無法作主被叫,數據業務無法使用。影響欽州、北海、防城港、桂林、梧州、賀州本地網部分用戶,初步估計80萬用戶的語言和數據業務受到影響。 初步判斷為工程割接人為誤操作導致用戶數據丟失。

【故障過程】5:00 華為NNHSS09BE01/NNHSS09BE02磁陣擴容子工程后探測發現,由於工程實施過程中廠家實施人員出現誤操作,將NNHSS09BE01/NNHSS09BE02互為災備的各1對DSU單板格式化(該HSS共8對DSU單板),導致HSS中存儲用戶數據被刪除,從而導致欽州、北海、防城港、桂林、賀州、梧州約80萬用戶2/3/4G所有業務的無法使用。

8:15 完成所有SGSN POOL和MSC POOL的鑒權關閉工作。

10:00 已完成約80萬假鑒權(非真實數據)用戶的鑒權載入及用戶業務數據開通,為了加快用戶儘快註冊上網路,已通過修改位置更新周期為6分鐘,強制用戶6分鐘後向網路發起註冊。故2G業務從10:00開始陸續恢復。

11:40 2/3G業務基本恢復正常

11:40 從BOSS拿到真實的鑒權數據

11:40-13:40 分三批次完成所有真實鑒權數據和用戶數據的恢復

截至13:30,故障全部恢復

本次故障,共收到10086投訴20727起。屬於集團重大故障。

上面的這些故障過程信息,相信很多同學沒有看明白。

沒看明白也沒關係,有必要給大家簡單解釋一下哈。

9月7日晚,後半夜,廠家人員進行擴容割接(就是增加系統的容量,屬於經常會有的工作,我們行內俗稱「有操作」)。割接的時候,工程師不小心把HSS設備裡面的用戶數據給格式化刪除了。

凌晨5:00,也就是早上快天亮的時候,發現不對勁,這才知道數據被刪了。估計那一刻在場所有人內心是崩潰的。

用戶數據沒了,就說明你這個用戶在系統裡面就不存在了。當然,你就打不了電話了,所以很多用戶反饋「打電話時說是空號」。

他們趕緊做了兩件事:

第一件事,是臨時給這80萬用戶創建用戶數據(相當於緊急開個戶),同時,因為鑒權數據是不能造假的,所以瞎編了一個鑒權數據,然後把整個系統的鑒權功能給關閉了。

什麼是鑒權數據?我們簡單點說,就是你手機裡面有個密碼,移動那邊系統里也有個密碼,兩邊密碼對得上,你才是真身。 現在移動把密碼弄丟了,它沒辦法鑒別你是不是真的,沒辦法,它乾脆就臨時關掉了鑒權功能。實際上,這個時候,如果你是假用戶,你也能接入移動的系統,打電話和上網。這個風險是很大的,但移動這時候已經管不了那麼多了,總不能不讓真用戶打電話吧?萬一誤了事,責任更大。

第二件事,因為當時80萬用戶都變成了「孤魂野鬼」(因為系統裡面他們都是不存在的,所以接不進網路),所以移動完成臨時開戶之後,需要發起一下強制註冊(相當於移動大吼一聲——「6分鐘后,快來找我」),所有用戶的手機趕緊就去找它(註冊到網路里)了。

為什麼是6分鐘,不是6秒鐘? 因為這個是強制註冊周期時間,6分鐘為一個周期,每6分鐘就要找一次網路。如果6秒鐘的話,全省1000萬用戶手機,6秒鐘找一次爹,這個爹也要累死(負荷太大,系統會崩潰)。

這兩件事是為了臨時恢復業務。(緊急故障處理的第一原則:先恢復業務

除了這兩件事之外,移動趕緊去BOSS那邊拿真正的用戶數據去了。

注意哈,這個BOSS,不是老闆的意思,是業務運營支撐系統(BOSS,Business & Operation Support System)。通常分為四個部分:計費及結算系統、營業與賬務系統、客戶服務系統和決策支持系統。說白了,移動電信營業廳,接入的都是BOSS系統,你所有的號碼信息,餘額信息,開了哪些業務,都在BOSS裡面。

11:40的時候,業務臨時性恢復了,真正的用戶數據也拿到了。

移動拿到真正的用戶數據,趕緊寫到系統里。等寫完之後,數據就算是真正恢復了。這個時候,移動又重新開啟了鑒權功能。 一切就都徹底恢復了原樣。。。

怎麼樣?這樣解釋,大家都搞明白了吧?

那麼,問題又來了——

為什麼這次故障會有這麼大的影響?

這個時候,就要介紹一下我們的主角了——

一直以來,整個通信行業公認的,在通信網路各個組成部分裡面,難度最大的、壓力最大的、責任最大的、風險最大的,就是核心網

核心網是整個電信網路的核心部分。

想要用通俗的語言解釋「到底什麼是核心網」,是一件很難的事情。簡單說吧,就算你的手機附近有基站,看上去有信號,但是如果沒有核心網,你就什麼也幹不了。既打不了電話,也發不了簡訊,也上不了網。

而這次出問題的HSS,更是核心網中最最最重要的一個部分。

HSS,歸屬簽約用戶伺服器(Home Subscriber Server)。所有這個通信網路中用戶的數據(包括用戶的號碼信息,鑒權信息,還有業務信息),都在HSS裡面!

方圓幾公里,有一個基站。基站掛了,影響幾百~幾千人。

一個地市,有一個核心網MGW或核心網SAE-GW。如果GW(網關)掛了,影響幾十萬~幾百萬人。

一個省,有若干套MSCS或MME,往往只有1套或2套HSS(是大國,單省人口比別的國家整個國家人口都多,在很多國家,一個運營商就一套HSS)。你這一個HSS掛了,影響就是幾千萬~幾億人。。。

你說核心網重不重要?HSS重不重要?

這次廣西移動HSS,8對單板,出問題了1對,就是80萬用戶,要是8對全掛了,嘿嘿。。。想都不敢想。。。

核心網工程師壓力大不大?動動手指,就影響幾千萬用戶。。。

像通信網路這麼重要的系統,尤其是HSS這麼重要的設備,按理來說出現這樣的故障是不應該的,可能性極小。現在都強調容災備份,核心網幾乎每個網元每個設備每個單板都有容災,甚至是異地容災,如果哪個地方出故障(地震、火災、恐怖破壞),另一個容災設備會馬上頂上來,不會給用戶造成影響。有時候,用戶甚至都不會察覺到。

但是這個工程師真的有點神經大條了,也不知道他是不是后半夜太困太累,還是技術水平不過關,竟然把互為容災的兩塊單板都給格式化了。。。什麼是格式化? 你試試對自己的硬碟點右鍵,選擇格式化,你就知道了。。。

同時,這次也暴露出容災機制和應急處理機制的問題。

不同的廠家有不同的處理機制,從技術的角度來說,有很多種「如果」,可以避免故障的發生,哪怕不至於影響這麼大。系統被設計得很強大,我們行業里的人都知道,有時候你就是想讓它攤局,都很難。

但是這次故障偏偏繞開了所有的「如果」,就這樣「神奇」地發生了。。。正因為如此,有些微信群里好多小夥伴都在懷疑:該不會是故意破壞的吧?……

也許,技術逐漸發達的時代,系統變得更加強悍健壯,而它的弱點,就只剩下人。。。

故障確實已經恢復了,但是事情肯定沒完。

這次故障這麼大,廣西移動被用戶罵得狗血淋頭。加上互聯網的傳播效應,整個移動的品牌形象也受影響。

作為故障設備的廠家,華為的品牌聲譽損失也無法挽回。

運營商和設備商,復盤分析肯定逃不掉,追責追罰肯定也逃不掉。雖然有說法說,這次是外包工程師出的錯。但是不管是不是外包,都是你華為的設備,脫不了干係。據說,華為國內所有的外包工程操作都叫停了。

作為主要責任人,這個可憐的核心網工程師,估計前途堪憂。飯碗還是小事,弄不好還可能坐牢。以移動和華為的風格,連帶的一堆相關責任人都要受罰。

小棗君絲毫沒有看熱鬧的意思,也懇請大家不要幸災樂禍

其實大家也非常同情這位兄弟。干通信的,誰沒犯過錯?誰沒遇到過風風雨雨?出故障的時候,客戶凶神惡煞似的,站在你身後,就差把刀架在你脖子上;公司領導電話不斷打到你這,催問處理進展;本地員工圍在你身邊,指望你力挽狂瀾。。。那種壓力,可謂酸爽。。。

沒辦法,這就是通信工程師的責任,你必須要足夠小心、小心、再小心,仔細、仔細、再仔細。敲每個命令,點每個執行,就要認真確認。除此之外,只能祈禱自己技術夠牛逼,經驗夠豐富。

干通信的,技術就是你的護身符,要想現場少流淚,只能平時多流汗。

好了,今天就聊到這。

最後,祝所有的通信汪:遠離故障,一生平安。。。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦