search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【CIO早班車】大數據系統的運維應該怎麼辦?

各位CIO朋友,大家好,歡迎收聽新一期的「CIO早班車」。暫停幾分鐘,工作更輕鬆。

我是IBM大中華區技術服務部資深架構師黃友懌, 今天來和各位CIO朋友們一起聊一下將大數據技術應用在IT運維領域的「IT運維分析」(也就是ITOA)的話題。

今天由於市場競爭越來越激烈,企業內部業務部門對IT的依賴越來越高,企業外部客戶對企業提供的服務也越來越苛求,因此企業對IT服務水平的要求就越來越高。 此外,CIO還要面臨一系列的挑戰,例如:系統變更頻繁、人力不足、人員流動率高、系統複雜度增加,還有永無止境的成本壓力。因此越來越多的企業,開始在傳統系統監控的基礎之上,利用 ITOA來更好地從海量的操作數據中收集、組織、分析、發現、識別和預測運維過程中複雜的模式和信息,作為運維優化的基礎,或是進一步運用這些洞察力達到業務創新,獲得更高的商業價值。

為了更進一步理解這些原始運維數據背後隱藏的信息或代表的意義,ITOA常會用到可視化分析、機器學習、預測性分析、根本原因分析、圖形分析、文字分析、行為分析等不同方法,從各種不同角度對運維數據進行深度分析。

ITOA在異常發現與預測、異常診斷、性能容量管理、事件管理、告警優化、網路與安全管理、運維自動化、用戶體驗優化等應用場景能起到非常好的作用。 舉個例子,我們有一個大型企業的客戶,由於業務增長快速,在內部搭建了一個包含數千虛擬機的私有雲平台,為了支撐多變的應用需求,雲平台每天必須處理高達數萬次的操作命令,完成大量資源布署、調整、移轉、回收等動作。在這些操作過程中,難免因為一些軟硬體或人為的原因,造成作業的失敗。

在過去,由於雲平台規模龐大,管理團隊人力不足,為了發現這些運維異常的狀況,必須依賴傳統監控工具,但這些工具能力有限,往往只能檢查特定指標有沒有超過閥值,或是在個別系統出現錯誤日誌之後才發出告警,但這種作法的效果並不好,比如在建立虛擬機的作業中,其中一個所需的資源因為某種原因處在鎖定狀態,雲平台可能會重複啟動多次的嘗試請求而不會立刻發出錯誤的返回碼,在這種狀況下,必須等到很長的時間經過,而整個作業卻仍然不能完成後,系統才會返回超時的錯誤信息,觸發告警。

另外在某些狀況下,由於工作線程本身消失或出現異常,預定的作業無法進行,這種問題也常常不能及時被發現。在這些狀況下,用戶往往必須在事後才能被動的發現故障,通知管理團隊開始定位、診斷與處理問題,如此一來,系統資源不能在預定時間完成供應,對系統可用性就會直接產生影響。

為了改善這種狀況,這家企業的CIO採取了ITOA日誌大數據分析技術進行監控系統的優化,首先管理團隊將雲平台系統海量的歷史日誌進行集中化存儲與分析,接著,再從這些日誌所代表的運維軌跡,發現每個雲平台作業的操作模式,這些操作模式再與生產環境中實時產生的運維數據作比對,一旦發現生產環境產生的數據與正常操作模式發生重大的差異,就代表系統作業可能產生異常,此時監控系統就會針對這種可疑狀況及時發出告警,讓管理團隊能夠提早發現系統的異常或可疑狀況,並及時採取必要行動,避免問題的惡化或發生。

經由上述案例的說明,可以知道如果能夠善用大數據運維分析的方法,的確可以顯著提高企業IT系統運維的質量。隨著客戶對企業運營穩定性的要求越來越高,IT在企業創新過程中扮演的角色越來越重要,ITOA的應用勢必日益受到企業CIO們的進一步重視。

IBM作為全球領先的運維服務商,累積大量運維經驗,實際應用認知與大數據技術,來提升生產環境的運維質量,也能提供端到端解決方案,來滿足不同運維場景的需求。客戶可以輕易的結合自身業務與環境的狀況,選擇適合的平台、工具與方法,優化自身運維能力,提高系統可用性,滿足業務需求,並通過數據驅動業務創新。

如果您希望了解更多的技術細節,歡迎和我們聯繫,我們的CIO技術熱線電話是 400-810-1818 轉5086分機。

今天我的分享就到這裡,暫停幾分鐘,工作更輕鬆。請CIO朋友持續關注IBM CIO頻道。祝各位有個愉快的一天。謝謝各位,我們下周二早上再見!

如果您想索取更多資料,請點擊「閱讀原文」提交註冊!

人工智慧,離你還有多遠?
數據安全,您考慮了嗎?
大數據的關鍵技術及實例



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦