search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【案例】中國銀聯雲運維平台:實現運維數據可視化

為履行歷史使命和社會責任,實現銀聯雲計算髮展戰略,應對跨國公司競爭和新興支付技術、支付渠道的挑戰,鞏固和強化銀聯跨行轉接地位。銀聯必須進一步增強業務服務能力,滿足國內國際市場、傳統業務和創新業務需要,滿足不同主體個性需求,同時要體現多應用、綜合服務的整合競爭力。

作者 | BoCloud博雲

官網 | www.datayuan.cn

微信公眾號ID | datayuancn

本篇案例為數據猿推出的「金融科技價值—數據驅動金融商業裂變」大型主題策劃活動第一部分的文章/案例/產品徵集部分;感謝BoCloud博雲的投遞

1、企業名稱

銀聯

2、所屬分類

金融科技·自動化運維

3、案例背景

為履行歷史使命和社會責任,實現銀聯雲計算髮展戰略,應對跨國公司競爭和新興支付技術、支付渠道的挑戰,鞏固和強化銀聯跨行轉接地位。銀聯必須進一步增強業務服務能力,滿足國內國際市場、傳統業務和創新業務需要,滿足不同主體個性需求,同時要體現多應用、綜合服務的整合競爭力。因此,在技術上既要實現安全、穩定、高效運行,又要實現靈活性、擴展性。

銀聯現有的業務系統和運營管理平台還處於分散化管理的階段,這種分散化管理具有缺乏統一管控、無法實現高效運營聯動、運營能力可擴展性不足等缺點。現代運營理念要求運營工作要從運營規劃、運營監控和運營響應三個維度去全面的對IT基礎設施和信息服務的高效穩定運行提供全面的支撐。同時,運營管理平台需要滿足資源管理人員、運營監控人員、基礎設施服務管理人員、流程審批員、安全管理員以及業務開發運營人員對運營管理的不同訴求,提供統一化的運營管理服務門戶來滿足各自業務需要。

銀聯雲運維平台

因此,銀聯有必要以雲計算技術為支撐、以現代運營理念為指導,藉助成熟穩定可靠的開源技術平台,推動統一化運營平台建設;構建「合理規劃、嚴密監控、快速響應」的多層次運營管理平台和運營體系,以徹底解決目前面臨的系列問題,實現依託雲系統建設大步提升銀聯服務能力的目標。

4、實施時間

2015年8月17日至2016年6月30日

5、應用場景

雲運維平台項目的主要目標有:

1)集中建設資源、配置與監控指標資料庫,實現平台統一化收集與存儲;

2)建設平台管理視圖及報表系統,實現運維數據的可視化;

3)建設自動化配置管理系統,實現對伺服器、虛擬機、網路、存儲、應用等配置的自動化及集中化管理;

4)建設介面對接系統和能力,實現和現有系統、流程、操作界面等對接融合。

銀聯雲運營平台的業務屬於金融IT系統中的運維+運營的一個綜合平台,因此具有傳統金融IT系統的應用特點,同時也採用了互聯網的微服務架構設計和部署系統。具備服務高、可用可擴展、高可管理、高性能以及高安全的「五高」特點。

具體應用場景有:

1)運維平台操作的可視化和自動化

業務應用流程一鍵操作

跨平台、跨系統自動化流程

定時分批自動重啟設備

自動操作全程可視化展示

2)任務調度自動化管理

實現日常任務的統一調度

作業日曆自動執行調度

支持條件觸發執行調度

支持多種節假日調度方案

3)自動化巡檢:對自動操作流程涉及的設備、系統、業務應用執行情況進行實時檢查,以報表、報告及實際情況截圖等方式全面展現巡檢結果。

4)簡單化的容災管理

容災切換一鍵啟動

生產與容災系統環境一致性檢查

容災切換全程導航

容災切換模擬演

5)全面的應急故障處理

主備機應急管理

備機池管理

實現應急快速巡檢、故障數據實時採樣

設備應用故障快速登錄入口

6)高效率的軟體部署

建立軟體基線庫實現部署版本統一管理

實現軟體分發安裝、運行檢驗全程自動化管理

其他輔助功能應用場景有:

1)簡化操作的物理裝機

統一可視化裝機平台

配置文件統一管理

一鍵式物理裝機,包含應用包

批量物理裝機

2)多種報表展示

運維全局資源統計

運維多視角、多視圖

支持專業場景

3)靈活的運維KPI展示。可按照職責進行分類:

全局KPI – 管理層關注指標

各室KPI – 主觀人員關注指標

專業KPI – 專業人員關注指標

橫向KPI – 橫向室關注KPI

4)針對應用的批量運維

應用發布

應用啟停

應用批量操作

5)全局統一監控

硬體設備監控

操作系統監控

應用監控

日誌監控

安全監控

6)全局的資源管理

私有雲、公有雲

物理機、虛擬機

計算、網路、存儲、安全設備

自動化運維,越來越成為行業趨勢。雲運維平台實現了自動操作、自動調度、自動巡檢、容災管理、故障應急、軟體部署等的智能化、自動化。為銀聯運維、運維帶來極大的便捷。

6、面臨挑戰

銀聯的運維平台整體上面臨如下挑戰:

1) 基礎機構雲化轉型迅速,缺乏面向雲化的技術場景運營平台。

銀聯的IT基礎設施既有傳統的小型機系統,又有大量的X86伺服器,同時還上線運營了基於虛擬技術的雲計算平台。這些平台利用不同的工具進行管理,屬於不同的運營室。這種狀況使得管理多入口化,工具及平台異構化,給業務運營及運營人員培養都帶來了一定的挑戰, 不利於運營體系快速做出應急響應。

2) 互聯網業務快速發展帶來的衝擊

當前銀聯的運營體系建設主要包括基於ITIL規範的工單及流程系統、基於CMDB的配置管理資料庫和基於雲計算技術的虛擬化平台,這些平台為銀聯運營確立了科學化、標準化的響應流程。然而,在移動互聯網業務衝擊下,傳統的ITIL運營流程在敏捷與規模雲化方面也暴露出了複雜度高等問題,十分需要一種易用的運營管理工具降低運營複雜度。

3) 運營過程還大量依賴手工,易於因操作失誤而引起運營事故。

降低運營故障的一種趨勢就是把常規化的運營過程工具化、標準化,降低人員手工維護可能帶來的運營風險。

4) 大量新興技術和新興業務上線,急需一種不因人員數量和變更而變化的運營平台。

技術與業務的快速發展使得運營工作的複雜度快速提升,為了保障業務運營,新的技術往往需要專門的運營人員去進行運營保障。這種依賴人員持續投入來應對新技術挑戰的做法會增加人力成本和管理工作複雜度。

5) 自主可控需要。

實現自主可控的運營系統可以降低因技術依賴帶來的技術風險,符合國家戰略和公司規劃。

此外,銀聯在IT運維與業務系統運維中,還存在安全隱患大、操作效率低、運維成本高等運維痛點。

這三大痛點主要表現在:

雲資源、虛擬機資源、物理資源分散,管理難度大;

伺服器數量多、系統複雜,運維成本攀升;

各個科室各自管理,缺乏統一管理與規劃;

生成報表周期長,監控數據實時性差;

日常巡檢不及時,人工分析定位問題準確度、靈敏度不高;

人工操作的安全性問題凸顯。

7、數據支持

1) 雲平台統一管理3000台物理機規模級數據中心,包含網路設備、存儲設備、虛擬機等。

2) 數據收集系統實現數據的全自動收集,保證數據的真實性和新鮮度,相對與人工錄入提高了準確性和時效性。

3) 報表視圖系統根據不同角色將資源信息清晰呈現。

4) 軟體包安裝系統提升軟體管理的統一性及安全性,通過自動化手段提高軟體包變更質量。

5) 批量操作功能節省了大量時間及人力成本,工作效率數倍提升。

6) 自動物理裝機功能,大規模同時安裝100台物理機只需2小時。

7) 備份流程機制,將備份任務統一管理,通過列表方式輸出,直觀了解當前備份任務。

8) 彈性伸縮功能直接提高面對業務變化的響應能力。

9) 6PB分散式存儲系統支撐銀聯生產環境數據備份。

10) 統一的標準比對框架,實現標準比對的自助化配置和可管理性,將原來需要幾周的比對時間縮短為幾天。

11) 平台採用微服務架構,將各個系統模塊解耦,採用容器部署,易於平台升級。

12)系統前端門戶支持每秒1000併發,響應時間低於3秒。每個任務分發節點支持500的任務併發執行。

8、應用技術/實施過程

銀聯雲運營平台總體設計的基本原則需要實現以統一模型為中心對運營管理的資源、服務、角色、流程等進行統一建模,構建以松耦合為特徵的服務平台模塊化系統,在彈性靈活的原則下實現自動化運營管理平台。同時,對外介面的標準化也是設計的原則之一,以確保和外圍系統對接的過程中降低難度,並易於擴展。

雲運營平台總體架構滿足銀聯運營對於多角色用戶支持、運營服務提供、業務及服務系統對接、開放介面等需要,從總體上指導雲運營管理系統設計。平台的整體邏輯功能架構圖如下。

平台按功能劃分為五大部分十個子系統。分別是:

公共管理類子系統——負責用戶驗證及許可權管理、日誌管理和參數配置等。

運維中核心功能類的日常維護子系統、部署管理子系統和視圖展示子系統。日常維護子系統包含備份恢復功能、對比功能、自啟動項管理功能、定時任務管理功能和root密碼修改功能。而部署管理子系統負責操作系統和軟體的安裝等,包含軟體包管理功能、橫向擴展功能、自動安裝操作系統功能和虛擬機批量操作。

底層核心子系統包含核心調度子系統、消息子系統和數據收集子系統,分別負責平台的任務調度、消息傳遞和數據獲取與同步等核心功能。

雲運營平台資料庫是基於CIM模型的對象及關係表,也包含監控指標表及運營日誌表等。雲運營平台資料庫採用一庫多表的方式,資料庫採用主備庫的方式進行部署,提高可用性。

外圍子系統包含容器管理子系統和分散式存儲管理子系統,為平台提供應用封裝和數據存儲等功能。這兩個子系統相對獨立,也可自成系統。

雲運營管理系統是複雜的綜合性管理平台,涉及的技術涵蓋雲計算、分散式存儲、數據收集自動化、流程工單、安全管理等方面。一方面,雲運營平台需要綜合利用上述技術實現運營管理服務,另一方面作為複雜的管理系統需要考慮管理系統內部的數據一致性、同步模型、許可權管理等管理平台通用技術。雲運營平台的技術架構如下:

整個雲運營平台包括以下七個部分:

統一服務門戶。統一服務門戶是所有用戶進入雲運營平台的入口,通過該統一入口不同角色的管理人員登錄到不同的界面視圖,實現不同的功能操作。

功能視圖層。功能視圖層是各類角色實現運營管理的功能界面,是所有功能的分類聚合和呈現,是系統所有後台功能的前台展現。

核心服務層。核心服務層是一個個相互獨立又存在管理的服務模塊,實現了系統運營管理的核心功能,包括備份恢復、參數對比、啟動項管理以及高可用性等系統核心服務。

介面對接層。這個部分實現對現有平台如CMDB、雲資源管理平台等的介面對接,同步數據到雲運營平台,下發運營管理指令到各個具體的業務系統,實現功能諸如虛擬機批量開機等運營管理動作。

安全管理模塊。安全模塊實現對用戶、角色、許可權等管理,完成系統對用戶註冊、角色定義、許可權定義等功能,同時支持對系統日誌等的存儲和分析。

基礎服務層。基礎服務層包括分散式存儲服務、雲計算服務、元數據管理服務等系統運行所需要的支持服務,通過服務層實現數據存儲、數據發現、功能對接等運營基礎服務。

對外介面層。實現對外編程介面的暴露,支持第三方系統或組件通過介面接入控制,例如審批功能就通過該介面實現對待審批任務的調用執行。

平台中的運維服務以任務的方式,通過核心的Ansible任務執行與調度模塊,在目標設備上執行。在數據層的架構中,底層是以數據收集子系統向基礎平台收集數據,數據映射層加工和處理數據,而報表與視圖展示子系統將數據圖形化展示給用戶。

其中,前端技術綜合運用了html5、CSS3、JavaScript、Ajax等先進的前端開發技術,以及HAProxy等高可用技術,確保前端服務穩定可靠。

後台服務端技術需要考慮服務的動態化、模塊化、狀態一致性等技術,所以雲運營平台的後端開發利用了服務發現、消息隊列等技術,實現服務的自動發現、服務依賴管理、狀態一致性等關鍵特性。

後端技術框架如下圖所示:

資源由資源平台管理,流程由流程平台管理,雲運營平台整合流程和資源平台介面,進行數據匯總、可視化展現、以及在此之上的批量化、場景化、規模化運維。資源申請流程如下圖所示:

整個資源申請實現自組織和可視化服務,大大增加了審批效率。

9、商業變化

銀行的IT系統運行問題70%以上都是運維繫統問題(手工配置錯誤,無自愈功能,無定期健康檢查等),給整個金融系統造成極大的不穩定性,也大大拖慢了銀行對業務系統的更新和變動。

銀聯新一代統一雲運維平台上線后,能快速適應業務的迭代更新,實現運維自動化、可視化、批量化操作,助銀聯實現運維一體化。

雲運維平台採用模塊化微服務架構設計,構建適合銀聯業務特點的雲運營平台。將各個業務系統由緊耦合的狀態變為松耦合,採用容器部署,易於在線升級。

平台採用分散式存儲,降低銀聯硬體投資成本,提高橫向擴展能力。

平台提供統一備份管理、自動數據收集、多角色報表視圖、統一標準比對、軟體包一鍵下發、自動批量裝機、虛擬機批量起停、創建等功能。為銀聯大規模運維操作節省了人力、物力成本,增強了大規模操作的時效性,將分散資源進行統一管理,全局監控、橫向伸縮功能全面提高對業務變化的響應能力。

以下是雲運營平台為銀聯帶來的具體11個方面功能收益:

1. 總的商業變化是:銀行不用擔心運維的複雜和不穩定性,大膽進行業務系統創新嘗試,快速適應大量互聯網客戶的需求;銀行的運維成本變低,提高了整體的經濟效益;運維靈活性和準確性提高,可從運維數據中挖掘出大量的商業機會。

2. 雲運營平台備份恢復功能,為銀聯實現備份的可管理行、自助性。

雲運營平台增加備份管理引擎,對虛擬機、文件、文件夾進行統一備份。基於雲運營平台自主備份需求提交,通過流程審批,備份立即生效。

3. 雲運營平台數據收集系統自動數據收集為銀聯減少了人工收集數據的人力成本,同時大大增加了數據的準確性與時效性。

雲運營平台通過SNMP、IPMI、SSH、腳本、平台介面等技術手段實現自動收集伺服器、虛擬機、網路設備、安全設備、環境、應用等基礎數據,自動形成關聯關係。實現配置數據的全自動收集,保證數據的真實性和新鮮度,擴大數據的收集範圍。如下為虛擬機資源統計示例:

4. 雲運營平台報表視圖系統為銀聯運維團隊提供統一的資源信息統計,形成圖形化的物理和邏輯拓撲結構,根據不同角色提供多維度展示。

雲運營平台報表視圖系統,基於自動收集到的數據,給不同的角色運維團隊提供多維度的報表統計視圖,包括資源視圖、容量視圖。在雲運營平台首頁實現一個dashboard圖形展現雲計算資源的摺疊圖,展示運維硬體拓撲結構和應用邏輯拓撲結構。如下為F5三級視圖示例:

5. 雲運營平台提供標準比對框架為銀聯帶來了一個統一的標準比對框架,實現標準比對的自助化配置和可管理性,提高了比對效果和質量。

通過雲運營平台形成統一的標準對比框架,用戶只需要填寫執行命令、預期結果、執行範圍、執行頻率,平台即可自動生成對比任務。

6. 雲運營平台橫向伸縮功能提高了銀聯應用系統對業務變化的響應能力。

雲運營平台橫向伸縮解決了生產應用系統隨著業務需求擴大而產生較大程度的變動。雲運營平台以介面的方式提供了虛擬機的橫向伸縮服務,增加了定製虛擬機節點在線複製功能,預留業務監控介面,隨監控觸發橫向伸縮,同時平台提供伸縮后負載均衡設備的調整、虛擬機內配置調整的腳本調用介面。

7. 雲運營平台軟體包安裝提升了軟體管理的統一性及安全性,通過自動化手段提高軟體包變更的質量。

建設銀聯內部統一的軟體源,減少不可信軟體包所引發的安全風險,對伺服器進行軟體包自動、批量安裝、卸載、升級,可以統一查看每台伺服器軟體包部署情況。

8. 雲運營平台定時任務管理為銀聯實現自啟動的自助化調整和可管理性。

通過雲運營平台對定時任務統一管理,實現定時任務的自助式配置。對每台伺服器進行定時任務配置管理,從全局角度查看每台伺服器的定時任務,並且可批量對定時任務進行調整。

下圖為定時任務管理示例:

9. 雲運營平台自啟動項管理為銀聯實現對虛擬機自啟動項統一管理,提高自啟動的自助化調整和可管理性。

通過雲運營平台對虛擬機自啟動項統一管理實現自啟動項的自助式配置,對每台伺服器在/etc/init.d中進行自啟動管理,可全局查看每台伺服器的自啟動項,批量修改自啟動項,從而提高了虛擬機自啟動項的可管理性。

如下為啟動項管理示例:

10. 雲運營平台虛擬機批量操作為銀聯實現大規模虛擬機批量起停、創建,減少人工成本,大幅度提高了工作效率。

解決原有雲資源平台僅能實現虛擬機逐個創建、起停,在極端情況下虛擬機大批量啟動耗時較長問題,通過雲運營平台實現虛擬機按照區域、集群、物理機實現大規模虛擬機起停、創建。

11. 雲運營平台物理裝機為銀聯實現批量物理裝機,滿足規模化運維的時效要求,提高物理裝機的準確性。

通過配置統一安裝環境,只需網路連通,雲運營平台就可以對物理機進行自動系統安裝,系統配置等工作,減少規模化運維對人力、物力的需求,增強時效性、準確性。

- 關於企業 -

BoCloud博雲(蘇州博納訊動軟體有限公司),為企業級客戶提供專業的雲計算服務,專註於運用PaaS領域的先進技術,如容器,Kubernetes,Swarmkits等,協助企業完成IT系統私有雲和混合雲架構的實施和運維,實現物理機與雲計算資源的統一納管等能力。

BoCloud博雲在包括IaaS/PaaS/運維自動化等雲計算核心技術方面擁有多項自主知識產權。公司自主研發的多項軟體產品,包括私有雲產品BeyondSphere、企業級容器管理平台BeyondContainer、數據中心自動化運維產品BeyondBSM等,已在金融、電力、政務、IDC等行業領域的生產系統中落地實施,為國有電力公司、股份制銀行、支付機構等大型企業的重要生產系統提供了基於Docker的PaaS平台的雲計算服務。

BoCloud博雲總部位於蘇州工業園區,是國家高新技術企業,在北京、上海、南京、深圳等地分別設立了研發中心與解決方案中心。核心技術團隊由來自中科院軟體所和計算所、微軟、阿里雲、華為等國內外知名企業和研究機構的博士、碩士組成。

作為整體活動的第二部分,2017年10月25日,數據猿還將在北京舉辦千人規模的「2017金融科技價值——數據驅動金融商業裂變」峰會並將在現場舉行文章、案例、產品的頒獎典禮



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦