search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

揭秘騰訊數據中心十八年建設及運營實踐

2000 年,騰訊第一個 IDC 在深圳東門建立,2012 年 9 月,第一個微模塊數據中心在寶安落地。這中間,騰訊又相繼建立了異地 IDC、海外 IDC、還包括自建數據中心和超大規模數據中心的上線和交付。十八年,騰訊在數據中心建設和運營上積累了一系列的實踐經驗,也在自主設計、自主建設領域已經取得了豐碩的成果。

騰訊四代數據中心的發展
  • 騰訊第一代數據中心在 2006 年前後起步,採用的是傳統的電信解決方案,數據中心 PUE(能效比)在 1.6 左右;

  • 第二代數據中心以天津數據中心為代表,全面轉向超大規模數據中心的建設,該代數據中心為 UPS 架構,採用了當時國際上最為先進的自然冷卻等節能技術,PUE 降至 1.4;

  • 從 2012 年開始,騰訊開始自主研發以「微模塊」為核心技術的第三代數據中心技術 TMDC;

  • 2015 年底,第四代騰訊數據中心 T-Block 技術正式推出,目前該代技術還僅處於試驗階段——進行不同環境下(如:南方濕熱環境,西部涼爽環境)的小批量部署,驗證間接蒸發冷卻技術在不同環境下的節能效果,它帶來的直接好處就是讓數據中心標準化、模塊化,效率更高,PUE 更低,快速地滿足市場的需求。

據了解,去年 4 月,騰訊在貴陽建設了 T-Block 的試點項目(其內部稱之為「T-Block 西部實驗室」),通過此來驗證 T-Block 的建設方式和其技術性能。西部實驗室由八個模塊組成,驗證不同模塊拼裝實現的方式。未來 T-Block 技術將會規模化的在上海、深圳等地的數據中心投入實際運營。

在 TMDC 技術上,騰訊攻克了在建設成本、高壓直流供電對 IT 設備的風險、與行業規範兼容、租電分離計費模式等一系列的難點,採用了通道封閉、高壓直流、列間空調、簡化的配電結構、氣流組織優化等一系列節能環保關鍵技術。TMDC 的技術架構中,每個微模塊都包含自身的配電、空調、消防和監測系統等,可以認為一個微模塊就是一個微型的數據中心。同時,微模塊也是一個完整的產品,像伺服器一樣,微模塊的所有組件都在工廠預製和測試完成,到數據中心現場拼裝完成即可投入使用,部署時間最短僅需要兩個星期。

另外,相對於第二代數據中心,TMDC 還實現了去 UPS。作為一種體型龐大、操作複雜的供電設備,UPS 在數據中心內使用存有惡性事故隱患,通過「去 UPS」,TMDC 解決方案有效提升了數據中心運營整體的安全性。在 TMDC 解決方案中,伺服器供電變成了市電直供加直流系統備份。

騰訊第三代數據中心 TMDC 技術組成

到了第四代 T-Block 數據中心的運行,騰訊主要基於兩點技術實現更好的能效和性能:

1、製冷系統採取間接蒸發冷卻,配電系統繼續沿用騰訊目前比較成熟的市電 +HVDC;

2、通過標準模塊化的供配電,短距離的熱量傳輸路徑。

去年年底,有媒體曝光過 T-block 數據中心的外觀,其外表雖然看著是集裝箱,但內部已進行大量的改裝。它由若干個集裝箱體拼接而成,包括了辦公箱、供電模塊箱、兩個 IT 模塊箱、製冷模塊箱 A 和製冷模塊箱 B 等。據了解,T-block 核心思路在於通過產品化手段解決數據中心建設問題。而這種思路也更貼近數據中心本質的功能屬性:快速響應業務需求,提供一個穩定可靠的 IT 設備運行環境。

隨著技術的不斷成熟,騰訊數據中心的 PUE 值也在一次次的突破「極限」。騰訊第三代數據中心(TMDC)已經在騰訊自有業務和騰訊雲業務上得到大規模應用,目前承載的伺服器量超過 20 萬台,實測平均 PUE 值 1.35 左右。2016 年 4 月,工信部電信研究院對騰訊 T-block 進行了 24 小時不間斷帶載測試,測得日電度 PUE 值為 1.0955,是工信部數據中心標準化測試中最佳的測試結果。

青浦數據中心三聯供技術解析

除技術上的演進外,近年騰訊 IDC 平台部在數據中心新能源領域也進行了最新的嘗試。上周四,記者隨行來到騰訊位於上海的青浦合建數據中心進行參觀,也見證了騰訊在數據中心上的多項技術嘗試與創新。整個青浦數據中心園區的規劃包括:四棟數據中心樓、一棟配套業務樓、一座 35KV 變電站,一座三聯供能源站,總共可容納 10 萬台伺服器。位於一號數據中心樓的微模塊數據機房,內有電力室、冷機房等重點基礎設施。體現了模塊化數據中心新的運營理念,和自動化監控管理模式。

這裡再重點說說三聯供能源站相關技術:

目前國內三聯供的應用場景大致可分三類:第一類對三聯供的要求較低,體量較小,典型的代表是一些辦公園區;第二類場景規模體量較大,對三聯供的持續性要求較高,典型代表是大型的工業園區;第三類除了體量大和持續性要求,還加入了對穩定性和突載入的要求,典型的代表就是數據中心。所以騰訊認為三聯供是數據中心的實踐,它代表成熟技術在新領域的應用。

在數據中心應用三聯供技術,原因主要由二:電是數據中心最為主要的能源需求,在對電以及通過電產生冷供伺服器採用上,三聯供可通過燃氣啟動發電機,同時採用溴化鋰機組將供電產生的餘熱回收製成冷供數據中心使用;其次是相比煤資源,三聯供使用的清潔能源可以減少碳排放,實現綠色的數據中心。相對於傳統數據中心標準的兩路式電和後備電,青浦數據中心引入三聯供製冷和供電能力,可以形成三者備份、補充的架構。

騰訊青浦數據中心主要承擔了騰訊的遊戲、微信等 To C 業務以及大量的 To B 業務。為保證數據中心整體的穩定運行能力,三聯供在落地實踐過程中也經歷了大大小小的考驗。例如,電供冷和三聯供製冷對接,導致整個系統非常複雜,為了和市電錯峰運行以達到更高的效果,整個供電中心的製冷需要進行兩次切換,一次切換是在早上六點,另一次是在晚上十點,每一次切換對於數據中心的運行都是嚴重的考驗。

面對一系列的考驗,騰訊建立了一個體系和完善流程,從而確保三聯供和數據中心產生 1+1>2 的效果。比如騰訊數據中心的高溫設備巡檢,使用熱成像儀對高溫設備監控來減少隱患,這樣的改進可以有效的發現三聯供在運行中的隱患。通過 7 大類共 52 個應急預案以及對相關人員運維水平和熟練度的各類演練,青浦數據中心可以有效降低三聯供技術故障對業務帶來的影響。青浦三聯供運行至今,大大小小一共進行了 50 余次的演練,平均每周要進行兩次演練,電製冷和溴化冷也進行了 200 余次。

此外,在新能源探索和使用上,青浦數據中心還布局了將近 3000㎡的「光伏發電」系統。在參觀時,騰訊數據中心高級工程師李典林也表示,未來騰訊或許會將數據中心和三聯供技術進行結合:讓三聯供能源站內部對白天兩者產生的電量進行調配,用光伏發電所產生的能源供給水泵等設備的消耗,從而不對整個「電池子」的總容量形成大量消耗。包括如果在未來加上儲能電池,並將夜間低谷期的能源存儲在電池中,即可作為「光伏發電」系統之外的另一大供電渠道。

據騰訊的相關統計,「三聯供」投產後截至目前,平均每年節省標煤 3500t;CO2 排放量減少 2.33 萬 t,減排約 48%;節能率超過 18%。「光伏發電」設計年均發電量也將超過 20 萬 kwh。

正如騰訊數據中心高級數據中心經理許均在 6 月 15 日「第三屆騰訊數據中心 & 雲分享日暨 DCD 騰訊合作夥伴峰會」上所說的那樣:「騰訊青浦數據中心,是用三聯供技術並投入商業運用的國內第一個中心,在技術上和商業模式上都有很多的創新和突破,未來我們還有很多工作要做,很多功課要做,我們還在路上。」

騰訊數據中心自動化運維的實踐

騰訊數據中心經過十八年的發展,積累了豐富的規劃、設計和運營的經驗,形成了清晰的技術發展線路。據了解,騰訊數據中心一直服務於騰訊自身業務,直到五年前才對外開放,並以雲服務的方式將這種能力開放給全行業。

在對技術探索的過程中,數據中心需要管理對象的數量、規模及複雜度也在呈現指數級增長,這對自動化運維管理也提出了更高的要求,傳統人工干預、保姆式管理監控與故障處理的方式已無法滿足業務需要。自動化人工故障修復機制、日誌和監控信息集中管理與控制、大數據的機器學習機制都是數據中心常用的幾種現代運維新技術手段。

在騰訊數據中心的自動化運維實踐中,其自主開發了「Nebula」自動化平台,對 IT 系統、製冷系統進行全覆蓋。目前,「Nebula」系統架構由四部分組成:數據中心服務管理門戶、資源管理門戶、運營管理門戶以及管控門戶,因此其精細化運營之路也主要從這四個維度來開展。

當有報警時,報警會自動被送到事件處理模塊中,引導相關人員完成故障分析和任務分工,完成故障設備隔離和恢復。其中頻發問題會被系統送入問題管理模塊,跟進解決,經驗會被存儲到運營知識庫。例如在 2015 年天津 8·12 爆炸事件發生后,離爆炸中心不到 1.5 公里的騰訊天津濱海數據中心受損嚴重,在全部人員於兩天內撤離的同時,「Nebula」系統則持續進行著遠程無人值守,從而幫助騰訊將受影響的業務轉移到深圳的數據中心,通過了實戰的考驗。

在「DCD 騰訊合作夥伴峰會」上,騰訊數據中心平台研發總監高江也為大家分享了騰訊數據中心在安防及視頻數據過濾、基礎設施運營及監控報警方面的一些實踐。

數據中心的視頻安防系統,主要會用於事后的問題分析和追蹤。在龐大的視頻數據中,騰訊會通過機器學習和識別等技術將風扇轉動等無用的畫面數據進行過濾,對其中近三成的真正有意義的數據重點關注。在整個視頻監控系統中,可以通過人像識別技術和智能化分析技術來判定視頻中出現人物及行為的合法性。

數據中心的基礎設施都是相互關聯、互相影響的主體,一個設備發生故障很有可能會導致下游一系列設備連帶形成異常。因此,騰訊將基礎設施的模型建立起來,清楚地描述他們的關係,當其中某個設備產生問題則可以進行固定定位,從而把無用的報警信息或由主動操作產生的異常和報警信息屏蔽掉。這樣,基礎設施報警精準則大大提升。

通過對數據中心運維海量數據的分析,利用大數據建模,自動化地、智能化地挖掘出更多高價值的、運維人員認知範圍外的故障模式與系統優化模式,可以進一步提升系統運維的效率;通過大數據機器學習,對大規模運維場景下的性能與故障規律分析、趨勢預測及故障根因識別定位,可以提升機器自動化運維的能力,可以大大減少數據中心的人力投入。以 InfoQ 記者參觀的青浦數據中心為例,園區內需要巡視、維護、調控人員極少,除了在某些監控室及廠房,基本上是屬於無人看守狀態。

在專訪中,騰訊數據中心負責人鍾遠河也表示:「自動化是數據中心的必由之路,而實現自動化的第一步就是要採集數據,制定統一標準,並根據業務需求進行不同的工作角色分工。」

共建數據中心和諧生態

騰訊目前在全球布局了 20 個大區、31 個可用區的集成數據中心,擁有超過 700 個 CDN 節點。「在支撐騰訊雲發展的過程中,我們發現雲對數據中心的需求也在分化,比較典型的有,公有雲、混合雲(黑石、託管)、金融雲、高防雲。」鍾遠河提出。

在此背景下,騰訊數據中心根據業務特性,提供垂直細分領域的解決方案,在保障安全性的同時,助力數字經濟的多樣化發展。如黑石和混合雲的數據中心專區,重點從客戶 IT 設備與基礎設施適配性需求考慮;而金融雲的機房,要求高安全、高可用性、在技術架構上更偏保守;而騰訊的高防雲和高防數據中心,定位於軍用級、高防護、高可用,為企業的核心數據和信息打造一個堅固安全的保險柜。

雲計算時代,運維將會面臨哪些新的挑戰?資料庫和大數據運維領域又有哪些最新技術實踐推薦一場 InfoQ 主辦的 CNUTCon 全球運維技術大會,大會將以 DevOps 為落腳點,向你闡述關於運維的方方面面,點擊「閱讀原文「了解更多精彩!

細說雲計算

「細說雲計算」是InfoQ旗下關注云計算技術的垂直社群,投稿請發郵件到[email protected],註明「細說雲計算投稿」即可。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦