search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【清華產業創新密碼】來自核潛艇的靈感:產學研碩果同方存儲系統,鍛造國產化奇迹

編者按

創新,是清華產業發展之本、精神之魂。改革與創新,造就了清華產業近些年的高速發展。

為弘揚科技創新精神、傳播科技創新文化、營造鼓勵創新氛圍,清華控股聯合新華社經濟信息社北京中心主辦、紫光集團承辦「清華產業2016年度十大創新項目」評選活動,結果已於2017年4月底揭曉。現重磅推出「清華產業創新密碼」欄目,揭開項目的創新密碼,挖掘項目的創新價值,講述項目的背後故事。

高可靠自維護存儲系統Tstor(同方計算機榮獲「清華產業2016年度十大創新項目」稱號。

高可靠自維護存儲系統Tstor

申報單位:同方計算機

項目負責人:李健航

項目團隊成員:劉鋒、陳康、鄭緯民、武永衛等

我們正在走進一個大數據時代,前所未有的信息浪潮,正在改變所有人的生活。

但它同樣也給我們帶來了挑戰。

最大的瓶頸,正是數據本身。互聯網、物聯網、人工智慧等信息技術的發展,都讓人類社會的數據量呈爆炸的速度增長。據不完全統計,截止到2020年,的數據資料存儲量將達到8.8ZB,超過地球所有沙粒總和的10倍。

這樣海量規模的數據,如何安全、可靠地採集、分析和存儲?

在這方面,同方股份正在創造一個新的「世界奇迹」。

尋找成本、安全與可靠性的平衡點

過去,大規模的數據存儲主要有兩種方式:

第一種是大型磁碟陣列系統,主要用於金融、通信等對安全性和可靠性要求極高的領域。

它專門挑選可靠性更高的磁碟,並通過專用的硬體和軟體設計,讓存儲更加安全。但它的價格同樣非常高,1PB(1PB約等於1000TB)存儲賣到幾百萬美元是家常便飯,對於大規模海量存儲來說成本極高,而且必須及時更換損壞硬碟並進行重建,一般只能容忍任意2至4塊硬碟的同時損壞。

而且,這個領域已經被IBM、日立、EMC等外資廠商基本壟斷,對很多有安全性要求的敏感數據信息來說,它始終存在較大隱患。

而互聯網公司等對數據可靠性要求不那麼高的公司,則主要採用第二種方式:基於副本的分散式網路文件系統。

它的原理,是把相同的數據存儲三份,每一份都寫入單獨的硬碟,當系統檢測到其中某部分損壞時,直接從其它兩份副本中讀取並拷貝過來進行重建即可。

這樣的方式簡單而高效,而且由於使用通用的伺服器和硬碟,存儲的成本一般也較前者大為降低,更重要的是,這讓用戶可以擺脫設備供應商的技術綁架,真正掌握數據自主權。但它的磁碟空間利用率只有33%,存儲效率極低,造成了巨大浪費,而且只要三份副本同時在同一位置出現問題,數據就將永久丟失。

以上兩種方式,都必須配備專業的維護團隊,實時檢測硬碟的故障,當硬碟出現問題時,維護團隊就要立即更換硬碟並進行重建工作,這也帶來了巨大的人工維護成本,對用戶提出了很高的技術要求。

那麼,在成本、安全與可靠性之間,到底有沒有一個最佳的平衡點呢?

這個困擾數據存儲多年的問題,今年終於被同方股份成功解決。

這是一個名為TStor的存儲系統,它可以實現:每48塊存儲磁碟中,任意16塊磁碟同時損壞;每16個存儲伺服器節點中,任意5台同時掉電或者損壞,依然能確保數據不丟、服務不停,甚至性能不變。

與此同時,整個系統依然能保證三分之二的磁碟空間利用率,與前面的副本方案相比,在對可靠性進行數量級提升的前提下,還將磁碟利用率提高了一倍。

由於可靠性的空前提升,系統只需要簡單常規維護,將磁碟檢查、更換和重建的周期擴大到以年為單位,大大降低了對用戶的運維要求。

「除了清華同方,目前世界上還沒有其他任何一家廠商的產品,能達到這樣的可靠性。」同方股份TStor存儲系統項目負責人劉鋒說。

糾刪碼:來自核潛艇的靈感

那麼,這個不可思議的存儲系統,到底是怎樣實現的呢?

他們的靈感來自於核潛艇

為了確保安全,核潛艇需要長期潛伏在水下,只有搜集到情報信息或接收命令時,才會將通訊浮標浮出水面。但在放出通訊浮標的時候最容易被敵人發現,所以它需要在最短的時間裡,將所有信息都完整地傳輸出去。

因此,潛艇採用了一種叫「糾刪碼」的技術來進行信息傳輸。它的原理是構建一個數字矩陣,然後將要發送的信息進行切片,與矩陣進行數學運算后發送,接收后再通過數學運算還原。通過這樣的處理,即使發送信息在傳輸過程中大量丟失,也能通過其他信息的數學運算實現還原。

「理論上來說,如果使用一個32乘48的矩陣,那可以將發送信息分成48份,只要接收方收到其中的任意32份,就能100%地還原所有信息。」劉鋒說。

但如果要將這個技術運用到存儲上,還有一個必須突破的難關,那就是運算效率。

將信息每32位元組構成一個單列矩陣,並與32x48的矩陣相乘,對於線性代數有基本了解的讀者都很清楚,這意味著海量的有限域內乘法與加法運算,無論對計算機的計算能力還是吞吐能力來說,這都是一個難以承受的巨大負擔。

這個問題的解決辦法,是對矩陣進行優化,將其中的絕大多數元素設為0。因為0乘以任何數字都是0,所以矩陣中有多少個0,就意味著可以節省多少次運算。

但是,讀取數據與糾錯的過程,是與其逆矩陣進行類似計算,這給矩陣的構成帶來了數學上的巨大挑戰:矩陣必須可逆,而且兩個方向上都必須儘可能節約計算開銷。只有找到合適的矩陣,才能讓「糾刪碼」真正具有實用價值。

這也正是全球科學家都在努力的方向。

「微軟英國研究院曾發表論文提出一個高效率的矩陣,而清華大學構造的矩陣,與微軟的這個矩陣相比,計算量可以減少接近50%。」

國產化奇迹是怎樣煉成的

儘管如此,從理論上實現可能,到最終拿出產品為用戶提供服務,還需要經歷巨大的挑戰。

與國外成熟的存儲廠商不同的是,的存儲技術在資源、程序員技術成熟度都遠遠落後。「在國產的平台搞,出了毛病都不知道是我們的軟體有問題,還是國產的基礎軟體問題,還是國產晶元有問題。」劉鋒說。

但為了安全,問題還是只能自己解決。

計算的程序應該怎麼并行設計,才能在多核CPU上跑得最快?編譯的時候應該怎樣編譯,才能充分地發揮硬體性能?寄存器應該怎麼調整?哪些寄存器要快一點,哪些寄存器沒有這麼快?存取內存的時候,用哪些專用指令可以更快?怎樣在複雜的網路環境下,實現網路、計算、內存、硬碟等不同硬體的負載均衡和流水線優化?

每一個問題,都是一道關卡,但在同方股份、清華大學以及更多國產夥伴的聯手努力下,他們一道關卡接一道關卡地打通了關。

從2015年同方股份和清華大學聯手啟動TStor項目,到2017年產品成熟,不知不覺中,他們已經實現了連自己都沒有想到的巨大突破。

目前,整個TStor存儲系統,從指令集到CPU,從主板到操作系統再到核心演算法,已經全部採用國產化設計,實現了真正意義上的自主可控。

與此同時,在自主的基礎上,TStor存儲系統也實現了更快的速度、更高的存儲效率與空前可靠性的平衡。在某型國產處理器上,單顆處理器實測性能領先於Intel至強E5-2643 v4。它的存儲容量高達數百PB,可靠性則達到了甚至只需要讓維護人員每年巡檢一次集中處理硬體的自然損壞,就能確保存儲服務不停、數據也不丟的程度。

而這個系統的成本,則只需要國際廠商的50%,甚至更低。

經九位院士組成的鑒定委員會鑒定,TStor存儲系統已經整體達到國際先進水平,關鍵核心技術國際領先。經國家氣象中心、電力科學研究院、中科院物理研究所等多家用戶深入測試與使用,系統運行可靠,獲得用戶非常高的評價和反饋,並成功入圍「清華產業2016年度十大創新項目」。

打通產學研:同方為什麼能領先?

為什麼別的企業無法突破的難關,同方股份卻能做到?

一方面,是學術上的突破,以及技術上的革新。

對「糾刪碼」技術在存儲領域的應用研究,即使放眼全球,也是近幾年才加速推進的新領域,科研與產業化的時間較短。清華在這個領域的技術優勢,能轉化為同方在產業上的領先優勢;而近兩年國產化CPU性能的快速提升,也幫助TStor存儲系統實現了整機徹底國產化,TStor存儲系統用國產晶元時,不但成本更低,而且在性能上實現了對國際當代先進處理器的超越。

更重要的,是同方將產學研全面打通結出的碩果

2015年,在同方股份副董事長兼總裁黃俞、首席運營官李健航等領導的直接支持下,同方股份與清華大學產學研結合,共同設立了清華大學-同方股份計算機系統結構聯合研究中心,行業頂級專家鄭緯民教授、武永衛教授、陳康副教授等悉數加入。從數學研究到高性能計算、從基礎操作系統到存儲系統,來自清華大學的科學家與同方股份的工程技術人員並肩戰鬥。

同時,同方跟國內的核心科研機構與廠商進行了緊密合作,從底層進行指令級性能優化,共同解決了大量技術問題。

最終,作為世界第一款使用大規模糾刪碼演算法的存儲系統,TStor不但實現了清華同方在存儲領域的市場突破,也為存儲產業的發展,打開了一扇新的大門。

【相關閱讀】——清華產業創新密碼

新華三:「雲」領未來

同方威視:怎樣的「火眼金睛」,讓動植物違禁品無所遁形?

呼吸道感染,看博奧碟式晶元如何快准狠揪出致病元兇

華海清科:跨越0到1,走出CMP技術新天地

辰安科技:守護城市生命線的「安全衛士」

誠志寶龍:心誠志專,勇於創新,填補全球機動車尾氣遙測技術空白

辰安科技:鍛造水環境「安全溯源網」

「清華產業2016年度十大創新項目」展示請戳這裡



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦