search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

獨家爆料 | 華為五年前已布局AI晶元,寒武紀註定是最優選擇

上周六,DT 君在柏林 IFA 現場深度報道了華為最新發布的移動端 AI 晶元。此後,DT 君獨家專訪了深度參與麒麟 970 方案設計的一位相關人士,但這位相關人士拒絕在文章中透露其姓名及身份。

圖丨華為麒麟970

這位相關人士表示,麒麟 970 整合NPU(Neural Processing Unit,神經處理單元)構想早在五年前就已經開始醞釀。

就當初的情況而言,產業界已經逐漸看到 CPU 的應用瓶頸,而 GPU 雖然也開始參與計算工作,但其主要的顯示工作隨著解析度的提高而負擔不斷加重,所以要讓這個已經分身乏術的架構繼續增加負荷,對整體性能以及功耗表現也是會產生負面影響。

可以說,為追求更高的應用效率,以及更好的功耗表現,只讓 CPU 或 GPU 架構參與計算已經遠遠不夠滿足需求。

事實上,當初的主流移動晶元架構也已經不會只內建此兩種架構,而多半會增加額外的 DSP 單元或者是 ISP 架構,不僅分擔主系統的沉重計算負擔,也因為讓不同類型的計算工作可以擺到更適合的計算架構上,整體功耗也有了明顯的改善。

可以說,AI 正是基於同樣的概念:讓適合的架構來做適合的工作,效率才會得到提高。

圖丨余承東展示麒麟970

這位相關人士對 DT 君表示,華為在當時就決定了未來 AI 相關計算,將會以專用架構的設計方式進行,這就好比繪圖工作會交給 GPU 而不是 CPU 是一樣的道理。

寒武紀的生態經營和架構優勢贏得華為青睞

當然,以華為旗下海思的晶元設計功力,如果要從無到有設計出專用的 NPU 單元,也不是不可能的事情——此類 NPU 架構單純,設計難度也不會比 CPU 更高,但問題出在生態方面。

這位相關人士表示,如果完全自主開發,從無到有的經營生態,華為有可能在未來方案推出時,缺乏市場開發者以及相關生態的支持,恐怕結果只會是事倍功半。

眾所周知,寒武紀的前身是科學院計算技術研究所下的一個課題組,由陳雲霽、陳天石教授領導。

該課題組早在 2008 年就已經開始研究神經網路演算法以及晶元設計。寒武紀第一代方案在 2012 年推出,65nm 工藝下功耗為 0.485W,面積 3.02mm²。平均性能超過主流 CPU 核的 100 倍,但面積和功耗僅為 1/10,表現相當驚人。

圖丨寒武紀1A處理器(Cambricon-1A)

不過,當初寒武紀有個非常直白的命名代號,叫做 DianNao,就是中文拼音的「電腦」——顧名思義就是拿來做計算工作的、用電的「大腦」。當初,這個命名並不是人的主意,而是研究團隊中法國人的建議——不用當時已經爛大街的神經網路晶元之類的命名,反其道而行用中文取名,外國人反覺得十分高大上,相當有趣。

中科院在 DianNao 的基礎上開發出 DaDianNao(第二代,功能增強)、PuDianNao(第三代,普電腦,通用型機器學習晶片)、ShiDianNao(視電腦,圖像識別處理器)、DianNaoYu(電腦語,神經網路指令集)等延伸規格,針對不同應用或目的特化,也看得出研究團隊對命名規則的堅持。

這位相關人士對 DT 君表示,寒武紀實際上是基於對整個軟硬體優化的平台,擁有成熟的硬體,以及軟體界面設計,生態支持能力絕佳,且因為知識產權完全自有,不怕受制於人。也因此,華為一方面為了節省成本,一方面又要有足夠競爭優勢的架構設計,考量二者得出的唯一解答:就是寒武紀了。

圖丨寒武紀科技

NPU到底有多強大?

NPU 本身可達到 1.92 TFLOPS 的半精度(16bits)計算能力,以 IFA Keynote 上提到的應用案例為例,使用 NPU 可在一分鐘內辨識超過兩千張圖片。換句話說,每秒可辨識超過 30 張圖片,這對於需要及時分析的場景識別或者是合成,所需要的數據分析,已經可以達到幾乎實時的地步。

而就華為給出的 25 倍速度,50 倍效率推算,該 NPU 功耗全負載大約只有 CPU 的一半,如果以計算效率/功耗換算,大概是 0.8 TFLOPS/W,如果以 NVIDIA 的 V100 方案作比較,V100 約為 0.4 TFLOPS/W。

可見,麒麟970內建的 NPU 效率之高了。

從雲端到本地端硬體的AI應用

DT 君在之前的報道分析中也提及,雲端性能強大,學習快速,但學習得出來的模型是通用模型,很難針對小眾有訂製化的調整,並滿足消費者的應用場景。

但過去本地端硬體性能不足,雖然可通過雲端學習,但數據這麼一來一往,效率極低,無法做到實時處理。若本地端硬體擁有強大的 AI 學習能力,那麼就不需要把數據上傳到雲端,直接在本地端處理即可,效率更高,且更能確保數據的安全與隱私。

這位相關人士表示,環顧業界,其實不是只有華為在做終端的 AI 計算工作,但華為提出的方案是以能夠實現快速規模化,並以成熟的商業思維為基礎。其他競爭業者,比如說高通或蘋果,也都在各自的技術領域有所成就。

然而,這個市場目前才處於剛剛在醞釀的時期,所以根本也不存在什麼競爭問題。如果產業競爭者能夠共同把餅做大,讓生態更成熟,其實整個 AI 的市場規模足以撐起許多大型企業,而華為搶先卡位,自然是為了屆時能夠處在一個相對優勢的市場地位。

但任何事物的發展都需要時間,所以只有把眼前的移動生態先做好,未來才能夠實現對其他應用場景的布局。

那麼生態系統的支持如何拓展?不同架構是否會衝突?

當然,目前業界採取的 AI 加速晶元設計,在結構和理念上都各有不同,計算特性也不一致,但這名相關人士表示,其實也不用擔心未來會有不同架構各據山頭,導致生態撕裂、餅做大前先起內訌的狀況出現。

由於目前主流操作系統(包括Windows、Linux或Android)都已經支持了針對終端 AI 計算的相關開放規範,也提供了共同的軟體界面,從而藉以接入各種不同架構的 AI 加速晶元。

未來 AI 加速晶元的設計會有標準功能,也會有作為差異化速求的額外附加功能,前者透過一般標準界面就可存取,後者也同樣是透過標準界面,但只需要小幅修改開發者端的程式碼即可取用,不會造成業界的混淆。

移動應用是短期目標,未來將打生態戰拓廣其他領域

這位相關人士也表示,華為在 IFA 上的應用方向其實是短期目標,由於手機生態成熟,也容易接受新技術的導入,而把 AI 加速能力放在手機方案上,最有機會得到回報。

就當前的三大應用方向而言,包含視覺處理、AR 以及自然語言,都是近來最熱門的高端智能手機應用發展方向,如果華為能夠用更低的功耗,更好的效率來處理好這些事情,一來可以提升品牌價值,創造更高的利潤,二來熟悉相關終端 AI 處理技術之後,也可以把這些方案拓展到其他智能應用上,而不是只有手機而已。

這位相關人士也強調,華為內部也已經有下一個三年計劃,針對未來 AI 技術的演進,配合市場應用的需要來進行改善和微調,並隨著麒麟晶元的世代更替來推新架構。

圖丨麒麟 970的細部架構,NPU是最大亮點(資料來源:華為)

然而,雖然目前手機上的 AI 方案主要都著眼於 Inference(推理),而 Learning(學習)的部分則較少被提及。但憑藉 NPU 的導入,一旦性能足夠之後,要做到小規模的學習也不是不可能的事情,這部分與個人化的使用體驗息息相關,各大廠都不會輕易放過這塊大餅。

初期以高端方案布局NPU應用,未來將可能打入中端市場,擴大生態的發展

麒麟 970 作為第一代整合 NPU 的應用處理器晶元,定位最高端,也不吝於用最好的工藝,搭最頂尖的計算核心,但考慮到未來市場的走向,AI 應用一定會普及化、平民化,所以未來在相關 AI 晶元的布局規劃上,肯定會往中端,甚至低端的方向走,但是在 NPU 的規模方面恐怕就會有所調整,一方面是成本考量,一方面也是產品定位問題。

目前,華為正在積極和第三方軟體開發商合作,希望將整個生態基礎快速擴大,這方面也不會僅止於 IFA 上所公布的三大應用方向,而是會鼓勵產業合作夥伴積極嘗試,華為也會儘力協助合作廠商做出他們想要的 AI 應用。

這位相關人士表示,麒麟 970 的發表只不過是短期指標,長期來看還有不少需要加強的地方,但華為至少已經踩出第一步了。雖不能說就已經是立於不敗之地,但至少快了競爭對手一些,也讓華為可以提早思考下一步的布局。

本文為作者原創,未經授權不得轉載



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦