Zi 字媒體

獨家爆料 | 華為五年前已布局AI晶元，寒武紀註定是最優選擇

2021/12/25

yidianzixun

上周六，DT 君在柏林 IFA 現場深度報道了華為最新發布的移動端 AI 晶元。此後，DT 君獨家專訪了深度參與麒麟 970 方案設計的一位相關人士，但這位相關人士拒絕在文章中透露其姓名及身份。

圖丨華為麒麟970

這位相關人士表示，麒麟 970 整合NPU（Neural Processing Unit，神經處理單元）構想早在五年前就已經開始醞釀。

就當初的情況而言，產業界已經逐漸看到 CPU 的應用瓶頸，而 GPU 雖然也開始參與計算工作，但其主要的顯示工作隨著解析度的提高而負擔不斷加重，所以要讓這個已經分身乏術的架構繼續增加負荷，對整體性能以及功耗表現也是會產生負面影響。

可以說，為追求更高的應用效率，以及更好的功耗表現，只讓 CPU 或 GPU 架構參與計算已經遠遠不夠滿足需求。

事實上，當初的主流移動晶元架構也已經不會只內建此兩種架構，而多半會增加額外的 DSP 單元或者是 ISP 架構，不僅分擔主系統的沉重計算負擔，也因為讓不同類型的計算工作可以擺到更適合的計算架構上，整體功耗也有了明顯的改善。

可以說，AI 正是基於同樣的概念：讓適合的架構來做適合的工作，效率才會得到提高。

圖丨余承東展示麒麟970

這位相關人士對 DT 君表示，華為在當時就決定了未來 AI 相關計算，將會以專用架構的設計方式進行，這就好比繪圖工作會交給 GPU 而不是 CPU 是一樣的道理。

寒武紀的生態經營和架構優勢贏得華為青睞

當然，以華為旗下海思的晶元設計功力，如果要從無到有設計出專用的 NPU 單元，也不是不可能的事情——此類 NPU 架構單純，設計難度也不會比 CPU 更高，但問題出在生態方面。

這位相關人士表示，如果完全自主開發，從無到有的經營生態，華為有可能在未來方案推出時，缺乏市場開發者以及相關生態的支持，恐怕結果只會是事倍功半。

眾所周知，寒武紀的前身是科學院計算技術研究所下的一個課題組，由陳雲霽、陳天石教授領導。

該課題組早在 2008 年就已經開始研究神經網路演算法以及晶元設計。寒武紀第一代方案在 2012 年推出，65nm 工藝下功耗為 0.485W，面積 3.02mm²。平均性能超過主流 CPU 核的 100 倍，但面積和功耗僅為 1/10，表現相當驚人。

圖丨寒武紀1A處理器（Cambricon-1A）

不過，當初寒武紀有個非常直白的命名代號，叫做 DianNao，就是中文拼音的「電腦」——顧名思義就是拿來做計算工作的、用電的「大腦」。當初，這個命名並不是人的主意，而是研究團隊中法國人的建議——不用當時已經爛大街的神經網路晶元之類的命名，反其道而行用中文取名，外國人反覺得十分高大上，相當有趣。

中科院在 DianNao 的基礎上開發出 DaDianNao（第二代，功能增強）、PuDianNao（第三代，普電腦，通用型機器學習晶片）、ShiDianNao（視電腦，圖像識別處理器）、DianNaoYu（電腦語，神經網路指令集）等延伸規格，針對不同應用或目的特化，也看得出研究團隊對命名規則的堅持。

這位相關人士對 DT 君表示，寒武紀實際上是基於對整個軟硬體優化的平台，擁有成熟的硬體，以及軟體界面設計，生態支持能力絕佳，且因為知識產權完全自有，不怕受制於人。也因此，華為一方面為了節省成本，一方面又要有足夠競爭優勢的架構設計，考量二者得出的唯一解答：就是寒武紀了。

圖丨寒武紀科技

NPU到底有多強大？

NPU 本身可達到 1.92 TFLOPS 的半精度（16bits）計算能力，以 IFA Keynote 上提到的應用案例為例，使用 NPU 可在一分鐘內辨識超過兩千張圖片。換句話說，每秒可辨識超過 30 張圖片，這對於需要及時分析的場景識別或者是合成，所需要的數據分析，已經可以達到幾乎實時的地步。

而就華為給出的 25 倍速度，50 倍效率推算，該 NPU 功耗全負載大約只有 CPU 的一半，如果以計算效率/功耗換算，大概是 0.8 TFLOPS/W，如果以 NVIDIA 的 V100 方案作比較，V100 約為 0.4 TFLOPS/W。

可見，麒麟970內建的 NPU 效率之高了。

從雲端到本地端硬體的AI應用

DT 君在之前的報道分析中也提及，雲端性能強大，學習快速，但學習得出來的模型是通用模型，很難針對小眾有訂製化的調整，並滿足消費者的應用場景。

但過去本地端硬體性能不足，雖然可通過雲端學習，但數據這麼一來一往，效率極低，無法做到實時處理。若本地端硬體擁有強大的 AI 學習能力，那麼就不需要把數據上傳到雲端，直接在本地端處理即可，效率更高，且更能確保數據的安全與隱私。

這位相關人士表示，環顧業界，其實不是只有華為在做終端的 AI 計算工作，但華為提出的方案是以能夠實現快速規模化，並以成熟的商業思維為基礎。其他競爭業者，比如說高通或蘋果，也都在各自的技術領域有所成就。

然而，這個市場目前才處於剛剛在醞釀的時期，所以根本也不存在什麼競爭問題。如果產業競爭者能夠共同把餅做大，讓生態更成熟，其實整個 AI 的市場規模足以撐起許多大型企業，而華為搶先卡位，自然是為了屆時能夠處在一個相對優勢的市場地位。

但任何事物的發展都需要時間，所以只有把眼前的移動生態先做好，未來才能夠實現對其他應用場景的布局。

那麼生態系統的支持如何拓展？不同架構是否會衝突？

當然，目前業界採取的 AI 加速晶元設計，在結構和理念上都各有不同，計算特性也不一致，但這名相關人士表示，其實也不用擔心未來會有不同架構各據山頭，導致生態撕裂、餅做大前先起內訌的狀況出現。

由於目前主流操作系統（包括Windows、Linux或Android）都已經支持了針對終端 AI 計算的相關開放規範，也提供了共同的軟體界面，從而藉以接入各種不同架構的 AI 加速晶元。

未來 AI 加速晶元的設計會有標準功能，也會有作為差異化速求的額外附加功能，前者透過一般標準界面就可存取，後者也同樣是透過標準界面，但只需要小幅修改開發者端的程式碼即可取用，不會造成業界的混淆。

移動應用是短期目標，未來將打生態戰拓廣其他領域

這位相關人士也表示，華為在 IFA 上的應用方向其實是短期目標，由於手機生態成熟，也容易接受新技術的導入，而把 AI 加速能力放在手機方案上，最有機會得到回報。

就當前的三大應用方向而言，包含視覺處理、AR 以及自然語言，都是近來最熱門的高端智能手機應用發展方向，如果華為能夠用更低的功耗，更好的效率來處理好這些事情，一來可以提升品牌價值，創造更高的利潤，二來熟悉相關終端 AI 處理技術之後，也可以把這些方案拓展到其他智能應用上，而不是只有手機而已。

這位相關人士也強調，華為內部也已經有下一個三年計劃，針對未來 AI 技術的演進，配合市場應用的需要來進行改善和微調，並隨著麒麟晶元的世代更替來推新架構。

圖丨麒麟 970的細部架構，NPU是最大亮點（資料來源：華為）

然而，雖然目前手機上的 AI 方案主要都著眼於 Inference（推理），而 Learning（學習）的部分則較少被提及。但憑藉 NPU 的導入，一旦性能足夠之後，要做到小規模的學習也不是不可能的事情，這部分與個人化的使用體驗息息相關，各大廠都不會輕易放過這塊大餅。

初期以高端方案布局NPU應用，未來將可能打入中端市場，擴大生態的發展

麒麟 970 作為第一代整合 NPU 的應用處理器晶元，定位最高端，也不吝於用最好的工藝，搭最頂尖的計算核心，但考慮到未來市場的走向，AI 應用一定會普及化、平民化，所以未來在相關 AI 晶元的布局規劃上，肯定會往中端，甚至低端的方向走，但是在 NPU 的規模方面恐怕就會有所調整，一方面是成本考量，一方面也是產品定位問題。

目前，華為正在積極和第三方軟體開發商合作，希望將整個生態基礎快速擴大，這方面也不會僅止於 IFA 上所公布的三大應用方向，而是會鼓勵產業合作夥伴積極嘗試，華為也會儘力協助合作廠商做出他們想要的 AI 應用。

這位相關人士表示，麒麟 970 的發表只不過是短期指標，長期來看還有不少需要加強的地方，但華為至少已經踩出第一步了。雖不能說就已經是立於不敗之地，但至少快了競爭對手一些，也讓華為可以提早思考下一步的布局。

本文為作者原創，未經授權不得轉載

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點