人工智慧產業大爆發 AI江湖掀起腥風血雨

物聯網智庫整理髮布

轉載請註明來源和出處

------ 【導讀】 ------

幾十年來，一直是有演算法沒算力，甚至於有人認為，人工智慧就是一個科幻，就是小說家跟人類開的一個玩笑而已。誰也沒想到，進入21世紀后算力大爆炸。引發了整個AI產業開天闢地般的變化。

隨著AI產業快速突破，各大公司在AI領域的人才動向也在引起極大關注，你來我往、歸去來兮，AI江湖上大有一片血雨腥風之勢。當然，AI領軍人物的變動，會對具體公司業務造成影響。但從整個行業來看，人才流動的頻繁，反倒有可能促進產業的整體進程。

不信你翻翻歷史。AI這門功夫自1956年問世以來，至今已經歷60年風風雨雨，一直是流派眾多，難學難練，沒有大成。

難學，是因為必須要掌握一種叫做「演算法」的神功；難練，是因為需要有足夠算力，能夠處理數據樣本，訓練機器。

其中，演算法上升為天——深度學習，分成DBN，CNN，BP，RBM等等諸多分支，其中佼佼者當屬CNN(convolutional neural networks)，人稱卷積神經網路，應用廣泛。

算力，下降為地——AI晶元。各種晶元如雨後春筍湧現，拿過來訓練機器，得心應手啊。

廟堂之上也為AI駕臨人間雀躍不已。世界各國意識到人工智慧的重要性，紛紛簞食壺漿，以迎AI。

聯合國於2016年發布告示，召集人類討論機器人的製造和使用如何促進人工智慧的進步，以及可能帶來的社會與倫理問題。

美國政府於2016年連續頒發三道金牌：《美國國家人工智慧研發戰略計劃》、《為人工智慧的未來做好準備》、《人工智慧、自動化與經濟報告》，宣稱加入人工智慧教派，並且描繪了此舉能帶來的種種美好的前景。

英國政府見此立即照方抓藥，刊發了《機器人技術和人工智慧》報告，詳細的闡述英國的機器人技術與AI的親密關係。

有演算法有算力，天地已定。有政策有戰略，和風細雨。正是產業萌芽，草長鶯飛，欣欣向榮的時刻。人才的流動正是產業加速的信號。

書歸正傳。晶元定義了產業鏈和生態圈的基礎計算架構，正如CPU是IT產業的核心一樣，晶元也是人工智慧產業的核心。

話說天下AI晶元共分四大流派：

GPU，目前銳氣正盛，恰似東邪，憑藉并行計算形成先發優勢。
FPGA，蟄伏北方，正在暗地裡合縱連橫，大有號令群雄的勢頭，恰似丐幫。
ASIC，割據南方，佔領了大片市場，參與的公司林立。
類腦晶元，這個更「邪性」，打算直接複製大腦，也暗藏著問鼎中原的野心。

根據互聯網公開發布信息，今年，四大流派已經派出幾十路高手，參與華山論劍，這些高手均屬於晶元設計期高手。

這些高手都有什麼特點?誰能逐鹿中原?下文一一分析。

GPU一派

市場上名氣最大的應該是GPU一派。GPU也稱視覺處理器，專門用於圖像及相關處理的晶元。

2012年，Alex Krizhevsky，多倫多大學的博士研究所，憑此在ImageNet大賽上奪下了2012屆的冠軍。Alex提出了一個奇妙的模型，僅憑藉兩個GPU就取得了訓練深層神經網路的極佳效果。江湖頓時為之轟動，於是引發了GPU訓練神經網路的風潮。要知道，AI領域過去曾用CPU處理數據，但CPU效力太低。

當年，谷歌曾經花費巨資購買1.6萬個處理器，堆成谷歌大腦，峰值功耗在10萬瓦以上，佔地面積數十平方米。試問天下，有幾人能玩的起1.6萬個處理器?

隨著 AlexNet的劃時代論文橫空出世，於是GPU 在伺服器端橫掃天下。

有人會問，CPU和GPU，都是處理器，兩者有什麼不同?

與CPU相比，GPU 出現得遠比 CPU 晚，但并行計算能力能卻常令CPU望塵莫及。并行計算是相對於串列計算來說的。要知道，自計算機誕生以來，電腦編程幾乎一直都是串列計算，絕大多數的程序只存在一個進程或線程，好比一個人只能先吃飯再看聊天。

但更多人喜歡邊吃飯邊聊天怎麼辦?遇到這類問題，串列計算就傻眼了。并行計算一次可執行多個指令的演算法，能夠完美解決吃飯聊天難題。解決方式可分為時間上的并行和空間上的并行。時間上的并行就是指流水線技術，而空間上的并行則是指用眾多個處理器併發的執行計算。

深度學習所依賴的是神經系統網路，通常網路越深，需要的訓練時間越長。對於一些網路結構來說，如果使用串列的X86 處理器來訓練的話，可能需要幾個月、甚至幾年，因此必須要使用并行甚至是異構并行的方法，才有可能讓訓練時間變得可以接受。

在當前的人工智慧晶元領域，GPU的應用領域不容小覷，據Jon Peddie Research(簡稱JPR)市場調研公司統計，在2008至2015年期間，除了2008年GPU市場規模稍有下降，其餘年份全球獨立顯卡的出貨量和銷售額都呈現出明顯的上升趨勢，並且在2012至2015年有加速上升的表現。

GPU領域只有兩大公司，一是英偉達，佔市場份額約7成，另一位則是萬年老二AMD，佔市場份額約3成。

從GPU用戶數量來看，根據英偉達2016年的財務報告，相比2013年的100家，2014年的1549家，2015年已有3409家機構或企業使用英偉達的GPU產品，從事人工智慧的研究。這些企業和機構包括各大高等院校的人工智慧實驗室，互聯網企業，軍事企業等。

AMD雖然落後於英偉達，但2016年的市場份額已呈現出上升趨勢，在發布了代號Vega織女星的GPU晶元，市場一片叫好，未來可能有繼續上升的趨勢。

不足的是，GPU 很費電(比如高端顯卡動輒200W+)，一旦開啟，散熱就成了麻煩事。

FPGA一幫

GPU美中不足的是就是太貴了，太貴了，而且有副作用，降溫是大個問題。怎麼辦?

賽靈思等公司改進了FPGA許多技術，使之價格便宜功耗又很低，操練起來更有趣。於是，跟隨FPGA的越來越多，形成了一大流派。

FPGA是從哪裡來的呢?

原來早在1984年賽靈思就發布世界上首款FPGA，當時的FPGA晶片尺寸很大，但成本卻不低。1992年後，FPGA因採用新工藝節點，第一次出現了在FPGA上實現卷積神經網路。但直到2000年後，FPGA丹法結合了「易容術」后才略有小成，易容術是指FPGA 已不僅是門陣列，還是集成有可編程邏輯的複雜功能集。2008以來，FPGA不光可以越來越多地整合系統模塊，集成重要的控制功能，還可以使用更高效的系統編程語言，如OpenCL和C語言，通過類似軟體的流程來編程，降低了硬體編程的難度。於是，自2011年開始，出現了大規模基於FPGA的演算法研究。

簡單來說，FPGA 全稱「現場可編程門陣列」(Field Programmable GateArray)，其基本原理是在 FPGA 晶元內集成大量的數字電路基本門電路以及存儲器，而用戶可以通過更新FPGA 配置文件，來定義這些門電路以及存儲器之間的連線。

這裡提及的「可編程」，完全就是「可變成」。這意味著你今天可以把 FPGA 配置成一個微控制器MCU，明天就可以更新配置文件把同一個 FPGA 配置成一個音頻編解碼器。你是不是想起了孫悟空七十二變，今天是個老頭明天是個少女?此乃易容術也。

不同於GPU的運行原理，FPGA是以門電路直接運算的，即編程中的語言在執行時會被翻譯成電路，優勢是運算速度快。

在很多領域FPGA的性能表現優異，以至於有人說FPGA可能會取代CPU和GPU成為將來機器人研發領域的主要晶元。當然，這事有點誇張。目前來看FPGA也多作為CPU的協處理器而出現，衝擊GPU是顯而易見的，但要說取代CPU，還得等等。

目前，國內有許多創業企業，自動加入FPGA陣營，提供基於FPGA的解決方案。比如源於清華大學的深鑒科技，專註於深度學習處理器與編譯器技術，深鑒科技研發了一種名為「深度壓縮」的技術，它不僅可以將神經網路壓縮數十倍而不影響準確度，還可以使用「片上存儲」來存儲深度學習演算法模型，減少內存讀取，大幅度減少功耗。

FPGA流派的廠商有兩大兩小，兩大廠分別是賽靈思、Altera(英特爾於2015年以167億美元收購Altera)，兩小是Lattice和Microsemi。

其中，賽靈思和Altera佔據了近90%的市場份額，兩人旗下的專利超過6000項。而剩下約10%的市場份額，由Microsemi和Lattice瓜分，這兩位的專利也有3000餘項。由此可以看出，極高的技術門檻將其它希望進入FPGA市場的廠商牢牢擋在門外。

FPGA也有兩大局限性。

第一，FPGA的峰值性能不如GPU。即便使用高端的伺服器做FPGA編譯都會需要數分鐘的時間，放到移動端速度還會更慢。但FPGA的功耗低於GPU，若FPGA的架構和配置合理，從能耗比的角度上來看，則能超過GPU。

第二，FPGA的編程難度較高。編程人員需要同時精通軟體和硬體兩種編程語言，更適合於高段位的的資深技術玩家。FPGA晶元主要面向企業客戶，如百度、微軟、IBM等公司都有專門做FPGA的團隊為伺服器加速。

就未來發展來看，FPGA的崛起指日可待。理由有三個：

首先，在人工智慧起步階段，演算法大致每三個月迭代一次，單憑這一點來說，FPGA可以靈活調整電路配置以適應新的演算法，具有一定優勢;

其次，相比於GPU，FPGA更適用於深度學習的應用階段;

最後，為了降低FPGA的編程難度，FPGA廠商賽靈思專門研發了可重配置加速棧堆，提供基於FPGA的硬體加速方案，這類似於一個App Store，賽靈思是一個平台，用戶使用時直接從商店裡挑選方案，不需要再自己設計布局布線了。

ASIC：由吸星大法突破

雖然GPU在并行計算方面有不少優勢，但畢竟不是為機器學習專門設計的，FPGA則是需要用戶自主編程，主要面向專業領域的企業用戶，門檻太高。

大眾消費領域怎辦?如應用到無人駕駛汽車上或是智能家居終端，這款晶元還要同時滿足高性能和低功耗的要求，甚至不需要將數據傳回伺服器端，不必連入互聯網，本地即時計算即可。

ASIC挺身而出。

ASIC的全稱是專用集成電路(Application-Specific Integrated Circuit)。

玩過比特幣的都知道著名的挖礦大戰。ASIC在比特幣挖礦領域，展現出了得天獨厚的優勢。2013年1月Avalon項目團隊交付了世界上第一台商用比特幣ASIC礦機，轟動了挖礦世界。CPU、GPU礦機幾乎在一夜之間消失的無影無蹤，引發了比特幣挖礦行業第二次重大升級，比特幣網路核心開發者Jeff Garzik有幸成為了第一個商業ASIC礦機的擁有者，據說當時收到Avalon礦機的用戶在一兩天內就回了本。而傳說中隱藏在農村的土豪，能動用的ASIC礦機達到了數千台。

人工智慧深度學習和比特幣挖礦有類似之處，都是依賴於底層的晶元進行大規模的并行計算。

ASIC分為全定製和半定製。全定製設計需要設計者完成所有電路的設計，因此需要大量人力物力，靈活性好但開發周期長，上市速度慢。專為機器學習設計的ASIC晶元，從設計到製造，對資金和技術的要求都更高。一般來說，基於FPGA的開發周期大約為六個月，而相同規格的ASIC則需要一年左右，需要經過多步驗證，可想而知，在這樣精細的打磨下，其性能自然也更為出色。

ASIC的開發時間長，意味著ASIC晶元很有可能趕不上市場變化的速度，致使廠商陷入竹籃打水一場空的尷尬境地。

有沒有辦法改進呢? 有。

既然一家公司設計 ASIC要花費太花時間，何不用別人現成的模塊呢?

於是SoC+IP模式開始流行。這種模式有點像吸星大法。

SoC 全稱是「片上系統(System-on-chip)」，亦即吸納了許多不同模塊的晶元。

SoC 上面的每一個模塊都可以稱為 IP，這些 IP 既可以是自己設計的，也可以是購買其他公司的設計並整合到自己的晶元上。

相比ASIC，SoC+IP模式的上市時間短，成本較低，並且IP可以更靈活地滿足用戶需求。IP公司專註於IP模塊的設計，SoC公司則專註於晶元集成，分工合作，提高效率。

事實上，高通已經在研發能在本地完成深度學習的移動設備晶元，IP設計公司如CEVA和Kneron也在研發與人工智慧相關的IP核，這種模式未來也是人工智慧晶元的發展方向之一。

ASIC易學難練，要想大成，靡費巨資。因此玩ASIC的不乏豪門貴族。例如，谷歌於2016年推出可編程AI加速器TPU，英特爾也將於2017年推出專為深度學習設計的晶元Knights Mill。微軟打造Project Catapult支持微軟Bing。

從初創公司來看，美國的Wave Computing公司專註於深度學習晶元架構，推出DPU(Dataflow Processing Unit);英國的Graphcore公司將推出開源軟體框架Poplar和智能處理單元IPU。

相比於科技巨頭，初創企業更有可能結合具體應用場景設計晶元，如地平線機器人設計的第一代BPU(Brain Processing Unit)，被用於開發ADAS系統。

中科院計算所從2008年開始研究，項目名為寒武紀，主要經費來源是中科院先導專項和國家自然科學基金，負責人是陳氏兄弟，陳雲霽和陳天石。目前，寒武紀系列已包含三種原型處理器結構：寒武紀1號(英文名DianNao，面向神經網路的原型處理器結構);寒武紀2號(英文名DaDianNao，面向大規模神經網路);寒武紀3號(英文名PuDianNao，面向多種機器學習演算法)。

類腦晶元：複製另一個人腦

類腦晶元不得不提IBM，每次產業變遷，IBN總要給大家帶來一些新鮮名詞熱鬧一番。比如電子商務、智慧星球，認知計算，現在又帶來了號稱要複製人腦的類腦晶元，科技真真太黑了。

IBM類腦晶元的後台支持者是美國國防部先進研究項目局(DARPA)，DARPA是可謂科技圈的泰山北斗，大名鼎鼎的Internet前身阿帕網即源於這個機構。

DARPA與IBM合作建立了一個項目，名為「神經形態自適應伸縮可塑電子系統計劃(SyNAPSE)」。該計劃意圖還原大腦的計算功能，從而製造出一種能夠模擬人類的感覺，理解，行動與交流的能力的系統，用途非常明確：輔助士兵在戰場動態複雜環境中的認知能力，用於無人武器的自動作戰。

該項目中最引人注目的是類腦晶元TureNorth。2011年，IBM發布第一代TrueNorth晶元，它可以像大腦一樣具有學習和信息處理能力，具有大規模并行計算能力。2014年，IBM發布第二代TrueNorth晶元，性能大幅提升，功耗卻只有70毫瓦，神經元數量由256個增加到100萬個，可編程突觸由262144個增加到2.56億個。高通也發布了Zeroth認知計算平台，它可以融入到高通

Snapdragon處理器晶元中，以協處理方式提升系統認知計算性能，實際應用於終端設備上。

「正北」問世，激起了國內研究機構對人工智慧的的熱情。

上海的西井科技去年發布了全球首塊5000萬神經元類腦晶元。該公司宣稱，這是目前世界上含有神經元數量最多的類腦晶元，也是首塊可商用化類腦晶元。

去年6月，中星微宣布首款嵌入式神經網路處理器(NPU)晶元誕生，並已於實現量產，主要應用於嵌入式視頻監控領域。

據說北京大學則研究另外一種路線——憶阻器。據媒體報道，北京大學在視聽感知和圖橡視頻編碼方面的研究處於國際領先水平，在利用神經形態晶元構造大規模神經網路方面，已經圍繞視皮層模擬開展研究。

中科院陳雲霽認為，總體上看，國內和IBM的TrueNorth晶元為代表的國際先進水平還存在一定的差距。這個差距不體現在單晶元絕對的運算速度上(事實上，國產類腦晶元每秒能進行的神經元運算和突觸運算數量比TBM的TrueNorth還要高十倍)，而是在功耗上。TrueNorth晶元功耗僅為65毫瓦，比國內晶元(15瓦左右)要低250倍。

從晶元性能角度來看，如今類腦晶元的算力和精度都不能超過GPU和FPGA的最好水平，因此類腦晶元是人工智慧晶元幾大方向中最小眾的一類。

類腦晶元未來能否超越其它門派?這有賴於人類是否能完全搞清楚人腦的結構，能否有更多理論和實驗支撐類腦晶元技術上的突破。就眼下來看，類腦晶元在商業化的道路上還需要探索一段時間。

華山論劍，能否彎道超車?

AI晶元是人工智慧產業的演武場。

產業剛剛萌芽，東邪西毒南帝北丐均在趕往華山的路上，似乎大家都有當大英雄的機會。但是，如果從國別的角度來看，會發現一個殘酷的現象。殘酷，是因為中美兩國存在著相當差距。比賽剛剛開始，美國就贏了。

在一些知名的晶元廠商中，美國有13家公司中，領軍者既有谷歌、英特爾、IBM這樣的科技巨頭，也有高通、英偉達、AMD、賽靈思這樣在各自領域中有絕對優勢的大公司，以及一些發展良好的中等規模公司和活躍的初創企業。

但則主要以初創公司為主，沒有巨頭。其中七家企業中六家都是初創公司，均成立於近三年內，只有一家中等規模企業——中星微。

從晶元類別來看，美國廠商遍布人工智慧晶元的四大流派，IC設計環節的產業結構非常均衡，並且在GPU領域，美國企業是完全壟斷的，為零;在FPGA領域，只能跟隨賽靈思做解決方案;在ASIC領域，有些4家創業公司;類腦晶元，也有2家。

晶元是數字經濟的產業核心，歷來是易守難攻，一旦形成先發優勢，後來者很難超越。AI晶元也不例外。在過去十多年裡，Intel、IBM、摩托羅拉、飛利浦、東芝、三星等60多家公司曾試圖進軍AI晶元，但紛紛遭致慘敗。

這其中的原因就在於進入門檻高，主要有以下幾點：

首先是專利技術壁壘。FPGA四公司用近9000項專利構築了長長的知識產權壁壘，將進攻者拒於國門之外。即便是強如Intel也望而興嘆，不得以耗資167億美元收買了Altera，獲得了一張FPGA領域的門票。染指GPU就更不用提了。

其次是市場相對偏小。2016年全球FPGA市場總額僅為50億美元，且有九成落入賽靈思和Altera兩家公司，這麼小的市場規模很難養活太多的大公司，必然導致競爭異常激烈。

最後是投資周期長。專利壁壘或許可以跨越，市場狹小，或許可以忍受。但是FPGA產品，從投入研發到產品真正規模化生產差不多要七年。這期間幾乎沒有任何商業回報。正常的風投是等不了這麼長時間的。

AI時代論劍，晶元是核心。

AI晶元作為產業上游，也是技術要求和附加值最高的環節，產業價值和戰略地位遠遠大於應用層創新，因此我們需要高度重視。

放眼時代變遷，CPU領域WINTEL聯盟已經一統江山極難突破，而AI晶元方興未艾，機遇正在逐漸顯露，AI領域未來必然也會產生類似英特爾、AMD這樣的世界級企業。

美國以絕對實力處於領先地位，但一批初創企業也在蓄勢待發。

但是，AI晶元領域的創新絕不是件一蹴而就的事情。它涉及到人工智慧演算法、編程語言、計算機體系結構、集成電路技術、半導體工藝的方方面面。在巨大的國際競爭壓力下，靠單個企業研發投入，遠遠不夠;單靠有限的風險投資，也不行。靠科技補貼，更是遠水解不了近渴。

我們如何相信企業有機會成為人工智慧時代的弄潮兒，在AI晶元華山論劍之時佔有一席之地呢?抱團創新可能會是未來實現突破的方向。AI領域創業空間巨大，所需資金規模巨大，所需資源巨大，單憑創業者個人和團隊的能力打天下已經不現實， AI創業者需要跟產業加速器和產業資本密切結合，抱團創新，如此才能有更廣闊的發展天地。

而筆者在對騰訊眾創調研時了解到，目前許多國內創業企業已經學會了抱團創新，以長青騰創業營為例，開營100餘天，40家創業公司總估值實現翻番，超過600億，58%的學員順利進入下一輪融資，100天融資總金額超過60億。眼下，長青騰正在籌劃AI創業營。

這對AI晶元創業是不是有所啟示?