北大AI公開課第13講：《GPU助力的人工智慧時代》

「北大AI公開課」系統第13講於本周二晚結束，英偉達自動駕駛業務區負責人董方亮為我們做了題為《GPU助力的人工智慧時代》。以下由Xtecher整理，為不能親臨現場的讀者帶來本次課程最完整實錄。

以下是Xtecher為您整理的本期演講內容乾貨：

首先很感謝北大，感謝雷鳴老師組織了這麼好一次機會，能讓我站在這裡給大家分享和交流一下英偉達在GPU以及GPU和Deep Learning方面的一些積累和我們已經做的一些工作。

今天的交流大概分成四個部分，第一部分，我會跟大家對GPU進行簡單介紹；第二部分，我會把GPU和Deep Learning兩個聯繫在一起；第三部分，我們會探討一下當今這個時代的AI，以及今後的AI會朝什麼樣的情況去發展，這只是一個探討。第四部分，我會分享給大家一些英偉達GDC2017年大會和會後我自己的一些收穫。

第一部分，先講一下GPU，基本上打遊戲的人都知道GPU，用GPU的人很多都聽過英偉達，英偉達其實最早是做視覺計算的公司，我們公司的創始人最早要做一個不同於GPU的產品，當時是這樣的一個出發點，也就是我們做一款GPU，做一個gaming的市場。因為大家有很多是打遊戲的，所以大家對這方面應該是比較了解。

我下面再說一個話題，可能大家不一定知道，就是大家知道北大對GPU的貢獻在哪裡嗎？如果大家買了英偉達的GPU，我在這裡代表英偉達很感謝大家，為什麼我說北大對GPU的貢獻呢？其實在座的各位北大的天之驕子應該感到很自豪，因為GPU的技術的發展，有一個很重要的技術，叫Pixel Shader像素的著色器，像素著色器是決定了我們今天能夠做gaming、做video很多東西呈現在大家面前的核心技術之一。Pixel Shader核心發明人是北大一個同學，大學部87或是88年北大物理系的一個同學，所以北大人應該非常驕傲，北大對GPU的技術發展起到了很關鍵的作用，我相信很多同學可能不知道，但今天可以分享給大家。

我們現在開始做GPU的介紹，介紹的時候順便講下英偉達，英偉達是一家以GPU技術為核心的公司，英偉達公司從成立那天起就做GPU，到今天也是在做GPU，那我們公司的變化體現在哪些方面呢？我們公司是從一個視覺計算轉變到今天的AI計算的公司，當然有時代的原因：第一個方面，每年數據量會成倍成倍的增長，而且中間很多的數據都是豐富的雲圖象數據。第二個方面，在人工智慧方面，我們的一些基礎研究有了比較長足的發展，在基於DNN，也就是深度神經網路的這種架構上也有不錯的發展。

為什麼我們說GPU非常合適於今天的AI的計算，也就是說Deep Learning，我們可以來看一看。這一頁展示的是一個GPU計算的年譜，我們把它簡單理解為一個年譜，我們可以看到英偉達在2006年的時候，做了一件事情，我們做了一個CUDA的東西，CUDA是computing unifieddevice architecture，核心意思是說當GPU它是一個多核的計算體，這樣一個多核的計算體，我們如果能用一套架構，能夠把這樣的計算，通過一個統一的架構完整的調動起來，這就是形成了一個并行計算的基礎，所以英偉達在2006年的時候推出了CUDA，CUDA這個是從底層的CUDA一直到上層的應用，都是一個比較完整的SDK，也就是說我們的CUDA是一個最早為了并行計算之前就做了很多充分的準備。

其實從2006年到現在，英偉達每一代的GPU產品，都是原生的支持CUDA，也就是說英偉達的產品，你可以通過CUDA的SDK去調用GPU資源的時候，是原生去支持的。從這個年譜中，還有一個比較重要的時間點可以分享給大家，就是2012年的時候，AlexNet創新的用GPU去做當時的叫DNN網路架構，是九層的網路，去做圖像識別，取得了非常好的效果。所以2012年可以說是GPU用作Deep Learning一個爆發的元年。隨著時間的發展，在DNN網路不斷演進，這些framework在不斷演進的今天，我們發現GPU和Deep Learning是緊緊的綁在了一起。

現在的摩爾定律還能不能適應今天嶄新的計算架構，我們知道摩爾定律是這條藍線來表示在一個平台期很難突破，這個主要突破的難點之一在於線程做的比較小會有很大的挑戰，但是Deep Learning還在往前發展，所以它一定是需要全新的架構去支持，還有它必須能夠沿著比摩爾定律更高的這種計算力的發展方向去發展，才能夠匹配今天的全新的計算模式，在Deep Learning和AI的時代，體現一種比較好的計算能力。

所以我們可以看一下，當GPU發展到今天，我們可以預計到2025年，這種計算力的增長，有一個非常高的需求，GPU計算為什麼會興起？原因就在這裡，GPU它提供了一個跟之前的，我們叫general purpose computing（通用計算）不一樣的模式，也就是說基於GPU，我們可以圖中的左邊，底層是CUDA，上面是系統，然後是演算法，再到上面的應用，這樣的一套架構。那麼GPU來支撐這樣一套全新的架構的情況下，能夠完成現有的計算力。

我們可以對CPU和GPU做一個簡單的比較，左邊是CPU，右邊是GPU，我們可以看一下，GPU的特點和CPU的特點是不一樣的，GPU是一個多核，是一個簡單的多核的處理器，它在結合CUDA之後，非常有利於做并行運算。當然，GPU還有一些它自己比較有特色的東西，比如說GPU裡面會包括多個streaming multiprocessor，也就是說流的多處理器，上面會包int F16、F32、F64的處理核，這是GPU的特點，所以我們可以看到，GPU它其實是非常做并行運算。

并行運算其實這種應用場景，Deep Learning是一個非常好的應用場景，這是一個簡單的神經網路，在這裡，我們可以跟大家簡單交流一下Deep Learning這個網路為什麼去設計這樣的網路？最早的時候，這種設計的網路其實是一個對人腦的叫「假說性」的一個理論，也就是說在70年代的時候，有兩位德國的醫生和生物學家，他們對解剖貓的時候，他們覺得從貓的大腦來看，他覺得神經元是一層一層的，神經元和神經元之間有反射弧，他們講如果當神經元和神經元連接的時候，有反射弧，有電流的時候，他就認為這是一個激活狀態，這套理論從他們的角度來講是非常切合人腦的識別的模式，所以他們當年提出了這樣一個架構。當年提出這個架構以後，在後面深度神經網路的架構慢慢出來以後，我們發現用深度神經網路去做具有pattern和具有特徵的數據的分類識別的時有非常好的效果，比如說這種有pattern的數據，代表像語音數據，像圖像數據，它有非常好的鑒別效果。前層的神經元或者說我們叫前層的layer，它是后層淺層的表現，所以圖像識別和雲識別這種帶有pattern和特徵從輸入到輸出能分類，這樣其實就是深度神經網路一個比較簡單的理論模型。深度神經網路的每一個節點可以模擬成一個計算核，這樣一個計算核用GPU去做，也就是說GPU承擔了這樣一個深度神經網路裡面每一個節點的計算，這是GPU符合DNN架構的原因，所以GPU在今天，是線下訓練的唯一的選擇。

其實Deep Learning是一個新的計算的模式，它包括了兩個部分，一個部分我們把它理解成線下的訓練，就像剛才那頁圖裡面講到的線下訓練，那線下的訓練就包括，我們叫在雲端，或者在伺服器端，加在GPU的伺服器去做訓練。還有一端是說去做線上的推理，也就是說從線下到線上，完成了整個新的基於GPU的計算模式，就是從線下訓練好的模型放到線上去做推理，這是現在Deep Learning的一個比較普適的模式。

剛才也有講到Deep Learning的計算模式比較適合於三類數據，一類數據是圖像數據，還有一種是語音數據，第三個是自然語言處理。自然語言處理也包括文字，也包括對語義的理解，都包括進去。這張PPT主要跟大家展示的是從底層（GPU的硬體平台），就包括上面的SDK一直到framework，這是一種比較完整的端到端的架構，大家可以看一下。

我們說GPU帶來的Deep Learning創造力的全新計算的時代，一定是有很多很多的機會給這種初創的公司，我們可以去看一下Deep Learning引導的時代有哪些機會，我們現在列出的一個比較有代表性的AI的startup，第一個是健康醫療，這是一個非常大的途徑。這裡面有很多公司，有做乳腺癌的識別，有做醫療影像識別，還有做皮膚癌識別的公司；第二個是零售。這個零售裡面，我們可以看它解決了什麼問題？其實很多公司在解決，一個是商品選擇，第二個是支付問題。這裡面比較有意思的公司，Focal公司，它解決的現在老式的食品店，在網路的時代是不是會落後，從技術的角度來講，它核心技術之一是對物體的識別，也就是說它的方案會讓顧客進入一個實體店，它有一個類似於pad這樣的裝置，每個人會有一個手推車進行購物，購物了東西以後，它會自動識別這是什麼東西，然後把這個東西拿下架，當你不斷去挑選產品的時候，到走出門的時候，其實它的最終理念是你不用再結賬，因為它上面都有識別，它就直接幫助你看你拿了什麼東西，直接去結賬。同時，什麼東西從貨架上拿下來以後，它自動回去補貨，它做了一個非常好的切入點，是針對零售店的新市場。第三個是金融，這裡面有很多很有意思的公司，美國有一家投資公司，他們用衛星圖片，他們買了無人機和衛星圖片，天天在美國上空去掃描莊稼地，很多人剛開始不理解，說跟莊稼地有什麼關係？它就是利用DNN網路去做圖片的識別，它識別的是某一種或某幾種莊稼今年的長勢如何，它要這個信息幹什麼？他們在期貨交易所做對沖，這樣的話，它能夠通過它的物理識別，它可以估算一下全國，比如說我的產量，農作物的產量是多少，它分析數據得出今年莊稼是欠收了還是多收的結論，它拿這樣的信息去做對沖。第四個是安全。現在也有公司它會去做基於安全的解決方案，有在做。底下的IOT就比較多了，比如說像一些機械公司，包括像無人機公司，他們都在做很多很有意思的事兒，比如像陪伴機器人、服務機器人、無人機，無人機結合Deep Learning去撒農藥，是很好的針對特出場景的應用。第六個是無人駕駛。無人駕駛現在非常非常火的一個領域，也是英偉達非常關注的一個領域，無人駕駛這個領域代表的是Deep Learning技術，AI的技術，以及跟未來的交通行業的結合，所以是一個非常火的市場。第七個是網路安全，比如說現在有些公司，他們用Deep Learning去做針對病毒，包括網上的惡意攻擊模式的判斷，他們做的這種方案的好吃在哪裡？就是說它的這些好處在於這些方案是可以做到實時的升級，跟以前的基於你去做標識庫或者病毒庫的機制不大一樣，它是本身已經訓練Deep Learning，然後它去不停的判斷，這個新來的攻擊歸到哪一類？這是一個比較有意思的應用。所以從這頁，大家可以看到，其實AI相關的領域的應用，從startup這個角度來講，其實包括了行業的方方面面。其實AI的機會是很多的，單一的技術和一種組合式的技術和產品，都會很好的市場。

這一頁跟大家主要交流一下一些比較典型的應用，像第一個，很類似於大家用蘋果手機，在車裡面用語音和車進行交互。第二種是現在在網路購物上，這種主要是一種基於圖像和物體識別，它能在和後台的資料庫里，幫你找到很近似的，你心儀的物品，這是一個很比較典型的應用。同時，現在在資料庫里，我們想基於圖片的應用，其實都很有意思，比如說像SAP，它就有一個非常好的應用，它做DNN的時候，它會訓練DNN，它訓練DNN的目的在哪裡呢？它會在它的客戶裡面，比如說有一個廣告視頻，它在廣告視頻裡面，去把這個客戶，比如說這個客戶是耐克，它會把耐克的圖標都抓出來，它會拿出一個報告，這個報告就是說你看你在這個數據裡面，你的圖標出現了多少次，出現在什麼位置，它有一個判斷，然後通過這個來判斷你的品牌暴光度是否合理，你的投資回報是否合理，所以這個特性給SAP帶來了非常好的客戶的反饋。第三個是基於用戶行為去做的判斷，用戶喜歡哪種類型的電影。

這頁是一些比較典型的，比如說第一個，比如說我的祖母，我跟她在交流上有一些困難，我怎麼樣基於NPR的方式，能夠跟她進行交互，理解她的意思，增強人和人之間的溝通。第二個還是醫療和健康診斷。第三點很有意思，第三點是微軟自己做的，這一位在圖片中的，是微軟的工程師，這位微軟的工程師，因為他是天生的盲人，所以他生活上有很多不便，但是沒有關係，微軟現在有一項技術，他戴的這個眼鏡，有一個類似於物體識別的功能，比如他在路上走的時候，比如他前面過來一個人，眼鏡會給他發一個消息，用聽力的方式告訴他「你前面正好有一個人走過去」，它會分析，它不是說「前面有物體」，它不是告訴你前面有物體，它會告訴你前面有一個人從你身邊飛躍而過」，所以它是裡面比較有意思的，第一是對物體有識別，第二，會去做基本的分析，看這個人在做什麼，所以相當於是基於Deep Learning做了一些基於圖形的很好的應用，所以應用在這個場景。

這張圖大家可能見的比較多，第一個是像平安城市，很多應用場景裡面，我們會用到，比如說去看一下這裡面的綜合監控，包括人臉識別，包括同比去抓某一些特徵點，都可以去抓，在平安城市裡面。第二個是機器人，這是現在很流行的機器人，比如銀行開戶，比如說這種服務型的機器人，比如說現在去坐飛機，很多航空公司都有這樣的機器人，包括現在去銀行開戶，很多都有這種機器人。我覺得可能咱們用這種機器人會用的比較多，沒想到美國用這個也不比我們少，現在美國的shopping mall裡面，也有這種導購式機器人，大概有一米高的樣子，挺可愛。第三個是在農業上的應用。

所以大家看了這麼多，主要想跟大家交流一下，現在AI其實大家可以想很多很好的主意，如果有很好的機會可以去做，這是一個基於AI和Deep Learning的時代。

這張主要是想給大家分享一下英偉達在自動駕駛方面的一些應用。因為英偉達的自動駕駛方面的應用，我們把自動駕駛變成一個AI的任務，它首先是模擬人去駕駛。第一，人坐在車裡面，我肯定是眼睛會去看，我先看一下，我就知道我周圍的情況是怎麼樣。第二，如果坐在車裡，所以我精確的知道車的位置在哪裡，意味著我可以基於現在的場景和我的位置，去做我的駕駛策略。這就是我們去把一個自動駕駛的過程，變成了一個AI的任務。

如果從這張圖上去分解，第一個，我們把它叫做感知，就是像人眼一樣，我們會用多樣的感測器，去把周圍的環境的情況，首先是通過這種感測器了解。第二個，我們叫reasoning，判斷我是否是安全。第三個就是駕駛。這個自動駕駛它是依託於高精度地圖。高精度地圖牽扯到兩個層面，一個層面是高精度地圖會給你豐富的環境屏障，環境信息。另一個層面，結合高精度地圖，能夠提供精確的定位。這些是自動駕駛比較重要的一些方面。

這頁是一個總結頁，是說現在人工智慧時代，大家可以從這裡面去看，有很多很多新的技術，包括一些新的創新，大家可以感受一下，現在的人工智慧時代，其實它一直在往前發展，不管是軟體還是硬體，不管是應用、架構、還是演算法，都在不斷地進步。

下面我會跟大家分享一下在英偉達的GTC17中的一些比較好的收穫。第一個是英偉達其實這次GTC我們發布了新一代的GPU VOLTA100。這代GPU對我們來說有幾方面的提高，第一，有210億個晶體管，它是12納米的線程，核心板的面積在815毫米，所以這是一個非常大的進步，整個架構上有非常大的進步。非常值得提的是，我們的架構上有一個很好的提升，我們會在這代架構裡面放入我們的Tensor核，它完成了以前同步的矩陣式相乘，也就是把以前這種矩陣相乘用非常高速的運轉，這樣的結果會讓我們產生120 Tensor TFLOPS 的計算能力，這種計算能力無論是針對Training端或者是針對Inference端都是一個非常好的結構。

這頁跟大家講的是蠻有意思的一個場景，其實這是機器人或者說我們叫智能體的產品已經出了挺長時間，但是這種機器人的產品有一個問題，就是說機器人這種場景你真正去訓練它的時候，其實是挺困難的，包括各種場景去模擬有比較大的困難。第一是時間長，第二，你不會去造很多機器人一塊兒去學一些東西，這樣的話，你的研發包括開發的周期長。

這次我們叫ISAAC 的SIMULATOR，它其實是把Deep Learning的technology和模擬結合在一起，它能做什麼？它其實是用模擬的平台去訓練。比如說我訓練一個機器人做一個打高爾夫球的動作，它去做模擬，這樣的話，針對一個機器人的公司，它可以使用這樣的模擬器可以同步做多個，或者是做多個機器人的模擬，或者是多個場景的模擬，甚至是一個場景多個機器人的模擬，這樣的話，會極大的提升模擬以後開發的效率。

那麼這頁是這次的startup的頒獎，我們把這1.5億的美金給了這6個公司。我們的評委是來自高尚、微軟這些公司，我們其實發現很有意思，這裡面有三家公司都是做醫療和健康器官，有一家是做針對心臟病的快速檢測，就是說我這個人如果心臟很不舒服的時候，你真正送到急診或送到醫院的話，很難很快就定他的心臟有什麼樣的問題，但是這個技術可以讓他去做一個相對來說比較簡單的檢測，他通過這種檢測會判斷他的心臟大部分概率是哪種病，這樣它水平很高，第二，很快速，所以對病人的很快診斷起到了很大的作用。還有一家公司是在做針對皮膚癌的健康檢測。另外一個公司做的是針對血液的檢測。它這個主要是看血液裡面的白細胞，看你的免疫力。這三家都在用Deep Learning用於他們核心技術的檢測。第四家Deep instinct是做計算機安全的公司，它也是利用現在的網上，比如說它會把現在網上攻擊的樣本，包括病毒的樣本，在它的DNN裡面做訓練，去看，到底是哪種類型的病毒或者攻擊。然後底下這家叫Smartvid的這家公司，其實很有意思，這家公司做了大家都沒有去做的市場，它在做建築工地的市場，它們發現建築工地有一個問題，建築工地裡面的一些基礎人員，它去拍建築工地外形照的時候，你說我實地拍了，你很難把這些照片快速的分類，因為這些建築工地沒有很好的辦公條件，所以很難提供分類。那很難分類帶來的問題是什麼呢？第一，你的工作效率會降低，第二，它的信息上傳不及時，所以這家公司是拿了一個類似於Pad的設備，對建築上的工地，需要檢測的照片實時拍攝，然後自動做分分類，這樣是提供了一個針對建築工地的智能的解決方案。這個focal剛才有跟大家講過，就是針對傳統商業的解決方案。

這頁是一段視頻，其實是想跟大家分享一下英偉達在自動駕駛方面的一些應用。其實自動駕駛和是強相關的，不管是從技術還是從商業，還是從前景上，都是非常好的。

從這段視頻，它是簡單的講了一個自動駕駛的我們的路測。這個路測看起來好像很簡單，從一個地方起步，然後去轉彎，從普通道路到高速，然後再下高速，這樣一個動作，裡面用到的AI的技術是非常多的，在路上跑的時候，對物體的識別，包括車道線檢測，包括移動物體的檢測，包括怎樣做駕駛的策略，所以這裡面其實包含了很多AI的技術。所以可以看自動駕駛其實跟AI是一個非常具備挑戰的行業，視頻中的這個人其實是我的同事，英偉達自己的同事在自動駕駛上自己要去做路測，所以什麼事兒都要講奉獻，這就要看你的車靠不靠譜。

今天我有個視頻一直很想跟大家分享（視頻地址：https://www.bloomberg.com/features/2016-hello-world-new-zealand/），剛才有一個同學提了很好的問題，說現在AI是AI，VR是VR，會不會有一個結合的過程？其實我想說AI和VR的結合，其實有非常好的場景，也就是說我在VR裡面，我會去模擬一個人，我們把這個人定義成一個智慧體，這個跟機器人是完全不同的場景，為什麼這麼說呢？因為你機器人如果是一個智慧體的話，比如我這個地方有一個機器人，那它就簡單是一個機器人，它永遠不會變，它長什麼樣就是什麼樣，但是如果是在一個虛擬世界裡面，比如通過VR技術，它跟VR技術結合，比如說他自己會成長，他會學東西，他是一個智慧體，這個最早來自哪裡呢？這個應用最早來自於電影裡面會有這樣的需求，比如電影裡面我設一個人物，這個人物本身可以交互，可以學習，是一個類人體，但是它是計算機模擬出來的，電影行業其實剛開始有這樣的需求。但是我們發現這個需求它有一個破綻，比如說我可以訓練一個，我在電腦中模擬一個孩子，這個天真無邪的小孩兒隨著年齡的增長，他會變老，他是一個智慧體，智慧體說明什麼呢？你可以跟他進行互動，你教他英語，他會英語，你教他說爸爸媽媽，他會叫爸爸媽媽，所以這樣一個智慧體的商業應用價值我不知道，但是我覺得對人類帶來的價值很大。比如說有些人，比如有些失幼家庭，這個孩子沒有了，或者找不到了，或者說父母很長時間沒見小孩兒，非常想小孩兒，那我怎麼辦呢？通過這種技術，因為小孩兒他會學啊，你從視覺上的感覺，就跟真人一模一樣，所以我想把這個視頻分享給大家。因為效果的原因，可能這段視頻不一定有聲音。所以下面這段視頻，其實是虛擬現實和AI相結合的這麼一個案例，這個名字叫做「BBX」，最早是澳門大學的一個工作組做的研究的主題，它主要是通過模擬的技術，首先是在虛擬屏幕上構建一個智慧體，它其實是用深度神經網路去訓練的智慧體，因為是一個孩子嘛，他可以理解你的話，他可以學英語。我第一次看到這個視頻時覺得非常震撼，所以想分享給大家。

了解更多最新最in的科技資訊，請關注Xtecher官網（www.xtecher.com）及微信公眾號（Xtecher）。