2017GAITC模式識別與智能感知分論壇實錄丨華先勝：打造雲上視覺智能生態

主題：模式識別與智能感知分論壇

時間：2017年5月22日下午
地點：國家會議中心401

本文根據速記進行整理

打造雲上視覺智能生態

華先勝

阿里巴巴iDST研究員/資深總監，IEEE Fellow

下面先介紹第一位報告人，來自阿里巴巴的華先勝博士，他是阿里巴巴iDST研究員、資深總監，IEEE Fellow，阿里巴巴人工智慧研發部門iDST視覺計算團隊負責人，視頻分析和搜索等多媒體領域的著名專家，有請。

華先勝：大家好，非常高興有機會和大家探討雲上的視覺智能。剛才劉老師提到我們今天有來自是學術界和工業界的分享，我經常開玩笑，我是學術界里最了解工業界，工業界里最了解學術界的。我在微軟工作了14年多，有12年多是在研究院，有兩年多是在產品組，加入阿里以後就是一直在產品前線了。今天主要彙報的是近兩年在阿里雲上做的視覺智能方面的工作和一些思考。

雲上的大數據視覺智能

我們首先看一下人工智慧的三次「春天」：第一次是在50年代，人工智慧的概念首次提出，大家覺得人工智慧在20年之內會改變世界，所有的工作都會被人工智慧顛覆。但是後來很遺憾，10年以後發現不行，大家很失望。第二次，80年代，神經網路的提出，BP演算法的提出，以及專家系統的初步結果，大家又很高興，人工智慧又要改變世界，取代很多人的工作，但是後來證明還是不行，人工智慧又一次進入了低估。第三次就是今天，這次是不是真的春天呢，昨天有一個論壇也在探討這個問題。這次有一些不一樣，有很多不同的觀點，有人認為深度學習取得了很大的突破，計算能力大的提升，數據更多，網路帶寬大大增加。還有一個很重要的原因，我們已經看到一些結果了，雖然這些結果離真正的智能差得很遠，但是在一些領域已經取得了非常不錯的結果，不管是鬧得玩的還是真正在產業界的應用，都有一些可喜的結果。

今天，人工智慧技術將會改變哪些行業呢？我們先從視覺的角度看一看，視覺智能可以從雲上做也可以從端上做，我們今天就從雲上來看。我們看看現在發生了什麼樣的事情，其實有的是發生了很多年的事情。大家看這些圖，左上角是交通的監控場景，右邊和左下是治安和教育的場景，最後一個是直播。這個是主動的，前面三個是被動的。這些大量的數據它的價值有沒有被充分發掘出來，這是一個很大的問題。例如，在全世界有數以億計的攝像頭，佔了一多半，每年有幾千萬的攝像頭被採購，一個城市裡，一個一級城市裡可能有幾十萬個攝像頭。大家可能也注意到一些，這些攝像頭的數據到底是怎麼被利用，大家開車可能被處罰過，還有交警的控制中心經常要巡檢查看，公安局裡出了什麼案件也需要調錄像查看。僅有這些嗎？投入了這麼多，這些視頻的價值怎麼才能充分挖掘出來，這是一個很大的問題。

再看個人的圖像視頻數據，這個數據量也是挺大，和每個人切身相關。我們到一個好的地方，好的風景，自己看沒看沒有關係，一定要讓相機「看」一下。還有各行各業的數據，無人機的數據，工業的數據，醫療的數據，體育娛樂，新聞等等。這些大量的數據，在技術往前發展了一大步的今天，他們的價值能不能充分挖掘出來呢？

我們處理這樣的數據，就會是一個視覺大數據的問題。它的特點是顯而易見，第一就是數據量非常大，例如，要處理數以萬計的攝像頭，對計算的效率要求非常高。像城市計算，視覺數據量最大的地方就在城市裡面。有一些電視台有100萬小時的數據，已經很多了，後來想一想，如果一個城市裡有10萬個攝像頭，跑了10個小時就是100萬小時了。第二，是很多應用有實時性的要求。例如，交通紅綠燈的自適應優化，就需要實時進行分析，實時做出決策。第三點，就是數據的複雜度非常高，各種情況下的數據都有，各種應用的數據都有，數據的乾淨程度和質量都有很大的不同，需要完成的任務，開發的智能也都是不一樣的，對演算法的普適性的要求很高。

視覺智能的五要素和現狀

我們先回顧一下現在的技術和數據等各方面是不是準備好了。第一，從演算法的角度來看，準確率是我們首先關注的目標。我們經常看到這個公司又刷新了一個公測集的記錄，包括我自己最近也刷了一個車輛檢測的記錄。這個是不是說明視覺智能已經很厲害、已經超過人了呢？現實的應用當中往往是非常殘酷的，公測集上的結果往往只是個開始，在實際應用中還有很多的工作，很多非常繁重的工作，才能使得我們的演算法在一個行業里做到可用。

其次，從覆蓋率上來講，這個問題更大了，在座可能很多人都是學生，我們在寫論文的時候很少有人關注覆蓋率這個問題。覆蓋率是什麼意思呢？如果從識別的角度來講，就是識別的範圍足夠大。這個問題很有意思，例如，ImageNet中1000類物體場景的識別，我們拿到真正的應用場景里去看，是遠遠不夠，或者說應用場景感興趣的常常不是這些類別，也就是說這些沒有覆蓋到用戶需要的地方。你要覆蓋全世界是非常難的事情，但是不見得是不能做的事情，幾年前我微軟還嘗試過做過百萬標籤識別的問題，這個準確率當然很難做得高，但是在一些場景下也是可以用的，例如搜索。覆蓋率在視覺搜索中的體現，例如，能搜衣服，不能搜鞋子不行，不能搜其他東西也不行。用戶的使用體驗往往覆蓋率非常有關係。

第二方面，計算效率。效率決定了這個事情可不可能發生，比如我們要處理城市的幾十萬攝像頭，需要花幾十億就完蛋了，這不是成本的問題，是這個事情可不可能發生的問題。從計算的角度來講，不僅僅是計算的效率，還有計算的平台，尤其是當你處理大量數據的時候，不是一台機器兩台機器，需要百台千台萬台的時候，需要處理系統和流程的問題，比如說容錯、流程的控制等等，這就需要一個大的計算平台來支撐它。從計算來講，效率是非常重要的，包括平台的效率，計算節點的效率，例如一台GPU放多張卡，這些卡如何充分利用起來，還有演算法本身實際運行效率的問題。剛才我忘了說一句，關於演算法的一個結論：我們確實有很大的進展，但是還有很長的路要去走。對於演算法而言，只有把計算的效率發揮到極致，演算法的優勢才能發揮到極致。

第三方面，數據。數據也是爭論最多的問題，昨天也有一個論壇討論數據的問題。大家經常發現數據的威力有時候會超過演算法，當然如果只是學生作為借口，做不好演算法說是數據的問題，那是另外一回事。在昨天的論壇上也一直討論數據和深度學習演算法的問題，實際上數據的使用有兩個方面的問題，這個還是一直沒有說清楚，也就是就是說，數據的作用到底在哪裡的問題。我覺得很多時候大家只是關注了數據對演算法研發的作用，但是這只是其中一個作用，而數據對智能本身是另外一種作用，而且是很重要的作用。沒有數據，就沒有從數據產生的智能。至於沒有大量數據是不是就沒有深度學習演算法，這個還可以商量，也許少量的數據也是可以的，但是作為智能，尤其是強人工智慧的話，如果沒有大數據恐怕是不可能的。所以，數據是有兩個維度的作用在裡面，一個是數據本身是演算法研發的原料，同時又是演算法的素材和智能產生的原料，這是數據的兩個作用。

數據本身也是有很多的困難，數據量大的時候，包括採集、傳輸、接入、融合和存儲等方面都不是簡單的事情。還有非技術方面的困難，尤其是數據的開放，其實在這件事情已經比西方國家好得多了。在，大家對數據開放沒有那麼糾結，這也是人工智慧在獲得更快發展的一個很重要的原因。

第四點，剛才講了人工智慧風聲水起，視覺計算遍地開花，但是，花開了，能不能得到結果呢？就是你做的事情是不是個正確的事情，是不是真的事情。有時候看起來是個真的事情，其實有時候是個偽課題，偽需求。昨天也有人提到偽需求，我們在實際當中確實是會碰到的。客戶有時提出的需求，仔細想一想可能就是偽需求，也就是說不是一個能夠帶來真正價值的需求，無論你帶來了價值是節省了人力，降低了成本，還是提高了安全性等等，這些都是要非常明確的。如果這些不明確，你就沒有一個商業的模型和應用，沒有明確的商業應用，沒有持久的商業應用，這個AI也就不能持久。

總結一下，一共五點：演算法，是安身立命之本；計算平台保證演算法能大規模處理大量數據，也是計算效率的問題；數據，一方面是演算法研發的原料，也是產生智能的原料；用戶這個要素剛才沒有單獨分析，但其跟商業模式和數據是非常相關的。商業上，有大量的用戶使用，或者說用戶少，使用的頻率比較高也是OK的，而用戶本身也能產生數據，例如，搜索引擎就是利用了大量的用戶的數據，每個人對搜索引擎都是有貢獻的。商業剛才講了，合適的商業模式，保證你做的是正確的事情，不是虛假的問題。

視覺智能實例：拍立淘

下面講幾個例子，有的是已經做好的，有的是正在做的。首先看基於圖像的商品搜索。我們今天講的是視覺的搜索，是通過拍照的方式搜索商品。淘寶上有一個功能就是拍照搜索，叫做「拍立淘」。它要解決問題就是文字之外的搜索入口，是無法用簡單的文字描述的搜索需求，是個簡單直接的搜索方式。如果這個應用每天的用戶和交易量在千萬級別的話，還是很有價值的。這裡關鍵的技術包括，商品識別，商品檢測，和商品描述。首先，用戶拍了商品照片后，要做出精準的商品類型判斷，不然後面就全錯了；然後要知道這個商品在圖像中的位置，再用一個深度學習網路的做特徵提取。後面還有檢索，排序，搜索質量判斷，以及結果呈現。這裡的幾乎每一步都是用深度學習來完成的。

我們來看幾個例子。這是同一個包，但其實圖像是不一樣；這是一隻鞋子，雖然我們沒有找到同款，但找到了非常相像的款式；這是一件圓領衫，沒有什麼顯著的特徵，比較難做，但也是找到了很象的衣服；這個杯子是一次開會的時候看到的，你要用文字搜就說不清楚了，但用圖像找到同款卻是易如反掌；這個例子，是和朋友喝茶的時候，看到這個泡茶杯太好了，我之前沒有見過。被子上面有一個紅色的按鈕，就是水倒下去后，水是在上面泡著茶葉，覺得泡的濃度差不多了，就可以按這個紅色的按鈕，茶水就流下去了。我想買，也不知道這個被子叫什麼。好在我有拍立淘，一拍就知道，這種杯子叫做飄逸杯，淘寶上有很多可以選擇。

視覺智能實例：城市之眼

視覺之眼，是城市的眼睛。我們要處理的是城市的攝像頭，不管是交通、安防、城管還是個人的，這些攝像頭的數據，我們考慮怎麼樣把它的價值挖掘出來。裡面涉及到的技術仍然是視覺數據的檢測、識別、系統支持、搜索、挖掘等等。

這個例子是交通視頻的分析，對車輛的檢測，車輛的跟蹤，車輛的屬性，就是將路面上發聲的事情了解到底朝天的。過去做交通優化的時候有兩個信息源，第一個是地感線圈，但線圈數據不知道這個車的屬性，車類型，車多長，這個車到哪裡去了，這個信息不全。第二個數據，是GPS的數據，但一般只有少數人開啟GPS，所以是採樣數據。視頻數據不同，是「眼見為實」，攝像頭見到才是真實完整的數據，所以這個數據是不可替代的。

這個例子是另外一種攝像頭，高點的攝像頭，雖然細節看不清楚，但是數數可以數得出來，而且，你任意畫一個區域就知道關於這個區域物體的移動的情況。比如說過去多少輛車，大概的類型是什麼，有的地方不讓停車，你可以畫個框不讓停，一旦有車停了就可以報警。

這些技術也沒有什麼特別的地方，也有很多人做類似的工作。但是有一件事情不同，就是如果處理大量這樣的數據，幾萬，幾十萬這樣的數據，你需要在一個平台上進行實時處理，這就不是一個簡單的事情，而且要處理的效率足夠高，這是很關鍵的事情。我們有離線和實時處理系統，大規模離線視覺分析，這個是阿里的一套系統，對實時要求不高的大量視頻數據，離線比較容易處理。實時的原理也差不多，只不過有延時方面的要求。系統實現上，還有時間上的和空間上的實時協同，比如說一個路口的交通燈進行管控，你要看這四個路口，還要看旁邊幾個路口，你在實時的時候還要把空間多路信息融合。時間和空間的協同的問題，這個是由平台來支撐的，不是由演算法來支撐的，而我們做演算法的人員可以集中在演算法的設計和優化上。

還有搜索的功能，剛才講了電商的搜索，這個量級不小，但是還有一個量更大的就是城市的數據，城市的數據量太大了。裡面有車有人，人是非常難的事情，人臉相對容易，而看不清人臉的人就非常難。車相對容易一點，我們要學習它的結構化的特徵，和它的非結構化的特徵，也就是用一個向量表示的視覺特徵。

這裡面我講兩個精細的視覺數據的理解的例子，第一個是車牌。數據這件事情是非常有意思的，剛才講了大數據，但是剛才講的數據一個是研發演算法的原料，第二個就是人工智慧的原料。對於演算法研發而言，往往需要大量的標註數據，但有時候這樣的數據並不容易獲取，或者獲取的成本比較高。例如，有一種車牌的識別。車牌看起來數據量很大，但雙層黃車牌的量就要小很多。有一種思路就是自動生成一些車牌作為車牌識別的訓練數據，這兩幅圖就是例子，是演算法生成的以假亂真的車牌。這個車牌產生以後，對識別的準確率是壓倒性的提升的。還有場景，數據的獲取更可憐，比如事故，但是你有大量正常的樣本，一樣可以用來做數據的模型，可以作為異常檢測的問題來做就可以了。這上面是公開測試級上的結果，視頻中間有人撒了一點紙，這個異常的檢測響應是非常明顯的；下面的這個例子是車輛的刮蹭，是個真實場景，難度就大多了。

從搜索的角度來講，我們把整個城市的數據如果都搜集起來，放到一個大數據里，建好索引，大家腦補一下，將會對城市的交通優化等應用產生什麼樣的影響力。如果我們再進一步挖掘數據的價值，有很多應用場景可以考慮 ……

視覺智能實例：視覺診斷

第三個是視覺診斷，包括診斷人和診斷機器。診斷人比較好說了，就是醫療圖像分析，現在也是很熱的題目。當然它比其他的方向慢了半拍，一方面由於數據收集的困難，另一方面是需要很強的專業知識。機器診斷是還沒有開發的方向，它的問題有點像前面提到的異常檢測的問題，一般有三個特點：發生概率很低，正例樣本很少，正例樣本差異性大的東西。舉個例子，1萬個樣本，只有10個是有問題，是你要找出來。但是你找不準那10個，只能說找出100個，那10個就在100個裡面。這個時候，你的召回率是100%，而準確率呢，很低的，只有10%。但是，這是有沒有用呢？我們算算省了多少人力，省了99%，因為你只需要看100個就行了。哪怕我們只有1%的準確率，只要召回率足夠，我們也省了90%的人力。所以這類的問題目標也是不一樣的，衡量的標準是不一樣，省人力是非常重要的指標。其實這裡面涉及到各行各業的視覺問題，凡是過去需要人眼來看的，是不是都可以看到用視覺的方法實現。從這個角度來講，就是遍地黃金，很多地方都可以挖到黃金，不見得出來一個視覺創業公司就一定要去做人臉識別。

視覺智能實例：視覺廣告

前面三個是偏分析、搜索的，第四個方向，視覺廣告，是合成的方向。視覺廣告將視覺數據變現的最直接的方法，特別是對於娛樂的數據，個人的數據，新聞，電視電影等這些數據。這些數據怎麼發揮更多的價值，除了人看以外，廣告是很重要的方法。但是增加廣告後用戶的體驗不見得好，大家如果看過網上的視頻，應該有深切的體會。那廣告是不是可以做的更好一點？時間關係，細節我不講了，我們看幾個例子。例如，可不可以把廣告放在場景里，作為場景的一部分？當然，這個已經有人工在做這樣的事情了，但是人工做不了大量的內容。如果可以自動化，就可以用到大量的視頻中，像這個例子，把電視機換成了廣告視頻，這樣也不耽誤觀看者欣賞視頻的內容，也不佔觀者的時間，但實際上它潛移默化地影響了你。

雲上視覺智能生態

阿里雲上的視覺技術有一個統一的名字，阿里雲眼，是阿里雲大數據平台的智能視覺中心，這是它的總圖。回到一開始提出的問題，人工智慧將會改變什麼行業，答案就是：智能將進入各行各業，Intelligence Everywhere勢不可擋。但是，人工智慧的從業者也是很容易翻船，因為你需要這些五個因素齊備。還有一種選擇，就是你可以加入到一個生態里 - 我終於回到今天講的主題上來了，打造雲上視覺計算的生態。不僅僅是視覺，其他智能也是一樣的。在雲上，可以搭一個舞台，這個舞台不僅僅是大公司在玩，小公司也可以玩，個人也可以玩。不管是哪個層次的智能，基礎API、功能模塊和解決方案都可以。這個舞台上還有一些基本的道具可以使用，例如，搜索引擎，機器學習平台，大規模視覺計算等等，還有最基本的計算和存儲，這些東西都可以利用起來，大家都可以在這個平台上玩。其實整個雲上的智能也不是一個公司兩個公司可以完成的，各行各業的需求量非常大，需要很多人一起努力，把這個生態一起繁榮起來。謝謝大家。

劉成林/主持人：謝謝華先勝博士，信息量非常大，用他的話說，現在技術應用這麼透，所以是遍地黃金，大家可能都是沖著黃金來的。下面大家可以提兩個問題。

提問：華老師你好，我是來自北郵的劉武，我想請問您，車輛搜索部分能不能講的細一點。

華先勝：搜索是兩類特徵，第一個是結構化特徵，例如，顏色、類型，還有一些細節方面的，包括車窗、車輪，這些你應該很清楚吧。雖然準確率不是太高，但是每一個都有參考價值。另外一個就是視覺特徵，就是學它的Feature。學Feature有很多方法，通過分類，通過pair-wise，通過triplet，還有通過一些局部特徵的結合等等。說白了，就是你第想盡一切辦法逼神經網路收斂到描述這個車輛的本質，有很多方法可以逼它，把它逼到死角。

提問：我比較感興趣剛才不太能拍照的部分，我的問題是，我們現在跟一些交通部門合作，我們的技術在他們的服務里已經起到什麼樣的作用，具體有怎樣的落地的功能？

華先勝：這個不便多講，簡單說一下，第一個是對交通參數的估計，就是對車流、人流的檢測，這是比較基本的功能。過去很多工作是在攝像頭端做的，當然有一些局限，現在我們在雲上做，你需要一套高效可靠的系統處理這個車流的信息。剛才我講過了車的檢測，車的類型，走向，包括行人和非機動車。的交通比較特殊，非機動車和行人對交通的影響比較大。第二就是對事故事件的檢測，這對交警管控交通有很好的參考作用。過去都是要人工巡檢的，現在逐步可以自動報告。