search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

2017GAITC模式識別與智能感知分論壇實錄丨周曦:計算機視覺的產業化探索

主題:模式識別與智能感知分論壇

時間:2017年5月22日下午

地點:國家會議中心401

本文根據速記進行整理

計算機視覺的產業化探索

周曦

雲從科技總裁

劉成林/主持人:下一位演講嘉賓是來自於雲從科技公司的周曦總裁,題目是計算機視覺產業化搜索。

周曦:很高興和大家交流,我原來以為大家是偏產業或投資方面的人,一看很多是同學。聽了前幾位嘉賓講的東西都是偏學術的,我盡量講快一點,一會我們可以討論。兩個部分,我主要想跟大家分享一下,如果我們搞計算機視覺技術的人想要創業會遇到什麼問題,以及在這中間我們自己的思考。

首先,討論一下計算機視覺這個行業。我理解人工智慧分為感、知、用三塊,我們做語音和圖像處理都是感這塊,感相當於人的五官,是一個交互的入口。知就是我們的大腦,就是做分析的。用就是包含身體、軀幹等等這些東西,這是自賣自誇一下,說我們的視覺很重要,視覺佔到了信息源的70%80%。我們看一下只佔10%20%,亞馬遜搞了Alexa股價到現在已經900多了,他們的老大馬上當全球首富了,順利超越比爾蓋茨。Alexa利用語音識別入口把所有的設備商連接起來的手段,亞馬遜從2010年開始布局,大家講了很多年的未來交互的入口,它首先自己做了一個音箱,通過把這條路走通了以後,它開放Alexa這個平台,讓其他各種設備的硬體廠商接入,現在接入量上萬了,所以就成了新的入口,當然也推動了亞馬遜股價的上升。可見人工智慧的感知這一端,作為入口有很大的魅力。反過來視覺能搞這個東西嗎,計算機視覺想做的事相當多,我們可以應用到電商、招聘管理,安防,直播,如果計算機視覺和其他的行業結合,和自然語言理解,ARVR,生物結合起來,還可以撬動各行各業。那這麼大的應用前景,它怎麼就沒有出來Alexa這樣的東西呢。

我們這個行業已經做了很長時間,有一件事不知道是好事還是壞事,好萊塢的電影早在一二十年前,就把計算機視覺演的非常神了,因為我自己是做人臉識別的,所以在好萊塢電影里向來隨便就可以把壞蛋抓出來,好處就是幫我們做了廣告,就是讓民眾理解人臉識別怎麼用,缺點就是總是讓客戶有不切實際的期望。我在2011年回國的時候,當時我們的公安就有評測人臉識別技術,希望用這個人臉識別破案。總之,測出來的結果,我們當時排第一,但是沒有用,事實上當時的技術離破案一點關係都沒有,那時候能夠幫公安做一點事,就是證件查重,因為證件的效果好,除此之外想在監控視頻下拿來破案是完全沒有希望的,這是2012年的情況。

我說的這個什麼意思,實際上計算機視覺的場景這麼豐富,但是它沒有產生一些非常牛逼的入口級的殺手鐧應用,其實是效果問題。我們看一下人臉識別,人臉識別這裡有寫,在2015年這一年的時間,2015年到2016年,識別率提升到2個數量級,這是什麼概念,我們以前是做語音識別出身的,我出國之前,030405年是做語音識別的,04年在微軟的時候,我們在討論的這個數據有沒有錯,全球當時花在語音識別上的投資經費已經超過了阿波羅登月計劃,但是當時做的事就是能做日報讀報,如果你認認真真讀報紙可以,想在實際應用沒戲。當時的語音識別就是摩爾定律的水平,每18個月的時間可以把錯誤率減半,如果做語音(英文)接線盤,上面還有30%的錯誤率,所以我就當了逃兵,不做語音識別了,改行做圖像和視頻了,所以我就講,做了一個錯誤判斷,正確的決定,實際上語音識別的發展速度比我想象的快一些,幾年以後科大訊飛也上市了,我在那也呆過幾天,看一幫兄弟很成功,包括我們開了雲知聲都很成功,但是圖像視頻是比語音更大的入口,即便人臉識別有一個數量的提升,也仍然只是在部分場景能用,前面各位老師講到了,同一個技術在不同場景下的差別極大。像人臉識別,我簡單說,你做確認和識別,就是111N,你做配合和非配合不同技術上的影響很大的,確認就是我只是想知道這兩張照片是不是同一個人,這個應用點就非常多,比如說你去銀行辦事,賓館,去飛機場火車站,把你身份證拿出來就是要判斷人證合一。現在就是N的問題,就是我一個照片知道它是誰,這個N有多大,這也是一個問題。再就是同場景和跨場景,註冊照片和現場照片是在同源獲取還是跨源的,一個是身份證照片,還是一個現場視頻,這個跨源的情況很多。還有改變配合與不配合,我們去機場和銀行是配合的,但是公安如果抓人的時候,基本都是不配合的,犯罪分子通常喜歡在夜黑風高的時候出來搞事。即便人臉識別,大家覺得目前進步很快,成熟度很高的人臉識別應用,它仍然是非常受限的。

如果我們要做技術創業,那我們應該怎麼做這個事情。我想起一個很牛的師兄,科大訊飛的劉訊飛師兄,科大訊飛從99年做語音識別的公司,顯然是太早了,結果過了十年時間語音識別才能真正大行其道,所以你就要有本事活十年,要不然像劉師兄一樣讓安徽省政府把任何一個項目都給你,也拿國家補貼,做到你的競爭對手都倒閉這樣就行。現在很多公司都是這樣做的,做無人駕駛的,五年十年才能用,就看誰能熬得住,把其他人搞倒閉了你就行了。要不然你就選擇人臉識別這樣的公司,你現在做,現在做人臉識別面臨一個局面,人臉識別已經能用了,就是所有的大公司也會做這個事,你是小公司就得直接跟大的巨頭,不管是BAT也好,就跟他們打,你打得過也行,要不然很早跳槽,要不然你就直接面對這些大的對手,基本上做技術創業只有這兩招。第一種就是拼耐力,第二種就是拼速度。所以我們自己做,明擺著就是拼速度,2015年年中開公司,當時大大小小做人臉識別的公司沒有100家也有50家,就是看誰能夠最快速地把這個技術落地。在這種情況下,我們自己的基本思考是這樣子的:第一個,就是做創業要保持聚焦,本身就沒有人家資源多,再說現在搞都搞不贏,就是集中力量辦大事,保持機動性的問題。第二就是耐得住寂寞,忍得住誘惑。因為人臉識別需要做的事太多了,同時堅定不移做一件事太苦了,你就會想要不要干其他的。

我講點自己的例子,2015年我們成立公司的時候,本來想做安防的,結果成立完公司以後發現銀行的機會出來了,一般來講銀行很少用新創業公司的東西,但是好在2015年,因為一系列的原因,銀行就得去採購人臉識別技術,而人臉識別技術大部分都很年輕,所以必須在幾個年輕公司中挑,這時候就出現人臉識別公司搞的死去活來的,結果價格越來越便宜,每單都會賠錢,每次PK都要死不活的,這個時候出來一個問題:要不要做這個事,你會發現有很多其他的機會,剛才看到進步非常快的曲線,也是我們打架打出來的。當時有一個客戶,前前後後三家公司PK4個月時間,PK7次。最早是給了一個水印照片,目的就是讓人臉識別公司識別不了,客戶要求什麼呢?客戶要求現場視頻拍一個照片,識別是不是同一個人,一開始我們幾家做不到,結果過完節以後有一家做到了,而且把它的識別率做到了接近90%,沒有辦法,我們研究院院長就去現場,人家都搞了,他們當時還出了一個理論上線,我們研究院自己算理論上線,我說這個不可能,一點戰略都沒有。從10月份開始,一直搞到元旦以後,最後這三家公司都能做到在萬分之一的情況下成功率達到95%,技術就是這樣進步的,如果放到實驗室這個事可以干三年,就是這樣的殘酷競爭,你會發現這個項目一共就幾十萬,全是入不敷出的,你還要不要做。所以經常說保持聚焦,講道理聽起來肯定就是這樣子,但是當你這麼做的時候,不一定做得到。

我們有時候也嘲笑一下友商,你看當老大不堅定吧,又轉向了,其實我特別理解他們的想法,因為他不知道他是不是一條路把隊伍帶到溝里去了,如果你堅持,萬一是死路呢,你就轉向,如果人家走通了你又搖擺,要不然是冥頑不靈,要不然就是搖擺不定。所以首先把戰略方向看清楚,這條路是走得通的才要保持聚焦。最終銀行是我們贏了,成了銀行第一大供應商,是因為我們堅持了,只是因為其他公司看的不夠准,僅此而已,所以有時候很難說。所以在雲從的角度來說,我們從來不做其他的東西,到現在為止就是做人臉識別,我認為人臉識別市場足夠大,這個可以跟一些同學講一下,這個不是我編出來的,是很多大佬教我的,你判斷這個市場夠不夠大這麼判斷,一個公司一定要設定未來三年的目標,如果目標3610億,你所在的領域值不值這個數,所以人臉識別顯然搞幾個億的銷售額完全沒有問題。

第三個,人臉識別本身就是入口,本來可以打開各行各業,所以堅持不懈把這個入口做好,這個是非常有必要的。具體做什麼事呢,這個講到2B2C的問題了,大家很多人覺得C端比較性感,我們做C端,大市場,你得看你的技術行不行。B端是什麼特點?B端的特點,第一它的門檻高,也就是說它要求是你的性能要好,技術比較難;第二要求服務要好,第三對價格相對不敏感。C端要求性能好,使用方便,價格便宜。我們想一想,我們現在的技術基本上是偏定製化的,我們做人工智慧技術,金老師也講了,還沒有一個通用技術搞定這件事的時候,怎麼做到使用方便,怎麼做到價格便宜,使用方便。我們買一個手機,如果有一個手機說,你要看說明書才能用你會買嗎?很抱歉,我們的東西你看了說明書還不能用,我還得派人上門給你調試。但是反過來,如果今天是做大B端,上門就調試,就是服務好。現在大家我們行業的獨角獸都是做B端的,做不了C端。C端什麼時候才能做,我估計還要做一兩年,以現在的速度發展,再有一兩年就可以了。

市場分析,機遇與風險並存。今年開始人臉識別市場有億級的項目出現了,表示機會與風險並存,這裡有一個鯊魚,我們這些公司自稱是一線公司,人臉識別公司里最領先的幾家,我們其實跟大鯊魚比起來很小很小的,所以這是很危險的時候,所以每當有機會來了它可能是一個陷井,如果我們站不住,可能被後面的鯊魚吃掉,所以是這樣的問題,所以這是拼速度的問題。實際上怎麼做這個事呢,前面各位都講了,我不詳細講了,要把演算法和數據和行業應用都打通,只有這樣才能立得住。這是埋頭拉車,抬頭看路。先把眼前的事完成好。

接下來講一下雲從自己是怎麼走過來的,我自己的背景,原來我在國內做語音識別和身份識別,06年去美國,我自己蠻幸運的,起點比較高,我們進步很快,07年去IBM,還有微軟,我們在美國拿了六個冠軍,然後想做點實用的東西吧,就是找一個特別落地的,就是做人臉,就跟國內聯繫了,中科院重慶院就三次到美國來談,我們就建立了一個聯合研究中心,在中科院做的還不錯,我們在劉成林老師的領導下面做專項,做的還比較成功。2015年雲從科技正式成立,成立這個公司的目的,我覺得再不成立就不用成立了,只有改行了,就是我講的邏輯,當那個東西真正到爆發的時候,要不然迎難而上,和大公司競爭,要不然我們就做一些不實用的東西。成立公司以後,當時的情況是,阿里巴巴,百度,騰訊大規模搞人臉識別了,我們還能做什麼呢,當時技術比它們領先一些,技術領先這個事是非常靠不住的,尤其大公司的大量投入,你怎麼保證你怎麼贏。所以我是特別感謝我這幾個對手,說實話,如果沒有他們肯定我們大家都掛了,就是因為有這幾家天天打,經常有人問,大公司趕不上我們,原因是一些公司互相拆台,互相打。就像我們在銀行PK的時候,每個銀行要POC測試,各家分別提供數據彙集到一起,我發現有一個友商提供的全是老人數據,果然我們識別不對,就是我們自己的缺點對手比我們還了解,你只要有一點點做的不到位的地方就有人搞你。我們都一樣,只要有一點毛病,我們友商都會到銀行當播音員,這樣我們進步就很快。所以,技術,產品,市場三位一體都得抓。技術是根本,所以雲從的技術團隊很大的,我們三個研發中心,上海、成都、重慶兩百多人,我們在上海交大和美國矽谷加起來有300多個研發者。這麼多人肯定要干很多事,外面的人臉識別是幾十個模塊。我們保持做一線公司,江湖地位是打出來的,不管是銀行還是公安,你要努力拿第一,我們也不能保證都贏,只是勝率的問題。

第二個就是產品,只有技術不行,要深入業務場景做產品,我們在銀行里,11個部門有46個解決方案。公安里我們做海陸空一體化的應用,因為公安的東西涉秘,我不詳細講了。

第三個就是市場,市場特別重要,我們邏輯是從上到下都得搞,我們雲從有中科院背景,相對來說比較容易做,我們得從頂層設計做起,人臉識別不管公安部標準,國家標準,都是我們雲從做的,所以最頂層的標準和未來的發展都要控制在手上,這是很重要的點。第二就是落地,雲從在全國10個城市建立銷售服務中心,每個銷售服務中心管周邊幾個省,我們在每個省都有專門的服務人員,這種配置在一般小公司不是都能看到的,我們還有科學家跑去裝攝像頭被電打傷了,我們嚴厲批評了這種行為。結果就是我們做到銀行的第一大供應商,包括中農交建等幾大行,銀行總行一旦選哪家是不能改的,是不替換供應商的,之後不管做網點改造,還是信息服務,都要用雲從的產品,這也是為什麼當時打的這麼慘烈,即使是10萬塊錢的單子也要搶。第二個就是公安,這個也是很幸運,2016年在廣東,把日本和德國甩在後面了。總之在公安的事情進展還是不錯的,雲從幾個月時間,從20169月份開始做,現在在22個省已經上線實戰了,我不詳細講公安的事了。

雲從科技在2017年人工智慧已經被定為國家戰略,國家發改委定了4家人工智慧基礎資源公共服務平台,4家公司分別是百度,騰訊,科大訊飛和雲從科技,我們非常有幸為國家出力,建立人工智慧平台,國家要求它每日調用次數超過1億次,也就是說希望人工智慧作為一個橋樑,真正可以改變各行各業,這個要求估計百度和騰訊比較容易達到,對我們來說是一個問題,我們千萬級別沒有問題,還沒有到上億級別的調用,也是國家對我們的鞭策。選擇我們重要的原因,就是國家希望我們完全國產化,也是希望國內的公司和中科院的公司主導這方面的事。總的來說,在過去兩年裡,我覺得我們算是很幸運的例子,人臉識別是正在爆發的智能應用,而且在爆發的兩年裡,我非常幸運的沒有帶大家把路走到絕路上去,比如當時在拼銀行的時候確實拼下來了,現在可以自豪地說我們很堅持,但是實際上在這個過程中的時候,並不是這麼簡單的,很多時候就是賭的,賭贏了就是英雄,賭輸了就是狗熊。謝謝大家。

劉成林/主持人:謝謝周曦博士,報告很精彩,我們今天的論壇的宗旨就是學術界和產業界結合,我們希望從不同的角度和不同的方向聽到不同的聲音。你跟那幾個公司打來打去,短短几個月做上去,靠什麼,靠演算法還是數據?

周曦:基本上上是靠數據,尤其對應的是客戶,客戶提供數據,你不能拿走。第二個就是深入場景,大家拚命的時候,就是每個細節都要考慮。為什麼這個地方有一點背光就不行?就瘋狂的搞這個模型,比如有人手持的時候擋住臉的一部分,你怎麼用,有的時候這裡有一個小照片,還有一個大照片,這個你能不能利用起來,就是一點一點扣細節。

吳毅紅:您剛才說技術領先是靠不住的,這句話把我搞的誠惶誠恐,第一張PPT里是有關人才的,有沒有什麼好的辦法和制度,選擇好的人才,並且留住他們。

周曦:我也不知道是哪頁了,我們可以交流一下人才這個事。人才問題是個難題,我是因為有很多失敗的經驗,我在2010年當時拍胸膛搞這個事,我嘗試過在國內做這個事,但是發現沒有很穩定的團隊做不了。後來我們決定,一定要有自己的黃埔軍校,自己培養人才才可以,我們在中科院有一個很大的研發中心,我們裡面有六七十個人,這是很大的隊伍,每年也有學生進來,在上海交大也有博導,首先就是要有一個源頭。另外一個辦法,我們現在有中科院和公司兩邊的優勢,有一些研究的人喜歡在科學院里呆著,有的人願意在公司,即便在公司,我們有上海研究院和重慶研究院,有一些人才喜歡在一線城市,有些人喜歡在二線城市,總的來說,對人才就是順著他來,他想怎麼著我們就怎麼著,只要他們爽了就對了。

提問:剛才看到您在PPT中介紹,現在主要業務是2B的,如果是2C,您預測在一兩年之內會出現2C的井噴,那麼人臉識別會以哪種形式出現呢?我原來有一個同學,他自己創業,博士畢業以後就搞了一個公司,發明一個攝像頭,戴在頭上的發卡,拍小孩,我們現在知道自己家有寶寶,都是鏡頭寶寶,你一拿手機就擺出各種或自然或不自然的POSE,這對孩子成長也是有利的事情,後來這個也沒有做好,我想知道他做的是不是跟人臉識別相關的。

周曦:是這樣,所有的技術,剛才講的東西有一個臨界點,比如您講的東西,實際情況應該是做在眼鏡上,現在有AR眼鏡,接下來的眼鏡已經能做到完全和普通眼鏡一樣的,但是它還有一點重。ER公司最近沒有開發好,VR戴久了以後會有頭暈,說明性能不夠好。使用要方便,價格足夠便宜也沒有做到,因為現在價格比較貴,什麼時候會爆發,就是這三個東西到一個臨界點就會爆發。人臉能做什麼,就是作為門禁,過去車牌以前都是刷卡的,現在任何都是變成車牌識別了,以後所有的門禁都是人臉識別了,這是逐漸的,再下一步,你會發現手機上蘋果8可能會玩,它就用人臉做很多的東西,這個時候技術會全面鋪開。

劉成林/主持人:如果有需求,幾個一線公司相互打進步比較快。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦