Zi 字媒體

王小川：今年的人工智慧仍然有許多局限性

2021/12/25

導讀： 3月27日消息,搜狗CEO王小川今日在在洪泰基金CEO春分大會上做了關於人工智慧技術思考的分享。在開場,王小川首先調侃著澄清近日因搜狗即將上市而流出的關於自己戀愛時間的傳聞,「我從來沒說過搜狗不上市我不談戀愛這種話」。

OFweek機器人網訊：3月27日消息,搜狗CEO王小川今日在在洪泰基金CEO春分大會上做了關於人工智慧技術思考的分享。在開場,王小川首先調侃著澄清近日因搜狗即將上市而流出的關於自己戀愛時間的傳聞,「我從來沒說過搜狗不上市我不談戀愛這種話」。

關於人工智慧,他認為在往三個階段走:1,將傳統規則教給機器;2,將答案教給機器記憶學習;3,將目標給機器自我學習。而目前正處於第二階段的高級階段。同時,他也認為今年的人工智慧還是有很多的局限性。比較難點的是在自然語言的處理,在翻譯系統現在有大的發展,機器做翻譯能把中文翻譯成英文,英文翻譯成中文,這個能翻譯的很流暢,因為現在的機器人的學習,不是基於理論方法。(錫安)

以下內容根據王小川在現場分享整理:

簡單講,我們講人工智慧是往三個階段走,我們還處在第二階段的高級階段,人工智慧這個話題不是新課題,在上個世紀60年代、80年代就在做人工智慧,那時候做人工智慧的教授其實很不幸,那時候人工智慧的水平是遠遠不夠的,當時人們把對自己世界的認知變成了規則,轉成了機器人,就是把這個規則告訴機器,這是那個時代的工作,那是60年代到80年代,人們對規則的表達是偏離這個目標的,就是做不好。

80年代基於統計方法來做的人工智慧,不要嘗試把人對於世界的認知告訴機器,就是讓機器學,讓你看答案是什麼。一方面是把原始的問題,看到問題之後把答案給他,這是走上了讓機器人學習的道路,這搞了幾年。這個答案很清楚,很多經典案例的是人臉識別,怎麼描述呢?胖一點的、瘦一點的等等,我知道這個人是誰,但是沒有辦法描述。到2000年之後的突破點,我們發現用更粗暴的方法,我們不要嘗試在這個問題上找特徵,把特徵告訴機器,把原始的問題原始的數據交給機器,我給他更多的機器,我給他兩千多張照片,讓他自己去找特徵,最後得出答案。2000年之後的爆發是跟這個相關的,阿爾法狗就是這麼出來的,他不是靠原來的方法做的。

今天局部開始走到第三個階段了,阿爾法狗屬於是第二階段加上一點點第三階段,給它一些答案,給它每一個局面下人是怎麼走的,讓機器學,這樣可以發現機器很難追上頂尖的人。到最後我告訴機器說,你走對,你贏了,或者是輸了,這個也可以做了根據我看到的媒體報道。

在工業裡面我們在第二個階段,一定要用大數據。好處是我們不需要工程師對原有的行業有特別深度的理解,我舉個例子,醫生他是懂得怎麼看心臟病的心電圖,但是他很難把這個規則明晰的描述給工程師,從去年開始工程師得到很重要的體驗,我不需要醫生去學習他細節的技術經驗,只要醫生告訴我這個代表什麼,工程師數據量大,就可以建立這樣的模型,這跟選擇人工智慧的行業之間有天然的溝通鴻溝就消失掉了,這個很快就可以在人工智慧裡面得到突破的應用。未來的兩三年裡已經有成功工作經驗得到了巨大的升級,今年在智能領域裡面有一個很大的發現。

我今天就不講了這個深度學習的意義和突破了,今年的人工智慧還是有很多的局限性。核心問題是有一個前提的條件,要很安靜的環境里,如果這個環境里還有背景音樂,同時兩三個人一塊說話,人是很清楚能分辨出來的,但是機器做不到,這個對機器而言,如果是聲音里混了聲音,人工智慧是對見過聲音的處理,如果兩個人一起說話就不行了。一種做法是我們用麥克風做,我們在汽車裡面,汽車裡有胎噪和風噪,把這個錄下來,然後在混到這個訓練裡面去,不是在識別裡面做,而是他見過這樣的聲音。還有就是去噪音。

比較難點的是在自然語言的處理,在翻譯系統現在有大的發展,機器做翻譯能把中文翻譯成英文,英文翻譯成中文,這個能翻譯的很流暢,因為現在的機器人的學習,不是基於理論方法。人如果流暢,機器也就可以流暢。

我去年6月份去了一個劍橋頂尖語言的實驗室,他們在演示一個人機對話的系統,演示的非常清楚,我想吃辣的,我想吃什麼樣的,機器就幫你找。當我找到餐館的時候機器問我問題,你需要停車位嗎?我說我沒有車,它就沒有說的了,因為它不知道車和停車位是什麼關係。語音圖像里有大的發展,語言上現在是非常的不夠。

另外一個很好的視角,跟投資相關的地方,我想看到人工智慧的分類,像理解講了一大堆的理論,但如果從產品上分類從功能上分類,我把人工智慧分成這麼三類。叫級別、判斷和創造,創造叫生成。相信大家會看到一個語音能轉化過來,或者是圖像裡面可以看到大象在做一個什麼事情。今天做的第一個事情就是把物理世界的東西建模,語音識別、圖象識別這都叫識別,像人臉識別,這是一類。還有是創造生成,語音的合成和圖象合成是在這一類,所以一和三能幹什麼事呢?我們可以提升人機交互,就是在機器里可以看到這麼一個東西,能把他合成出來做交互,相對而言就是在安防領域裡面做人臉識別,在我心中這個東西有用,但是商業的價值不大。

現在有一個個人的觀點,就是讓機器做判斷和決策,這個是裡面唯一有巨大商業價值的東西,把人的勞動取代,讓機器產生更高的工作,比如像金融裡面是這個例子,阿爾法狗也是,它是在做判斷和決策,一旦讓機器有這樣功能了,他就有很高的效率。我也看一個指數,1和3是在交互,不能構成一個商業品牌的核心成本,但是做判斷,或者做決策,這是商業判斷的核心部分。

前面講了一個人工智慧的判斷,我給大家分享一點搜狗在這個裡面的思考,大家開始思考人工智慧了,這就是一個錯誤,人工智慧現在的基本做法是要學習,其實對於搜索引擎公司,不管是百度還是搜狗大部分還是在學習。現在有了深度學習以後我們可以想像的更多,比如在網頁搜索裡面,以前靠我們的工程師怎麼是高品質的,讓這個機器去學,或者是圖象識別這個裡面如何更好的發現人臉,發現這個特徵。深度學習之後需要更大的數據量才能做提升。

第二個是對於2C很重要的是圖像和語音,應該叫做深度學習讓我們有了很大的進步,我想表達的是,搜狗從2011年開始做,80%有語音的收入,就是一下子會使得一天產生了兩億次的,每天20萬的語音數據我們對了一下,比其他家做的語音識別的識別價值還要大,這個有清晰的應用場景。TO B和TO C的公司是有區別,這個要有數據、場景。因為自己不能成為一個閉環,沒有場景,就要依靠別人,其他的公司也數據和場景,這是一種合作的方式,這不是我們的基因所在。我們是用這樣的技術首先為自己服務,因為我們有足夠大的數據場景做支撐。

還有一個深度的思考,我看到這個是微軟的醫院,語音識別是不是人工智慧的核心,或者是人工智慧未來很重要的一個部分,我跟他們的觀點是一樣的,我說不。語音識別之後機器不知道你在說什麼,未來的搜索是不是叫語音搜索,這個東西是一個毛皮,因為當我們提到說,王老師這三個字用文字去搜索,本質上具有不大。只是把我的新聞、百度、微博推給你,比如你這句話,王小川是不是說過不上市就不結婚,這個是語音的理解,在人工智慧的應用裡面,在金融、醫院裡面的應用都會很有用。語音在裡面今天是沒有功課的事情,語言跟這個都有關係,因為你用語音做識別的時候就把他變成語音,語言變語音我們也在做,但是我們考慮的是以個為核心做周邊的發展。包括兩個語音的轉化是翻譯,最後是語音的理解,這是我們to C公司裡面思考的,叫自然交互和知識計算,自然交互是以語音為中心,還有是怎麼建立對語音的分析和理解,這是我們的一個圖。

行業中會有共識,未來很重要的事情,語音在於是對話、翻譯、問答,這幾個都是最前沿的工作。我們為什麼考慮呢?今天是詞的搜索,未來是給機器提問題,讓他有一個精準的答案,我們在這個工作裡面也做了很多的積累,我們認為在1年以內會有突破,不代表是機器理解了,而是在很多問題裡面可以直接的回答。以前是靠拼音,敲漢字進去,未來我們是希望別人問,今天我們的上午什麼時候舉行,他不用拼拼音了,他就可以直接表現出來。

翻譯是在去年開始的,是一個有大突破的事情,翻譯的解決會使世界格局帶來變得變化,我對他有這樣的期待,不光我們在做,這是全人類的事情。如果人類做好了,這個是非常有意義的事情。因此不同的人說不同的語音,這是中間的過程。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點