Zi 字媒體

雲遊分享|百度研究院院長林元慶解讀《最強大腦》背後的技術

2021/12/25

導讀

隨著《最強大腦》第四季的落幕，百度機器人「小度」憑藉出色表現榮獲「腦王」稱號。4月11日，百度研究院院長、深度學習技術及應用國家工程實驗室主任林元慶在百度「第五屆百度技術開放日」的活動上做了「最強大腦背後的技術」主題演講，詳細解釋了小度在「腦王」對決中的台前幕後，涉及圖像檢索、聲紋識別、人臉識別等方向。

4 月 11 日，在百度「第五屆百度技術開放日」的活動上，百度研究院院長、深度學習技術及應用國家工程實驗室主任林元慶做了「最強大腦背後的技術」主題演講。

最強大腦背後的技術

林元慶表示：《最強大腦》節目組找過一些國內的公司，已經得到非常多的驗證，後來聽說百度也在做人臉識別才找過來。他們表示以前根本就不知道百度也做人臉識別，這一度令林元慶非常驚訝。而參加《最強大腦》對於百度來說是一個契機。一方面希望百度的技術能夠讓大家都知道，一方面參加《最強大腦》的初衷是希望百度的技術跟最強的人類去比，看看百度大腦到底在什麼樣的水平上。我們是抱著輸贏不是那麼重要的心態去比賽的。我們內部開玩笑說，如果輸了的話，我們回去還得繼續做研發，如果贏了的話，我們還得回去做研發，只是希望我們真正把技術到極限，能夠更好的服務到人類。

演講中林元慶對節目中做過的幾個任務進行了簡要的回顧：

圖像檢索的技術

如圖，左邊的圖像是從右邊 30 張照片的一張當中截取的一小塊，需要找出到底是哪張圖上的。就像以圖搜圖差不多，因為以圖搜圖的圖像質量相對來說還是不錯的，另外它是整張圖片去搜，而《最強大腦》節目組希望看看現在我們的技術極限到底在哪，就將照片做了老化、破損處理，所以這就比現在百度的以圖搜圖在技術實現上還要難。這背後我們也是使用了深度學習的方法，它能夠很好的處理模糊、雜訊、甚至是不同的圖像角度。現在我們能夠索引百億級別的照片，可以在 1s 之內返回結果。這個技術也就幾家有自主知識產權的搜索引擎在大規模的做。

同時林元慶表示：將把圖像檢索運用的最新研發技術在接下來的幾個月內用到新的引擎裡面，到時現有的服務會有一個非常大的升級。

聲紋識別的技術

聲紋識別和語音識別不太一樣。語音識別是要識別出說了什麼，而聲紋識別是要識別出誰在說話，說話的內容不同會對聲紋識別準確性有非常大的干擾。人類對聲音的雜訊不是很敏感，做聲音處理專業的人都知道，聲音是信噪比非常差的，因此聲紋識別其實是很有挑戰性的。現在百度非常重視基於 AI 的交互，比如現在我們有滑鼠鍵盤，手機上的觸摸屏等交互方式，我們更希望下一代是基於語音圖像或者 AI 非常自然的交互，特別是語音的，你們如果有關注百度，也知道百度投入非常大的力量，在做 Duer OS，我們內部把它叫 OS，因為像這些基於語音質量交互的情況，語音已經是一個存在的信號，如果我們能利用那個信號的話，能夠識別說話的人是誰，這是非常有用的。因此在這塊我們後續也在繼續加大投入，技術上已經取得了一些突破，最後我們希望把聲紋做的跟人臉識別那樣高的精度。

人臉識別的技術

在最強大腦節目中一個是跨年齡的人臉識別，一個是跨代的人臉識別。人臉識別是由檢測和識別兩個技術組成。檢測是給出一張照片我們能檢測出人在哪裡，同時還能找出像鼻子眼睛嘴巴這樣的關鍵點在哪裡。這個我們可以很自信的說沒有人能做的比我們更好。很多時候我們所說的識別精度都是針對測試集說的，2015 年年底的時候，我們搞了一個比較大的數據集，把一些相對來說簡單一些的圖片去掉，用了我們當時所能的達到最好的演算法，在這個測試集上僅能做到 92% 的準確率。後來在 2016 年的百度雲計算大會前，我們對它的數據和演算法都進行了很大的迭代，錯誤率從 8% 降低到了 2.3%，那已經是非常大的提高了。現在的錯誤率已經低於 1% 了。

百度在 AI 領域的布局

百度現在在很多人工智慧領域同時在發力，百度人工智慧的核心就是百度大腦，它有四大類的應用：語音、圖像、自然語言處理、用戶畫像。

百度在人工智慧上的布局：人工智慧基礎技術類似於百度大腦，它們都是基於下面機器學習的平台做的研發。

在人工智慧的研發上，有一個從數據 --> 技術 --> 產品 --> 用戶 --> 數據的閉環，如果閉環產生的話，技術就能夠發展的非常快。現在百度在人工智慧方面，哪些做哪些不做，就是看能否產生很強的閉環。

在通用圖像技術方面，為人所熟知的 ImageNet 是 1000 個類 150 萬張照片，而曾經做過的一個庫就已經有 4 萬類 7000 萬張照片，目前正在做的有 11 萬類，未來希望將圖像識別真正做到極致。

同時要建深度學習、聽覺、生物特徵識別、視覺感知、新型人機交互、知識產權、標準化服務等七大平台。其中聽覺和生物特徵識別是和清華大學共建，視覺感知和新型人機交互是和北航共建的，知識產權和標準化服務和電信研究院共建。這些建設完成後都會向外部開放。

深度學習平台方面，現在 PaddlePaddle 已經開源，但是還不夠。第一步要做一些針對 PaddlePaddle 的教程，下一步，國家工程實驗室在建設一些機房，屆時將開放一些機器，用戶只需要一個賬號，就可以使用這些計算資源。

現在百度還有一個正在進行的項目就是視頻的分析，主要分為兩個方向。一個是語義理解，就像現在非常火的短視頻，需要理解視頻裡面到底發生了什麼。另一個方向是 low level 的環境理解，即根據視頻能夠精確的估計出攝像頭在環境中的坐標和朝向。這是三維重建非常重要的一步，希望結合深度學習，使其達到像素級別的圖像分割。比如自動駕駛的場景，視頻中的房子、車、人、路面、天空等區域希望以像素為單位將其識別出來，這個現在百度正在做，希望能夠達到 99% 以上的精度。這是非常難的一個方向，但是如果能夠攻克的話，對很多應用的影響都會是非常大的，特別是無人駕駛、AR。現在百度在這方面正在籌建一個很大的團隊，致力於解決這方面的問題。還有一個是醫療圖像分析的項目，百度正在花很大的力氣去做，希望將其做成一個很大的方向。

AI 是個新的電能，希望 AI 能夠像電一樣，影響各個行業，實現各個行業的升級。從2016年開始，Robin（李彥宏）一直在講，作為目前最重要的戰略，百度的下一幕是人工智慧。現在百度在人工智慧方面的投入在持續的增加，目前百度科研與營收比為 15%，這是非常高的，過去兩年每年都投入了超過 100 億，希望做好這個方面。

點擊下方標題可查看往期精彩！

大地雲遊科技有限公司

誰掌握大數據誰就贏得未來！

如果您有行業觀點、業務諮詢，歡迎您隨時聯繫我們！

郵箱：[email protected]

網址：www.bescn.com

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點