Zi 字媒體

百度研究院院長林元慶：解讀《最強大腦》背後的技術

2021/12/25

雷鋒網()按：近日，《最強大腦》第四季落下帷幕，憑藉在人臉識別和圖像檢索方面的出色表現，百度人工智能機器人小度榮獲「腦王」稱號。4月11日，百度以此為主題在北京舉辦了「第五屆百度技術開放日」的活動。百度研究院院長、深度學習技術及應用國家工程實驗室主任林元慶做了「最強大腦背後的技術」主題演講，詳細解釋了小度在「腦王」對決中的台前幕後，涉及圖像檢索、聲紋識別、人臉識別等方向。

隨後林元慶還介紹了百度將在人工智慧方面著重發力的方向及下一步的計劃，雷鋒網總結如下：

將圖像識別技術做到極致
完善聲紋識別技術
視頻的分析：像素級別的圖像分割
醫療圖像分析
開放深度學習平台
產學研融合共建七大平台

林元慶提到：

從去年開始，Robin（李彥宏）一直在講，作為目前最重要的戰略，百度的下一幕是人工智慧。現在百度在人工智慧方面的投入在持續的增加，過去兩年每年都投入了超過100億，我們希望做好這個方面。

以下是林元慶的演講實錄，雷鋒網做了不改變原意的整理：

今天就從最強大腦說起吧，也會給大家展示一些百度的其他技術，隨後劉煬團隊說的更系統、更全面一些，就是跟開發者生態有關的，百度有哪些技術在往外面開放的。

最強大腦背後的技術

讓我們先來回顧一下與最強大腦的合作歷程：之前節目組找過一些國內的公司，已經得到非常多的驗證，後來聽說百度也在做人臉識別才找過來。我就問節目組為什麼不先找我們？他們表示以前根本就不知道百度也做人臉識別，這一度令我非常驚訝。

不過對於百度來說，這樣的合作也是一個契機。一方面希望我們的技術能夠讓大家都知道，一方面參加《最強大腦》的初衷是希望我們的技術跟最強的人類去比，看看百度大腦到底在什麼樣的水平上。我們是抱著輸贏不是那麼重要的心態去比賽的。我們內部開玩笑說，如果輸了的話，我們回去還得繼續做研發，如果贏了的話，我們還得回去做研發，只是希望我們真正把技術到極限，能夠更好的服務到人類。

在節目中我們做過的幾個任務，這裡簡要的回顧一下。

第一個是圖像檢索的技術。左邊的圖像是從右邊30張照片的一張當中截取的一小塊，需要找出到底是哪張圖上的。就像以圖搜圖差不多，因為以圖搜圖的圖像質量相對來說還是不錯的，另外它是整張圖片去搜，而最強大腦節目組希望看看現在我們的技術極限到底在哪，就將照片做了老化、破損處理，所以這就比現在百度的以圖搜圖在技術實現上還要難。

這背後我們也是使用了深度學習的方法，它能夠很好的處理模糊、雜訊、甚至是不同的圖像角度。現在我們能夠索引百億級別的照片，可以在1s之內返回結果。這個技術也就幾家有自主知識產權的搜索引擎在大規模的做。

剛才提到的是最新研發的技術，應該是接下來幾個月吧，我們會用到新的引擎裡面，到時現有的服務會有一個非常大的升級。

第二個是聲紋識別。它和語音識別不太一樣。語音識別是要識別出說了什麼，而聲紋識別是要識別出誰在說話，說話的內容不同會對聲紋識別準確性有非常大的干擾。咱們人類對聲音的雜訊不是很敏感，做聲音處理專業的人都知道，聲音是信噪比非常差的，因此聲紋識別其實是很有挑戰性的。

現在百度非常重視基於AI的交互，比如現在我們有滑鼠鍵盤，手機上的觸摸屏等交互方式，我們更希望下一代是基於語音圖像或者AI非常自然的交互，特別是語音的，你們如果有關注百度，也知道百度投入非常大的力量，在做Duer OS，我們內部把它叫OS，因為像這些基於語音質量交互的情況，語音已經是一個存在的信號，如果我們能利用那個信號的話，能夠識別說話的人是誰，這是非常有用的。因此在這塊我們後續也在繼續加大投入，技術上已經取得了一些突破，最後我們希望把聲紋做的跟人臉識別那樣高的精度。

第三個是人臉識別。在最強大腦節目中一個是跨年齡的人臉識別，一個是跨代的人臉識別。人臉識別是由檢測和識別兩個技術組成。檢測是給出一張照片我們能檢測出人在哪裡，同時還能找出像鼻子眼睛嘴巴這樣的關鍵點在哪裡。這個我們可以很自信的說沒有人能做的比我們更好。

很多時候我們所說的識別精度都是針對測試集說的，2015年年底的時候，我們搞了一個比較大的數據集，把一些相對來說簡單一些的圖片去掉，用了我們當時所能的達到最好的演算法，在這個測試集上僅能做到92%的準確率。後來在2016年的百度雲計算大會前，我們對它的數據和演算法都進行了很大的迭代，錯誤率從8%降低到了2.3%，那已經是非常大的提高了。現在的錯誤率已經低於1%了。

百度在 AI 領域的布局

百度現在在很多人工智能領域同時在發力，百度人工智慧的核心就是百度大腦，它有四大類的應用：

語音
圖像
自然語言處理
用戶畫像

下面這張圖可以更加形象的說明百度在人工智慧上的布局，中間這層人工智慧基礎技術就類似於上面說到的百度大腦，它們都是基於下面機器學習的平台做的研發。

在人工智慧的研發上，有一個從數據-->技術-->產品-->用戶-->數據的閉環，如果閉環產生的話，技術就能夠發展的非常快。現在百度在人工智慧方面，哪些做哪些不做，就是看能否產生很強的閉環。

在通用圖像技術方面，大家所熟知的ImageNet是1000個類150萬張照片，而我們曾經做過的一個庫就已經有4萬類7000萬張照片，目前我們正在做的有11萬類，我們希望將圖像識別真正做到極致。

同時我們要建深度學習、聽覺、生物特徵識別、視覺感知、新型人機交互、知識產權、標準化服務等七大平台。這七大平台百度都要建，其中聽覺和生物特徵識別是和清華大學共建，視覺感知和新型人機交互是和北航共建的，知識產權和標準化服務和電信研究院共建。這些建設完成後都會向外部開放。

深度學習平台方面，現在PaddlePaddle已經開源了，但是還不夠。第一步，我們要做一些針對PaddlePaddle的教程，下一步，國家工程實驗室在建設一些機房，屆時我們將開放一些機器，用戶只需要一個賬號，就可以使用這些計算資源。

下面的一些應用是百度已經比較成熟的技術，我們做好后也將對外部開放，當然現在已經開放了很多了，包括圖像、語音、自然語言處理等。

現在百度還有一個正在進行的項目就是視頻的分析，主要分為兩個方向。一個是語義理解，就像現在非常火的短視頻，我們需要理解視頻裡面到底發生了什麼。另一個方向是low level 的環境理解，即根據視頻我們能夠精確的估計出攝像頭在環境中的坐標和朝向。這是三維重建非常重要的一步，我們希望結合深度學習，使其達到像素級別的圖像分割。

比如自動駕駛的場景，視頻中的房子、車、人、路面、天空等區域我們希望以像素為單位將其識別出來，這個現在百度正在做，我們希望能夠達到99%以上的精度。這是非常難的一個方向，但是如果能夠攻克的話，對很多應用的影響都會是非常大的，特別是無人駕駛、AR。現在百度在這方面正在籌建一個很大的團隊，致力於解決這方面的問題。

還有一個是醫療圖像分析的項目，百度正在花很大的力氣去做，我們也希望將其做成一個很大的方向。

AI是個新的電能，希望AI能夠像電一樣，影響各個行業，實現各個行業的升級。

從去年開始，Robin（李彥宏）一直在講，作為目前最重要的戰略，百度的下一幕是人工智慧。現在百度在人工智慧方面的投入在持續的增加，目前百度科研與營收比為15%，這是非常高的，過去兩年每年都投入了超過100億，我們真的希望做好這個方面。

我的介紹就這些了，謝謝大家。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點