Zi 字媒體

AI 再造搜索３招：谷歌如何用機器學習和深度學習直接給你答案

2021/12/25

編者按：本文由微信公眾號「新智元」（ID：AI_era），來源trendintech，insidebigdata 等，譯者李靜怡，劉小芹；36氪經授權發布。

搜索是最先一批被人工智慧深刻改變的行業，這不僅僅是因為搜索公司（谷歌、百度、微軟）跑在了AI 革命的前面。本文從搜索結果、視頻搜索和精準營銷/SEO這三方面，為你展現被機器學習和深度學習改變的搜索行業。只有擁有 AI 能力的企業才能在不遠的未來獲得巨大收益。

谷歌搜索已經能直接告訴你答案

試試向谷歌的搜索 App 詢問：「地球上飛得最快的鳥是什麼鳥？」，它會回答你：「游隼」。根據 YouTube，游隼的最快速度達到 389 公里/小時。

回答正確，但這個答案不是從谷歌內部的主要資料庫中來的。當你問它上述問題時，谷歌的搜索引擎會精確定位到一個 YouTube 視頻，這個視頻是介紹地球上飛得最快的 5 種鳥類的，搜索引擎隨後從視頻中提取出需要的信息來回答你的問題，並且不會提到其他 4 種鳥類。

如果你問：「光明節有多少天？」或者「Totem 持續多長時間？」，谷歌搜索引擎會知道這裡的 Totem 是指太陽馬戲團的演出，回答你它持續兩個半小時，包括 30 分鐘的休息時間。

谷歌搜索 App 能做到像這樣回答問題是利用了深度神經網路。深度神經網路作為人工智慧的一種形式，不僅改進了谷歌搜索引擎，甚至讓整個谷歌公司，以及 Facebook、微軟等其他互聯網巨頭改頭換面。深度神經網路是一種模式識別系統，能夠通過分析大量數據學習執行特定的任務。在谷歌搜索 App 的例子中，深度神經網路學會了從互聯網上的相關網頁中獲取長句子或段落，然後從中提取出有關問題答案的信息。

谷歌搜索桌面版最近應用了這些「句子壓縮演算法」（sentence compression algorithms）。這些演算法處理的任務對人類來說非常簡單，但一直以來對機器來說是相當困難的，即自然語言處理任務。句子壓縮演算法顯示了深度學習對自然語言理解的促進作用，以及理解並回應人類語言的能力。谷歌搜索部門的產品經理 David Orr 就谷歌的句子壓縮研究說：「你需要使用神經網路，起碼這是我們發現的唯一的方法，我們使用了我們擁有的所有最先進的技術。」

視頻搜索終成現實

谷歌大腦在3月8日的谷歌 Cloud Next 17 雲技術大會上推出 Video Intelligence API。這個 API 能夠識別視頻中的對象，並能夠實時地搜索它們。

新的 Video Intelligence API 讓開發者構建可以從視頻中提取對象應用程序。在此之前，這類提取還只能通過圖像而不是視頻，但這個新的 API 實現了從視頻中提取對象。該 API 能對視頻進行全片分析，提煉全片的故事脈絡，記錄一共發生多少個場景，每個場景的清潔。這有助於對視頻進行更精確的標籤分類。

谷歌視頻智能 API 實現了從視頻中提取對象

開發者能夠利用該 API 構建有創意的應用程序，讓用戶能夠搜索任何與他們正在觀看的視頻內容相關的信息。這給「觀看節目」這個詞帶來的全新的意義——當你能夠找到你想看的節目任何方面的更深入的信息的話，「觀看節目」可能就不止於觀看了。

這對於科學研究也有重大意義。數據分析和圖像處理方面的專家 Mathias Ortner 說：「測試顯示，谷歌雲機器學習能夠幫助提高我們分析衛星圖像的準確性和速度，它解決了這個已有幾十年歷史的問題。」

左：識別衛星圖像中雪和雲的區別非常困難。右：使用雲機器學習，能夠自動檢測並識別到右上方的是雲（紅色部分）。

除了能夠從視頻中提取元數據，Video Intelligence API 還允許用戶標記視頻中的場景變化。這些視頻接著被存儲在谷歌的雲存儲平台上。視頻分析此前是讓研究人員十分痛苦的事情，但有了機器學習的能力，谷歌的這項新服務能夠讓從視頻中提取數據就像處理靜態圖像一樣簡單。谷歌也在推進其使用 TensorFlow 框架的雲機器學習引擎，以允許創造自定義的學習模型。

改變數字營銷，SEO 將變得極端技術化

機器學習和深度學習也在改變數字營銷的面貌。在這股潮流當中，谷歌無疑處於領頭羊的地位。再一次地，谷歌使用機器學習和深度學習。谷歌曾經公開宣布，使用機器學習的 RankBrain 是其搜索引擎網站排名演算法的第三大要素。

谷歌在 2015 年推出了 RankBrain，RankBrain 並不是演算法的一部分，它的作用是了解哪種演算法組合最適用於當前類型的搜索結果。這也意味著，對於每個搜索結果，谷歌都使用了完全不同的演算法混合方式。確切地說，RankBrain 在詞的水平上進行操作，為每個搜索結果都進行演算法的個性定製。

RankBrain 用於幫助處理搜索結果，特別是那些不常見的、複雜的多字查詢。例如，包含單詞「without」或「not」的否定搜索查詢並不常見，RankBrain 就能幫助這些搜索詞的查詢。

RankBrain 還可以「看出」那些似乎沒有什麼關聯的搜索之間的模式，從而了解這些搜索之間有什麼相似的地方。然後，RankBrain 還能將這些搜索與它認為搜索者正在尋找的結果相關聯。谷歌有一個循環流程，讓 RankBrain 離線學習材料，然後測試它，然後在線使用新的版本。這種循環不斷重複，RankBrain 變得越來越聰明，可以更好地處理這些不尋常的搜索查詢。

RankBrain 這個新型深度學習系統還可以學習分辨「好」網站長什麼樣，「壞」網站長什麼樣。不同的垂直領域具有不同的客戶關係管理方式、不同的模板和數據結構類型。谷歌為每一個搜索結果賦予不同的演算法權重，因此每個垂直領域都有不同的「好」網站和「壞」網站實例。

當 RankBrain 運行時，它會學習每種垂直環境中的正確「設定」是什麼樣的。你或許已經猜到，這些正確設定是什麼完全取決於該設定所處於的垂直領域是什麼樣的。例如，在醫療產業中，谷歌知道像 WebMD.com 這樣的網站聲譽良好，並會把這樣的網站放在其搜索索引的頂部位置。而任何結構上與 WebMD 網站相似的網站，也會被歸類到「好」網站的類別中。類似的，那些與已知的醫療領域垃圾網站結構相似的網站則會被歸為「壞」網站的類別。

對於那些包含了許多不同類別的網站，比如 How-To 型網站，為了避免深度學習方法崩潰，谷歌可能會使用看起來隨機的數據——當然，這只是一種可能。它可能從眾多類別中選擇這個類別，也可能選擇另一個類別。對於像 Wikipedia 這樣的著名網站來說，谷歌可能完全不採取任何分類過程，這也是為了確保深度學習過程不會打擾用戶既有的搜索體驗（因為維基這樣的大網站不太可能產生壞網頁）。

谷歌設計 RankBrain 的目的是讓人沒有辦法再「鑽空子」。沒有了黑帽戰略來擊 RankBrain，谷歌就能以此強制讓網站所有者提升他們網站的用戶友好度。用戶看到的結果就是，對垃圾郵件網站的打擊力度更大了。此外，更智能的搜索引擎能夠了解哪些網站將在設備上正常顯示，並將這些結果傳遞到相應的屏幕尺寸上面。也就是說，你還能看到更好的設備集成和基於所使用的設備類型得到更好的搜索結果。

SEO 領域將繼續變得極端技術化。分析和大數據是今日的王道，那些對這些方法尚不熟悉的 SEO 必須儘快趕上，而那些已經擁有這些能力的 SEO 有希望未來獲得巨大收益。

深度學習的「金數據」和「銀數據」，商業模式迭代創新的殺手鐧

儘管機器學習和深度學習讓谷歌在搜索的各種方面都變得更加智能，但是，仍然存在難以跨越的障礙。

為了讓谷歌搜索自動給出答案，谷歌組織了一個由大量語言學博士組成團隊，它把這支團隊稱為「Pygmalion」，使用這些語言學家人工篩選的數據來訓練神經網路。實際上，谷歌的機器通過觀察人類的做法來學習如何從長段落中提取相關答案，這個過程需要重複多遍，相當漫長。這些艱苦的努力表明了深度學習的能力和局限性。為了訓練像這樣的人工智慧系統，需要大量的、由專業人士篩選過的數據。這些數據不容易得到，也不便宜，而且對這種數據的需求不會很快消失。

谷歌的這支語言學博士團隊不僅做句子壓縮的示範，而且要標記詞類以幫助神經網路理解人類語言。Pygmalion 團隊包括了來自全球各地的約 100 名語言學博士，這支團隊處理過的數據也被稱為「金數據」（Gold Data）。相比之下，新聞報道等沒有處理過的數據則被稱為「銀數據」（Silver Data）。銀數據當然是有用處的，因為其數量非常大。但金數據是必不可少的。當前谷歌 Pygmalion 團隊使用的語言有 20 至 30 種。Pygmalion 團隊的負責人 Linne Ha 也表示，這支團隊還將繼續擴大。

我們知道，使用無監督學習，機器可以從未標記的數據中學習，谷歌、Facebook 等公司也已經開始這方面的研究。雖然仍有很長很長的路要走，但人工智慧正在重塑搜索行業的面貌，機器學習和深度學習已經能讓搜索引擎直接告訴我們答案，讓視頻搜索成為現實。

正如上文所說，那些對這些方法尚不熟悉的公司必須儘快趕上，而那些已經擁有這些能力的企業則將在不遠的未來獲得巨大收益。

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點