揭秘谷歌內部的萬人機器學習項目—忍者計劃！

編者按：本文轉自微信公眾號「機械雞」（ID：jixieji2017），來源：wired，編譯：vivian，36氪經授權發布。

如果你想讓人工智慧融入每一個產品中，那麼你得訓練一支強大的機器學習戰隊。

Google工程師卡爾森•霍爾蓋特（Carson Holgate）正把自己訓練成忍者。

訓練並不涉及武術，若論武功，26歲的霍爾蓋特已是高手——跆拳道黑帶二段。該訓練主要針對演算法。霍爾蓋特參加這項訓練已經好幾個星期了，這是能讓她獲得比體力更強大技能的一項訓練——機器學習，即ML。

霍爾蓋特是Google 安卓部門的工程師，也是公司本年度機器學習「忍者計劃」的十八名程序猿之一，該計劃雲集了各團隊中的優秀編程員。Ender遊戲風格是要教授他們，可以讓產品更智能的機器學習技術，哪怕這會讓他們開發的程序更難理解。

Google工程師霍爾蓋特

Christine Robson（克里斯汀•羅伯森）經常說：「想成為機器學習忍者么？」羅伯森是Google內部機器學習計劃的產品經理，也負責管理該學習項目。「

因此wired（連線雜誌）邀請Google內部的同仁來參與項目，用6個月的時間致力於機器學習，跟著老師學習，在這6個月里潛心機器學習，做一些項目，把項目啟動起來，他們會收穫頗豐。」

霍爾蓋特四年前獲得計算機科學與數學學位，並加入了Google。對她來說，這是一個掌握前沿技術的機會——利用學習演算法（學習者）和海量數據來「教會」軟體完成任務。

近期研究結果表明，神經網路甚至會超越人腦。Google決心在內部擴大精英培訓範圍，以期待讓機器學習成為一種常態。

對霍爾蓋特這樣的工程師來講，可以向高手中的高手討教，忍者計劃是他們飛躍到技術前沿的機會。她說：「這些人會開發神奇的模型，並且擁有博士學位。」言語間透露著一種難以掩飾的敬畏之情。

谷歌員工人數眾多（6萬員工中約有半數是工程師），而這只是個小項目。但這個項目卻標誌著谷歌內部認識的轉變。

儘管機器學習早已成Google的一項技術，Google還率先聘請了業內專家，但大約到了2016年，Google才開始真正痴迷於機器學習技術。

在去年底財報電話會議上，谷歌CEO桑達爾•皮查伊(Sundar Pichai)表示：「我們還會儘力將它應用於所有的產品中，包括搜索、廣告、YouTube或Play。

正如機器學習暢銷書《演算法大師》(The Master Algorithm)的作者佩德羅•多明戈斯(Pedro Domingos)所說：「機器學習是新生事物，是可以自我學習的技術。」

Google ML計劃負責人傑夫•迪恩（Jeff Dean）說：「想用這種方式解決問題的人越多，我們就會變得越好。」他估計谷歌2.5萬工程師中，只有幾千人懂得機器學習，差不多只有10%。他希望這個比例能接近100%。他說：「如果能讓所有工程師都多少懂得一點機器學習技術，就太棒了。」

多年來，約翰•賈南德雷亞(John Gianandrea)一直都是谷歌機器學習的主力助推者，而最近他成了搜索業務主管。

但當他2010年加入公司時(伴隨著谷歌收購MetaWeb公司而加入，該公司在人群、地點和事項方面的龐大資料庫，已經作為知識圖譜融入了谷歌搜索中)，他在機器學習和神經網路方面還沒有太多經驗。

2011年左右，他被神經信息處理系統大會（NIPS）的新聞震驚了。好像每年NIPS的一些團隊都會發布機器學習的成果，讓先前解決問題的努力灰飛煙滅，包括機器翻譯、語音識別或者視覺處理。

他說：「當我第一次看到它，NIPS大會依然是模糊的。但在過去三年，整個領域從學術界到工業界發展十分迅猛。我感覺去年得有6000人參加。」

谷歌大腦負責人傑夫•迪恩

傑夫•迪恩：典型的谷歌計算機科學家，現在正建立機器學習工具和並帶領團隊。這些改進的神經網路演算法，加上摩爾定律更強大的運算能力，以及像Google和Facebook海量用戶的行為數據呈指數級地增長，開啟了一個方興未艾的機器學習新時代。

賈南德雷亞（Giannandrea）加入了那些被認為是公司核心的項目。其中還有谷歌大腦（Google Brain）聯合創始人迪恩，神經網路的項目源於公司研究部門的Google X.（現簡稱為X.）。

Google對機器學習的「熊抱」，並不簡單等同於編程技術的轉變。這是對於可賦予電腦無限能力技術的一種嚴肅的承諾。其領先優勢在於圍繞受大腦支配的、複雜神經網路建立「深度學習」演算法。

谷歌大腦是一個深度學習項目。Google 於2014年1月買下（據說花了5億美元）的AI公司Deepmind，也致力於該領域研究。

Deepmind打造的AlphaGO擊敗了世界圍棋冠軍，打破了人們對於智能機器性能的固有想象，也在害怕智能機器和殺手機器人的人心中激起了憂慮的漣漪。

賈南德雷亞（Giannandrea）破除了認為「AI會殺死我們」的無知語言，他確信機器學習系統在各方面都會是革命性的，從醫療診斷到駕駛汽車。機器學習將會改變人類，但不會取代人類。

賈南德雷亞引用Google Photos為例，解釋了機器學習能力。他展示了一些博德牧羊犬的圖片。

他解釋道，通過學習，電腦能「知道」博德牧羊犬的樣子，而且還能找出其幼年、成年、長毛、以及剃毛后的圖片。當然人也可以做到這個。但是人類無法從上百萬個圖例中同時識別上萬隻狗的品種，而機器學習系統可以。

如果機器認識了一個品種，它就能用相同的技巧去識別其他9999種。賈南德雷亞說：「這就是新奇之處。對於這類些狹窄領域來說，你能在這些博學的系統里找到人們所謂的超人性能。」

當然，Google早就理解了機器學習概念，其創始人始終都對AI力量深信不疑。」機器學習已經被用於許多Google產品。（早期機器學習往往依賴更直接的統計方法）

事實上，十多年前，Google就開設了內部課程，向工程師們教授機器學習。

科恩認為，只有Goolger人自己，能教授這樣一門內部課程，因為Google的運用規模無人可以比擬（可能國防部除外）。

課程太受歡迎了，而開始變得失控了。班加羅爾辦公室的人們要熬夜到半夜才能參加。幾年後，一些Google工程師把課程製成短視頻，現場授課停止了。科恩認為這可能足以作為慕課（MOOC）的先驅。

隨後幾年，Google又有一些不同的 ML培訓，但均不是有組織地連貫進行。就在科恩2013年離開谷歌前，他說：「ML在谷歌突然就成了重中之重。」

在2012年之前，這種認識尚未形成氣候，直到賈南德雷亞決定「招募一批從事這項工作的人」，並將他們安排到單獨的辦公樓。從X部門脫離出來的谷歌大腦也加入進來。「

工程師們開發的機器學習成果，越來越多地出現在谷歌熱門產品中。

由於機器學習的關鍵領域是視覺、語音、聲音識別和翻譯，所以ML現在成為語音搜索、翻譯和Photos的主要部分並不奇怪。更驚人的是，力圖讓機器學習融入所有產品。

傑夫•迪恩說，隨著他和團隊對機器學習的理解逐步深入，他們的探索更加雄心勃勃。「

我們以前，也許只是將機器學習技術用於系統里的一些子功能，但是現在我們是要用這項技術替代整套系統，而不是給每個系統設計一個更好的機器學習模型。」

迪恩表示，如果現在讓他重新規劃谷歌的基礎架構，其中大部分都不會再通過編碼實現而是通過學習而獲得。迪恩最為人熟知的身份是Bit Table和MapReduce等顛覆性系統的聯合創造者。

谷歌大腦聯合創始人格雷格•科拉多

谷歌大腦聯合創始人格雷格•科拉多（Greg Corrado）與產品團隊一起，致力於將AI與機器學習融入軟體，從而實現先前未能預想到一些產品特徵。其中一例便是於2015年11月發布的Gmail 的智能回復（Smart Reply）。

該功能的靈感源於格雷與前Gmail工程師巴林特•米克洛斯（Bálint Miklós）的一次談話。（米克洛斯，曾在Gmail致力於研究垃圾郵件檢測和郵件分類的ML演算法。）

談話中米克洛斯提出了一些激進的建議：「如果團隊利用ML來自動生成郵件回復內容，幫助手機用戶擺脫，用手機小鍵盤迴信的難題會怎麼樣呢？

科拉多說：」這瘋狂的建議讓我大吃一驚。但後來我想，如果利用我們有預測模式的神經網路技術，這也許可行。一旦我們發現有點機會，我們就得試試。」

科拉多及其團隊與Gmail團隊保持著密切又頻繁的聯繫，谷歌成功幾率大大提升，隨著機器學習專家在產品團隊中的擴散，這種方法越來越普遍。

科拉多說：「機器學習既是科學又是藝術。就好像烹飪，其中會有化學反應，但是要做到真正有趣，你就得學會搭配現有的原料。」

傳統的AI技術在理解語言時，靠的是將語音規則嵌入系統，但在這個項目中，和現在所有的機器學習一樣，系統存儲了足夠的數據來實現自我學習，就像小孩子學習那樣。

科拉多說：「我並非是從語言學家那學會說話的，而是通過聽別人說話而學會的。」但真正令智能回復變得切實可行的，是它的成功很容易定義——他們的目的不是創造一個妖艷的虛擬斯嘉麗•約翰遜(Scarlett Johansson)，而是希望它能回復真正的電子郵件。「

然而，當該團隊開始測試智能回復時，用戶卻注意到了一些怪事：它經常會推薦一些不合時宜的曖昧語言。「其中一個失敗模型確實太過可笑，科拉多說：「一旦系統變得混淆，它就會說『我愛你』。

這並不是軟體漏洞，問題出在我們讓它做的事情上。」不管怎樣，這個程序學到了一些人類微妙的行為。「如果你感到擔憂，『我愛你』是一種很好的防禦策略。」科拉多能幫助團隊壓制系統的熱情。

在通過該應用發送的回複信息中，有十分之一都是由機器學習系統生成的。科拉多笑著說：「這個項目能夠成功還是令我感到有些驚訝。」

智能回復，只是證明谷歌ML有效性諸多實例中的一個。

或許最終的拐點是當機器學習，成為搜索的一個必不可少的組成部分時——作為谷歌的旗艦產品，搜索幾乎為該公司貢獻了所有營收。

多年以來，由於搜索引擎對谷歌過於重要，所以始終沒有融入機器學習演算法。賈南德雷亞說：「由於搜索在公司內部佔據的份額巨大，高級管理者深度參與其中，所以很多人都懷疑我們無法真正取得進展」。

在某種程度上，那是文化阻力——必須要讓那些有極強控制欲的程序員，適應帶有禪宗韻味的機器學習模式。

長期掌管谷歌搜索業務的艾米特•辛格(Amit Singhal)曾是傳奇計算機科學家傑拉德•薩爾頓(Gerald Salton)的助手。

薩爾頓在文檔檢索方面的開創性工作，啟迪辛格幫助謝爾蓋•布林(Sergey Brin)和拉里•佩奇(Larry Page)把研究所時期編寫的代碼擴展成了可以適應當今網路時代的程序。(這使得他成為了「檢索派」的一員。)

他從二十世紀的方法中，梳理出了令人驚訝的結果，並對將機器學習系統整合到作為谷歌命脈的複雜系統中產生了懷疑。

戴維•帕布羅•科恩說：「進入谷歌的頭兩年，我負責搜索質量，試圖用機器學習來改進排名。結果發現艾米特的團隊是全世界最優秀的，通過將艾米特腦海里的想法都變成了硬編碼，我們發展的更好。已經找不到比他更好的方法了。」

到2014年初，谷歌的機器學習大師們認為需要改變現狀。「我們與排名團隊展開了一系列討論。」迪恩說，「我們認為至少應該嘗試一下，看看能不能有一些收穫。」

他的團隊所設想的那個實驗，最終成為了搜索的核心：文件排名與搜索請求的匹配程度有多高(需要以用戶的點擊為衡量標準)。「我們跟他們說，可以用神經網路計算額外的分數，看看到底有沒有用。」

最終答案是肯定的。這套系統如今已經成為谷歌搜索的一部分，被稱作RankBrain。

它於2015年4月上線。谷歌還是像以往一樣，對如何改進搜索諱莫如深(究竟是與長尾理論有關？還是更好地解讀了模糊不清的搜索請求？)。

但迪恩表示，RankBrain「融入到每一個搜索請求中」，雖然未必會影響所有的排名，但的確對很多搜索請求的排名都產生了影響。

此外，它非常有效。在谷歌計算排名時，所使用的數百個「signals」中(這些signals可能包括，用戶所在的地理位置，或者頁面標題是否與搜索請求匹配)，現在RankBrain的有效性名列前三甲。

「我們成功利用機器學習改進了搜索結果，這對公司來說意義重大。」賈南德里亞說，「這引發了很多人的關注。」

華盛頓大學教授佩德羅•多明戈斯在其著作《演算法大師》中則給出了不同的說法：「檢索派與機器學習派始終都存在鬥爭。最終是機器學習獲勝。」

谷歌面臨的新挑戰是，如何讓所有工程師都能熟悉機器學習。

還有很多公司也都秉承著相同的目標，其中最引人關注的當屬Facebook，該公司與谷歌一樣著迷於機器學習和深度學習。

這一領域的畢業生變得非常搶手，而谷歌正在努力保持對畢業生的吸引力。學術圈多年以來都流傳著一個玩笑：即使不需要頂尖學生，谷歌也會招聘他們，避免人才被競爭對手搶走。(這個玩笑的錯誤之處在於，谷歌的確需要這些人才。)

「我的學生無一例外都得到了谷歌的錄用通知。」多明戈斯說。目前看來，競爭的激烈程度有增無減：就在前不久，谷歌宣布將在蘇黎世開設一個新的機器學習實驗室，有很多工作崗位有待填補。

但由於學術項目尚未培養出大量機器學習專家，培訓員工就成為了必要措施。但這並非易事，尤其是在谷歌，這樣擁有許多世界一流工程師的公司，他們一直致力於通過編程來實現魔幻般的世界。

機器學習卻需要截然不同的思維模式，大師級程序工程師之所以能有如今的成就，往往是因為他們希望完全控制一套編碼系統。

機器學習還需要掌握一些數學和統計學知識，但是很多程序員卻對此不屑一顧的，即便是那些能夠寫出超長代碼的超級黑客也不例外。

克里斯汀•羅伯森，負責培養谷歌員工和參與機器學習技術的外部人員。這需要一定的耐心。

羅伯森說：「機器學習模型並非靜態編碼，你得不停地輸入數據。我們一直在持續更新模型、學習、增加數據、調整預測方式。就像生活呼吸一樣，這是另一種工程學。」

克里斯汀

「這是一個使用千變萬化的演算法，進行實驗的學科，需要挑選那些真正適合使用場景的訓練數據。」賈南德雷亞說。儘管他也是新的搜索業務主管，但卻仍然把在谷歌內部傳播機器學習理念，作為自己工作的一部分。

「計算機科學那一部分不會消失，但需要更加關注數學和統計學，而對數十萬行代碼的關注度則需要相應地降低。」

至於谷歌所擔心的障礙，完全可以通過明智的內部培訓來解決。「歸根結底，這些模型中使用的數學原理並不那麼複雜。」迪恩說，「谷歌聘用的多數軟體工程師都可以掌握。」

為了進一步幫助不斷擴容的機器學習專家團隊，谷歌開發了一系列強大的工具，幫助他們選擇合適的演算法訓練模型，加快培訓和提煉過程。

其中最強大的是TensorFlow，它可以加速神經網路的構建過程。

TensorFlow源自谷歌大腦項目，由迪恩和他的同事拉加特•芒格(Rajat Monga)共同發明。它能把構建系統過程中，涉及的晦澀難懂的細節變成標準化的內容——尤其是在谷歌2015年11月開始將其開放給公眾后，這種做法的效果更加得以顯現。

儘管谷歌煞費苦心地，將這種行為描述為一種無私的舉動，但該公司也承認，如果新一代程序員，都能熟悉該公司內部的機器學習工具，那對谷歌未來的招聘活動將會起到莫大的幫助。

(質疑者甚至指出，谷歌的TensorFlow開源項目是為了追趕Facebook，後者已經在2015年6月公布了早期機器學習系統的深度學習模塊Torch。)

不過，TensorFlow的功能以及谷歌的開源模式，很快受到了程序員的歡迎。賈南德雷亞表示，當谷歌首次提供TensorFlow課程時，共有7.5萬人報名參加。

但谷歌仍為自己的程序員保留了很多好東西。該公司在內部擁有一套更加優秀的機器學習工具——Tensor Processing Unit(以下簡稱「TPU」)。他們雖然使用這項創新已經多年時間，但直到最近才對外宣布。

這是一種針對機器學習程序優化的處理器，就像GPU是專門針對圖形處理優化的晶元一樣。該公司的龐大數據中心裡，使用了數以千計的TPU(具體有多少恐怕只有上帝和佩奇才知道)。

通過賦予神經網路這種超級計算能力，TPU為谷歌帶來了巨大優勢。「如果沒有它，我們就無法實現RankBrain。」迪恩說。

他們也在不斷嘗試各種方式，來為工程師提供機器學習方面的培訓。這些培訓的規模各異，其中也包括為期兩天的速成班。

谷歌希望這只是初步嘗試，工程師隨後還會尋找更多資源來深入學習。「已經有數千人報名參加下一次課程。」迪恩說。

此外，一些小項目吸引了外部人才加入谷歌機器學習計劃。今年初春，谷歌啟動了Brain Residency項目，在谷歌智庫內部為有前途的外部人才提供為期一年的集訓。

協助管理該項目的羅伯森說：「我們稱之為深度學習職業生涯的搶跑。」

儘管這27名來自不同學科的機器學習學員中，可能有一些會留在谷歌，但他表示，該公司的目的是讓他們自行發展，利用自己掌握的先進知識，在世界各地傳播谷歌的機器學習技術。

因此，從某種意義上講，卡爾森•霍爾蓋特在忍者項目中學到的知識，正是谷歌為了保持世界主流AI公司地位這一計劃的核心，其中機器學習正在成為主角。

課程最開始是一個為期四周的新兵訓練營，由谷歌最專業的人工智慧項目產品負責人提供指導，教如何將機器學習融入項目進行訓練。

羅伯森說：「我們把忍者帶進會議室，格雷格•科拉多站在白板前講解LSTM(長短期記憶，一種可以打造強大神經網路的技術)。

他做著誇張的手勢，演示工作原理、利用何種數學原理、如何應用到產品中。

霍爾蓋特成功挺過了訓練，現在她正利用機器學習工具開發一項Android通訊功能，幫助谷歌員工交流。她正在調試超參數，清理輸入數據。

開弓沒有回頭箭，因為她明白AI技術就是谷歌的現在和未來，甚至可能是一切技術和東西的未來。

機器學習時代已經來臨，前景無比廣闊！