search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

揭秘谷歌內部的萬人機器學習項目—忍者計劃!

編者按:本文轉自微信公眾號「機械雞」(ID:jixieji2017),來源:wired,編譯:vivian,36氪經授權發布。

如果你想讓人工智慧融入每一個產品中,那麼你得訓練一支強大的機器學習戰隊 。

Google工程師卡爾森•霍爾蓋特(Carson Holgate)正把自己訓練成忍者。

訓練並不涉及武術,若論武功,26歲的霍爾蓋特已是高手——跆拳道黑帶二段。該訓練主要針對演算法。霍爾蓋特參加這項訓練已經好幾個星期了,這是能讓她獲得比體力更強大技能的一項訓練——機器學習,即ML。

霍爾蓋特是Google 安卓部門的工程師,也是公司本年度機器學習「忍者計劃」的十八名程序猿之一,該計劃雲集了各團隊中的優秀編程員。Ender遊戲風格是要教授他們,可以讓產品更智能的機器學習技術,哪怕這會讓他們開發的程序更難理解。

Google工程師霍爾蓋特

Christine Robson(克里斯汀•羅伯森)經常說:「想成為機器學習忍者么?」羅伯森是Google內部機器學習計劃的產品經理,也負責管理該學習項目。「

因此wired(連線雜誌)邀請Google內部的同仁來參與項目,用6個月的時間致力於機器學習,跟著老師學習,在這6個月里潛心機器學習,做一些項目,把項目啟動起來,他們會收穫頗豐。」

霍爾蓋特四年前獲得計算機科學與數學學位,並加入了Google。對她來說,這是一個掌握前沿技術的機會——利用學習演算法(學習者)和海量數據來「教會」軟體完成任務。

近期研究結果表明,神經網路甚至會超越人腦。Google決心在內部擴大精英培訓範圍,以期待讓機器學習成為一種常態。

對霍爾蓋特這樣的工程師來講,可以向高手中的高手討教,忍者計劃是他們飛躍到技術前沿的機會。她說:「這些人會開發神奇的模型,並且擁有博士學位。」言語間透露著一種難以掩飾的敬畏之情。

谷歌員工人數眾多(6萬員工中約有半數是工程師),而這只是個小項目。但這個項目卻標誌著谷歌內部認識的轉變。

儘管機器學習早已成Google的一項技術,Google還率先聘請了業內專家,但大約到了2016年,Google才開始真正痴迷於機器學習技術。

在去年底財報電話會議上,谷歌CEO桑達爾•皮查伊(Sundar Pichai)表示:「我們還會儘力將它應用於所有的產品中,包括搜索、廣告、YouTube或Play。

正如機器學習暢銷書《演算法大師》(The Master Algorithm)的作者佩德羅•多明戈斯(Pedro Domingos)所說:「機器學習是新生事物,是可以自我學習的技術。」

Google ML計劃負責人傑夫•迪恩(Jeff Dean)說:「想用這種方式解決問題的人越多,我們就會變得越好。」他估計谷歌2.5萬工程師中,只有幾千人懂得機器學習, 差不多只有10%。他希望這個比例能接近100%。他說:「如果能讓所有工程師都多少懂得一點機器學習技術,就太棒了。」

多年來,約翰•賈南德雷亞(John Gianandrea)一直都是谷歌機器學習的主力助推者,而最近他成了搜索業務主管。

但當他2010年加入公司時(伴隨著谷歌收購MetaWeb公司而加入,該公司在人群、地點和事項方面的龐大資料庫,已經作為知識圖譜融入了谷歌搜索中),他在機器學習和神經網路方面還沒有太多經驗。

2011年左右,他被神經信息處理系統大會(NIPS)的新聞震驚了。好像每年NIPS的一些團隊都會發布機器學習的成果,讓先前解決問題的努力灰飛煙滅,包括機器翻譯、語音識別或者視覺處理。

他說:「當我第一次看到它,NIPS大會依然是模糊的。但在過去三年,整個領域從學術界到工業界發展十分迅猛。我感覺去年得有6000人參加。」

谷歌大腦負責人傑夫•迪恩

傑夫•迪恩:典型的谷歌計算機科學家,現在正建立機器學習工具和並帶領團隊。這些改進的神經網路演算法,加上摩爾定律更強大的運算能力,以及像Google和Facebook海量用戶的行為數據呈指數級地增長,開啟了一個方興未艾的機器學習新時代。

賈南德雷亞(Giannandrea)加入了那些被認為是公司核心的項目。其中還有谷歌大腦(Google Brain)聯合創始人迪恩,神經網路的項目源於公司研究部門的Google X.(現簡稱為X.)。

Google對機器學習的「熊抱」,並不簡單等同於編程技術的轉變。這是對於可賦予電腦無限能力技術的一種嚴肅的承諾。其領先優勢在於圍繞受大腦支配的、複雜神經網路建立「深度學習」演算法。

谷歌大腦是一個深度學習項目。Google 於2014年1月買下(據說花了5億美元)的AI公司Deepmind,也致力於該領域研究。

Deepmind打造的AlphaGO擊敗了世界圍棋冠軍,打破了人們對於智能機器性能的固有想象,也在害怕智能機器和殺手機器人的人心中激起了憂慮的漣漪。

賈南德雷亞(Giannandrea)破除了認為「AI會殺死我們」的無知語言,他確信機器學習系統在各方面都會是革命性的,從醫療診斷到駕駛汽車。機器學習將會改變人類,但不會取代人類。

賈南德雷亞引用Google Photos為例,解釋了機器學習能力。他展示了一些博德牧羊犬的圖片。

他解釋道,通過學習,電腦能「知道」博德牧羊犬的樣子,而且還能找出其幼年、成年、長毛、以及剃毛后的圖片。當然人也可以做到這個。但是人類無法從上百萬個圖例中同時識別上萬隻狗的品種,而機器學習系統可以。

如果機器認識了一個品種,它就能用相同的技巧去識別其他9999種。賈南德雷亞說:「這就是新奇之處。對於這類些狹窄領域來說,你能在這些博學的系統里找到人們所謂的超人性能。」

當然,Google早就理解了機器學習概念,其創始人始終都對AI力量深信不疑。」機器學習已經被用於許多Google產品。(早期機器學習往往依賴更直接的統計方法)

事實上,十多年前,Google就開設了內部課程,向工程師們教授機器學習。

科恩認為,只有Goolger人自己,能教授這樣一門內部課程,因為Google的運用規模無人可以比擬(可能國防部除外)。

課程太受歡迎了,而開始變得失控了。班加羅爾辦公室的人們要熬夜到半夜才能參加。幾年後,一些Google工程師把課程製成短視頻,現場授課停止了。科恩認為這可能足以作為慕課(MOOC)的先驅。

隨後幾年,Google又有一些不同的 ML培訓,但均不是有組織地連貫進行。就在科恩2013年離開谷歌前,他說:「ML在谷歌突然就成了重中之重。」

在2012年之前,這種認識尚未形成氣候,直到賈南德雷亞決定「招募一批從事這項工作的人」,並將他們安排到單獨的辦公樓。從X部門脫離出來的谷歌大腦也加入進來。「

工程師們開發的機器學習成果,越來越多地出現在谷歌熱門產品中。

由於機器學習的關鍵領域是視覺、語音、聲音識別和翻譯,所以ML現在成為語音搜索、翻譯和Photos的主要部分並不奇怪。更驚人的是,力圖讓機器學習融入所有產品。

傑夫•迪恩說,隨著他和團隊對機器學習的理解逐步深入,他們的探索更加雄心勃勃。「

我們以前,也許只是將機器學習技術用於系統里的一些子功能,但是現在我們是要用這項技術替代整套系統,而不是給每個系統設計一個更好的機器學習模型。」

迪恩表示,如果現在讓他重新規劃谷歌的基礎架構,其中大部分都不會再通過編碼實現而是通過學習而獲得。迪恩最為人熟知的身份是Bit Table和MapReduce等顛覆性系統的聯合創造者。

谷歌大腦聯合創始人格雷格•科拉多

谷歌大腦聯合創始人格雷格•科拉多(Greg Corrado)與產品團隊一起,致力於將AI與機器學習融入軟體,從而實現先前未能預想到一些產品特徵。其中一例便是於2015年11月發布的Gmail 的智能回復(Smart Reply)。

該功能的靈感源於格雷與前Gmail工程師巴林特•米克洛斯(Bálint Miklós)的一次談話。(米克洛斯,曾在Gmail致力於研究垃圾郵件檢測和郵件分類的ML演算法。)

談話中米克洛斯提出了一些激進的建議:「如果團隊利用ML來自動生成郵件回復內容,幫助手機用戶擺脫,用手機小鍵盤迴信的難題會怎麼樣呢?

科拉多說:」這瘋狂的建議讓我大吃一驚。但後來我想,如果利用我們有預測模式的神經網路技術,這也許可行。一旦我們發現有點機會,我們就得試試。」

科拉多及其團隊與Gmail團隊保持著密切又頻繁的聯繫,谷歌成功幾率大大提升,隨著機器學習專家在產品團隊中的擴散,這種方法越來越普遍。

科拉多說:「機器學習既是科學又是藝術。就好像烹飪,其中會有化學反應,但是要做到真正有趣,你就得學會搭配現有的原料。」

傳統的AI技術在理解語言時,靠的是將語音規則嵌入系統,但在這個項目中,和現在所有的機器學習一樣,系統存儲了足夠的數據來實現自我學習,就像小孩子學習那樣。

科拉多說:「我並非是從語言學家那學會說話的,而是通過聽別人說話而學會的。」但真正令智能回復變得切實可行的,是它的成功很容易定義——他們的目的不是創造一個妖艷的虛擬斯嘉麗•約翰遜(Scarlett Johansson),而是希望它能回復真正的電子郵件。「

然而,當該團隊開始測試智能回復時,用戶卻注意到了一些怪事:它經常會推薦一些不合時宜的曖昧語言。「其中一個失敗模型確實太過可笑,科拉多說:「一旦系統變得混淆,它就會說『我愛你』。

這並不是軟體漏洞,問題出在我們讓它做的事情上。」 不管怎樣,這個程序學到了一些人類微妙的行為。「如果你感到擔憂,『我愛你』是一種很好的防禦策略。」 科拉多能幫助團隊壓制系統的熱情。

在通過該應用發送的回複信息中,有十分之一都是由機器學習系統生成的。科拉多笑著說:「這個項目能夠成功還是令我感到有些驚訝。」

智能回復,只是證明谷歌ML有效性諸多實例中的一個。

或許最終的拐點是當機器學習,成為搜索的一個必不可少的組成部分時——作為谷歌的旗艦產品,搜索幾乎為該公司貢獻了所有營收。

多年以來,由於搜索引擎對谷歌過於重要,所以始終沒有融入機器學習演算法。賈南德雷亞說:「由於搜索在公司內部佔據的份額巨大,高級管理者深度參與其中,所以很多人都懷疑我們無法真正取得進展」。

在某種程度上,那是文化阻力——必須要讓那些有極強控制欲的程序員,適應帶有禪宗韻味的機器學習模式。

長期掌管谷歌搜索業務的艾米特•辛格(Amit Singhal)曾是傳奇計算機科學家傑拉德•薩爾頓(Gerald Salton)的助手。

薩爾頓在文檔檢索方面的開創性工作,啟迪辛格幫助謝爾蓋•布林(Sergey Brin)和拉里•佩奇(Larry Page)把研究所時期編寫的代碼擴展成了可以適應當今網路時代的程序。(這使得他成為了「檢索派」的一員。)

他從二十世紀的方法中,梳理出了令人驚訝的結果,並對將機器學習系統整合到作為谷歌命脈的複雜系統中產生了懷疑。

戴維•帕布羅•科恩說:「進入谷歌的頭兩年,我負責搜索質量,試圖用機器學習來改進排名。結果發現艾米特的團隊是全世界最優秀的,通過將艾米特腦海里的想法都變成了硬編碼,我們發展的更好。已經找不到比他更好的方法了。」

到2014年初,谷歌的機器學習大師們認為需要改變現狀。「我們與排名團隊展開了一系列討論。」迪恩說,「我們認為至少應該嘗試一下,看看能不能有一些收穫。」

他的團隊所設想的那個實驗,最終成為了搜索的核心:文件排名與搜索請求的匹配程度有多高(需要以用戶的點擊為衡量標準)。「我們跟他們說,可以用神經網路計算額外的分數,看看到底有沒有用。」

最終答案是肯定的。這套系統如今已經成為谷歌搜索的一部分,被稱作RankBrain。

它於2015年4月上線。谷歌還是像以往一樣,對如何改進搜索諱莫如深(究竟是與長尾理論有關?還是更好地解讀了模糊不清的搜索請求?)。

但迪恩表示,RankBrain「融入到每一個搜索請求中」,雖然未必會影響所有的排名,但的確對很多搜索請求的排名都產生了影響。

此外,它非常有效。在谷歌計算排名時,所使用的數百個「signals」中(這些signals可能包括,用戶所在的地理位置,或者頁面標題是否與搜索請求匹配),現在RankBrain的有效性名列前三甲。

「我們成功利用機器學習改進了搜索結果,這對公司來說意義重大。」賈南德里亞說,「這引發了很多人的關注。」

華盛頓大學教授佩德羅•多明戈斯在其著作《演算法大師》中則給出了不同的說法:「檢索派與機器學習派始終都存在鬥爭。最終是機器學習獲勝。」

谷歌面臨的新挑戰是,如何讓所有工程師都能熟悉機器學習。

還有很多公司也都秉承著相同的目標,其中最引人關注的當屬Facebook,該公司與谷歌一樣著迷於機器學習和深度學習。

這一領域的畢業生變得非常搶手,而谷歌正在努力保持對畢業生的吸引力。學術圈多年以來都流傳著一個玩笑:即使不需要頂尖學生,谷歌也會招聘他們,避免人才被競爭對手搶走。(這個玩笑的錯誤之處在於,谷歌的確需要這些人才。)

「我的學生無一例外都得到了谷歌的錄用通知。」多明戈斯說。目前看來,競爭的激烈程度有增無減:就在前不久,谷歌宣布將在蘇黎世開設一個新的機器學習實驗室,有很多工作崗位有待填補。

但由於學術項目尚未培養出大量機器學習專家,培訓員工就成為了必要措施。但這並非易事,尤其是在谷歌,這樣擁有許多世界一流工程師的公司,他們一直致力於通過編程來實現魔幻般的世界。

機器學習卻需要截然不同的思維模式,大師級程序工程師之所以能有如今的成就,往往是因為他們希望完全控制一套編碼系統。

機器學習還需要掌握一些數學和統計學知識,但是很多程序員卻對此不屑一顧的,即便是那些能夠寫出超長代碼的超級黑客也不例外。

克里斯汀•羅伯森,負責培養谷歌員工和參與機器學習技術的外部人員。這需要一定的耐心。

羅伯森說:「機器學習模型並非靜態編碼,你得不停地輸入數據。我們一直在持續更新模型、學習、增加數據、調整預測方式。就像生活呼吸一樣,這是另一種工程學。」

克里斯汀

「這是一個使用千變萬化的演算法,進行實驗的學科,需要挑選那些真正適合使用場景的訓練數據。」賈南德雷亞說。儘管他也是新的搜索業務主管,但卻仍然把在谷歌內部傳播機器學習理念,作為自己工作的一部分。

「計算機科學那一部分不會消失,但需要更加關注數學和統計學,而對數十萬行代碼的關注度則需要相應地降低。」

至於谷歌所擔心的障礙,完全可以通過明智的內部培訓來解決。「歸根結底,這些模型中使用的數學原理並不那麼複雜。」迪恩說,「谷歌聘用的多數軟體工程師都可以掌握。」

為了進一步幫助不斷擴容的機器學習專家團隊,谷歌開發了一系列強大的工具,幫助他們選擇合適的演算法訓練模型,加快培訓和提煉過程。

其中最強大的是TensorFlow,它可以加速神經網路的構建過程。

TensorFlow源自谷歌大腦項目,由迪恩和他的同事拉加特•芒格(Rajat Monga)共同發明。它能把構建系統過程中,涉及的晦澀難懂的細節變成標準化的內容——尤其是在谷歌2015年11月開始將其開放給公眾后,這種做法的效果更加得以顯現。

儘管谷歌煞費苦心地,將這種行為描述為一種無私的舉動,但該公司也承認,如果新一代程序員,都能熟悉該公司內部的機器學習工具,那對谷歌未來的招聘活動將會起到莫大的幫助。

(質疑者甚至指出,谷歌的TensorFlow開源項目是為了追趕Facebook,後者已經在2015年6月公布了早期機器學習系統的深度學習模塊Torch。)

不過,TensorFlow的功能以及谷歌的開源模式,很快受到了程序員的歡迎。賈南德雷亞表示,當谷歌首次提供TensorFlow課程時,共有7.5萬人報名參加。

但谷歌仍為自己的程序員保留了很多好東西。該公司在內部擁有一套更加優秀的機器學習工具——Tensor Processing Unit(以下簡稱「TPU」)。他們雖然使用這項創新已經多年時間,但直到最近才對外宣布。

這是一種針對機器學習程序優化的處理器,就像GPU是專門針對圖形處理優化的晶元一樣。該公司的龐大數據中心裡,使用了數以千計的TPU(具體有多少恐怕只有上帝和佩奇才知道)。

通過賦予神經網路這種超級計算能力,TPU為谷歌帶來了巨大優勢。「如果沒有它,我們就無法實現RankBrain。」迪恩說。

他們也在不斷嘗試各種方式,來為工程師提供機器學習方面的培訓。這些培訓的規模各異,其中也包括為期兩天的速成班。

谷歌希望這只是初步嘗試,工程師隨後還會尋找更多資源來深入學習。「已經有數千人報名參加下一次課程。」迪恩說。

此外,一些小項目吸引了外部人才加入谷歌機器學習計劃。今年初春,谷歌啟動了Brain Residency項目,在谷歌智庫內部為有前途的外部人才提供為期一年的集訓。

協助管理該項目的羅伯森說:「我們稱之為深度學習職業生涯的搶跑。」

儘管這27名來自不同學科的機器學習學員中,可能有一些會留在谷歌,但他表示,該公司的目的是讓他們自行發展,利用自己掌握的先進知識,在世界各地傳播谷歌的機器學習技術。

因此,從某種意義上講,卡爾森•霍爾蓋特在忍者項目中學到的知識,正是谷歌為了保持世界主流AI公司地位這一計劃的核心,其中機器學習正在成為主角。

課程最開始是一個為期四周的新兵訓練營,由谷歌最專業的人工智慧項目產品負責人提供指導,教如何將機器學習融入項目進行訓練。

羅伯森說:「我們把忍者帶進會議室,格雷格•科拉多站在白板前講解LSTM(長短期記憶,一種可以打造強大神經網路的技術)。

他做著誇張的手勢,演示工作原理、利用何種數學原理、如何應用到產品中。

霍爾蓋特成功挺過了訓練,現在她正利用機器學習工具開發一項Android通訊功能,幫助谷歌員工交流。她正在調試超參數,清理輸入數據。

開弓沒有回頭箭,因為她明白AI技術就是谷歌的現在和未來,甚至可能是一切技術和東西的未來。

機器學習時代已經來臨,前景無比廣闊!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦