search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

谷歌人工智慧背後的大腦

本文由 伯樂在線 - 鄭芸 翻譯,黃利民 校稿。未經許可,禁止轉載!

英文出處:Peter High。歡迎加入翻譯組

【伯樂在線導讀】:1996 年 Jeff Dean 在華盛頓大學獲得計算機科學博士學位,三年後便加入了谷歌。谷歌在 1998 年成立,他是公司早期員工之一。Jeff Dean 在谷歌公司的成長過程中扮演了重要角色,設計並實現了支撐谷歌大部分產品的分散式計算基礎架構。2016 年 8 月 Forbes 的 Peter High 對 Jeff Dean 做了一次採訪,伯樂在線編譯如下。

谷歌 CEO Sundar Pichai 曾說谷歌將主要成為一家人工智慧公司,作為系統和基礎架構小組的資深前輩,Dean 和他的團隊對於實現這個計劃來說至關重要。這次的採訪所涵蓋的內容比較廣泛,Dean 描述了他在谷歌扮演的多樣角色,公司的 AI 願景以及他對於谷歌即使已成為科技巨頭但仍保持著創業精神的看法,同時還包括其他各種各樣的話題。

Peter High:你好,Jeff Dean,你參與了谷歌大部分的歷史,在 1999 年就加入了公司。請簡單描述下這十幾年來你在公司的角色是如何演變的。

Jeff Dean:我剛加入時公司真的很小,我們一起擠在帕羅奧圖市大學路的一間小辦公室里。我做的第一件最主要的事情就是創建我們第一個廣告系統。之後,我花費了4到5年的時間在用於每一次查詢的抓取、索引和搜索系統。之後,我主要與同事 Sanjay Ghemawat 等人創建用於存儲和處理大規模數據設置的軟體基礎架構,還做一些像搜索指數或者處理衛星圖像這樣的事情。最近,我致力於機器學習系統。

High:你在公司的許可權有多大,你要做的工作範圍有多廣?我猜想你沒有「普通的一天」。你如何與公司內部或者外部的人員互動?在當前的工作上,你如何把時間分配在這些不同的事情呢?

Dean: 真不是典型的工作日 。在最初的 14 到15 年,我沒有接受任何管理性的職位,這給了我更多自由時間去集中精力寫代碼。在最近幾年,我接受了一些機器學習方面的管理職位,這對我來說很有趣,也是新的學習經歷。因為在公司歷史上我從事過多種工作,我會保持跟進這些不同的項目,我收到很多郵件。我花費相當一部分時間去處理郵件,通過瀏覽郵件來跟進項目的最新進展。在任何特定的時間,我手上都有幾個技術性項目,我努力分配出時間在這些項目上面,同時還穿插著各種會議和設計審查各種事情。

High:儘管谷歌已經取得了巨大的發展,它仍然是保持創新的典範。它保持著壯志雄心和開拓創新,彷彿它只是一個很小的組織一般。但是它已有了資源——不管是人才上還是資金上——儼然已是科技界的龐然大物。這個組織是如何對抗停滯和官僚主義,從而保持不拘於自身規模的更強的靈活性呢?

Dean: 自從我加入公司以來,我們基本就經歷了公司的不斷成長。在早期,我們新招聘的員工每年都會增長一倍。按新員工佔總員工的百分比算,我們後來降低了這個比例,但是在絕對數量上,我們基本仍保持一個大的增長,現在大約每年招聘 10% 到 20% 的新員工。公司規模每擴大一倍,我們就被迫使去重新思考公司已經完成的這些事情。哪些過去適用於 X 倍規模,但卻不再適用於 2X 倍規模,我們必須去努力使我們的模式、工程、組織結構、團隊動力等適應新的規模。

我認為有助於我們成長的一個舉動是,把與谷歌其他業務在一定程度相分離的部分獨立出來,成立不同的部門。創建為偏遠地區覆蓋網路的高海拔氣球,與服務搜索查詢有相對適度的互動。大體上把各種不同的活躍的項目獨立開來,我們能獲取更好的規模和效率,這些項目是我們的核心業務,但是彼此不需要太多的溝通交流。

High:我理解 Google/Alphabet 各部門的分離,是出於想要維持一定的靈活性,和劃分開不同的活動的邏輯。這個評價是否公允?

Dean: 是的。我認為這使得 Alphabet 下面一些其他實體可以更獨立地操作。關於規模的成倍增長,有一個有趣的轉變是:以前我們每個人都是在同一個大樓,現在每個人都不在同一個大樓。

另一個轉變,以前員工只在山景城,後來在瑞士蘇黎世、紐約、日本東京和西雅圖都設有辦事處。我們一度有 5 個辦事處,都相當大而完善。然後在短短几年內,我們的辦事處從 5 個擴張到 35 個,因為我們覺得在世界各地設有許多辦事處很好,在哪裡可以找到有才華的人才,就在他們身邊設立一個辦事處。這促使我們不得不重新思考,如何去組織我們工程師的諸多成果。如果你有一個小的辦公室,他們可能不應該做一百件事;他們應該做少數幾件事,並專心把他們做好。一些小辦公室採取的模式是看山景城的人在做什麼,他們看到他們在做一百件事,所以他們認為他們也應該做一百件事。我們慢慢摸索到有一種更好的方式來充分發揮這些散布在各地的工程辦事處的人的能力。

High:谷歌 CEO Sundar Pichai 曾說,從長遠來看,設備裝置將會消失,計算將從移動設備優先向人工智慧優先進化。你如何看待谷歌對於人工智慧優先的願景?

Dean:我認為我們已經從桌面計算進入到了移動計算,這時候每個人都有一個計算設備隨身隨時攜帶。隨著設備不斷地縮小,語音識別和其他可用的 UI 變得實際可用,這將改變我們與計算設備交流的方式。他們將會退居到幕後或者只是周邊,允許我們與他們對話就像我們與其他可信賴的夥伴對話一樣。他們將會幫助我們獲取我們需要的信息和完成各種任務。我認為這是推動機器學習的一個主要目標:在提供諮詢方面讓計算機提供其他人類夥伴能夠提供的智慧,期待必要的時候有更多的信息和更多這類的事情。我認為在下個 5 到 10 年,將會是一個激動人心的時期。

High:隨著各種進步和各種關於 AI 的目標的實現,看起來很多人不再談論那些已經實現的真正的 AI。那就是,AI 在被談論時似乎總是帶有未來色彩。你怎麼定義 AI 的邊界?

Dean:我認為真正的通用人工智慧將是一個系統,能夠執行人類水平的推理,理解和完成複雜的任務。我們顯然還沒有達到這個水平,但你說得很對,確實有了很多進展。5 年前,給計算機一張圖片,它還不能生成一個人類水平的句子來描述這個圖片。現在,計算機生成的句子會說,「這張圖片描述的是一個男人拿著網球拍在網球場上。」同時,一個人可能會說,「這是一張網球運動員發球的圖片。」人的描述更為微妙,但事實上,現在計算機能夠生成看起來幾乎是人類寫的標題,這是一個相當大的進步。這只是過去的 5~6 年間已實現的眾多更具智慧的機器學習模型中的其中一個成就。隨著他們應用更大的數據和計算,結果會更好。

High:你認為我們距離通用人工智慧還有多遠?

Dean:不同的問法有不同的回答,這個問題有點廣泛。我只敢給出一個寬泛的猜測。大約就是 15 到 50 年,也有可能比 15 年更早。

High:正如你所提到的,語言是關鍵,許多谷歌的人工智慧都圍繞著語言、閱讀和理解網頁上的一切或從事智能對話和理解背景。你能談談能使得機器更好的解釋事物的路徑嗎?你預見的事情,以及你從事的事情正朝什麼方向進展,如果還沒完全達到全面的通用人工智慧的話?

Dean:我認為有趣的事之一是信息檢索領域,這基本上就是谷歌早期做的工作。傳統上,它並不試圖真正理解用戶在查詢時需要什麼。它更多的是關於查找包含或者接近這個單詞的文檔。有趣的是,在過去的四五年,我們已經開始發展出這樣一種技術,可以更好地理解「car」這個單詞的本質。知道 「car」 和 「cars」、 「automobile」、「passenger car」、「pickup truck」 在某種意義上都是相關聯的,能夠以更順暢的方式匹配出文章,在許多語言理解任務上可以得出更好的結果。

我們能理解的不僅僅是單詞,我們的理解還能達到這個水平,即理解在闡釋上不同但意思相同的兩個句子。這開始促使我們的語言理解達到這樣一個層次:以更機器學習的方式理解更長得多的序列文本。

接下來幾年我們有個目標,希望能夠採集數以百計數以千計的文件,然後對這些文件內容展開一個對話。也許系統會自動總結這些文件,提問或者回答關於文件內容的問題。我認為這種水平的理解,是我們將真正去實現的高水平的語言理解。

High:似乎你和你們團隊的成果已經開始應用在谷歌的各種產品當中:谷歌助手,谷歌新的對話虛擬助手;與 Amazon Echo 相競爭的 Google Home;以及為谷歌服務提供對話界面的信息 APP——Allo。你怎麼看待谷歌最近的產品和服務?

Dean:我目前領導的研究小組被稱為谷歌大腦(Google Brain)。我們專註於建立大規模計算系統來實現機器學習,和做前沿的機器學習研究。只有機器學習技能或只有大規模計算技能的人才,往往不能完全發揮他們的才能,而同時擁有這兩種不同技能的人才在一起工作,合作解決問題,通常會產生出意義重大的進步。我想這就是我們團隊在這兩個領域,在關於我們在這些難題上投入達到世界先進水平的計算力,以及我們怎樣訓練大有力的模型在我們關心的問題上都取得很大成功的原因之一。

通過理解我們的一些研究成果什麼時候可以用於提升谷歌現有產品上,我們以往在長期研究上是相當機會主義的。我們與產品團隊一起合作說,「嘿,我們認為這個機器學習研究將會非常有用。」有時這是需要放手去做的事情。其他時候我們小組和產品團隊深度合作,讓研究結果變成真實產品。

我們小組的研究人員曾發明了一種叫「從序列到序列學習(sequence-to-sequence learning)」的模型。這其中的理念是,你使用一個輸入序列來預測某些輸出結果序列。聽起來有點抽象,但可以映射到許多你想要解決的真正問題。他們發表的研究論文最初是在語言翻譯的背景下。輸入序列可以是一個句子中的英文單詞,一次一個。該模型被訓練去輸出對應的法國單詞來創建一個法語句子,意思與輸入的英語句子相同。這不同於其他機器翻譯系統,別的機器翻譯系統往往是問題的代碼和子件——也許使用了機器學習或統計模型,然後將它拼接在一起。相比與那個方法,這個系統是一個完全的機器學習,端到端系統,在這個系統中你用語言不同但表達的意思相同的成對的句子作為數據來訓練,然後系統就能學會將一種語言翻譯另一種語言。

在其他語境中,這種通用模型非常有用。Gmail 團隊採用了它,把它作為我們稱之為「智能回復」特徵的基礎,其中輸入序列是一封剛收到的郵件,而通過序列是根據剛收到郵件的語境而做出的對回復內容的預測。例如,你也許會收到一封這樣的郵件,「嘿,我們想邀請你參加感恩節晚宴。如果能來請回復。」回復通常來說可能是這樣。「是的,我們很想去。我們要帶些什麼?」或者「不好意思,我們去不了,」或者與此語境下相關的類似的回復。它是同一個基本模型,只是用了不同的數據集來訓練。

High:潛在的研究應用以及 Google Brain 做出的突破,如何部署在谷歌傳統的產品服務中?

Dean:我們已經開始將這個流程變得規範一點。五年前,當我們最初創建機器學習研究團隊去研究海量計算和深度神經網路如何解決問題時,公司里還沒有太多人使用這些方法。我們找到了一些感覺領域,在這些領域我們感覺他們是有效地,包括語音識別系統,所以我們與語音識別團隊密切協作,將深度神經網路配置為語音識別系統的一部分,並且在識別準確率上取得了實質性進展。然後我們和各種計算機視覺相關團隊合作,比如圖片搜索和街景服務團隊,從而訓練模型在給定的各種圖片的原始像素下做有趣的事情,比如從圖片中提取文本或者理解圖片內容是什麼(美洲豹、垃圾車等等)。

有趣的是,隨著時間的推移,更多的團隊開始採用這些方法,因為他們總會聽說另一個團隊正在嘗試新的東西並取得了好成果。我們會幫助這樣這些團隊建立聯繫,或者提供一些關於在特定問題情境中如何使用這些方法的基本建議。我們後來把這個流程做得更規範了一些,所以現在我們有一個專門的團隊做外展服務。這是為正在產品中嘗試使用這些機器學習模型的團隊建立聯繫的第一點。他們會描述他們的問題,然後外展服務團隊會告訴他們:噢,聽起來很像另外 XX 團隊的問題,這個解決方案很有效果,試試並記得給我們反饋。使用這些方法的團隊在數量上有非常大的增長,在 2011 年、2012 年只有幾個團隊,現在已經發展到 200 多個,並且可能已有幾千人在使用我們團隊創建的軟體訓練這種模型。

High:你同時也是 Google 開源機器學習庫 TensorFlow 的主要創始人。 和其他幾個大公司一樣,谷歌專註於開發開源 AI 技術。您對使用開源人工智慧技術的理論基礎及優勢有什麼看法?

Dean: 現在有許多表達不同機器學習演算法的不同框架,並且都還是開源項目 。有更多選擇,我認為挺好的,但如果我們可以開發出能獲得機器學習社區支持,大家一起來改進的東西,這樣也很好。這些框架都在嘗試著相似的工作,所以如果我們能將它們放在一起形成一個庫供大家採用和使用,這樣是很好的。這樣做,可以更為簡單地表達機器學習想法。傳統方式是把探索出來的想法寫成論文,做一些實驗,而且他們通常不會公開代碼,不允許其他人再做這些實驗。作為一個研究者,你正在看某人的論文,並嘗試將你自己的技術與其對比。通常,因為論文中沒有代碼,你只能猜測那些代碼會是什麼。作者並不是有意省去了大量細節。論文作者也許會使用「我們使用了低的學習率」一樣的描述,然而你關心的是他們使用了 .0001 的學習率,在一萬步后降低到 .0005。建立一個人們可以用代碼表達機器學習理念,並把這些研究模型和想法以可執行的方式發布出來的軟體架構,使得機器學習理念可以在社區中快速傳播。

對於我們自己而言,它也方便了我們與谷歌外部人員的合作。通常我們暑期會招聘實習生,過去他們大部分已經完成了實習期的項目,但是他們仍在寫這方面的論文。然後他們離開了谷歌,再也接觸不到谷歌的電腦,所以他們很難繼續完成論文最後的工作,運行更多的實驗。現在他們使用開源或者 TensorFlow 就可以很快做到,甚至可以找到平台上的人來幫忙。我們正在教谷歌的工程師學習通用機器學習,並把 TensorFlow 作為基本的教學工具。

High:谷歌的優勢之一是它擁有大量 AI 和機器學習領域的人才。谷歌研究主管Peter Norvig 估測,全球超過 5% 的機器學習頂尖專家都在谷歌工作。谷歌如何做到對這些天才有這麼大的吸引力?鑒於這涉及到多個不同的學科的交叉——計算機科學、工程、神經科學、生物學、數學,你怎麼把這些人才安排到最適合他們的位置?

Dean: 因為我們涉足的領域很多,所以我們需要擁有多種專業知識的人。我發現,當你把具有不同專業知識的人聚在一起去解決問題時,你會發現最終得到結果比那些只具備一種專業知識的一大群人一起做出來的要好。總的來說,你最終做的事情,沒有人可以單獨做出來。我們的機器學習團隊是一個很好的例子。我們有像我一樣在建設大規模計算系統方面有很多經驗的人,然後我們也有世界級的機器學習研究人員。把這些類型的人結合起來是一個非常強大的團隊。機器學習正在接觸很多不同的領域。我們正在做的工作涉及醫療、機器人和計算機科學里的一大堆領域,這非常的好。我們團隊有數位神經科學專家。

很快我們將開始一個有趣的實驗,它被稱為「谷歌大腦培訓項目」。這些人在我們的團隊工作一年基本上是學習怎麼去做機器學習研究。我們有大量的申請者,但是最後這個項目只會留下 28 個人。他們來自不同的背景,處於職業生涯的不同階段。有的剛剛完成大學部學業,有些已經讀完博士,有的剛讀完博士后,有些已經在不同的領域有過工作經歷。他們有不同的學科背景,包括計算機科學、統計學、數學、生物學、物理學,從解決問題的角度來說,我認為這是一個極好的結合。

High:我很好奇,有很多不以技術為中心的傳統公司也會使用人工智慧和機器學習,你會在多大程度這些傳統公司交流與合作?你如何看待採用創新曲線(市場採用新型或創新產品的速度)?顯然這涉及了不同公司甚至是不同行業,但也有一些領先的傳統行業開始利用人工智慧,包括醫療、金融服務公司、有大量非結構化數據需要處理的公司。你是否曾經有機會與傳統行業的公司互動或者談論他們在更加傳統的環境中走向人工智慧的過程?

Dean:其他行業的大部分公司在把機器學習應用到業務方面,可能不如谷歌或者其他高科技公司那樣深遠。我認為隨著時間推移,最終大部分公司都會越來越多地應用機器學習,因為機器學習會給他們的業務帶來很大的能量和轉型。在與一些大的醫療組織建立合作關係上,我們有過多次討論,看看機器學習可以為這個領域解決什麼樣的問題。我們最近開發了一個機器學習雲產品,可以讓人們在谷歌雲基礎設施上運行機器學習演算法。有很多公司對於他們怎麼在起業務背景下使用這個產品感興趣。

我認為要實現這個轉變的途徑之一,要經歷幾個層次。在這些層次中你能使用 AI 技術和機器學習方法來解決問題。在一些領域,了解圖像中有什麼東西,對很多行業來說是普遍有用的。谷歌和其他公司正在提供使用簡便的介面,你不需要知道什麼機器學習的知識就可以使用這個介面。你可以只給出一個圖像,然後說「跟我說說這個圖像」,軟體工程即使沒有機器學習方面的技能就可以使用,他們得到的信息會像是「照片上是一個體育場,人們在那裡打棒球,而且圖像中還有一堆文字,文字內容是……」即使沒有應用機器學習,這也是非常有用的。

然後將已開發好的模型用公司的數據再次訓練得到一個定製的方案,而不需要做核心機器學習研究去開發一個全新模型。有一個好例子,我們已經應用序列到序列的成果,解決了谷歌六七個不同的難題。另一個好例子,有一個模型可以採集圖像然後找出圖像中有趣的部分。這個通用模型的一個使用案例是,檢測街景圖片中的文本信息。你想要能去讀取所有的文本,但是首先,你必須能夠在店面、路標等上面找到它。這個通用模型同樣適用於在醫療設置中,當你診斷糖尿病患者視網膜病變時,你給出一張視網膜的掃描圖片,你想要找到這個圖片中的病變的指標。這是相同的模型結構,只是換了不同的數據。在這裡不是找出街景圖片的文本,而是指出視網膜掃描圖像中的病變部位。我相信這個通用方法可以很好地解決各類型的難題。

High:2016 年 3 月,你在韓國現場目睹了 AlphaGo 的首場勝利。親眼見證這個成果的感受如何?鑒於人工智慧已經更廣泛地影響到了我們的日常生活,你如何看待這種世界博覽會般的展示,以及人工智慧對激發人類想象力和好奇心的廣泛影響?

Dean:我在現場觀看了首場比賽,賽程的一半時間我都留在韓國。那種激動的心情真的難以言說。有 3 億人現場觀看了首場比賽直播,他們用了 8 個電視頻道,每場都有不同的評論員報道這個比賽。韓國也處於同樣的興奮狀態。真是很精彩。

我認為這種高調的事件,展示了與人工智慧相關的各種難題取得了重大意義的進步。我需要指出的是,AlphaGo的大部分工作都是我們倫敦的 DeepMind 團隊完成。在項目開始的階段我們與他們有過一些合作,他們還使用了我們的機器學習軟體來訓練一些 AlphaGo 模型。他們還使用了張量處理單元(Tensor Processing Unit)——這是一種穀歌設計的定製機器學習硬體晶元,在某種意義上來說這是 AlphaGo 的比賽中的額外的「秘密武器」。人們注意到計算機現在擁有了四五前不曾有的能力,這使我們感到興奮。在全球範圍內,計算機科學系機器學習課程的招生量已經猛增。我認為這個意義重大。受益的不僅僅是計算機科學,還包括公司和業界。有越多聰明的人思考這類問題,我們的社會就會更進步。

High:許多科技界的知名人士比如埃隆·馬斯克、比爾·蓋茨 和 斯蒂芬·霍金都對人工智慧的安全問題發出過警告。你怎麼看到這方面的風險?當你對人工智慧的思考不斷進步成熟時,你如何把這方面的風險也考慮進去?

Dean:我覺得我並不太贊同你提到的那些人所擔憂的末日場景。我覺得那不夠貼近現實。我確實認為 AI 會帶來社會變革,首先最大的問題就是自動化比較難進行,我們有大量的勞動力會參與到其中。有些事情會被自動化代替,儘管不是完全代替。電腦會以多種方式給予我們幫助,比如閱讀醫學圖像數據,這是一個狹窄但是高技能的領域。我認為電腦不久之後就會相當擅長這方面的工作,更別提自動駕駛了。我不確定政府都在認真思考這些技術的一些影響,以及這對社會總的來說意味著什麼。我認為這才是急切需要擔憂的。確保決策者仔細考慮這些類型的問題,將是一個非常重要的一步。

打賞支持我翻譯更多好文章,謝謝!

任選一種支付方式



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦