search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

谷歌IO李飛飛 我要發明AI 殺手級應用

【新智元導讀】北京時間今天凌晨,谷歌的 I/O 大會第三天的論壇《人工智慧和機器學習的過去、現在和未來》由谷歌雲負責人 Diane Greene 做主持,嘉賓包括剛加入谷歌不久,負責谷歌雲 AI 團隊的李飛飛教授;谷歌的 Francoise Beaufays;谷歌 Fernanda Viegas,以及 Coursera 聯合創始人、現 Alphabet 旗下號稱要「治癒衰老」的 Calio 部門首席計算家 Daphne Koller。幾位語音、視覺的專家,她們從各自的角度,結合實際例子,分析了 AI 和 ML 的變化及趨勢。

視頻長度近 1 小時,谷歌 5 位 AI 女性代表齊聚,共論 AI 和 ML 的過去、現在和未來。建議在 WiFi 環境下觀看哦~

Diane Greene:大家好,我是 Diane Greene,我負責谷歌雲這一強大的部門,是 Alphabet 董事會成員之一。今天非常榮幸能夠在這裡主持這場論壇,嘉賓都是來自人工智慧(AI)和機器學習(ML)領域的頂級研究人員和專家。我們的論壇內容構成將是討論 AI 和 ML 的過去、現在和未來,以每位的個人對整個行業及個人職業生涯的反思作為結尾。

在討論開始前,我先快速介紹一下論壇的嘉賓。從左往右,首先是谷歌首席研究員、谷歌語音識別項目組負責人 Françoise Beaufays,她加入谷歌已有 12 年,我們每個人都會用到她開發的產品。

其次是谷歌雲首席科學家李飛飛,她致力於將 AI 和 ML 推廣到整個谷歌以及世界;加入谷歌前,李飛飛是斯坦福 AI 實驗室主任,開創了 ImageNet,後者對如今 AI 中深度學習的發展做出巨大貢獻,她在 STEM 教學中表現優異,是 AI For All 的創始人。

接下來是谷歌高級主任研究員 Fernanda Viegas,她也是一位計算設計師(computational designer),關注整個信息可視化方面的研究,也是谷歌大腦「大數據可視化團」隊的聯合領導人;關於 Fernanda 最著名的是她的一些基於信息可視化的作品,被紐約現代藝術博物館(MoMa)收藏為永久展出的一部分。

最後是 Daphne Koller,她現在 Alphabet 旗下致力於延長人類壽命和讓生活更健康的部門 Calico 實驗室工作,擔任首席計算管;在此之前,她在斯坦福工作了 18 年,是當時斯坦福 AI 團隊的聯合負責人;Koller 還與人聯合創辦了 Coursera,也是目前最大的開源 MOOC 在線教育平台。你們知道 Daphne 2012 年入選《時代雜誌》「最有影響力的100 人」榜單,憑藉優異的計算機能力,Koller 在運營首屆 ACM 計算獎期間贏得了麥克阿瑟獎學金;此外,她還是美國科學院和工程院的成員,這些都是說明她能力卓越的一些證明。

從機器學習、計算機視覺、語音識別、數據可視化 4 大方面看深度學習的變遷及其影響

Diane Greene:從歷史的角度開始,Daphne 你作為 ML 領域最著名和多產的作者之一,能談談你對我們現在轉變到深度學習的現象怎麼看嗎?

Daphne Koller:我認為深度學習革命是真正令人激動的強大作用,解決了現實世界中很多時候很多方面的問題。但是,這場革命源於很早之前的 ML 研究,是這些研究為深度學習提供了基礎。大概在過去 10 到 15 年之間,我們努力研發了很多更為手工製作(hand crafted)的模型,這些模型需要更多的先驗知識,你必須想清楚具體細節以及模型與領域之間的關係,因為當你沒有很多數據的時候,你必須更多依靠人類的直覺去解構模型。

隨著文本、圖像等領域的數據越來越多,我們開始用大量的數據去替代這種直覺,我認為在這方面需要做一些平衡。很多 10 到 15 年前研發的方法,比如優化演算法,到如今依然至關重要,也是深度學習之所以取得成功的關鍵因素之一。現在我們大概認為大數據能夠解決一切問題,但某些領域仍然只有中等乃至小型的數據體系,因此,我認為在人類對領域知識方面的直覺和不斷湧現的數據之間必須取得平衡,模型要將結合這兩部分的最佳優勢。

Diane Greene:飛飛,你負責斯坦福的人工智慧實驗室,你領導的 ImageNet 項目又如此成功。現在你在探索如何將 AI 帶入世界的每家公司。你對此有什麼看法呢?

李飛飛:謝謝 Diane。首先我想簡單回顧一下,在人類文明進程中,AI 實際上是一門非常年輕的科學,只有 60 年的歷史。但在我看來,從人類文明誕生之初我們就一直在追尋智能究竟是什麼,想知道靈感是從何而來。所以,在 60 年前幾期開始做簡單計算的時候,像阿蘭·圖靈這樣的思想家就已經對全人類提出了這個問題——「機器能夠思考嗎?機器也具有智能嗎?」同樣,在大約 60 年前,像馬文·明斯基、約翰·麥肯錫這樣的計算機科學宗師,還有很多人聚在一起,思考這個問題。

如今掀起熱潮的 AI,與 AI 的眾多奠基人從技術上看是非常不同的。但是,核心思想都是讓機器能夠思考,能與人交流。AI 經歷了幾次起起伏伏,從最初的命令邏輯到專家系統,再到早期機器學習浪潮,最後到今天的深度學習革命,我認為過去 60 年 AI 是處於一種「in virtual」的狀態,在實驗室里。在這 60 年的過程中,我們打下了基礎,發展了對 AI 而言至關重要的領域,比如機器人技術、計算機視覺、自然語言處理、語音處理等等。同時,我們也衡量對數據的理解,發明很多工具,因此在 2010 年左右,統計機器學習工具的成熟和互聯網、感測器帶來的大數據有幸融合在一起,再加上摩爾定律讓我們擁有了更好的硬體設備,也即強大的計算力,這三者合在一起,共同支撐起了如今 AI 的發展,也就是我所謂的「invivo AI」,對現實世界產生實際影響。如今由 AI 和 ML 給谷歌雲帶來的轉變,我認為這才是 AI 的歷史時刻,AI 將對更多產業造成實質上的影響。但是,我想強調這一切都還只是開始。

我們目前所發明的方法,目前探知的 AI 好比大海中的幾滴水,我們不能過分誇大。不過,我認為前面有許許多多令人振奮的工作在等待著我們。

Diane Greene:我非常同意你的觀點。現在很多公司都在用 AI 去做一些以前我們完全無法想象的事情,而且涉及的範圍還很廣,AI 似乎隨處可見,不僅僅在雲里。

如果我們看到問題的更深一些的層面,Françoise 你是做語音識別的。現在語音識別可以說是最普遍的 AI 應用之一。你能分享你對這一轉變的看法嗎?

Françoise Beaufays:我 12 年前加入谷歌時,我們一幫人有個夢想,就是用語音識別做一些既有用又好玩的東西。語音識別實際上很早就有了,但我們想做一些與眾不同的東西,這在當時很困難,因為那時候的語音數據沒有今天這麼多。於是,我們從很小的產品開始做起,不能識別太複雜的東西。我們不斷嘗試去拓展,但又不能往前推進太多,畢竟我們需要作出讓人想用的成功的產品,然後開始收集數據,構建模型,再不斷迭代。

我不知道你們還記不記得一款叫「Google 411」的產品,當時只是一個很簡單的電話應用,你撥打一個號碼,系統會告訴你這是哪個州哪個城市,然後你說你對什麼東西感興趣,系統會問你具體對什麼公司(business)感興趣,你告訴系統一個具體的名字,它就會自動將那個州那個城市的那家公司跟你連接起來。

要知道那是 12 年前,沒有 iPhone 也沒有安卓手機,只有翻蓋機,能做的事情非常有限。但好在谷歌領導層對這一技術針對是非常有遠見,很積極地鼓勵我們研發,我們才得以繼續探索。

後來,iPhone 和安卓手機的出現讓一切都變了樣。很顯然,視覺反饋成為最主要的,於是我們開始設想其他的應用,最後想到的就是語音搜索。

所以,谷歌語音搜索是那個時候起,才真正開始有專人全心投入。隨著手機上的麥克風位置不斷變化,能用聲音做的事情也變得越來越多。最近,我們開始研發將手機上的語音識別轉移到 Google Home 這樣的家居設備上,因為人們對使用語音完成任務的需求越來越多。這可以說是打開了整個語音助理行業的入口。能用語音完成的任務越來越多,你可以用自然語言與機器交互,不再需要很麻煩的鍵盤輸入。

Diane Greene:謝謝。Fernanda,你之前提到想要普及將數據可視化,這跟數據之間有著密切的關聯。如何實現你的目標?你是怎麼看數據可視化分析的?

Fernanda Viegas:我 10 多年前開始從事數據可視化,當時條件要艱苦困難得多,無論是機器的性能,還是可以獲得的公開數據,都不能與現在同日而語。但如今,人們似乎處處都通過數據可視化的方法溝通交流,我看見新聞業中使用數據可視化真的很開心,當說起很複雜的與統計學相關的故事時,我們總是開玩笑說,數據可視化就像是統計學「入門毒品」(gateway drug),就好像你正在做統計學但完全沒有意識到你在做統計學一樣,因為我們人類實在是太擅長在通過視覺識別模式、看出重點等等。

所以數據可視化的方法漸漸得到推廣普及,而且我認為我們在將數據可視化的能力和工具方面也不斷提升。例如 AI 在數據可視化的發展當中就起到了飛躍性的作用,像 Hinton 和他的學生在可視化方面取得的巨大成功。

這讓我明白了高維空間系統中的數據對人類而言很難理解,因此,數據可視化是試圖去理解在這些系統里發生了什麼的一種方法。例如 Hinton 發明的技術能夠讓我們明白數據是怎麼聚集在一起的,不同的概念之間有什麼區別,這些系統是如何吸收數據的。這一點我認為是十分重要的進步。

所以,我覺得我們正處於一個開始,可視化能夠幫助我們更好地理解 AI。

李飛飛:計算機視覺的下一個突破在「Vision + X」

Diane Greene:接下來我們的話題會轉向技術層面。Françoise 你先說一下在語音識別中最大的技術轉變是什麼嗎?目前最大的技術挑戰又是什麼?

Françoise Beaufays:好的。要知道語音識別是很複雜的,每個人都有不同嗓音、不同口音,在不同環境中每個人說話,這導致了語音數據多種多樣。我認為很大程度上語音識別一直是基於機器學習的,也不是說哪種機器學習,總之隨著機器學習的發展,語音識別也在不斷進步。過去 10 年很重要的一點,我認為是使用了神經網路,大約在 8 年前的樣子吧,或者更早。

實際上神經網路很早就出現了,有很多相關的研究,也取得了一些不錯的結果,但當時的計算力不足以支撐得到現在這樣好的結果,所以神經網路被拋棄了一段時間。與此同時,語音識別繼續使用更加基礎的方法,比如高斯混合模型。

當我們真正涉及深度神經網路后,在工程的角度上我們需要全新的視角,應對延時問題,還有訓練等等。再後來,當深度神經網路變成現實,我們開始實際使用並真正在產品上應用的時候,打開了一條全新的通道,因為現在我們有強大的計算能力,能夠快速的將一個神經網路轉移到另一個架構上。於是,我們開始探索遞歸神經網路(RNN),比如 LSTM,還有CTC 建模,我們有了一系列的序列建模。

因此,轉向神經網路開啟了全新的可能,讓我們從技術的核心去創新,驅動系統,持續優化,比如提供多種語言,提升識別的精確度。

Diane Greene:好的,說完了深度神經網路對語音識別的影響,Daphne 你能談談神經網路在讓我們更健康、延長壽命方面有什麼作用嗎?這是個相當開放的問題了。

Daphne Koller:你知道為什麼 Calico 需要全世界最好的分子生物學研究人員的。Calico 雖然宣傳不多,但我們的目標是理解衰老這個問題,從而幫助人們更加健康長壽。衰老實際上可以說是致死率最高的原因。想起來或許很好笑,但實際上很多疾病都是在 40 歲以後出現的,並且在這之後發病率呈指數級增長。每年死於糖尿病、心血管疾病或癌症有多少人?沒有人知道為什麼 40 歲以後,每年我們患病的幾率就會成倍增長。

為此,我們真的需要去研究衰老從分子層面到系統層面在生物中是如何展現的,並且弄清楚衰老的真正原因。

我不認為我們會長生不死,但或許我們可以通過干預措施活得更長更健康。從 UCSF 來到 Calico 的科學家 Cynthia Kenyon 證明了,單個特定基因的突變可以將壽命延長 30% 到 50%。而且,實驗中的線蟲不僅僅是活得更久了,也更年輕了,這可以從繁殖健康和運動水平上觀測出來。

如果我們能在人類身上實現這一點,那就真的酷極了。但為了能實現這一點,我們必須一大堆我們還不明白的東西。所以,我們需要收集各種生物系統的數據,線蟲的也好、蒼蠅的、大鼠的、人類的。我們在分子層面上有很多共同點,所以科學家才有幸在過去 20 年開發設備、測量模型,讓我們有所了解,或者說至少得到了有關生物系統衰老的數據,比如基因測序、低水平微流體,以及所有健康檢測儀、可穿戴設備。

這些數據都隱含著衰老的信息,但沒有人有能力將所有這些不同類型和範疇的數據統合起來,要整理、歸類、分析這些數據耗費的時間太長,一個人一輩子也可能做不完。所以,我們真的很需要利用科學家收集數據,並從中得到靈感的過程和從事機器學習的研究人員很好得協作,兩方面的人哪一方都是是無法單獨完成這項任務的。

我很幸運成為進入這一領域的研究者之一。計算生物學從 21 世紀初興起。生物學家和計算機科學家互相合作,才能從大量我們獲取的數據中發現意義,從而真正理解衰老的生物學原理,同時研發有助於減慢這一過程的干預措施。

Diane Greene:感謝 Daphne 的深度分享。那麼,飛飛,上次你在接受 TechCrunch 採訪時說,「視覺是 AI 的殺手級應用」,你能具體解釋一下嗎?

李飛飛:我的話的確很刺激(provocative),但我還是堅持這樣認為,因為很多人問計算機視覺的殺手級應用是什麼,我則在想視覺是 AI 的殺手級應用。下面我具體解釋一下。

這樣說有兩個原因,一個是從5.4 億年前起,物種數量突然增多了,也被稱為寒武紀生物大爆發。為什麼會發生這種情況?最近有一項非常令人信服的著名推論認為,這是由於眼睛出現了。

當生物演化出視覺以後,整個演化進程都改變了,有了捕獵者和獵物。5.4 億年後,人類成為地球上最有智慧的生物。根據自然演化,人腦的一半都用於處理視覺信號,因為視覺是如此重要。

另一個則是技術層面。現在,我們生活在互聯網時代,有人預計整個網路上超過 80% 的數據都可以說是某種類型的像素,無論是肉眼可見的,還是感測器收集肉眼不可見的。從醫院、無人駕駛汽車到安防攝像頭,到處都是像素形式的數據,而企業如何通過雲服務應用這些數據,為消費者帶來真正的價值,是問題的核心。

我一直在說,現在對圖像識別、視頻處理、視頻分析有大量的需求。對於計算機視覺而言,這是一個令人激動的時代,與語音識別一樣,視覺也是經由深度神經網路才在過去 10 年有了一個真正的騰飛。從 2010 年到 2017 年,我認為計算機視覺最大的進步在於基本的感知任務,比如物體識別、給圖像打標籤、物體檢測……這些都可以從谷歌推出的各種產品中看到。

但是,要在計算機視覺中做下一步的投資,我認為則是「視覺 + X」,視覺十分重要,是基礎的基礎,而語言交流也很重要……所以我認為將視覺和語言結合起來將極其有趣,不論是生物學可視化也好,還是醫療圖像等等,我認為視覺在這裡面都有巨大的機會。

最後一個例子,就是機器人視覺。作為一名研究人員,在機器人視覺方面最近有很多令人激動的進展。但是,至少從我記事時起,機器人大多還處於相對原始的狀態。我確信視覺將成為機器擁有智能的關鍵一環。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦