search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

你不得不看的六篇好文:企業搭建機器學習平台的要點

第四範式是國際領先的人工智慧技術與服務提供商。2016 年 12 月,第四範式成為史上第一家榮獲「吳文俊人工智慧科學技術獎」創新獎一等獎的企業,該獎被譽為」人工智慧界最高獎「。2017 年 5 月,第四範式入選"Gartner 2017 Cool Vendor」 , 是國內唯一入榜的通用平台型人工智慧公司。第四範式自主研發的「第四範式•先知平台」是國內首個成熟商用的人工智慧應用者開發平台,工程師甚至是企業業務人員基於先知平台,能夠在 1 人月內開發出適用於本行業的人工智慧應用。目前,先知平台已經應用於精準營銷、個性化推薦、差異化定價、風險管控、智能投顧等多項業務中,為金融、電信、互聯網等領域 100 多家企業成功打造人工智慧應用。

緣起

2016 年年中時期,正是 Spark 火熱的時候,我在瀏覽知乎的時候,發現了這麼一個問題:第四範式的人工智慧平台 Prophet 有可能替代 Spark 么(https://www.zhihu.com/question/48743915)?看到這個問題,心裡馬上充滿了疑惑,為什麼有了 Spark 和 TensorFlow,他們還要去研發一個自己的人工智慧平台。當然,當時的人工智慧也沒有今年這麼火。但是我對這個平台充滿了好奇。我開始留意第四範式的一切資料,不過在很長一段時間裡,我並沒有成功的接觸到任何一位範式科學家。但是接觸和了解這家公司依然一直放在我的任務清單里。也終於在半年後,我有幸找到了胡時偉老師,向他表達了我強烈的想報道「先知」平台的決心,於是,我們有了這麼一篇內容:

為什麼已有 TensorFlow 和 Spark,第四範式還要開發「先知」平台?

在這篇文章里,胡時偉和塗威威兩位老師,給大家介紹了為什麼人工智慧系統需要高維大規模機器學習模型,以及「先知」產品的架構實踐和模型演算法工程優化經驗。

這次的分享里,總結了一個完整的機器學習系統需要的部分:

  • 數據引入和預處理

  • 特徵工程

  • 模型訓練演算法(支持參數靈活調整和二次開發)

  • 模型評估

  • 模型上線(批量預估、實時 API 調用、線上特徵實時計算)

以及「先知」的整體架構:

(整體架構圖)

另外,塗威威講了大規模分散式機器學習框架 GDBT,除去計算之外,一個機器學習平台還需考慮的其他因素,比如:通訊、存儲、災備和效率的權衡,還有機器演算法框架的語言選擇問題。總體來說,這是一次很乾貨很完整的機器學習平台的技術科普。

範式主題月

今年人工智慧開始大火,各大媒體都開始去主動報道第四範式的技術了,也開始看到各種範式科學家的採訪文章。隨著這些報道,我們也更清楚這家公司的技術實力。而且第四範式也開始注重技術培訓,他們發起了「範式大學」的項目,致力於成為「數據科學家」的黃埔軍校,校長為第四範式首席科學家,華人界首個國際人工智慧協會 AAAI Fellow、唯一的 AAAI 華人執委楊強教授。我由此也再次找到了第四範式,要求他們在 InfoQ 的社群當中組織一次「範式主題月」,給大家更多的講講機器學習相關技術。於是有了以下文章。

第四範式聯合創始人,產品負責人田楓:機器學習的最小可用產品

想用機器學習提升業務價值,在搭建平台、處理數據、訓練演算法之前,真正要做的第一步應該是什麼?

  • 機器學習是不是萬能良藥?我們首先需要想清楚, 機器學習作為特別牛的技術, 它能解決什麼樣的問題。

  • 一個業務問題,可能有各種千奇百怪的坑,假設我們初步判定可以通過機器學習來解決他,那麼應該通過怎樣的轉化,避開這些坑,把業務問題變成機器學習的問題。

  • 如果有一個好的可以轉化成機器學習的問題,我怎麼去設計機器學習的開發節奏,估算它的投入產出比,如何分階段去推動問題的建模和應用。

這次分享,基於第四範式在機器學習工業應用方面的大量成功案例和經驗,不涉及演算法,不涉及平台,但是卻是機器學習產生價值過程中最關鍵的步驟之一。

周開拓老師分享了如何使用大規模機器學習解決真實的業務問題,以基於大規模機器學習模型的推薦系統中的一個指標,即「點擊率」作為試點,介紹如何用機器學習來搭建推薦系統的完整過程。

這次分享總結起來是這麼幾個點:

  • 如何使用機器學習來剖析一個問題,我們用了推薦系統的例子。

  • 我們如何構造一個推薦系統的樣本、數據並進行建模,當我們有一個非常好的機器學習工具的時候,我們可以把精力聚焦在業務上,在怎麼找到好的數據上,以及在怎麼定義好的目標和規劃上。

  • 我們描述了機器學習系統是如何和其他系統發揮作用的,機器學習就像發動機,汽車當然需要發動機,但只有發動機車是跑不起來的,你還需要周邊的配件,這是系統化的工程。

同時這篇文章閱讀人數過萬,轉發人數過千。

2017 年,你還在用用戶畫像和協同過濾做推薦系統嗎?

第四範式先知平台架構師陳迪豪:打造機器學習的基礎架構平台

陳迪豪老師和大家分享《打造機器學習的基礎架構平台》的話題,主要介紹了機器學習底層原理和工程實現方面的內容。

基礎架構(Infrastructure)相比於大數據、雲計算、深度學習,並不是一個很火的概念,甚至很多程序員就業開始就在用 MySQL、Django、Spring、Hadoop 來開發業務邏輯,而沒有真正參與過基礎架構項目的開發。在機器學習領域也是類似的,藉助開源的 Caffe、TensorFlow 或者 AWS、Google CloudML 就可以實現諸多業務應用,但框架或平台可能因行業的發展而流行或者衰退,而追求高可用、高性能、靈活易用的基礎架構卻幾乎是永恆不變的。

Google 的王詠剛老師在《為什麼 AI 工程師要懂一點架構》提到,研究院並不能只懂演算法,演算法實現不等於問題解決,問題解決不等於現場問題解決,架構知識是工程師進行高效團隊協作的共同語言。Google 依靠強大的基礎架構能力讓 AI 研究領先於業界,工業界的發展也讓深度學習、Auto Machine Learning 成為可能,未來將有更多人關注底層的架構與設計。

因此,這次的主題包括了以下的幾個方面:

  • 基礎架構的分層設計;

  • 機器學習的數值計算;

  • TensorFlow 的重新實現;

  • 分散式機器學習平台的設計。

根據業務的需求,我們可以選擇特定的領域進行深入研究和二次開發,利用輪子和根據需求改造輪子同樣重要。

在機器學習與人工智慧非常流行的今天,希望大家也可以重視底層基礎架構,演算法研究員可以 理解更多工程的設計與實現,而研發工程師可以了解更多的演算法原理與優化,在合適的基礎架構平台上讓機器學習發揮更大的效益,真正應用的實際場景中。

從演算法實現到 MiniFlow 實現,打造機器學習的基礎架構平台

第四範式機器學習工程師羅遠飛:遷移學習實踐

我們在大數據雜談上曾經發過一篇科普文章:遷移學習:數據不足時如何深度學習,講了遷移學習的基本概念。

「我認為實現人工智慧的難度無異於建造火箭。需要有一個強大的引擎,還有大量的燃料。如果空有強大的引擎但缺乏燃料,火箭肯定是無法上天的。如果只有一個單薄的引擎,有再多燃料也無法起飛。如果要造火箭,強大的引擎和大量燃料是必不可少的。以此來類比深度學習的話,深度學習引擎可以看作火箭引擎,而我們為演算法提供的海量數據可以看作是燃料。 — Andrew Ng」

我們知道,近年來數據量的迅猛增長和計算能力的提升是推動這一波人工智慧熱潮的主要原因之一。但在實際業務中,我們會發現在很多情況下,數據量較小,不足以支撐 AI 去解決實際問題。而遷移學習能夠通過發現大數據和小數據問題之間的關聯,把知識從大數據中遷移到小數據問題中,從而打破人工智慧對大數據的依賴。

簡單來說,遷移學習是把一個領域(即源領域)的知識,遷移到另外一個領域(即目標領域),使得目標領域能夠取得更好的學習效果。通常,源領域數據量充足,而目標領域數據量較小,遷移學習需要將在數據量充足的情況下學習到的知識,遷移到數據量小的新環境中。但是,如何形式化的描述所要遷移的知識,使用何種方法遷移知識,以及何時遷移是有效的、何時是有副作用的,是使用者所要關注的重點和難點,本次分享主要集中在前兩個方面。至於如何保證遷移的有效性,目前並沒有很好的理論來支持。

羅遠飛曾參加了國內首個遷移學習演算法比賽,並獲得冠軍。他以本次比賽為例,介紹基於大規模分散式機器學習框架 GDBT,在遷移學習上進行的一些嘗試。首先介紹了遷移學習的背景和 GDBT;然後結合比賽,闡述遷移學習的一些經典演算法在實際應用中,可能需要注意的地方;最後,總結並簡要介紹比賽中一些未來得及嘗試,卻比較有趣的遷移學習工作。是非常難得的總結遷移學習實踐技巧文章。

遷移學習實戰:從演算法到實踐

其他

另外我們也收錄了一些第四範式其他文章,比如陳雨強老師的:如何解決特徵工程,克服工業界應用 AI 的巨大難關

「作為面向機器學習建立新輸入特徵的實現過程,特徵工程已經成為改進預測模型的最具實效的方法之一。獲取特徵難度極高、相當耗時且要求具備專業知識。『應用機器學習』本質上其實就是在實現特徵工程。  — Andrew Ng」

特徵工程是什麼?作為一項非正式主題,特徵工程可能擁有多種潛在定義。事實上,由於機器學習流程的流動性與迭代性,因此我們很難為特徵工程找到概念層面的惟一「正確答案」。而根據自身理解,我們將特徵工程定義為「立足現有功能創建新功能,以提升模型效能的舉措」。

這篇陳雨強總結了第四範式在特徵工程上的一些可貴的經驗。

我們希望通過以上第四範式的這六篇文章,讓你了解企業搭建機器學習平台的要點;也希望通過這些文章,讓你在技術上,與「人工智慧」更近一步!

我們的公眾號上有很多的關於「機器學習」的優質內容,你也許嘗試過InfoQ網站的搜索方式,體驗並不好。有沒有一種搜索方式,能整合 InfoQ 中文站、微信公眾號矩陣的全部資源?極客搜索,這款針對極客邦科技全站內容資源的輕量級搜索引擎,做到了!具體詳戳 「 閱讀原文 」或 掃描下方二維碼,極客(即刻)試用!



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦