search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

AI需求層次論——人工智慧應該怎麼用?

人工智慧和機器學習最近被炒作得非常厲害。但是這個東西不是開箱即用,需要打下堅實的基礎才能應用。數據科學顧問,前Jawbone數據副總裁及LinkedIn數據科學家Monica Rogati對此提出了各個組織應用AI的需求層次論。指出先要解決了數據素養、數據採集和基礎設施這些基本需求之後才能去考慮AI這個頂層的自我實現需求。

就像發展迅速的技術一樣,AI也激發了大規模的FOMO(害怕錯過)、FUD(恐、惑、疑)和不和。其中一些是應該的,也有一些不是——但這個行業正在留意。從秘密的硬體初創企業到金融技術巨頭乃至於上市公司,各個團隊都在忙碌地實施自己的AI戰略。這一切都歸結到一個關鍵且高風險的問題:「我們會怎麼使用AI和機器學習來讓我們做的事情變得更好?」

通常公司都還沒有為AI做好準備。也許他們招聘了自己的第一位數據科學家但卻達不到想要的效果,或者也許數據素養並不是他們文化的核心。但最常見的情形是透明還沒有建立起基礎而設施去實施最基本的數據科學演算法和操作,更不用說機器學習了。

作為數據科學/AI顧問,我必須無數次地傳達這一信息,過去2年尤其如此。其他人也表示同意。在大家都對你所在的領域充滿著興奮之情是做一個潑冷水的人是很困難的,尤其是如果你也分享著這種興奮時。還有你應該怎麼去告訴那些公司,說如果沒有(或者成為)精英——也就是自我任命的看門人的話是不可能為AI做好準備的呢?

這裡是一個引起大家最多共鳴的一個解釋:

可以把AI看作是需求金字塔的頂端。是的,自我實現(AI)是非常棒的,但你首先需要食物、水和庇護所(數據素養、數據採集和基礎設施)。

你的數據需要有牢靠的基礎,然後才可以高效地運用AI和機器學習。

基本需求:你能算嗎?

金字塔的底部是數據採集。你需要什麼樣的數據?你又有什麼樣的數據?如果是面向用戶的產品,你有沒有記錄所有相關的用戶交互?如果產品是感測器,數據是從哪兒來的,怎麼來?記錄一種尚未物聯化的交互有多容易?畢竟,擁有合適的數據集是機器學習最近能取得進展的關鍵。

其次,要弄清楚數據流是如何流經系統的?你有沒有可靠的數據流處理系統或者ETL(提取轉換載入)?數據存放在哪裡?訪問和分析這些數據有多容易?Jay Kreps一直都在說(有10年的時間了)可靠的數據流是任何數據處理方面事情的關鍵。(附註:我正在尋找這句話的確切出處,結果在他的碩士論文《我喜歡日誌》中找到了。然後我注意到他在一段話之後做出了這個馬斯洛的需求層次論的比較,並以「值得注意的是」來作為附註。說到相關工作,後來我又看到了Hilary Mason和Chris Wiggings的精彩文章,講的是數據科學家應該做什麼事情。幾天前,Sean Taylor披露了自己的數據科學需求金字塔,當然這跟這裡的金字塔是完全不同的。)

只有當你有了數據之後,才可以對數據進行探索和轉換。這裡的工作包括臭名卓著的「數據清洗」,這是數據科學領域被低估的一項工作,這一塊我得另起一篇文章來談。當你發現你失去了一大塊數據,你的感測器不可靠,某次版本變更意味著你的事件被丟失,你對某個標誌產生了誤解時——你就得回過頭來確保金字塔的基礎是牢靠的。

當你可以可靠地探索和清洗數據時,你就可以進行傳統上被認為是BI或分析方面的事情:定義要跟蹤的指標,其季候性以及對不同因素的敏感性。也需要進行一些艱苦的用戶細分的工作,去看看會不會有什麼東西冒出來。然而,既然你的目標是AI,你現在要搭建的是隨後被認為是特徵的東西,以供將來吸收進你的機器學習模型裡面。在這個階段,你還知道了你打算要預測或者學習什麼,你還可以開始通過生成標籤(自動或者手工的方式)來準備你的訓練數據。

這個階段也是你找到自己最令人興奮和引人注目的數據故事的時候——但這也是另一篇文章的主題了。

好了,現在我能算了。接下來呢?

我們有了訓練數據了——那是不是現在可以進行機器學習了呢?也許吧,如果你是想在內部進行客戶流失率預測的話;但如果結果是面向客戶的答案就是否定的。我們需要進行A/B測試(不管是如何的原始)或者有準備好的實驗框架,這樣才能逐步部署以避免災難,並在改變影響每個人之前對改變的效果進行粗略的估計。這也是將非常簡單的基線部署到位的合適時機(對於推薦系統來說,基線系統可以是「最熱門」,然後是「細分用戶市場的最熱門」——這就是非常煩人但有效的「個性化之前先用老一套」)。

簡單的啟發法的難以擊敗甚至到令人驚訝的地步,它們會讓你以端到端的方式調試系統,這不需要神秘的機器學習黑箱,在這中間要需要超參數調整。

到了這個時候,你可以部署一個非常簡單的機器學習演算法(比如邏輯回歸或者分類等),然後考慮可能影響到你的結果的信號和特徵。天氣和普查數據是我的目標。還有,儘管深度學習很強大,但它不會自動幫你做這些事情。引入新的信號(特徵建立,不是特徵工程)可以大幅改善你的性能。在這裡花些時間是值得的,即便身為數據科學家我們也對向上進入金字塔的更高層面感到興奮。

發展AI!

數據有了。裝置也有了。你的ETL開始發揮作用了。你的數據已經組織好並且清洗過了。你有了儀錶盤,標籤以及好的特徵。你在測量合適的東西。你可以每天進行試驗。你有了一個基線演算法,可以進行端到端的調試,並且在生產中運轉——而且你已經對它進行了十幾次的變更。總之,你已經準備好了。接下來從自己鋪開到利用專長於機器學習的公司,你可以繼續去嘗試最新最好的東西。你可能可以在生產方面取得巨大改進,或者也許不能。但最壞的情況下,你也能學到一些新的方法,形成自己的觀點並有了上手體驗,並且可以告訴你的投資者和客戶自己在AI方面做了哪些努力而不是給人感覺像是個騙子。而在最好的情況下,你可以為用戶、客戶和公司帶來巨大的不同——這是機器學習的一個真正的成功故事。

等一下,MVP、敏捷、精益等其他東西呢?

數據科學需求層次輪不是用1年的時間過度建設脫節的基礎設施的借口。就像傳統的最小可行產品(MVP)的開發套路一樣,你也要從產品小的垂直板塊開始,把它從端到端都做好了。比方說,在Jawbone,我們先從睡眠數據開始並搭建它的金字塔:工具手段,ETL,清洗和組織,標籤捕捉和定義,指標(大家美軍每晚的睡眠時間是多長?小憩呢?什麼是小憩?),跨細分市場分析,一直到數據故事和機器學習驅動數據產品(自動睡眠檢測)。我們後來又把它延伸到步數,然後食物、天氣、鍛煉、社交網路以及溝通——每次做一個。在端到端做完一件事情之前我們並沒有建設一個包羅萬象的基礎設施。

提出合適的問題,開發合適的產品

這隻與如何可以有關,跟應該如何無關(出於實用主義或者道德倫理的原因)。

機器學習工具的希望

「等一下,Amazon API或者TensorFlow等別的開源庫呢?其他在賣機器學習或者自動析取洞察和特徵的工具的公司呢?」

所有這些都很出色很有用(一些公司最終的確煞費苦心地定製出來整個金字塔來展示自己的工作。這些人是英雄)。然而,鑒於當前AI炒作的強烈影響力,大家都試圖把髒的、存在斷層、跨越了數年且格式和意思不斷改變的數據,那些尚未被理解的數據,那些結構化行不通的數據塞進去,還指望這些工具能夠魔術般地處理好它們。也許將來有一天會是這種情況,我對朝著這個方向的努力舉雙手贊成。但在此之前,為你的AI金字塔打造好一個牢固的基礎是值得的。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦