search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

數據驅動人工智慧的實踐 | 硬創公開課

隨著時間的推移,人工智慧(AI)技術已經形成學術與產業聯動發展、向前推進的態勢。不管是說風口還是機遇,AI對科技產業創新的力量不言而喻,而在該領域積累了相關技術實力的研究者、企業創新者也希望趕上時代的列車。本次雷鋒網AI金融專場硬創公開課第一期,我們邀請到百度金融首席數據科學家丁磊博士,來分享他關於人工智慧技術在商業領域的深度思考。

嘉賓簡介

丁磊博士是百度金融首席數據科學家,曾任職匯百川徵信CTO,及PayPal全球消費者數據科學部負責人。丁博士曾在斯坦福大學學習管理,先後在哥倫比亞大學和IBM Watson研究院工作,具有在大數據、金融等領域十多年的從業經驗,在人工智慧和大規模機器學習等領域有豐富的成果。

右一為丁磊博士

以下是雷鋒網對演講進行了不改變原意的編輯:

數據驅動的AI框架,可以帶來哪些作用?

說到數據,毋庸置疑,是咱們這個時代的很重要的一種資產。大家常說大數據有「3V」:volume,數據量,從TB到PB甚至更大的數據;variety,多樣性,包括結構化,半結構化,非結構化的數據;velocity,速度方面,包括批處理,准實時,實時的數據。

如果說數據是原油,那麼AI就是從原油中提煉各種高價值產品的加工廠。從數據中發現知識、洞察、和規律。這本身並不是一個新的概念,從開普勒的時代就有,那就是開普勒從大量(幾百頁)的天體位置數據中提煉、總結出了天體運動三定律。

現在,AI幫助我們實現了的是,藉助大規模雲計算的方法,從海量數據中自動學習知識和規律。做好AI並不容易,接下里我會跟大家詳細探討一些經驗。

作為數據驅動的AI框架,可以給我們帶來哪些作用?總的來說:

  • 首先可以帶來個性化的體驗。例如當我們進入到一些網站,可能會發現許多個性化的針對每個人的體驗,這些體驗讓網站不再是千人一面,通過數據驅動的AI框架可以為每一位訪客做出優化。

  • 其次,作為一個數據驅動的AI框架,其結果可以帶來細粒度的行業策略。相對於個性化的體驗來說,細粒度的行業策略更側重於企業端。例如,過去做營銷,一個產品的適用人群可能是一定範圍內的男性或者女性,這是一個比較粗的描述。用數據驅動的AI框架以後,我們可以得到一個比較細的描述,比如我們可以理解基於年齡、興趣愛好、行為等因素的目標客戶群,從而得到細粒度的營銷策略。

  • 第三點,它可以帶來知識或者洞察,我們去學校或者在經驗中都可以學習到知識。但是,數據驅動的AI框架帶給我們的核心價值是持續地運營化地從大數據中挖掘知識。這個知識未必是寫在教科書上的,而從數據中可以實時地、最大體量地、同時也是有效地獲得知識,用於生產和業務實踐中。類似地,從數據中獲得的洞察也可以帶來同樣的價值。

說完這三點,接下來談談搭建PayPal AI平台的經驗。通過AI平台,作為商家可以運營化地預測用戶的行為從而精準地和他們對話。

具體而言,我們構建了基於AI的動機引擎、推薦引擎、以及優化客戶生命周期的Next Best Action引擎。這幾個引擎部署在基於Hadoop和Spark的大數據平台之上,能夠跟海量的底層數據銜接。其中,

動機引擎通過AI技術,預測用戶在某一個時間點的行為,包括點擊廣告、兌現優惠卷、購買商品等。

推薦引擎連接用戶和他可能感興趣的商家或商品,做出恰當的推薦。

Next Best Action引擎則通過人工智慧技術優化在每一個時間點,商家採用什麼樣的策略,能夠最有效的提升用戶的價值。

那麼這個AI平台如何發展起來的呢?

首先,需要理解業務的需求和KPI,整合相關數據集,然後建立基於回測的概念驗證,運營化生產和迭代整個體系。經歷了幾年的歷程,團隊逐漸構建了比較完善的AI平台,為各方帶來了顯著而持續的收益,也提升的用戶的體驗。從效果上來說,AI平台使大部分營銷活動的有效增益提升了2倍以上,有些達到了數倍之多。

從DIKW金字塔和人類感官的演化談AI:去平均化的應用領域

所謂DIKW金字塔包括四層即「D-數據」,「I-信息」,「K-知識」,「W-智慧」——每一層代表人類對客觀世界認識的一個層面。那麼人工智慧在金字塔上對應的是哪一個結構呢?

從數據到信息是傳統IT比較專註或者熟悉的領域,通過資料庫系統和ETL引擎,主要把相對粗糙、未經整理的數據轉化為信息。所謂信息即結構化的產物,可以理解為資料庫中的表等實體的總和。而信息到知識是AI所做的事情,這個轉化過程與資料庫運算不同,因為它不是機械的數據處理和整合,而是從信息升華到知識的過程。

信息到知識是人工智慧處理的問題,核心之一是去平均化,這是人工智慧幫我們做的很重要的一件事。例如,在營銷領域,對於一個公司銷售一件產品來說,平均客戶價值是一百元,去平均化的過程告訴我們,不同客戶對應的價值是不同的。這個可以通過大數據,從過去的客戶行為數據等屬性中學習出來,建立自學習模型,預測每個客戶的價值是多少。這些都非常有價值的信息。客戶的實際價值,可能和與平均值差很遠。

不光用戶的價值,用戶是否會購買一件商品,喜歡什麼樣的商品,以及如何促成一次購買,等等這些問題,都可以通過AI技術來幫助回答。

去平均化的應用領域不僅局限於營銷領域,在其他商業相關或者醫學相關的其他很多領域,都有很多去平均化的應用。好比醫療領域,基於醫療病例預測得壞血病的概率和再入院的概率,幫助醫院挽救病人和降低醫療成本,這些應用已經在美國的一些大醫院裡開始使用。

人類感官的演化歷程,如何定義AI系統的複雜性?

換一個視角,我們可以看看人類感官的演化歷程,如何定義了AI系統模擬人腦的複雜性。

眾所周知,計算機視覺,包括圖像和視頻識別等,其難度在感知類別的AI里是比較高的。我想其中一個原因是,人類視覺系統源自原始動物的視覺系統,這個演化時間最長,超過了2億年。相比而言,交流用的有聲語言演化了有10萬年左右,而文字只演化了5千年左右。這樣的演化歷史,也符合AI處理語音和文本的難易程度。文本理解已經相當普及,而語音識別逐漸開始進入千家萬戶。

人工智慧的難易程度是符合人類感官演化的。如此類比,現代的專業知識,好比金融和醫療這些領域,它們的演化的時間不超過幾百年。儘管有種種挑戰,這些知識的演化歷史印證著AI在這些行業的應用,可以取得比較顯著的效果。

數據+AI帶來的核心能力:海量數據支持下AI決策可以超越人腦

這裡引用著名的科技思想家Kevin Kelly的一句話,說「AI是認知化」。如果說電力化帶來了人工動力,那麼認知化帶來了人工智慧。結合前面討論的演化觀點,我認為:感知方面,包括AI的視覺、聽覺等,AI可以接近人腦。在支持專業決策的方面,在海量數據的支持下,甚至可以超越人腦。

舉兩個例子,分別是圖像識別和金融風險控制來說明。圖像識別方面,在權威的ImageNet圖像識別競賽的評測里,2010到2015這五年內,通過深度學習一系列的演算法,計算機對1000多類物體的識別,錯誤率從30%下降到5%。而在金融風控領域中,通過一系列模型控制金融輸入的風險,通過AI、KS值——通常用來衡量有效性的一個指標,也可做到40%-50%甚至更高,有效地控制住風險,效果可以超越傳統的人工方法。

數據,本身反映了事物的原理和規律。當你找到它的規律后,它可以去預測未知或未來的事情。因此,「數據+AI」的核心能力為我們構建了一個發展中的產業生態。這個生態分為兩層:

  • 底層是應用技術,包括機器學習、圖像語音處理、自然語言及一系列相關的硬體技術。

  • 而另一層是和應用領域相結合的應用場景,包括兩大類:一是行業應用,包括金融、醫療、教育等;另外在每個行業都有交叉的維度,也就是職能應用,包括營銷、BI、CRM、安全等相關的職能。職能應用和行業應用構成二維的矩陣,AI在其中有很多的應用場景;第二大類是消費類應用,包括智能家居,輔助駕駛,智能機器人等。

說了這麼多行業、職能和應用領域,其實不是所有領域都適合大範圍使用AI。滿足大規模商業應用的AI,應具備兩個必要條件:

  • 其一是數據的質量和數量必須達到一定的要求,尤其是整個數據流程的打通和定期的數據更新。這決定了AI發展的基礎是否牢固;

  • 其二,所在領域有沒有對問題的相對清晰的定義。如果領域本身沒有明晰的問題定義,則很難通過AI來解決問題。總體來說,金融行業已經比較接近這兩點要求;職能來說,營銷、BI、CRM和安全等在一些行業比較接近人工智慧大規模使用的先決條件。

AI落地的挑戰和思路

過去一段時間,我接觸過很多公司,也發現其中存在的一些存在共性的挑戰和思路:

第一,很多時候,有價值的數據已經在你的資料庫里,很多時候是因為不懂得去挖掘數據價值,容易錯失了利用AI的機會。舉個例子,通過AI預測電商網站的訪客價值。此前我任職的一個創業公司Intent Media,通過AI演算法優化了全球出行網站每月上億UV的用戶體驗。

具體來說,通過一些實時抓取的行為數據,預測訪客的購買意願和購買價值。對不太可能在本站上購買的訪客,這個其實占的比例非常高,有時候達到97%,那麼這個時候,我們可以推薦給他們其他的可能感興趣的出行產品。這個產品的結果是大幅提升了出行網站的收益,並優化了用戶的體驗。總結一下,如果不能挖掘這些現有數據的價值,就沒法產生Intent Media這樣的創新模式。

第二,人才方面,業界最缺的是AI產品經理。AI問題的複雜性之一在於結果的不確定性,而具備AI背景的產品經理少之又少。不能夠很好的判斷價值與方向,進而會導致相關產品或項目的擱置。當然這裡面也有人才培養的問題,例如可以嘗試鼓勵優秀的AI工程師和科學家去主導相關產品的開發,在業務的指引下,充分發揮專業人才的積極性,探索可行的方向,促進AI落地。

第三,跨領域和團隊的交融與整合,打通數據的閉環,產品、工程、AI的緊密結合。這個需要比較長時間的磨合。在我們之前構建AI平台的經歷中,涉及大量跨團隊溝通、配合、相互支持的工作。AI得以有效實現,工程能力的建設尤為重要。由於大數據的體量、種類和實時性要求,如果沒有強大的數據處理基礎設施,很難在大數據上進行持續和大規模的AI應用。

舉個例子,基於實際的需求,我們常用一種比較受到推崇的結果叫做「lambda」,這個架構包括以下組成部分:

  • 批處理層,支持批處理讀寫和分析處理;

  • 服務層,支持批處理寫入和實時讀取;

  • 速度層,支持實時讀寫,把時效性非常高的數據在很短的時間內反應給用戶。這些層整合起來構成了一個可以支撐大規模AI的基礎設施。

第四,AI落地中信任的問題。我覺得在解決行業實際問題里,很多瓶頸來自於信任的缺乏。信任本身是個很大的話題,在技術的層面上,這包括了對數據和對演算法的信任。因此,一定範圍內的數據共享可以增加信任,並可以帶來全新的知識和洞察。一個相關的技術——區塊鏈技術大家可能有聽說過,簡單來說是一個分散式的可信任的數據基礎設施。基於這項技術的一個例子,最近荷蘭16家公司組成的物流區塊鏈聯盟,通過這種形式的物流數據共享和打通,能夠增加他們彼此間的信任,從中長期來看更有利於AI的落地。

綜上所述,如果解決了這些問題,我相信企業會有比較大的空間利用AI來升級,不僅是行業中的大企業,中小企業也有很多的機會。運用AI領域的最佳實踐,快速概念驗證,風險可控的前提下落地生產,可帶來廣闊的空間。

註:本次活動為丁博士個人經驗分享,觀點不代表百度。

點擊關鍵詞可查看相關歷史文章

近期熱門



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦