search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

王曦:大數據人工智慧中的運籌與決策科學

【編者按】大數據時代,擁有龐大的數據量不再是制勝的關鍵,更需要關注用大數據分析所支持的決策。運籌與決策科學正是大數據人工智慧的一個核心概念,大數據與決策相輔相成,人工智慧離不開運籌學的支持。

本文轉自「光合客」,作者光合課;經億歐編輯,供業內人士閱讀。

王曦:杉數科技聯合創始人;前Google商業運營高級經理;斯坦福大學決策分析與風險分析博士。

本文是王曦在「光合課」上的演講。以下為演講內容:

授之以魚

今天想和大家討論三個話題:

1、為什麼運籌與決策科學運用是大數據、人工智慧的一個核心概念?

2、運籌與決策科學究竟是一個什麼樣的學科?

3、分享幾個經典的應用場景。

為什麼運籌與決策科學運用是大數據、人工智慧的一個核心概念?

第二次世界大戰是運籌與決策科學開始成熟和發展的時期,第二次世界大戰時,美軍在太平洋戰場投放了很多空軍力量,但是美國漸漸發現戰鬥機和轟炸機的損失比例快速地提升,導致參戰的飛行員打仗時心理壓力非常大。所以美國開始對美軍投放的戰鬥機進行加固,考慮到每增加一些裝甲就會相應地減少載彈量,所以並不是全機身地加固,而是選取最容易被攻擊到部位進行選擇性地加固。

美國空軍採取了一個大數據的方法,把所有受傷機身上的彈孔畫在同一張飛機平面圖上,可以看到這張分布圖上彈孔分佈不均,稠密的地方就是飛機容易受到攻擊的地方,當時美國空軍建議應該著重加固機身和機翼,這是一個很經典的大數據宣傳案例。但是一位統計學家認為,應該加固彈孔分佈最稀疏的地方,這些不是最明顯、最容易受到攻擊的地方恰恰卻是最薄弱的地方,因為凡是這些部位受到攻擊的飛機很有可能都沒有回來,而這些部位正都是機艙、發動機等很關鍵的部位。

這個例子可以引出今天我想和大家討論話題——運籌與決策科學,即使我們有再大的數據量,如果只關注數據表層的信息,而不去關注我們真正要用大數據分析所支持的決策,數量再大也並沒有多大價值。

數據化決策的三個關鍵點或者說從數據端開始到決策端,我們究竟能做什麼?

第一個層面是數據的採集與管理

我們對數據要進行收集和清理,這是一個硬體技術,做大數據分析常使用計算機或者信息科學的方法來完成。

完成了數據的收集管理之後進入第二個層面,一些規律性的分析。我們可以對數據進行描述、可視化和預測,了解其背後規律的方法和模型,通常會使用統計方法以及學習模型來完成。

做完這兩件事情並不代表我們能夠有一個清晰的決策建議,因為決策通常比較複雜,如何打通從數據端到決策端這件事,其實更重要的是我們要知道數據最終要支持哪些決策,而解決這個問題需要的就是運籌與決策科學。

這門學科就是把現實生活中的問題抽象成一個可以用數學來描述的模型,運用優化演算法來進行求解,幫助我們找到一個最佳決策最優戰略,所以談大數據一定不能離開決策。

另一個角度來講,在過去幾年中人工智慧有非常大的發展,不管是從理論層面上的圖像識別、自然語言處理、神經網路,還是到應用層面上的自動駕駛、智能診斷、人工智慧遊戲,我們看到人工智慧已經開始滲透到日常生活的方方面面。

機器學習的目的是讓機器更高效、更準確地完成一些本來需要由人來完成的工作,那麼它需要做兩件事情,第一件事情是需要用一個模型來告訴它要解決什麼問題,第二件事情是需要給它一套演算法來解決這個問題,而模型和演算法恰恰是運籌學討論的核心。通過這兩個話題可以發現決策科學和運籌學其實是大數據、人工智慧的核心概念,我們談大數據就離不開決策,談人工智慧就已經離不開運籌學。

運籌與決策科學究竟是一個什麼樣的學科?

決策可以定義為是一個不可逆的資源配置

這樣一個定義決定了兩件事情,第一件事情,決策是無處不在的,我們每天都在配置資源,不管是人力、金錢、能源還是時間,這樣的資源一旦配置了就是不可逆的。

而第二件事情,這樣一種不肯定的資源配置通常會讓我們覺得決策是很困難的。

舉一個簡單的例子,前兩天一個朋友在北京搖到了車牌號,諮詢我是否應該買輛車,朋友有幾點困惑,第一,他是否需要一輛車?因為捷運就在家門口。這是一個決策範圍的問題。第二,他是需要的是一輛常規的汽車還是電動車?是高端的車還是低端的車?這是一個可行方案的問題。第三,因為這輛車會和家裡人一起用,他不確定家裡人會不會喜歡這輛車?這輛車他開多長時間?未來轉賣給別人的時候還能剩餘多少價格?這是一個不確定性的問題。最後,他不清楚究竟是更看重性能還是更看重速度,但是安全性很重要,價錢也會影響這個決定。這樣一個我們日常每個人都會遇到的簡單問題卻變成了一個決策範圍很大,可行方案不確定性很大,同時價值評判也不太清楚的複雜問題。

所以就需要有決策科學這樣的學科來幫助我們去界定每一個決策的範圍。當我們有了一個明確的決策界定后,可以通過運籌學的理論將決策問題抽象成數學模型並求解,得到一個優化的決策。

分享幾個比較經典的應用場景

應用場景可以分為4個方面,收益管理、風險管理、供應鏈管理和演算法引擎

收益管理,其要解決的問題是商家在如何不增加流量投入的前提下,顯著提升企業的銷售收入,解決這個問題需要收集很多個維度的數據,找到不同場景下的最優定價和最好的銷售策略。

風險管理,針對金融及相關行業客戶提供完整的風險管理服務,提供從精準營銷、徵信、高危交易識別到不良資產處置的全鏈條服務。

供應鏈管理,針對供應鏈中包括訂單、庫存、貨運、配送等各個環節提供優化方案,在提升供應鏈響應速度與柔性的同時,幫助企業控制成本。

演算法引擎,很多的理論有很廣泛的應用場景,其實這個理論本身也可以帶來很大的價值,因為它可以為複雜的數據分析提供一個平台,通過集成高效的優化演算法為複雜數據分析提供基礎的演算法和軟體支持,特別是優化演算法求解器的開發,對於機器學習和深度學習效率可帶來極大提升。

我們正是因為看到了這樣一個很廣泛的需求和應用空間,所以決定回國創立杉數科技,以上四個方面是我們非常核心的服務領域。

舉一個例子來討論一下運籌與決策科學在金融風險管理中應用

運用剛才提到的四個方面,第一個是精準定位的營銷,識別真正符合金融產品特徵的優質用戶,從系統層面上進行第一層面的風險控制。

第二個是徵信,通過觀測和描述已有用戶的支付行為去評估潛在用戶的信用風險,最後給出一個徵信決定。

第三個是教育管理或者說反欺詐,通過數據來識別高危交易和欺詐行為,儘可能的降低損失。

最後,在已經發生了違約的情況下最大程度地把損失降到最低,這是一個不良資產處理的問題。要解決這四個問題,打通整個風險管理的鏈條,其實要採用的方法都是非常相似。

第一個層面是數據的採集和管理,需要描述和觀測非常多維度的數據。第二,使用機器學習或者相對複雜的預測方法對於數據進行描述和預測。第三,選擇一個多層次的角色模型。最後,當我們有了一個決策模型后,就可以使用優化演算法幫助我們尋找最優結果。所以這套方法論適用於整個風險管理鏈條中的四個話題。

小結

1、運籌與決策科學是大數據人工智慧中的核心概念,提到大數據就不能忽略大數據分析所支持的決策,提到人工智慧就不能忽視它所需要的模型和演算法。

2、當我們有了運籌與決策科學這套工具,就能夠將實際問題抽象成可以量化的決策問題,給出最優決策。

3、當我們討論機器學習、深度學習這些人工智慧方法的時候,運籌與決策科學也為機器學習提供模型的思考和演算法的保障。

授之以漁

在運籌和決策科學這個學科裡面的學習建議:

1、用一個做決策的方式去思考問題

當你面臨一個信息量龐大、時間很緊迫的問題時,可能會覺得很無助,根本不知道該怎麼做。但是你可以站在一個決策的高度去思考,現在能做什麼不能做什麼,最主要的確定性都有哪些,哪些是可以相對量化的,哪些是沒有任何用處的,關注的核心價值是哪些。嘗試著去做這樣的戰略決策和思考,它會像一個在你頭腦中的操作系統,當你遇到比較複雜的決策問題時,能夠有一個全新的思考方式。

2、掌握一些方法

這個方法其實有很多種,如果是有數理背景的同學可以關注一些量化的數學方法,不管是基本運籌學,概率論去描述確定性,還是金融背景的同學去了解所有金融的應用場景,其實都可以從方法上去嘗試訓練。

3、關注具體的應用場景

掌握太多的理論,如果沒有一個合適的應用場景,或者在應用的時候完全用理論去套實際問題,其實是不能解決問題。第一個方法能夠很大程度上給予我們幫助,就是思考決策你的方式。我也建議大家多和你感興趣的行業的人士去溝通,因為他們面對著那個行業裡面特有的場景和特有的維度,多和他們溝通,那麼有了一個解決問題的思維方式和一些非常量化非常清晰的方法時,在這個清晰的應用場景里,一定可以去幫助他解決非常核心的決策問題。

冬粉提問

1、人工智慧產業從前是否有泡沫成分?純粹人工智慧是否有商業模式?

王曦:這其實是一個很大的話題。泡沫是指只有概念,沒有落地,只有想法,沒有具體的實踐方案,所以從這個角度來說泡沫是一定會有的。

回溯歷史,我覺得任何一個有新興技術誕生的階段,人們都會進行這樣的討論,因為當新的概念出來的時候,從時間角度講,概念的存在通常是為了領先於技術的落地。

我參加過一個討論,話題就是現在人工智慧已經滲透到我們生活的方方面面,未來很多人類的工作是否會被人工智慧取代?其實這就是一個很典型的針對泡沫的討論。這個事情其實我並不擔心,一方面,我看到過很多次新科技的出現時都會有這樣討論和擔憂。比如二十世紀初,福特汽車公司剛開始投入標準化、流水化生產T型轎車的時候,整條流水線上約2/3工人都被替代掉了,但是如果我們關注由於這樣一個新技術所催生的另一個更大的產業,從替代下來的勞動力所產生的就業機會來看,其實是一個更龐大的數字。

從另一個角度來說,關於純粹的人工智慧是否商業模式這個問題,我的觀點是我會更關注它產生的價值。任何一個產生價值的新科技都能夠找到了其所適合的商業模式,變現永遠是第二類問題,第一類的問題首先是這樣一個功能,不管是娛樂性質,服務性質還是實際產品形式,重點是它能產生什麼樣的價值。只要它有價值,相信一定會有它的商業模式。

2、在和美國,運籌與決策科學這個學科及應用的主要差異在哪裡?

王曦:根據我的觀察,差別還是挺大的。

因為運籌與決策科學最開始發展成熟是在美國,所以現在這個學科的應用和成熟度是比國內高很多的。一些成熟的大企業,比如說像亞馬遜這樣規模的大公司,專職用來做研發和供應鏈的團隊可能有150人到200人,而且80%到90%的人是博士學位。在國內,無論小公司還是大公司可能都沒有這樣的團隊配置。

但是從另一個角度說,我們回國創業后,和國內的各種類型的企業去溝通和討論我們的技術,我們發現,因為這個技術或者說它的理論很成熟,所適用的範圍非常廣,當我們去和企業溝通的時候能夠發現,企業會非常快地意識到我們能夠帶來的價值,所以這個是讓我覺得非常樂觀的一點。

另一方面,過去幾年大數據概念被炒得火熱,所以各種類型、各種行業的企業都會有或多或少的數據積累,當這個數據積累到了一個臨界點的時候,大家都會去關心怎麼樣去做一些數據驅動的決策,怎麼樣去做更好的精細化運營。這也是另一個我們看到運籌優化與決策科學能夠被廣泛地在國內應用的一個契機。

總結來說,如果看現狀,美國對運籌與決策科學的認知度、接受度和應用的廣泛性是成熟很多的,但是國內有一個非常大的成長空間。

3、AI+金融目前最大的難點在哪裡?

王曦:我記得李開復老師曾經說一句話,「可能人工智慧最容易應用的領域就是金融,因為金融是一個純數字的語言」。

單純從數據這個維度來講,我覺得難點或者說痛點有兩個。

第一,雖然金融行業裡面的數據量非常大,但是很多時候會面對一個大量但是低維的問題。舉例來說,剛才討論了大數據徵信的問題,一個金融機構可能已經觀測到了大規模的數據,有關成功放貸的用戶的付費習慣,雖然這個數據量非常大,但是從維度的角度上來講,我們觀測的所有數據都是已經被金融機構評審為優級且成功拿到貸款,我們認為他們的不還款概率非常低的一群客戶的行為,而對於那些我們已經拒絕發放貸款的人群,這些維度我們並沒有觀測。所以數據面對大量少維的問題時,用什麼樣的方法和更新的數據維度來解決這個問題,我覺得是一個難點。

第二,很多所謂的數據分析可能會停留在數據的描述和數據的預測。數據的描述和預測是有很高價值的,但是如果我們真的想用這樣一種很複雜或者很高端的數據分析方式去最終支持金融科技方面的決策,那麼我們不應該僅僅停留在對數據端的描述和預測。有時候大家會認為預測一定要做得非常準確,才能把這個問題解決好,但是如果我們關注預測所支持的決策會發現,決策對預測精度並沒有想象得那麼敏感,而這個決策有些時候所需要的維度也不是僅僅對數據的描述和數據的預測就能夠解決的。所以我會建議大家把關注點更多的放在決策端,而不是僅僅是數據的描述和數據的預測。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦