港科大張曉泉教授：AI在金融領域的創新與應用 | CCF-GAIR 2017

7月7日，由計算機學會（CCF）主辦，雷鋒網和香港中文大學（深圳）承辦的第二屆CCF-GAIR全球人工智慧與機器人峰會在深圳隆重開幕。會議第二天，香港科技大學資訊、商業統計及運營學系教授張曉泉（Professor Michael Zhang）帶來了題為《經濟學家眼中的金融科技創新》的主題演講。

嘉賓介紹

張曉泉，2006 年獲美國麻省理工學院（MIT Sloan School of Management）管理學博士學位，此前在清華大學獲得管理學碩士、工學學士和文學學士學位，他的研究領域主要包括營銷策略、大數據營銷、商業人工智慧以及互聯網金融。學術論文曾發表在《美國經濟評論》、《管理科學》等知名學術期刊。同時他也是招商證券、移動、華為等公司和機構的顧問。是美國知名華人社區 MITBBS 創始人，Information Systems Research (信息系統研究)的高級主編，同時還身兼招商證券、移動、華為、香港數碼港、阿里巴巴旗下湖畔大學等公司和機構的高級顧問。

在本次演講中，張曉泉教授從AI 需要金融、金融與 AI 相互融合、決策問題等三個方向向與會觀眾介紹了AI在金融領域的創新與應用。

他認為，科技與金融其實並非魚與熊掌，自人工智慧、大數據、機器學習興起以來，利用AI技術研究金融問題已屢見不鮮，AI 技術需要經濟領域的研究方法和思路，經濟學方法也可以助力 AI，應用於研究大數據的產生、傳播和處理。雷鋒網()亦認為，隨著 AI 技術的不斷完善發展，金融和科技領域的相互融合已經是大勢所趨。

在他看來，自古以來，金融市場真正在做的事就是讓資源更好地分配，如最早開始用紙幣，後來有信用卡，現在是區塊鏈的出現，不同的技術雖然一直往前發展，但其實都是讓人類越來越有效的做資源分配。

另外，在商業智能方面，張曉泉教授總結了數據到價值的轉化鏈條：數據-信息-知識-能力-策略-價值。

他表示數據首先要變成信息，信息變成知識，知識變成能力，能力變成策略，策略變成價值，這個鏈條是非常重要的，每一步不可缺。數據首先通過場景變成信息，信息組織成體系后就變成知識，知識轉化成能力，各種能力綜合起來構成策略，策略的執行產生價值，這個邏輯非常清楚。真正產生商業智能，不是說我們有了大數據就可以了，也不是說我們有了海量數據就能夠立刻做出有價值的東西，其實整個鏈條是這樣的一個邏輯，缺一不可。

再者，他認為，我們在工作生活中有很多的不確定性，這些不確定性可以有不同的統計學描述和意義。張曉泉教授認為，其中第一個是 certainty，也就是 100% 會實現的。下一個是 Risk 風險，可以用隨機分佈函數描述。下一個是 black swan，也就是小概率事件，雖然概率小，但會發生。再下一個是 ambiguity 模糊性，「比如即便我有世界上過去所有股市的數據，我仍然不知道明天會漲還是會跌，不知道都有什麼樣的影響因素，如果不考慮這樣的模糊性而僅僅用概率分佈來做預測，就會有非常大的偏差」。最後一個是 Radical Uncertainty，恐怖襲擊我們知道它會發生，但是不知道什麼時候會發生、在哪裡發生、怎麼發生。「當你有這種 Radica Uncertainty 的時候，你是沒法描述這件事的，你沒法寫一個模型說怎麼預測恐怖分子究竟會怎麼樣去做」。

在這五個級別的問題中，第五級的問題是沒辦法解決的，第四級的問題我們有沒有辦法解決，目前正在研究。張曉泉教授覺得大部分的是在第二級層面上解決問題，他認為世界上大多數問題也的確是第二級的。「比如說我要預測這個圖片是貓還是狗，其實這個事沒有那麼多黑天鵝事件，大部分問題可以在第二級能夠解決」。

但張曉泉教授同時表示：「有些問題，比如談到股票市場，可能你就沒法在第二級解決，你即便知道世界上所有信息，你無法預計明天股票的概率。這就超出了第二級別的範疇，這是學術界在努力的一個方向，未來會對整個行業有巨大的意義」。

以下是張曉泉教授的演講全文文稿，雷鋒網作了不改變原意的修改。

非常感謝。我今天主要講一下AI和經濟學有什麼關係。雖然隔行如隔山，但他山之石也可以攻玉。如果你了解經濟學在做什麼，AI將會變得非常有意思。

最近很多媒體都在傳播說AI要代替人類。這個事情在商學院也討論的非常多，未來社會將會變成什麼樣？我們以後是不是就失去工作了？

有條新聞是說律師需要36萬小時的工作，被一個軟體可以在幾秒鐘之內做掉；另外，包括說投資銀行的分析師馬上是夕陽行業，四大會計事務所現在也開始做AI了。

還有新聞說很多年薪超過35萬美金的人很快要失業了，換算成人民幣大概是200萬元人民幣。所以如果在座的誰的年薪超過200萬就快要失業了。（觀眾笑）笑的人可能都是年薪不到200萬的，不過你失業的機會可能更快。

紐約大學金融系的系主任前段時間到科大做講座。他說，傳統的審計、律師、金融等行業在未來的5到10年內都會受到非常大的影響。未來10年內，銀行和股市要不就關閉、要不就轉型；到了2030年，學校里的金融系和會計系都要關掉。他說的非常恐怖，但如果細想一下，如今科技的確對金融造成了不小的影響。

他認為，在商學院裡面唯一要教的一門課就叫Fintech。如果在谷歌上搜索，紅線是machine learning，藍線是fintech。這兩條線相關性很高，fintech底層是什麼？應該就是machine learning。在2006年以前，就有很多公司解決了支付等一系列問題，再往後，每年都有非常多的fintech公司出現。從這個過程中可以發現，靠前的公司讓金融工作變得更加簡單，而後面的公司則是讓金融變得更加智能，越來越多的公司都準備用人工智慧來解決現存的問題。

到後來我們發現，會計、認證、傳統的銀行業務、信用、貸款、投資、保險等這些行業都沒有變，改變的是如何利用解決問題的方案，從而讓問題變得更加簡單、讓事情變得更加高效。

金融市場的核心問題是讓資源配置變得更加有效。現在很多人認為技術讓事情變得高效的同時，是否就改變了人的主導地位，或者根本就不需要人類了。這張圖是去年MIT Technology Review雜誌封面圖，一開始人在用機器，但是後來機器變得越來越強大了，後來人只要修一下機器就好了，最後機器修機器，不需要人了。這個Jobless Society到底對我們的改變有多大，我一會兒會和Bill Roscoe教授有討論的環節，我們到時候再討論這個問題。

但是我個人認為，Jobless Society出現的幾率不大，過去100年間，有過很多類似的技術出現，每次都有論調認為人類無工作可做。其實不然，昨天汪軍博士引用了笛卡爾的一句話，他說機器是無法有意識的。其實畢加索也說了一句話，畢加索在大概100年前說，計算機是沒有用的，它只能給我們答案。我覺得這句話非常對，為什麼呢？因為我們解決問題的前提是提出問題，而計算機是無法提出問題的。只要計算機一天無法自己提出問題，人類還是有辦法去做工作，去提出問題，讓計算機幫忙去解決。

我們現在能看到一些趨勢，這些趨勢加強了學術界和業界的緊密融合。

舉例說，一、做研究和應用，在之前的五到十年，很多超前的研究只會出現在大學的實驗室中，而現在，很多業界做的東西和想法已經非常接近大學里研究的課題，這說明，學術界和業界正在加強合作，公司願意和學術界的教授進行合作得到研究結果，而教授也能得到一些數據和支持，這是非常良性的循環。大家也可以看到很多教授變成公司管理者，這非常有意思，它可以讓前沿的想法能夠立刻在實際場景中得到應用。

二、金融和科技的融合，如果現在去任何的金融機構，都會有專門的金融科技部門；很多技術公司，也會有一個金融部門。在這之前，銀行家和工程師是兩個毫無交集的職業，但在未來，這兩者將會有非常多的合作。

在商業智能的產生中，有一本著名的大數據的書，裡面提到的兩個觀點。

第一個觀點是大數據4個V，但我不這麼認為，因為你只有海量多樣的數據是毫無作用，最終需要從數據中產生一個價值，而價值才是數據的核心；

第二個觀點是當數據非常多的時候，我們就不需要研究因果關係了，因為我們有非常多的數據，就可以直接用數據來說話。當然這個我也非常不同意，我待會會講。

大家有沒有想過，數據將怎麼變成價值？數據首先要變成信息，信息變成知識，知識變成能力，能力變成策略，策略才能變成價值。這整個鏈條是非常重要且緊密的，每一步都不可或缺。另外，邏輯也非常重要。真正產生商業智能，不是說有了大數據就能夠立刻做出有價值的東西，在經濟學中，我們更關心的是怎麼解釋一件事情，一件事情發生底層的機理是什麼。預測分類和運作機理如何能結合起來，可以做出很多有意思的東西。

比如說，什麼情況下能夠做非常好的預測而做不了很好的解釋？地心說。太陽明天會升起，每天預測都是準的。但是地心說這個理論是錯的，我們現在知道地球圍繞太陽轉，這個理論用來預測是完全OK的，但是沒有解決底層的機理問題；反過來有沒有一個理論能夠做很好的解釋而做不了很好的預測呢？進化論。我們認為它能夠很好的解釋為什麼有人，人為什麼是從猿猴進化而來，但是它沒法做預測，你不知道明天人會變成什麼樣。其實這兩個問題非常不同，人工智慧專家可能更多做的是左上角的工作，經濟學家專家做的是右下角的工作，問題是怎麼把這兩個整合在一起。

現在說的Decision making還有很多不確定性。舉例說，太陽明天會升起，這個現象100%會實現。但下一個層面就有了一些風險，比如預測股市，我們都會有一個大概預測，可以說股市明天七成會漲、這就是所謂的Risk；或者說新研究一種新葯，70%的病人吃了會康復，30%的人吃了沒有效果，這都是Risk。其實現實生活有非常多的Risk是無法描述的，比如黑天鵝事件，有0.0001%的可能性明天股市會跌50%。或者這個葯吃了後有0.000001%的概率病人會掛掉。在這種情況下，即便有了大數據也無法做人工智慧的推斷。

再往下是Ambiguity模糊性，模糊性是什麼？我知道明天股市要不就會漲、要不就會跌，但是什麼百分比說不出來。即便有世界上過去所有股市的數據，仍然不知道明天會漲還是會跌，因為有很多因素會影響這個結果。在這種情況下，怎麼樣用一種模型去描述這種現象成為很多金融專家正在做的事情。問題總共分為五個級別，第五級的問題是沒辦法解決的，第四級在經濟學中可以試著解決。而大部分的問題都歸屬第二級。比如說預測圖片是貓還是狗，這個事沒有那麼多黑天鵝事件；但當談到股票市場，可能就沒法在第二級解決。

舉個例子，這是美國股市在過去從1968年到2016年的波動率。這個波動率就是Risk，波動率講的就是股票市場有多大的風險。如果你用傳統的方法用所謂的標準差去描述，你能看到有幾個現象：第一個是1987年10月19日有一個非常高的Risk那是美國股災。再往後比較高的時候是2002年的時候，也是有非常強的波動性，這是當時互聯網泡沫破裂的時候。再往後有一個非常高，2007、2008年次貸危機的時候。傳統我們對股市風險的描述是根據風險的預測，而風險預測底層的假設是我們能夠寫出一個統計概率出來的。

但如果沒有這些，該怎麼描述呢？最近我跟我的同事在做模糊性預測模型，具體模型我就不講了，但是結論是非常有意思的。大家可以對比這兩張圖，在排除了之前認為的風險之後，剩下的模糊性有多大。1987年股災殘存的模糊性也非常大，你把這些風險已經考慮了之後，仍然有非常高的模糊性。但是2002年的時候，股市的波動其實在我們計算出來的模糊性上反映就不大，這表示什麼呢？反過來我們再來解釋，1987年的股災是非常嚴重的，而2002年所謂的股災沒有那麼嚴重，因為底層有技術的推動，其實從未來來看，中間的模糊性沒有太大。再看2007、2008年，比1987年的還是低很多。

這件事也就是說明，如果只是從數據出發，沒法做出因果關係的，只做machine learning、data，但是你還是沒法發現底層的機制的問題。經濟學的insight就是希望把risk沒法解決的問題能夠用模糊性去描述。

下面我就講AI到底和經濟學有什麼關係。AI裡面有一個非常大的問題是overfitting。當數據有限的時候做了無數次的訓練，得出的效果非常好，但是你的model不是一個真正的模型。圖片上一共有12個點，這12個點如果你用一個線性模型做，線性模型是直線。

如果做一個十二元方程也可以非常精準地把所有點都經過。但是其實十二元方程效果不是很好，因為定一個中間點的時候，應該如何預測呢？如果是線性模型，表現會比十二元方程的模型表現好很多，是因為十二元方程做了overfitting，怎麼樣避免overfitting 有很多辦法，那麼有沒有一個辦法非常精確的告訴我，你的模型是對的。

現在很多model還沒有解決底層機制的問題，但從數據出發做預測，就類似於我們給 3歲小孩一把機關槍，有時候能打中、有時候打得挺好的，但是很多時候你會有很多錯誤，這個怎麼避免？我們在做machine learning的時候，我們能不能用經濟學的原理解決問題。

financial market是怎麼運作的？投資人把錢投到一個公司，公司有相應回報，可能是業績回報或者分紅。中間我們需要媒體幫助投資人知道這個公司做得怎麼樣，而這其中很多環節可以用人工智慧的辦法去幫助我們增加它的有效性。

Media有兩種，第一種是傳統的媒體，第二種是所謂的社交媒體。傳統媒體包括剛才講的互聯網行業分析師、傳統的新聞媒體。社交媒體像雅虎、頭條、微博、微信、推特等等所有都是social的，其實這些媒體的影響也非常大。

投資人有兩種，一種是散戶，只是在股票市場做一些簡單投資，但是跟公司沒有任何關係，也對公司不了解的人。還有一種是機構投資者，另外則是公司內部的高管，我們把他們合在一起叫做Insiders。這是我認為這個是最簡單的對於金融市場的描述，其實每個鏈接都是可以作為互聯網金融的idea來優化的。

而這能夠回答什麼問題？美國在2013年的時候，Associate Press賬號被黑，在推特上發了一個假信息，他說白宮有兩次爆炸，歐巴馬受傷。這件事說完之後3分鐘之內，美國股市的市值就蒸發了1千多億美金，如果你去要看它的基本面，不可能有1千億的變化，所以我們認為，這3分鐘之內發生的事情，一定是跟推特相關的。

為什麼呢？這裡面能看到兩件事，第一件事是說Associate Press的社交媒體推特還是很有影響的，它真的能夠對股票市場造成很大的影響，不管新聞是真的還是假的。第二，你能看到非常多機器做交易，如果是人我們會判斷一下，這個事是真的還是假的，歐巴馬是不是真的受傷了。但是機器不會，機器寫了一些固定的演算法，它會認為歐巴馬受傷一定是壞事，所以它就開始做做交易賣出股票。這裡面1千多億的市值蒸發很大部分是由於機器做交易造成的，所謂的量化的演算法。

再比如維基百科，你能看到在發布年報前後的時間內，大家對Intel維基百科的頁面訪問翻倍，從2000多次變到4000多次，說明大家對社交媒體的關注度是非常高的。這個也是我們做研究發現有意思的事，發布年報的時候有兩種情況，第一是公司業績非常好，第二是沒有那麼好。當你的業績不好的時候，就是一條藍線，和你業績好的時候比較，平均來講當年報業績不好的時候，公司不願意發推特，他們發得比較少，但是可以看到離年報發布的前幾天的時候，突然一下子暴漲起來，這個時間差不多是4天。

這個分析我們得到一個什麼結論呢？當業績好的時候，這些公司都在說同樣一件事，說我們的業績好，今年股票的回報大概是多少，我們花了多少錢，我們在明年有什麼計劃，這些都是非常好的跟公司業績相關的推特。

這時候可以反推，當你還不知道具體情況時，你看到推特上的內容就可以進行一些辨別。根據這個便可以做模型訓練，當你看到它的歷史曲線的時候，你發現突然有一家公司在年報發布附近的時候突然開始說一些莫名其妙的話，說明他今年的表現不一定很好。這是可以做成訓練模型去看的。

那麼如何建立因果關係呢？經濟學里有個方法叫工具變數，舉個例子說，假設我們想知道X是不是影響Y，比如說X你是否抽煙，Y是你有沒有肺癌。我們會搜Data，這個人抽煙有肺癌，那個人抽煙沒有肺癌，搜了一堆的數據，得到的結論是說抽煙導致肺癌。但是這個是不是真的呢？不一定，因為還有可能是你看不到的一個現象，這個現象導致你既抽煙又容易肺癌。或者說你看不到的U決定了這些人幾遍不抽煙也會得肺癌。比方說這是地域的原因，又比如說住在某個省的人更容易抽煙、更容易得肺癌，跟他抽不抽煙沒關係。也有可能是基因的問題，有的人是生下來就會得肺癌，抽不抽煙也會得肺癌，這些人碰巧另外一個基因決定他又容易抽煙。當你有這種現象的時候，你是沒法說抽煙是否能導致肺癌的。

怎麼辦呢？我們就會找一個工具變數，我們希望它和抽不抽煙是相關的，但是跟看不到的現象基因、地域是沒關的。怎麼找到這個東西呢？比如說最簡單的，國家現在要徵收煙草稅，煙草稅是跟你抽不抽煙相關的，煙草稅一提上來，可能你抽煙就變少了。但是煙草稅跟你的地域是沒關的，因為這是國家政策，所有地域都會受影響，跟你的基因是沒關的。這個就叫工具變數，當你有這樣的一個體系之後，你就能分析出來X和Y的關係，因果關係就能出來。如果我們的machine learning你只關注在X到Y這條線上，有可能你最後的結論是錯的。即便發現一個正相關，得到的結論也是錯的。但是如果你知道怎麼用工具變數做這件事的時候，你就解決了之間的因果關係。

大家經常講Human in the loop，我覺得應該要有Econ in the loop的概念。如果你用Econ in the loop的idea來做，用因果關係的分析能夠結合在machine learning的model裡面，就可以做非常好的研究，得到很好的結果。謝謝大家！

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。