search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

如何用人工智慧從新型數據中來尋找Alpha

作者 CDA 數據分析師

編者按

隨著移動互聯網,小型衛星普及等,資產管理公司,尤其對沖基金公司開始利用人工智慧從新型數據中來尋找Alpha。

本期精編版嘉賓演講為合一創投首席數據科學家吳海山博士帶來的分享,看了他講的內容你會發現,原來數據分析還可以有這樣一種不一樣的形式……

關注公眾號CDA數據分析師(ID:cdacdacda)並回復「吳海山」領取吳海山博士現場演講視頻和PPT。

現場紀實

首先非常感謝CDAS主辦方CDA數據分析師的邀請,能夠在今天和大家分享一下我之前做的一些與數據分析相關的工作。先簡單跟大家分享一下我來合一的很重要的動機。之前在高校演講和交流中,我發現數據科學和大數據已經成為很多學校的課程,有些學校已經開設大數據專業,甚至成立了數據科學研究院或者數據科學這個專業。但是一直沒有很好的教材和線下組織,能夠讓學生接受到更多的業界里和數據科學、數據挖掘、數據分析相關的進展。有一次我碰到人大的趙總,發現CDAS是一個很好的組織,我認為它對數據挖掘能起很大的作用。所以我義不容辭很願意來這裡跟大家分享一下。

我介紹一下自己,我現在合一創投工作,創始人是優酷的創始人。加入合一之前我在百度研究院大數據實驗室做人工智慧和數據相關的研究。我今天和大家分享的課題是,用人工智慧和新型數據在金融投資里如何尋找新的Alpha?當時我選擇這個課題的方向也是有原因的,剛才拉鉤網張總介紹到,現在能夠促使大家學習數據分析的很重要的動機:我學習這個,我的工資可能會高一些,這個是很直接的數據。還有人說,如果我學會了數據分析,我能夠用數據幫我來賺錢,也是一個很重要的動機。所以我今天分享如何用新型的數據幫我們做投資,幫助我們從數據里找到屬於我們的財富

首先說一下什麼叫新型數據?大家做投資,做股票、債券也好,或者其他的投資收益也好,一個很重要的信息是怎麼看市場的變化,去分析市場的趨勢。大家可以回想一下,從歷史上來看人類是如何在金融市場上分析信息的變化,來做決策的。大家如果看《人類簡史》的話能夠想起來,17世紀-18世紀英國女皇投資了東印度公司,東印度公司去全世界殖民地也好,或者販賣煙草、茶葉也好,整個公司業績的表現很大程度上取決於有沒有海盜,而該信息的傳播直接影響這家公司財富的表現。當時市場信息的傳達沒有這種變化,完全是靠著口頭傳播或書信傳播,效率是非常非常低的。所以最先獲取信息的人,在市場上就會有信息優勢。上個世紀隨著電話、報紙的發展,其實市場的信息已經開始通過報紙、電話,甚至電報傳播。

20世紀70年代我們有了新型的資訊終端和軟體,我們可以在終端上快速了解市場上發生的變化,幫助我們做決策。但是這個平台有一個弊端,如上面發布的信息是公開的,像CPI反映通貨膨脹,政府一個月(每個月)公布一次,如七月份今天剛剛結束,到八月中旬公開CPI指數,在市場上有半個月延遲,這對決策的價值已經很小。還有其他指數,像GDP是每個月甚至每年更新一次,頻率很低。另外,我們分析某公司和某企業時,證券公司的分析員,會如何分析一個公司呢?實地去考察。如投資水泥公司,礦產公司的股票,我們是在考察,去看看這個礦產變化怎麼樣的,工人數量有沒有增多。這個效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一個的話,一年也就去360個,所以這個不具有可擴展性。現在隨著手機互聯網的發展和物聯網的發展,我們有了新型的數據,能夠幫助我們自動的去分析,去實時的監測市場的變化來幫助我們做市場的決策。比如說我們現在有各種各樣的感測器,比如手機,我每天在手機上都留下了大家上了什麼網站,買過什麼地方,所有信息都可以聚合起來分析市場的變化。所以我們可以通過這種方式來去對金融市場的信號來做一個實時的分析。

這些新型的數據包括哪些呢?第一個,我剛才講的手機感測器數據,它能獲取哪些數據?如定位、WIFI連接,這些數據能夠實時看到這個市場消費的變化,比如把所有去過某個酒店用戶的聚合起來,我就知道酒店消費、餐飲行業等一系列就業的變化。另外就是微型衛星,以前發射一個衛星,這個衛星特別大,發射成本也特別高,一個衛星可能要幾億美元。現在互聯網的發展也在改變太空行業,像美國有一家公司,它是已經發射了大概150顆微型衛星。這個衛星大概也就這麼大。這個衛星的好處是基本上可以每天實時的最地球進行觀測。我們以前觀測一個東西的時候要先打電話或者進行預約,說能不能看大飯店的一個區域,如果那天正好下雨還看不到。但是這個可以對全球實現7×24小時的變化,這個數據對我們做金融分析價值非常大的。尤其像農作物、房地產、港口貿易。我分享幾個案例,是怎麼用衛星圖像來做金融市場分局分析的。

還有物聯網數據,大家知道現在基本上很多感測器上,很多設備上都已經裝了感測器,我們可能機器人身上有些感測器,我們家庭用的智能家居身上有感測器。這些感測器可以記錄,比如物流車上的流動,可以記錄工業機器人運行的數據,還可以看智能家居的變化。通過這些感測器的數據,我們可以實時分析物流上的變化,可以看到用電量的變化等等。還有一個是大家可能無時無刻看到的攝像頭的數據,這個數據有哪些作用呢?比如大家去停車場停車的時候有一個設備,是計費的。這樣可以看今天來大飯店開會的,或者去某個商場消費的客流量和車流量的變化,可以具體識別某個車型的型號。通過這種方式可以大概的估算一下,豐田汽車銷售是什麼樣子的。所以這些來分析線下商場的商品消費,像汽車消費。

還有像日常生活中每天能接觸到的就是支付終端的信息,像去某些地方消費,POS機信息也可以記錄消費者刷卡數據,甚至購房、購車數據,都可以分析整體線下消費的趨勢。

另外,現在越來越普及的,比如像大疆的無人機,這個無人機能實時拍攝,像農業的圖像,像房產現在正在建築的一些工程施工的圖像。通過這些數據我們能來分析一些農業、地產,或者建設工程實地進展的變化。

這裡顯示的圖是說哪些公司正在搜集和分析這些數據。我舉個例子,左邊這個是全部用來分析衛星圖像的,就是剛才講的美國的那家公司,這是Google投的一家公司,這個主要是為對沖基金公司來做服務的。還有像可以通過簽到的數據發現線索下某個餐飲店銷量的變化,他們用這個變化分析某個公司的財務的表現,結果是非常的准。還一個比較有意思的,這個公司是用來搜集用戶信用卡刷卡數據,通過這個數據聚合來具體分析,比如說沃爾瑪每天的銷量,來通過這個看線下實時銷售變化。會發現很多創業公司去來分析相關的數據,或者說叫一些新型的數據。我覺得這個趨勢在美國已經發生,我覺得它在也正在發生,我認為接下來一段時間越來越多的公司通過新型數據分析為金融投資市場做決策。

這是金融市場信息擴散的一個表,左邊的是任何人都能看到的金融市場的一些數據,比如像每個公司發布財報的信息,每個公司股價的歷史信息,這個信息是每個人都能獲取,每個人都能來分析,它能在市場產生Alpha的價格就很小了;但是新型的數據,像我提到的衛星圖像的,甚至像微博等等數據都能用來分析做投資。還有一些數據是剛興起的,就是我剛才講的,像物聯網數據,包括無人機的數據,還有小型衛星Google地圖的數據,這些信息我認為在接下來的市場能夠產生Alpha的價值是非常大的。在座的各位如果想從事金融行業和數據行業,我覺得這塊大家可以重點來關注的。

我現在分享一下我之前做過的用新型數據來做投資的案例。第一個,我們用定位的數據。這個是我們展示了手機定位數據一天的在除夕這一天全國用定位的可視化結果。大家看定位數據的本身,我們下面是沒有放任何地圖,這個可視化的定位數據本身已經能展示整個的輪廓,如果我們再放大一下,還能夠看到具體的空間上的構造,比如看到黃河的輪廓,還有海河輪廓。發現人的定位數據的足跡可以非常好的刻畫空間上的信息。這個對金融投資價值是非常大的。這是靜態的。

還有一個展示北京一天二十四小時的動態變化。

還有一個沒有提到的,就是用人工智慧的數據分析線下消費的數據。我剛才提到一個指數,叫CPI指數來衡量通貨膨脹的,這個數據一般是政府,像國家統計局每個月都會有調查員實地的調查考察和分析。美國有一家公司,它用圖像分析的方式來去看市場上價格變化,怎麼做呢?比如大家每天去超市買東西,買完東西以後如果用手機拍下小票的照片,或者能夠在超市看到價格的圖片,拍上去后後面會用人工智慧的方式分析這個圖片,它後面會找到價格的信息。它通過這種方式可以實時看任何一個國家線下消費數據,這樣可以看到每天的通貨膨脹的變化。這個數據已經被世界銀行和很多組織來應用這個數據。

還有用衛星圖像分析,大家看這是用衛星圖像捕捉到地球上某個國家,某個區域儲存石油的儲油罐的圖片。他們會有一些演算法,能夠根據圖片識別出儲油罐陰影面積的大小來算高度,進而通過這種方式算五可能的儲油量的變化。通過這種方式可以每天掃一遍全球儲油量的變化,這對全球石油交易非常有用的。還有用衛星圖像看區域經濟發展的,像我剛才講的世界銀行,世界銀行想去為非洲不發達國家貸款,它面臨的問題是到底貸多少款給他們,像有些國家長期處於戰亂無法獲取這個信息。但是可以通過衛星圖像,像這個地方樓型建築比較好,可以認為比較發達,還有些房屋是破破爛爛的,所以斯坦福大學建立了一套方法,根據衛星圖像來進行分析來為世界銀行提供服務。

還可以看一個零售商的變化,以美國為例,美國超市都建在郊區,大家買東西都把車停在商場的旁邊。如果通過衛星圖像和機器學習的方式,識別每天商場旁邊停多少車,就可以測算出來每天有多少人來超市。

我們做的工作是用衛星圖像和結合其他的數據去識別空間區域的功能。第一,我們左邊是衛星圖像,然後又結合路網的信息,比如我們這個區域是一個路,然後再結合剛才說的手機移動數據定位,然後我們自動識別這個區域是工行,這個區域是寫字樓。這是我們叫全卷積神經網路的一個演算法,我就不展開說了,大家可以在我們網站上看到這個演算法。這個是我們識別出來的幾個案例,這兩個案例都是我們識別出來的功能上的區域,這個邊界是通過演算法識別出來的功能邊界。這個是通過深度學習再結合衛星圖像去識別空間區域功能。還有一個移動手機定位的數據,我把這兩個數據結合起來,比如左邊的圖是上海的一個地圖,右邊兩個:藍色的區域代表了我們用剛才的演算法去識別的工廠,下面的區域是我們用這個演算法來識別的商場寫字樓。我們有了這兩個區域之後,我們再結合用戶的定位數據,比如這是一個用戶的線下移動的規矩,用有機演算法來算出用戶去什麼地方消費,在什麼地方驅逐。把這些信息聚合起來可以實時看某個區域的勞動力的變化。尤其是對證券和投行的分析師,他們調研的時候工廠必須去考察,但是現在有了衛星圖像可以識別這個區域,和有多少人在這兒工作,就可以識別出來這個區域的勞動力觀察,就不用去現場考察了。

這個圖可以看到勞動力在第六年有明顯的下滑,這個倒閉的其中一個是蘇州的工廠。下面兩個是反過來的,有很多人搬到這裡工作,或者說這個公司融資完之後開始大規模的擴張,會發現勞動力也有大幅度提升。通過這種方式我就可以實時來看全國的各個工業園區勞動力的變化。如果說把勞動力數量聚合起來,就可以來看基本上整個範圍內宏觀的就業趨勢的變化。大家知道衡量宏觀經濟還有一個指標,叫失業率。失業率在每年政府工作公布的數字都是在4%。我們的數據其實發現,可能結果不一定是這個樣子的,我們這個給出來是一個,我們發現就業園區就業的趨勢其實整體來講是有一定的下滑的。但是正如剛才拉鉤網展示的數據發現,其實我們發現新興工業園區,尤其像高科技園區,或者像生物製藥園區,它的就業趨勢是上升的。所以說新興工業園區就業趨勢我們認為是比較好的。

這是我們給出了全國非常大的四千個商業中心的數據,我們剛才講通過衛星數據可以識別商場的邊界,可以通過定位數據識別到每天有多少人來這裡消費。把兩個聚合起來可以看到全國範圍宏觀的線下整體消費趨勢。這裡其實包括了很多像銀泰或者萬達很多商超聚合的結果。我們也可以看具體的某個公司的趨勢來做分析的。

剛才講到通過衛星圖像來獲取一個區域邊界,再通過定位的方式聚合,來去看這個區域的消費和就業。還一個方式,比如銀泰商場有一個海底撈,如何看海底撈里具體的消費呢?我們有一個深度學習的演算法,能夠自動識別預測用戶是不是到訪這樣一個具體地點的概率。大體就是我們會用很多種數據,像定位數據、簽到等數據,然後結合貝音絲深度學習的演算法來預測客戶到訪海底撈的概率。有了這個到訪概率我們演算法的準確度非常高。所以如果能預測某個客戶具體到訪每個地方的話,就可以看用戶到某個地點的客流量的變化,這是我們預測的用戶到訪大中華區大陸的30個蘋果旗艦店的客流量的變化。通過客流的變化預測蘋果公司在大中華區財務營收的變化。前兩次我們模型的誤差都非常低,在2015年Q4預測的結果可能要上升15%,它們財報結果是14%。另外一次我們認為它2016年結果要下滑25%,它們財報是26%。這個其實從另外一個側面證明了,通過簽到的數據,WIFI定位的數據去預測一個公司的營收結果是靠譜的。

還有預測電影院的票房收入,我們可以通過歷史的時間序列建一個模型去預測。我們現在是把用戶去到訪電影院或者搜索電影院,或者簽到電影院數量作為一個特徵去預測電影票收入,我們發現這個模型準確度提升的非常高。紅色的結果是我們使用了新型數據預測結果,藍色的結果是我們只用時間序列預測,發現誤差降低非常多。如果我們預測比較准,可以預測電影院營收的狀況。這個B,我們預測了保利的電影院,我們預測的誤差非常小。我們對新型數據預測這家連鎖電影院票房結果是非常準的。但是用同樣的方法預測另外一家電影院,發現曾經有一段時間預測的誤差特別高,像8-9月份。我們模型預測的票房收入可能會比較少,但是它報出來的電影票房非常高。後來我們調查,因為這個電影院上映了《捉妖記》,進行了電影票房的作弊。

我們看一下具體行業的,這個是汽車的,這個是我們用新型數據到訪4S店的數據,這樣可以看出來汽車銷量變化。為了證明我們結果是靠譜的,我們把我們數據,藍色的線和汽車工業協會的線做了對比,我們發現我們的趨勢跟它們非常吻合的。但是我們的結果好處是,新型數據可以實時分析這個市場的變化。所以我們結果對分析市場變化是有很大的優勢的。

第二個產業,是線下餐飲行業的變化,我們把所有的到訪,像麥當勞、全聚德等店的到訪,我們做了線下餐飲消費指數。為了證明我們這個比較靠譜,我們和另外一家公司的指數對比,是銀聯,大家在POS機上刷卡的指數,我們發現在2016年之前整體是非常吻合的,但是我們的結果在2016年之後線下餐飲行業的趨勢下滑非常嚴重的。後來我們調研分析我們認為我們結果更靠譜,因為尤其是像外賣行業,其實在很大程度上影響了線下很多餐飲行業的變化,很多人可能就直接叫外賣,不用去餐飲店吃了。

還有一個應用就是對房地產投資的。大家知道這種情況在是非常常見的,就是有很多空的樓盤沒有人住。很多媒體開始報道哪些地方是鬼城。但是沒有一家用數據的方式幫助我們分析這個城市是否空的很厲害,到底空的多厲害?我們剛才講過我們可以用用戶手機定位的數據和手機圖像的數據,我們可以通過機器學習和人工智慧演算法去識別,從而我們發現很多的空置率,這是我們給出九個空城特別多的區域。這個是鄂爾多斯,這個城市非常有意思,之前大家說鄂爾多斯是空城,這個空在什麼地方呢,其實大家沒有概念的。我們發現一個非常有意思的現象,是鄂爾多斯的新城區空的很厲害,就是左下角這個,跟媒體報道是比較一致的。還有右上角發現主城區的郊區空置的樓盤也很多。這個城市很有意思,就是很多由於原來逐漸衰敗的城市除了新城區衰落,其實郊區的一些房子入住率也是比較低的,很重要的原因就是這個地方的就業率開始下降,很多真開始搬到其他地方去居住和工作了。但是我們也發現一個比較意思的現象,是之前媒體報道特別多的城市是鄭州的新區,但是我們數據發現現在越來越多的年輕人願意去新區工作。我們認為鄭州新區不能再是傳說中的空城。這是我們用數據發現房地產的變化。

我們的研究也獲得了很多國內外知名媒體的報道,這是一些報道我們相關研究的媒體。

非常感謝大家在周末時間來到CDAS現場,非常高興能與大家分享之前做的研究。謝謝。

CDA堅持打造高端數據分析學習社區和數據分析認證

CDA 數據分析師,作為國內領先的數據分析師人才教育品牌,一直致力於打造最棒的數據分析學習社區。旨在加強國內外乃至全球範圍內正規化、科學化、專業化的數據分析人才隊伍建設,進一步提升數據分析師的職業素養與能力水平,促進數據分析行業的高質量持續快速發展。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦