Zi 字媒體

獨家解析 | 人工智慧如何改變證券行業

2021/12/25

近年來，人工智慧（AI）受到前所未有的關注，一個很重要的原因是人們逐漸認識到了它給社會帶來的價值和衝擊，促使各行各業把AI定為成公司的一個重要戰略方向。它所影響的領域不僅涉及到傳統的互聯網行業，而且加速深化到其他領域包括金融、醫療、工業、農業、汽車行業等。特別是，最近幾年迅速崛起的互聯網借貸領域尤其受到了其技術的衝擊，核心的風控環節目前逐步被機器取代。除此之外，互聯網證券領域也很可能成為下一個被AI顛覆的領域。隨著互聯網數據的爆髮式增長，怎麼從這些海量信息中快速總結出對投資有價值的信息是一個很重要但充滿挑戰的問題。

1. 「人工智慧（AI）的寒冬不會再來」

當前AI的熱潮已經達到了前所未有的程度，儘管有一些被媒體誇大的成分，但我們還是不得不承認它所帶來的價值。回顧AI的發展歷程，曾經出現過兩次AI的寒冬，都是在一股大熱潮之後湧現出來的。對此，不少人可能會擔心下一個寒冬的來臨。但可以很樂觀地說，或許下一個寒冬根本就不存在。如果仔細回顧這段歷程，我們可以觀察到當前的熱潮和歷史當中的熱潮是有本質性的區別的，就是AI真正開始跟產品深度結合了起來。百度的Andrew Ng在MIT Technology Review上也提到了這一點 [1]。

2. 為什麼說自然語言處理技術對證券行業尤為重要？

證券行業充滿著博弈，任何的投資決策都需要經過大量的信息搜集和處理過程。對於量化建模來說，我們需要的是各種結構化的信號，一部分可能來自於量價信息，另一部分則可能來自於技術面或者基本面；對於主觀分析來說，為了了解一個公司或者行業，分析師可能需要搜集和查閱各種相關研報、新聞、公告、基本面等數據，隨後通過一系列的方法論來找出數據間的相關性，最後對未來趨勢做預測。

雖然這些方法論已沿用許久，但放在當前的大環境里未必很合適。原因如下：

1、在大數據時代，我們所面臨的數據量是幾乎以指數增長的。其中，絕大部分屬於非結構化信息，比如文本、圖片、音頻、視頻等。包含大量文本數據的新聞、股吧、論壇、微博其實跟投資決策都有一定的關係，但現階段並沒有很好地被利用，甚至被忽略，主要是源於技術的壁壘和領域的新穎性。在未來的幾年內，隨著移動互聯網的持續發展，非結構化數據仍然會以驚人的速度增加。
2、目前的量化建模主要依賴於結構化數據。在這基礎上，當我們把非結構化文本轉換成結構化信號之後，就可以用來豐富模型的輸入從而提升效果。在這方面，美國的量化走在我們的前面，他們早已開始使用自然語言的數據來提升量化模型的準確率，代表性的公司包括two sigma, Sentient technology等。
3、一個分析師可能需要耗費大量的時間去搜集和查閱資料（包括新聞、研報等），從而找到一些信息之間的相關性，但整個過程需要大量的人力成本。事實上，其中的很多流程都可以被機器替代，比如運用自然語言處理技術讓機器對原始信息做抽取和分類、做結構化處理、並基於歷史數據做相關性驗證和邏輯推理等。代表性的公司有Kensho, Ravenpack等
4、對於投資這種極其專業化的領域，一個分析師能考慮到的邊界畢竟是有限的，大多數情況下他們只專註於自己熟悉的行業或領域。相反，AI技術可以無限地延伸知識的邊界，能夠提供更全面的信息和行業全貌。

2.1 自然語言處理的進展、垂直領域中的應用

近年來AI技術在兩大問題上取得了突破性的進展，分別是圖像識別和語音識別，而且很多學者們預言下一個被顛覆的領域很可能是自然語言處理。比如當我們使用Google翻譯的時候，就會發現這個系統正在變得越來越精準。另外，在輿情分析、主題識別、文本分類、搜索、信息抽取、數據融合、聊天交互、智能問答等領域上也取得了很大的進展。但值得警惕的是，現階段的技術很難支撐一個通用化的商業應用。這就要求我們需要提前定義清楚問題的邊界，最好可以在一個細分的垂直領域裡深挖下去。

3. 談談一些應用場景

假設我們通過各方面搜集到的數據去評估一隻股票/公司的價值，這個過程其實非常類似於我們對一個人構建人物畫像。舉個例子，為了分析一個人的借貸風險，我們首先需要搜集各方面的數據比如行為數據、交易數據、GIS數據、社交數據...，其次通過這些數據去還原這個人全方位的畫像，或者通過建模來預測其風險指數。對於股票，也是類似的過程：通過對股票行情、新聞資訊、公告研報等數據的搜集和整理，我們可以多維度地從基本面、技術面、資金面以及，輿情影響、事件驅動等方面去刻畫這支股票的畫像。

在證券領域裡，存在大量的非結構化數據，包括這裡所提到的社交數據、股吧、論壇數據和新聞數據。雖然它潛在的價值巨大，但現階段並沒有被很好地挖掘。這好比在風控領域，直到幾年前風控模型還是主要依賴於信用數據來做的，當時也並沒有考慮到所謂的非結構化數據。但從現在的趨勢來看，越來越多的互聯網金融公司逐漸把行為數據、社交數據、交易數據，甚至關係網路也帶進了其風控模型。其中的道理是顯而易見的：只有這些日常生活中的真實的數據，才能足以還原一個真實的人。

3.1 大數據熱點 - 實時捕捉全行業的動態

通過海量網上信息的抓取和分析，我們可以分析出每一個行業、每一隻股票的實時關注度，這些信息對於投資來說，價值是非常大的。不同於APP上的用戶統計數據，這些網路上的信息更能夠實時地揭示市場的真實狀態。為了確保系統的實時性和準確性，對分散式爬蟲系統和文本分析技術提出了很高的要求。

3.2 輿情分析 - 實時捕捉全網股民和專業機構的態度

輿情分析是指通過海量文本的實時抓取和語義分析，去監控全網股民和專業機構對市場的態度。在有效性問題上，其實之前也有過很多的爭議，但不可否認的是在美國很多的專業機構里早已把它作為一個重要的信號來輔助投資。美國一家叫Sentient Technologies的公司專門對其他金融機構提供此類的服務。除了證券投資領域，輿情分析技術也被廣泛地應用在包括電商、零售業在內的其他領域裡。他們通過這項技術來實時監測對產品的評論、負面新聞以及競爭對手的動態等。

相比於其他自然語言處理問題，輿情分析技術的壁壘並不算高，但要做到讓輿情實時準確地反映市場情緒，這不僅需要強大的抓取能力，也對語義分析提出了非常高的準確性方面的要求。我們相信深度學習在文本輿情判斷上會有大所作為。

3.3 事件的影響 - 通過語義技術實時分析出事件對股票、行業的影響

事件對股市的影響是不可忽視的。特別是對於」黑天鵝「事件來說，它們對於股市或許會是連鎖式的影響。為了能夠分析出這類事件對未來走勢的影響，分析師需要搜集大量的資料、並通過統計建模找到一些相關性、再通過回測等手段最終給出一個方案，但這個方案可能是一個次優解。其實整個分析研究過程是存在一些共性的，如果利用自然語言以及知識圖譜的技術去讓機器自動識別被影響的個體以及影響路徑等，這就會大大提升分析師的效率，從而在最短的時間內做出最優決策。

這裡有兩個核心的問題需要解決。第一、需要實時監測正在發生中的重要事件，或者甚至去預測不久將來有可能會發生的事件。如果能在信息的獲取上比別人提早一些，這其實也是一個很大的競爭力。美國有一家非常優秀的創業公司叫dataminr，專註於事件監測。他們通過實時抓取twitter上的內容，可以在第一時間內預測出一些重要的事件，比如某些地域里疾病的突發。

(圖來片自於dataminr)

第二、為了判斷事件的影響，我們需要去挖掘歷史數據，找出類似的事件並從中學出一些有價值的模式（pattern）。這裡有很多的挑戰，比如怎麼去處理稀疏事件？怎麼去比較事件相似度？怎麼去量化因果關係？怎麼去排除環境中的干擾因素？怎麼去設計模型使得不容易過擬合？此外，這對系統實時性的要求也非常高。在這類問題上，美國的kensho是最具有代表性的公司。

（圖表來自於[2])

3.4 相關性分析 - 搭建包含各類金融實體的大規模金融知識圖譜

一個黑天鵝事件的發生會導致一系列連鎖效應，比如英國脫歐。這類的事件一旦發生之後，如果有一個系統能在秒級內以全景圖的方式展示出很可能被影響到的範圍，它的價值是非常大的。這個範圍可以包括任何跟金融相關的實體，有可能是公司、也有可能是行業、甚至是人物或者其上下游關係。除了黑天鵝事件，其他的重要政治事件、政策新聞、甚至非金融類事件也有可能對整個（或者部分）市場產生一定的影響。

在這類總結性的問題上，機器會比人做得更加優秀。兩個主要原因：1. 海量的信息處理能力機器要遠優於人；2. 機器能考慮到的邊界是無限的，但相反，一個分析師一般只會去關注某一個細分投資領域。搭建此類的知識圖譜是一個很複雜的過程，從信息的獲取、關鍵信息的抽取、標籤化、關聯分析到推理，每一個環節都具有不同程度的挑戰性。但是如果有了這類的圖譜，我們就可以回答解釋很多有趣的問題

3.5 預測模型 - 結合深度和廣度的信息

對於一個預測模型來說，其核心的難點往往不在於演算法本身，而是在於數據的理解和怎麼從這些海量的異構（heterogenous）數據中提取出有價值的信息並把這些信息融合在一起從而獲得更有效的模型。在股票的預測模型里，基本面、消息面、技術面、資金面其實都可以成為一種可衡量的指標集合，如果融合在一起使用，則很有可能提升預測的準確率。如前面所提到的一樣，其中消息面的很多分析需要依賴於自然語言處理技術。

隨著這波大數據時代的到來，證券行業的建模理念也可能從單一化的模式逐漸轉變成信息的廣度和深度融合的模式。在這種情況下，建模所面臨的有效信息量會隨著指數級上升，而且深度學習將會發揮其強大的作用。

3.6 智能機器人 - 服務於大批未被專業機構覆蓋的人群

機器人投顧類似於聊天機器人，但又不同於我們常說的siri。最大的區別在於，這是一個很垂直領域的應用，並且有非常明確的目標-就是要幫助用戶解決跟證券相關的疑惑或者投資者教育。目前在這個散戶為主的證券市場里，專業機構（比如券商）的服務還是遠遠覆蓋不到每一位需要服務的客戶。更多的股票需要更細緻專一的服務，應用AI技術的智能機器人，可以更好地記住每個散戶的個性化的用戶需求，從而提供個性化的股票知識教育、資訊推薦，甚至基於用戶個人的風險喜好，推薦理財策略。

結語

AI對證券行業的影響必將是深遠的，在可預見的將來它會逐漸取代人的工作，而且在某些領域甚至會超過一流的分析師或者投資經理。對海量的非結構化數據的處理以及在證券行業的應用仍處於一個比較初級的階段，但隨著技術的發展、人才的投入和數據的持續增加，我們可以期待這個行業慢慢被AI顛覆。最後感謝Mars對本文提出的寶貴的修改建議。

參考：

[1]

[2] Nadler, D., & Schmidt, A. B. (2015). Market Impact of Macroeconomic Announcements: Do Surprises Matter.

本文作者：李文哲，凡普金科&會牛科技的首席數據科學家、人工智慧領域專家、將知識圖譜理論應用於風控的首創者。美國南加州大學博士，發表過10多篇頂會論文，其中兩篇拿到最佳論文獎。

在會牛，我們希望通過大數據、人工智慧、自然語言處理技術從海量的信息當中挖掘出有價值的信息, 來幫助人們更聰明地投資。

我們在打造一個技術、設計、內容並重的精英小團隊，希望公司人不多但都是各領域的大牛。我們提供很有競爭力的待遇。

如果你也想加入我們，用AI改變證券投資，歡迎投簡歷到 [email protected]

職位：高級演算法工程師

崗位職責：

1. 通過挖掘海量的文本數據和證券交易數據，從而找到有價值的信息；

2. 可獨立完成從數據搜集、分析、建模到最後的工程實踐；

崗位要求：

1、對機器學習、自然語言處理、深度學習、知識圖譜等技術有較深的理解；

2. 熟練掌握java/c++, 並掌握至少一門腳本語言，要有很強的工程實踐能力；

3. 具有海量數據處理能力，熟練掌握spark/hadoop等大數據技術；

4. 具有推薦系統或者NLP相關項目，經驗者優先；

5. 在一些頂級國際會議上發過論文者優先；

下載會牛APP

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點