Zi 字媒體

氪信聯合創始人楊玢玢：AI應用在金融領域，如何能夠在商業上有所突破？

2021/12/25

數據猿導讀

AI應用在金融領域，想要有所突破，需要幾個必要因素，一個是要有數據，畢竟AI歸根究底還是數據的技術；另外要有處理數據的能力，其次還要有商業變現的場景。技術單獨存在不能產生價值，一定要放在一個對技術有需求的場景裡面。

本文長度為3200字，建議閱讀6分鐘

如今，隨著社會不斷發展，技術不斷進步，國內外各大金融機構已經在大數據、人工智慧、區塊鏈等新技術上有很多嘗試，智能客服、智能投顧等新金融形式也早已不新鮮。那麼，這些前沿新科技遇到嚴肅謹慎的金融業，究竟是「黑科技」般的存在，還是技術宅們的另一場狂歡呢？

4月25日，由數據猿主辦的《當金融遇上黑科技》線下主題沙龍活動在上海騰訊眾創空間順利舉行。活動上，來自傳統金融機構、金融科技領域新秀、大數據與人工智慧專家等一眾大咖匯聚一堂，暢聊了大數據、人工智慧、區塊鏈等「黑科技」與金融業的那些事！

以下是由數據猿精編整理髮布的氪信聯合創始人楊玢玢的精彩分享：

大家好！我是氪信楊玢玢，負責氪信產品研發。氪信的全稱是氪信信息技術有限公司(CreditX)，最近剛剛完成了B輪融資。團隊的核心人員均來自於雅虎、微軟、攜程、eBay、央行等世界知名公司和機構，在人工智慧領域有超過10年的積累。

在氪信創立之初，我們主要思考這樣一個問題：AI應用在金融領域裡，如何能夠在商業上有所突破？李開復老師也針對這個問題說過他的觀點：想要有所突破，需要幾個必要因素，一個是要有數據，畢竟AI歸根究底還是數據的技術；另外要有處理數據的能力，其次還要有商業變現的場景。技術單獨存在不能產生價值，一定要放在一個對技術有需求的場景裡面。

我們認為，把AI技術應用於金融領域是一個突破點，而且金融本身是數據化非常完善的場景。同時，金融領域還具備以下幾個要素：

第一，市場本身快速發展。在國內目前徵信體系不是很完善的情況下，很多有金融需求的人得不到相應的金融服務。氪信通過對數據的搜集和加工，為符合要求的用戶提供金融服務。

第二，數據端非常成熟。如今，大家花在手機上的時間特別多，互聯網行為就是一個非常好的數據。關鍵在於如何把它和金融、信用相結合，怎麼去擬合他們之間的關係。而這種信任評估是氪信比較擅長的。

從我們決定把AI的技術應用於金融風控，至今已有一年半的時間，在這段實踐過程中，我們看到在技術層面、業務層面和戰略層面都存在很多痛點，概括來說，就是業務本身對技術提出了需求。比如2016年蓬勃發展的小額現金貸業務，本身就是一個欺詐頻發的行業，且沒有強數據做支撐，因此，很多從業十幾年的金融風控專家在面對新業務形態時，顯得有些束手無策。

沒有強數據不代表沒有數據，事實上，企業還是能夠拿到一些所謂的「弱數據」，比如手機上的數據，設備類的數據，或者一些消費類的數據。拿到數據之後去想怎麼把這些數據用好，最後再決定要不要給這個人授信。至於授信多少，就需要用到AI技術了。

接下來分享一下氪信的做法和取得的成果。簡單來講風控分為兩個部分：一個是反欺詐，一個是授信。

在實踐過程中，我們發現區別於傳統徵信，互聯網徵信存在幾個核心的點：

第一，在反欺詐的階段，傳統徵信很難捕捉到一些不是很明顯的、由於社交關係和其它關係對自己產生的潛在風險，例如一些團貸、群體欺詐的問題。但是這些問題通過挖掘網路數據價值就可以得到很好的解決。

第二，了解AI的人都清楚，我們在做數據加工的時候，主要還是做特徵和建模。在加工的過程中，除了運用專家的方法之外，深度學習也被驗證效果突出。建模階段相比較傳統的淺層模型，比如說邏輯回歸等等模式，我們採用的是複雜的集成模型方式，因為不同維度的數據具有不同的特點，需要使用不同的建模方法，集成學習框架可以支持不同類型模型演算法作為子模型，高效、準確的處理稀疏、超高維、非線性數據建模。

接下來我會分別講一下我們公司的做法：

第一是底層，我們需要把能夠拿到的數據定義為網路需要的關係，底層做一個數據的整合；第二層我們會到一些複雜的網路構建基礎，裡面有一些信息挖掘和演算法；再往上我們會有一些模型，從網路裡面拿到隱含的特徵，去進行模型的構建；最終來識別比如說一些虛假的申請，或者是一些特殊地域的團貸等。

在網路的演算法裡面，我們的主要核心是複雜網路構建和團挖掘技術兩塊。首先在原始的點和邊構建好以後，我們如何通過合理演算法解決實際的問題，通過團的距離計算，達到比較良好的分團的結果。

另外一個是特徵，這個也是非常關鍵的。我們如何從網路裡面提取對一個人的欺詐識別比較有用的信號特徵。在這方面，傳統的做法是會有一些個人的風險特徵，或者關聯人，大概多少壞人，這些是我們人能想到的特徵。

另外在我們的實踐應用過程中，我們發現在突破單個風險點來臨的時候，整個網路會出現一些局部風險，並形成連接，比如說形成一些三角或者四角的關係等。從長遠的時間上看，這樣的關係可能未必不正常，但是一定時間內，你的申請人形成了非常緊密的聯繫，這件事情是值得注意的。

除了個人局部的風險特徵以外，還有全局的。我們用到了一些優化后的演算法，每一個人在整個網路中，都會出現一些高的風險點，對和他有社交關係的人也會存在輻射效應。對於個人來說，可能在一度二度三度關係上，會和一個或是幾個壞人有一些聯繫，現在社交比較發達，如果出現大片這樣子的人，可以通過輻射演算法捕捉到這樣的信號。

另外在網路這塊，很重要的一點就是整個系統的迴轉和流程優化。因為網路欺詐有一個特性，對於實時性甄別以及實時修改性上限要求特別高，同時我們學習的目標，不是一個純事實，很多都是學習專家認定為欺詐的經驗，這樣的結果對本身的優化是很有價值的，從整個產品來看，形成了數據加工、數據計算和反饋的閉環。

我們也有專家的界面，網路捕捉風險之後，我們的專家都可以看到。

下面分享一下我們氪信在特徵加工上的實踐。可能了解AI的人特別清楚，我們最後做模型結果的時候，如果是優秀的話，這個優秀的絕大部分來自於我們非常辛苦的加工過程。

我們會看到個人的加工方法，很多時候會有一些不局限性，比如說文本的特徵，通過一些方法或者通過不同時間維度的方法，可以描繪出幾百個維度的特徵，但是不可能達到完備的狀態，我們確實需要藉助技術本身的能力達到提升。

氪信在小額信用貸的場景裡面，嘗試用深度學習像循環神經網路處理時序的數據一樣處理文本，效果還是非常不錯的，我們整個的特徵過程是包含了專家的部分以及深度學習自動生成的特徵共同傳遞給模型，並且進行了最終的預測和識別。

這邊舉一個具體的例子，剛才我提到時序的特徵。比如我在不同的時間窗口，是不是要窮盡所有的特徵？有可能我們花費了大量的時間，只可以覆蓋80%的部分，但是我們用循環神經網路利用長短時記憶的特徵，可以捕捉數據在不同窗口趨勢類、統計類等不同的特徵，從而衍生出來上萬種特徵，最後我們把這些交給模型，讓它來識別哪些是有效的。

建模部分。我們曾做過很多相關的實踐，像淺層的偏現金的模式，有它的優勢，比較穩定，人也好理解。也嘗試過中間階段端到端的深度學習的方法，通過反神經網路的方法捕捉之間的關聯。

最後通過實踐結果，我們認為集成模型在金融風控場景里，是一個判斷好壞既穩定又有效的手段。集成模型的思想是用不同的子分類器，處理不同的數據。我會選擇最好的分類器處理面臨的數據，在上面去做一個集成，優勢就出來了，就是好而不同，說的直白一點就是三個臭皮匠頂個諸葛亮。從模型性能來看，集成方法無論是擬合能力、模型的預測能力，以及換一個場景它的穩定能力都是非常好的。同時，集成模型在各個場景里也可以實現遷移。現在在氪信的產品體系裡面，也融合了這個方法。

在信用貸場景裡面，我們和傳統模型相比性能提升了1倍，穩定在KS值0.3以上，壞賬率直接下降46%。這使得我們很興奮，是技術給業務直接帶來了效果。

氪信要做的就是把AI技術加到金融風控裡面，而這個領域裡面還是有很多事情可以做的。我們在實踐的過程中，同時把方法形成一套產品體系，幫助金融機構解決問題。我們氪信有相應的雲數據的服務，有機器學習建模平台，有在線風控引擎，可以幫助完成企業互聯網+的升級。

數據核心是我們沉澱的這條金融圖譜的知識體系，從原始的需要用什麼數據，到加工挖掘數據，再到上層怎麼連接管理它，形成精準完備的畫像。

另外在系統的整個過程和AI的運營中，從設備接入到數據的加工處理，到得出結果等等，整個都是自動化的過程。現在現金貸的量非常大，解放人力已經成為重要需求，因此我們確確實實需要這樣一套數據智能一體化的產品。

本文編輯：abby

推薦閱讀：

桃園 qq 地點貓咪桃園市 taoyuan xuan 根部尾巴有大桃園旅遊景點