search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

基於大數據的客戶關聯關係及風險預警研究 | 大數據應用

文/國家開發銀行科技局局長譚波,國家開發銀行信息科技局副局長滕光進、國家開發銀行信息科技局數據管控處副處長王浩

本文描述了在銀行業數據現實情況下,基於大數據的客戶關聯關係族譜及風險預警模型構建方法,並以國家開發銀行實際應用為案例進行實證剖析,分析了其關鍵技術環節,同時結合「集團客戶」等重點業務運用領域進行討論。本文從知識圖譜演算法來進行客戶關聯關係的描述,為銀行客戶管理與風險控制給出了新的視角。

近年來,伴隨著大數據技術日趨成熟,銀行業對於數據的需求愈發迫切,運用不斷深入。一方面監管部門要求各家銀行以客戶、集團客戶為中心,報送授信、貸款、債券投資、中間業務等各業務條線的明細數據,並在此基礎上進一步進行深入分析,開展審慎監管工作;另一方面,銀行內部也改變客戶數據主要來自盡職調查、或客戶提供的傳統模式,廣泛開展外部數據收集和內外部數據整合,並逐步嘗試與行內業務流程結合,為貸前、貸中、貸后重點業務環節提供更為全面的參考信息支持。而在大數據運用過程中,客戶關聯關係以及風險預警的相關問題是金融機構始終未能有效解決的痛點。國家開發銀行以近年來積累的大量內外部數據為基礎,結合開發性金融開展實際情況,對於客戶關聯關係和風險預警進行了一系列有益的探索和實踐。

研究客戶關聯關係範圍

客戶關聯關係可包括股權關係(其中將股權投資比例大於50%或可以對被投資企業經營決策進行控制的為「強股權投資關係」,否則稱為「弱股權投資關係」)、控制人關係、擔保關係、交易關係(以《企業會計準則第36號》定義的關聯方交易為主,擔保因為特別重要,在本文研究中單獨列及)、地址關係(具有相同註冊地址或者實際經營地址)、事件關係(如涉訴、生產事故、資產重組及其他與企業相關的重大事項)6種。

其中股權、控制人、擔保是本文研究的基本關係。對比《商業銀行集團客戶授信業務風險管理指引》(以下簡稱 《指引》)要求,可以發現股權、控制人關係是實現指引規定「集團客戶」認定的重要組成部分。同樣,擔保關係也是銀行開展單一法人、集團客戶信貸管理工作不可或缺的內容,監管部門近年來也反覆強調防範擔保圈、過度擔保相關風險。相比於上述三種基本的關係,交易關係、地址關係、事件關係數據的獲得相對困難,但相關關係的獲得會有利於銀行進一步開展相關客戶的評級、授信、風險管理,在監管要求和各銀行實際業務操作中,也不同程度有所涉及。

客戶關聯關係的描述

本文使用知識圖譜(Knowledge Graph)來進行客戶關聯關係的描述。知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Vertex)和邊(Edge)組成,可以借用圖G = ( V, E ) 的方式進行定義。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關係」。例如,節點(實體)可以代表單一法人企業,邊可以代表上述的股權關係、控制人關係、擔保關係等,邊的方向可以用來進一步描述上述關係,例如使用起點描述擔保方,終點描述被擔保方。採用知識圖譜的方式進行多維度的客戶關係建模,可以獲得不同維度下的企業之間的「關聯圖譜」。例如,企業之間股權、控制人和擔保關係可以分別形成一個獨立的關聯圖譜,可以根據需要進行疊加。股權和控制人關係的疊加可以實現簡單意義上的集團客戶自動識別,擔保關係疊加可以進一步考慮集團內部的擔保行為對於集團整體情況的影響。

客戶關聯關係的數據獲得和初始化

在廣泛收集和整合內外部數據,並對不同來源的數據情況做了細緻的比對和充分聽取業務人員意見的基礎上,機構可對不同來源的相關類型關係數據設置不同的優先順序和預處理邏輯。以股權、控制人和擔保關係為例,每次關聯關係分析涉及整合前後的關聯關係數量級如表1所示。研究和探索階段,整個內外部數據樣本的時間跨度為2013年3月至2016年12月的月度數據。後續隨著相關外部數據的不斷完善,將進一步擴大關聯關係的數據來源,持續提升數據質量。

客戶關聯關係的分組

股權、控制人、擔保、交易、地址、事件6種關係形成的企業群稱為「系客戶」。基於整合的內外部關聯關係,獲得「系客戶」圖譜的步驟如下:

一是確定龍頭企業。遍歷所有節點,找出圖論演算法中所有入度為零且出度不為零的企業,即找到所有的「龍頭」企業(處於股權投資最頂端的企業)。如果特別考慮到國資委等特殊情況,需要事先制定「龍頭」企業例外名單,進行特殊處理。

二是確定骨架企業圖譜。以「龍頭」企業為起點向下判斷,採用深度遞歸演算法,找出通過強股權關係相關聯的企業,得到股權關係圖譜。在得到股權關聯圖譜的基礎上疊加控制人關係,將沒有在股權關聯圖譜中出現的存在控制人關係的企業納入圖譜中。至此,我們得到了「骨架」企業圖譜。「骨架」企業圖譜是判定《指引》要求集團客戶的重要組成部分。

三是確定外延企業圖譜。以「骨架」企業圖譜為基礎,向外延伸一層強股權投資關係、弱股權投資關係、交易關係、事件關係、擔保關係,最後從全局數據中補充完善「骨架」客戶涉及擔保圈中的所有客戶。

至此,得到「系客戶」圖譜,「系客戶」可以認為是在集團客戶近似實現(「骨架」客戶)的基礎上進行了一層的股權、交易、事件、擔保關係外延,並進行了擔保圈關係的擴展。之所以在「骨架」客戶(集團客戶)的基礎上做進一步的拓展,從風險管理的角度出發更容易理解。「骨架」客戶的識別,主要服務於集團客戶的日常管理以及評級、授信相關工作,從風險管理的角度看,將集團客戶體系做適當的擴展到「系客戶」體系是適宜的,特別是擔保圈、涉訴、資產重組等情形並不一定發生在集團客戶內部,「系客戶」視角有助於風險管理部門在集團客戶的基礎上獲得更為全面的信息。

基於關聯關係的客戶風險預警模型探索

銀行客戶信用評級對於客戶授信、貸款定價有著直接的影響,客戶風險預警對測算結果的準確性有更加大的容忍程度,對時間更為敏感,更可能探索和使用新的技術、方法和數據。而當前銀行業客戶風險預警主要是基於企業自身的基本情況,或基於資產負債率等傳統的客戶財務指標,或基於KMV模型等對市場數據相對敏感的演算法,近期也有銀行嘗試通過輿情等互聯網信息的收集和分析,進一步提升客戶風險預警的及時性。因此,如果嘗試採用企業自身信息和關聯企業信息兩方面的指標變數,亦可構建客戶預警框架。

以國開行為例,在風險預警建模過程中,經過單變數邏輯回歸、共線性檢測、逐步回歸和業務判斷等方法,反覆迭代和優化,從接近300個原始指標中,最終得到了15個風險指標變數,其中部分關鍵指標變數如表2所示:

上述變數主要分為3類,企業行內自身變數(A開頭指標),同業及徵信變數(B開頭指標)、關聯變數(C開頭指標)。可以看出,A類和B類變數屬於內外部的企業自身信息,C類變數為企業關聯信息。在補充關聯變數的指標體系下,通過使用邏輯回歸、支持向量機等演算法進行建模,並最終選取邏輯回歸演算法,測試結果同樣表明,基於企業自身及企業關聯信息的客戶風險預測結果優於只使用企業自身信息的預測結果。

建立客戶關聯關係及風險預警機制的

下一步工作

目前,基於大數據技術的銀行客戶關聯關係及客戶風險預警工作思路及研究成果均已在國家開發銀行客戶關聯關係分析系統中上線投產,應用於總分行信貸管理、風險管理、合規審計領域。

這項研究與應用工作的意義,一是基於行內外大數據進行系客戶關聯分析,為國家開發銀行項目開發、授信評審、貸后管理、風險審計各方面提供更為全面的內外部參考信息支持,幫助業務人員從更高的層次,基於更廣的數據處理業務問題,客觀上提升了總分行人員對於大數據應用的認識;二是基於客戶關聯關係的客戶風險預警,不僅依據客戶個體的信息,而是將個體放在關係網路中,建立客戶之間的關聯圖譜,從全局角度考慮企業的風險傳導,從一個新的角度為相關業務部門提供參考,受到了總分行相關業務部門的關注,後續模型將在實踐中得到不斷完善;三是客戶關聯關係及風險預警研究和應用不僅是國家開發銀行在大數據和數據挖掘領域的探索和嘗試,在銀行同業內也屬於創新,為整個銀行業如何將大數據、數據挖掘等前沿技術與業務融合探索了道路。

下一步,基於大數據的客戶關聯關係及風險預警系統的建立,工作重點還應該包括:一是要充分利用現有系客戶關聯分析成果,為集團客戶認定、風險預警等相關工作提供支持,進一步將研究成果納入業務流程;二是要進一步拓展外部數據源,將銀行內部數據、政府數據、互聯網數據有機整合起來,形成更加完整的客戶畫像和行業知識庫;三是要研究多層級關聯關係的客戶風險預警模型,同時進一步開展擔保圈、擔保鏈等對違約概率(PD)、違約損失率(LGD)計量的理論研究工作,為基於大數據的單一法人客戶、集團客戶評級和風險計量工作做準備。

本文刊發於《清華金融評論》2017年8月刊,編輯:王蕾

歡 迎 訂 閱

深刻|思想|前瞻|實踐專註於經濟金融政策解讀與建言的智庫型全媒體平台

更多原創請點擊下方閱讀原文


熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦