search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

【數據時代】外部大數據在金融風控的應用

《金卡生活》雜誌

銀聯 主管主辦

理論研究 實務探討



我們

作者繫上海鼎數信息技術有限公司總經理

隨著經濟的不斷發展,金融市場的不穩定性不斷加劇,在經濟全球化的大背景下,銀行和互聯網金融勢必將面臨著諸多的風險。因此,加強風險控制的重要性也逐步的突顯出來,基於電信運營商大數據的風控模型在銀行、互聯網金融中的應用,建立的評分卡模型能為銀行、互聯網金融的風險控制提供一些幫助。

目前,國內的風控需求主要來自銀行和互聯網金融。傳統的銀行風控報告僅包含在銀行有借貸款行為的大眾。

一方面,中小微型企業(主要是非國有企業)、部分個人和「三農」的融資成本高昂,融資需求一直處於難以滿足的階段。

另一方面,銀行和互聯網金融公司普遍缺乏有效的風控模型支持,原有的評分手段原始粗放,人工審核中繁瑣的步驟更是表現出效率低、成本高的特點。反觀電信運營商數據,詳細記載了人在現代化社會的「指紋」信息、客戶聯繫對象的變動、上網數據、IPTV數據、電信定位、移動軌跡數據等都具有較高的價值。利用電信數據建立風控評分卡模型,對民眾個人的風險評估用評分卡的分數來表示,以這種方式建立的評分卡在銀行、互聯網金融的應用其實就是Fintech(金融科技)。由於使用的數據全部來自電信公司。

因此,這個評分卡的分數可以說是對銀行風控報告的補充,對商業銀行也有著重要的參考價值。尤其是在互聯網金融等存在風險較大的個人借貸的公司,客戶要麼在風險報告里缺乏借貸記載,要麼記載大都不良,所以利用電信數據區分客戶的風險評級更起到了決定性的作用。

01

加強風險控制迫在眉睫

經濟轉型和金融機構創新發展,增加了銀行、互聯網金融對風控的需求。

經濟結構的持續多元化、增長模式由投資轉向消費驅動、以及新型城鎮化是今後長時期內經濟深入轉型、持續發展的重要驅動力。

經濟活動主體已經演變為多種經濟成分共存,非國企貢獻正在持續增加。城鎮就業人員中,國有和集體企業與私營企業的佔比分別由2000年的41.5%和5.5%,變為2014年的17.4%和25.1%;而規模以上工業企業營業收入中,國有和集體企業與私營企業的佔比也分別由2000年的38.7%和5.7%,變為2013年的9.1%和31.7%。

經濟活動中消費貸款、個人投資、個人信貸等重要性日益突出;消費貸款市場在住房貸款、汽車貸款及信用卡等推動下快速發展。從2007年初到2014年末,在金融機構人民幣資產中,消費貸款整體佔比幾乎沒變,但住戶貸款佔比從10.8%上升到17.5%,增加6.7個百分點,其中消費貸款增加5個百分點,而企業貸款佔比則從51.0%降低到44.1%。2007初年消費貸款餘額2.5萬億元,到2015 年末已經超過15.7萬億元,年均增長率25%以上。

從經濟活動主體的地域分佈來看,一方面,伴隨著工業化進程加速,城鎮化經歷了起點低、速度快的發展過程。從就業人口在城鎮與鄉村中的分佈來看,1995年為28:72,而到2014年則變為51:49。另一方面,目前戶籍人口城鎮化率僅有36%左右,不僅遠遠低於發達國家80%的平均水平,也低於人均收入與持平的發展家60%的平均水平,城鎮化明顯滯後於工業化,還有較大的發展空間。預計到2020年左右,將有1億左右的新農業轉移人口和其他常住人口在城鎮落戶。

經濟結構、經濟活動模式和社會結構等多方面的不斷變化,在給銀行、互聯網金融帶來新的巨大需求的同時,也給作為現代金融服務最重要基礎之一的風險管理系統提出了更高的要求。目前,這些代表著新的金融需求的群體,如中小微企業(主要是非國有企業)、部分個人和「三農」的融資成本高企在傳統風控管理系統下評估記載的缺失,和新型城鎮化所伴隨的社會人員流動性日益加劇,更加劇了重構銀行等風控管理的急迫性。因此,我們相信,建設適應經濟深入轉型需、覆蓋面廣、高效靈活、成本更低的風控評分卡模型的需求為銀行、互聯網金融的風險管理提供了廣闊的市場。

在互聯網金融領域,風控管理是投資人判斷該平台安全性的重要依據。

風險控制是指風險管理者採取各種措施和方法,消滅或減少風險事件發生的各種可能性,或 風險控制者減少風險事件發生時造成的損失。擁有好的風控管理平台,能為投資者提供一定的安全感,尤其是針對風險厭惡型投資者,他們更希望有平台能為他們投資的產品做出一個確切的評分。一旦有完善的風控平台,很多持觀望態度的投資者也會實施他們的投資計劃。

互聯網金融還處於起步階段,然而前面幾個眾籌網站欺騙投資者的事件,使得互聯網金融還沒發展起來就已經失去了公信力。本來互聯網就是一個充滿了不確定因素的地方,它看不見摸不著,還有可能被黑客侵入。因此互聯網金融的投資者比其他產品的投資者更迫切的需一個風控平台為他們提供一定的數據,而且這個風控平台必須要由公信力極高的公司或者由政府來打造。電信公司就是這樣一個擁有很高公信力的公司,它的數據來源於電信的客戶,就是真實的數據,這樣更能為投資者提供安全保障。

風控不是金融而是IT。Capital One 的創始人,Nigel Morris說過,風險評分不是金融,而是IT。傳統的風控模式是「以原始粗放的評分手段為主,人工審核為輔」,其通過繁瑣的步驟將客戶填寫的信息表進行拍照、歸檔等,後續再繼續派專員進行回訪、通知還款等形式來進行風控。不得不說這是一個效率非常低的模式,每一個客戶都要一步不少的按照其模式進行歸檔。面對現代社會的飛速發展,這樣傳統的風控模式顯然已經要被淘汰了,營運而生的就是大數據風控模式。大數據風控是通過在各個領域採集用戶的各類信息,再通過一定的數據分析,給出客戶的風控評分報告,這樣的模式才是當今社會需的模式。放眼到大數據風控,顯然這已經不是金融風控,而是屬於IT的範疇,其關鍵步驟都是通過計算機來進行。這樣的模式效率非常高,可以處理的數據量十分可觀、數據維度多,而且運用範圍廣,這一定是未來的風控模式主流。

02

銀行風控管理的作用和不足。銀行風控管理數據主要是來自於借記卡數據和信用卡管理數據,缺乏接待人其他個人行為數據參考。若借貸人缺乏個人歷史信貸記載,那麼風險評分就缺乏依據和準確性。同時,銀行的風險控制系統並不能有效的評估小微信貸的風險等級,因為小微貸貨主常常缺乏歷史信貸記載或者歷史信貸記載都比較差。

較之前的銀行,在發放貸款時,風控系統有要求企業或者個人必須要有抵押,這在一定程度上有助於銀行風險的規避,為貸款的按時收回提供了一定的保障。但是隨著銀行、互聯網金融的不斷發展,金融行業之間的競爭也越來越激烈,一些銀行和互聯網金融公司為了能夠在競爭中處於有利地位,對貸款業務不斷擴大,並且不斷的增加貸款種類,尤其增加了對小微貸貸主的信用貸款,比如憑個人信用來發放貸款,這都大大增加了銀行、互聯網金融的風控係數。金融貸款品種的增加,讓銀行、互聯網金融公司面臨著越來越多的風險,進行信用貸款的諸多資料都是可以偽造的,並且這些造假數據都是為了針對目前銀行、互聯網金融的風控系統,令其失效,大大增加了貸款風險。

電信數據對風控管理系統的作用。目前銀行正在尋求外部大數據來幫助他們做風險管理,其中電信數據開始作為其判斷風險的重要依據。一般是要求借貸方提供電信賬戶密碼,通過APP軟體下載電信賬單。特別是對小微貸、P2P等互聯網金融公司,電信數據在信審、風險防範方面的重要性更是超過了本身的風控管理系統,這是因為如果客戶不進行互聯網金融消費或者之前沒有過貸款記錄的話,只依靠客戶提供的基本信息是無法判別真假,更別說進行有效的風險評估。

運用電信數據建立評分卡將從另一個角度觀察個人的風控狀況,與銀行、互聯網金融自身的風控管理系統形成互補。電信運營商詳細的記載了人在現代化社會的「指紋」信息。電話號碼是IT系統內人的信息;上網記載和通話記載的背後是人的行為;基於手機和固網定位的背後是人的位置;流量分析和內容檢測的背後是人的需求。因此,我們可以根據客戶的電信數據信息,很好的預測客戶的屬性信息。

客戶的賬單和話費信息在一定程度上反映了客戶的經濟能力,同時客戶的社交圈的經濟水平也體現了客戶的經濟能力。客戶的通話記載將會反映客戶的交際對象,勾勒出客戶的社交網路。同時,客戶聯繫對象的變動可以作為衡量客戶的社交穩定性,上網數據、IPTV數據能反映客戶的喜好、傾向、消費等行為,電信定位、移動軌跡數據能顯示客戶生活、工作的穩定性。電信數據可以從用戶行為、社交網路等數據進行分析,能對一個人的身份進行印證。社交網路、朋友圈、網路交易、網路查詢記載和行動軌跡等數據分析已經成為常用的分析手段。

僅用電信數據建立風控模型技術可行。利用電信數據建立風控評分卡模型,對民眾個人的評分卡分數情況進行評價,對電信運營商來說具有巨大的使用價值和商業價值。由於使用的數據全來自於電信的數據,因此這個評分卡分數可以說是對銀行、互聯網金融的風控管理信息的補充,有著重要的參考價值。尤其面對一些小微借貸,客戶要麼在銀行風控體系里缺乏借貸記載,要麼記載大都不良,所以用電信數據來區分客戶的貸款風險更具有決定性的作用。

本項目開發出來的風控評分卡模型,將僅僅使用電信的數據,這與目前廣泛討論的建立大數據風控平台的思路截然相反。大數據風控平台包羅銀行、電信、公安、保險、醫療等各個行業各類數據,雖然全面但是要協調各單位公司建立起來的大數據風控平台恐怕曠日持久。完全基於電信數據的風控模型將會在業務上更獨立,發展起來也更迅速有效。

風控評分卡的建模屬性變數則全部是電信用戶的數據信息,其中包括客戶的賬單信息、詳單信息、貸款網站的聯繫信息、是否有欠費等不良記載信息、定位基站信息等。

對於電信公司本網的客戶,我們掌握其更多更詳細的信息;對於異網的客戶,上海鼎數信息技術有限公司(以下簡稱「鼎數公司」)也通過「異網客戶屬性預測」系統,預測異網客戶的基本屬性和基本行為等(表一)。

表一 預測異網客戶

鼎數公司將運用電信數據進行分析和建模,找到目標變數與屬性變數的關係,進而判定客戶的哪些電信信息對個人風控指數的影響更為顯著,從而建立可以預測客戶風險分數的模型。鼎數公司的研究結果表明電信數據與貸款結果有很強的關聯性,僅僅基於電信數據開發的風控評分卡模型達到了銀行自身風控報告的效果。

鼎數公司研發團隊獨創的國際領先的「異網客戶屬性預測」模型,將在運用電信數據建立風控模式上起到重要的作用。有三大電信運營商,每家都擁有一部分人群的信息,理論上三大電信運營商的數據合併才能建立針對每個人的風控評分卡模型,但是運用「異網客戶屬性預測」系統,儘管不能完全掌握異網客戶的屬性信息,仍然可以分析異網用戶與本網用戶的詳單通話數據,根據「物以類聚、人以群分」的原理來預測異網客戶的屬性,準確率更是接近80%。這樣,使用「異網客戶屬性預測」系統,只需一家電信運營商的數據即可達到覆蓋整個人群的分析效果。

03

創新的模式避免了客戶隱私泄露

電信數據涉及到客戶的隱私,使用起來必須慎之又慎。

創新的電信數據風控模型,先天上確保了電信數據的安全使用。鼎數公司的僅通過電信數據而的建立風控評分卡模型,在充分利用電信數據所包含社交、聚集、生活水平信息的同時,也在最大限度地降低了因為要跟其他行業或者公司匹配數據,而產生個人隱私數據的泄露風險。並且最終的結果以評分分數的方式給出,也避免了個人通話信息、行為和個人隱私的泄露。

模型訓練階段。建模時所制定的策略都不會直接泄露客戶的信息,模型結果給出的是客戶評級、層級、頻率等的信息,充分保護了客戶的隱私。建模數據都經過了脫敏處理,會把電話號碼、身份證號碼、通信地址等客戶隱私信息去除(表2 )。

表2 通話詳單

首先,建模分析人員並不知道這一紀錄具體事何人產生,從而確保了數據的安全使用。其次,鼎數公司的技術人員必須到客戶的環境中工作,所用電腦都無法與外部連接,確保數據不離開客戶的伺服器,物理上進行杜絕。

應用階段,採用如下的嵌入式系統進行風控評分查詢。

圖1 個人風險評分查詢

從個人風險評分查詢(圖1)可以看出,電信數據並缺乏離開電信運營商公司,輸入的是身份證信息/ 電話號碼信息,輸出的是一個風險分數。不會有任何個人信息泄露。

亞洲最大的大成律師事務所出具了法律意見書。從法律上認可鼎數公司的運營模式。即使如此,在未來的運營中,也必須充分重視法律的風險,絕不可以侵犯客戶的隱私。

04

鼎數公司僅使用電信數據,通過大數據分析的技術手段,預測個人的信貸壞賬風險,發現電信數據與信貸結果有很強的關聯性,可以直接作為信審決策標準,也可以與銀行的風控報告信息、預審信息等同時使用。

實踐證明電信數據在風控上大有可為。基本流程(圖2)。

圖2 基本流程

以下使用的電信數據,均為聯通的電信數據(圖3)。

圖3 聯通電信數據

通過電信數據(圖3),延伸了變數(圖4)。

圖4 延伸變數

根據延伸的變數,進行單變數分析,下面舉例說明:

變數之一,申請前3個月是否都使用了寬頻,如是,則壞賬可能性較低(表3)。

變數之二,手機是否以個人身份證登記,如是,則壞賬可能性較低(表4)。

變數之三,被叫電話中,被叫固話的比例≤10%,如是,則壞賬可能性較高(表5)。

變數之四,與申請人最緊密的上海電信客戶中(相當於最緊密的30%聯繫人),平均每個月簡訊發送條數(過去3個月)是否超過59條,如是,則壞賬可能性較高(表6)。

申請人未來一年壞賬可能性

= 1/(1+exp(-( -3.2245+ 0.2517 * 男性- 0.0108 * 最近三個月使用過寬頻- 0.0568 * 被叫固話比例<10%+ 0.1702 * 緊密聯繫人月使用簡訊條數>59條- 0.2263 * 以身份證登記

+ …… )))

模型在檢驗數據集效果,根據壞賬預測值(表7)從大到小排列,然後均分為10 等分。

表7 壞賬預測值

模型效果好過使用銀行本省的壞賬風險預測模型,KS值接近35%,模型C值75%。

電信數據建立的風控模型所使用的數據挖掘技術。

一是「異網客戶屬性預測」系統。只需一家電信運營商客戶的數據,就基本可以覆蓋整個城市的居民。採用鼎數公司獨創的「異網客戶屬性預測」系統,根據「物以類聚、人以群分」的原理來預測異網用戶的屬性。

用戶趨向於跟自己有相同愛好、年齡相仿的人結交朋友,因此社交圈內本網用戶的屬性、行為在一定程度上反應了異網用戶的屬性和行為。但是,社交圈內本網用戶與異網用戶之間的親密程度是不一樣的,關係親密的好友之間的聯繫相對於關係一般朋友之間的聯繫更能反映異網用戶的屬性、行為。

通過分析社交網路中的某個用戶,觀測他與不同的電話對像的聯繫頻次、時長、時段等信息,了解他與不同電話對象的關係。根據關係深淺來分配權重,生成「相互之間的影響度」,從而將該用戶的電話對象的部分屬性具體化。如表8所示:

表8 異網用戶屬性預測技術

二是聚類分析。將數據分類到不同的類或簇這樣的一個過程,所以同一簇中的對象有很大的相似性,而不同簇間的對象有很大的差異性。聚類規則如下:

第一,觀測值是否存在缺失值?

第二,若第一結果為否,到最近簇的距離是否比簇間最短距離大?

第三,若第二為否,到所有簇的距離是否比最近簇到所有簇的最小距離大?

第四,若第二或第三成立,則用觀測值替代最近簇,依此下去,直到最後所有的觀測值都歸為一類為止。

按照常理:在工作日的工作時間聯繫較多的可能是同事或者客戶;在工作日的下班時間通話較多的可能是情侶或夫妻;在周末的休息時間通話較多的可能是朋友、家人。因此,通過以上聚類方法,依照上述的七個變數,將不同特徵的用戶區分出來,最終定義為五類,即最緊密、緊密、比較緊密、普通和最一般,每一類都賦予不同的權重。

社交圈內的本網用戶與異網用戶之間的親密程度是不一樣的,關係親密好友之間的聯繫相對於關係一般朋友之間的聯繫更能反映異網用戶的屬性、行為,不同的親密關係將在不同程度上反映異網用戶的屬性。

決策樹分析。決策樹不僅可以幫助人們理解問題,還可以幫助人們解決問題。決策樹是一種通過圖示羅列解題的有關步驟以及各步驟發生的條件與結果的一種方法。決策樹可以生成能理解的規則、處理連續和種類欄位,同時決策樹可以清晰的顯示哪些欄位比較重要。

邏輯回歸。邏輯回歸與多元線性回歸有很多相同之處,最大的區別就在於他們的因變數不同,這兩種回歸可以歸於同一個家族,即廣義線性模型(generalized linear model)。這一家族中的模型形式上都差不多,不同的是因變數的不同。若因變數是連續性變數,建立多元線性回歸模型,若因變數是二項分佈,則建立邏輯回歸模型,邏輯回歸模型中的因變數可以是二分類的,也可以是多分類的,目前二分類的更為常用。通過對客戶的電信數據建立邏輯回歸模型,最終模型給出的分數可以作為判定客戶個人風險的一個重要標準。

針對銀行、互聯網金融風控管理系統的作用和不足,提出電信數據對風控體系的作用,僅用電信數據建立風控評分卡模型,模型效果KS值45%以上。提出的創新的基於電信數據建立的風控模型,採用嵌入式系統進行風險評分查詢,先天上確保了電信數據的安全使用。

在運用電信數據建立風控評分卡模型時所使用的數據挖掘技術包括構建「異網客戶屬性預測」系統,根據「物以類聚、人以群分」的原理可以來預測異網用戶的屬性,通過聚類分析和決策樹分析來判斷不同人群的分類和找出關鍵性欄位,最後應用邏輯回歸原理,通過對客戶的電信數據建立邏輯回歸模型來判定個人風險評分,最終模型效果好過使用銀行自身建立的壞賬風險預測模型, 目前有10多家互聯網金融公司使用,效果顯著。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦