search
尋找貓咪~QQ 地點 桃園市桃園區 Taoyuan , Taoyuan

江南憤青:別扯了,大數據根本無法解答風控命題

【編者按】陳宇,筆名「江南憤青」,江南1535茶館創始人,聚秀資本合伙人,目前投資近兩百家互聯網企業,擔任了京東金融、挖財等多家知名互聯網金融企業的首席戰略顧問。他認為大數據是無法解決風控難題的,而大數據即使成功,也必然只是個別案例,不具備普遍性。因為對於同一數據,不同的機構對其有效應用的能力必然是不同的,而這種應用能力,才是機構之間競爭的關鍵。

本文在2014年10月發於互金派,作者江南憤青;經億歐編輯,供行業人士參考。

現在很多人在扯大數據能解決風控難題,事實上都是一廂情願,不現實也不可能!

誠然,大數據可以優化管理、提高風控效率、降低風控成本,但是無法決定風控質量,金融機構的風控質量永遠是個一攬子系統工程。不同金融機構面對同一風險等級的客戶,它們的風控往往不是同一個水平。因為不同的金融機構有不同的風險承受能力,自然會形成不同的風險定價,存在差異性。

所以,我曾說,很多互聯網金融公司提出來的徵信系統介面如何開放的問題,其實是無法解答風控命題的。不是說徵信系統開放了,你風控就OK了,這是不可能的。因為全行業都面對同一個徵信系統,最終的使用效率、定價能力,還是取決於你自己的能力。越是公開透明的市場,其實競爭的難度越大,單純開放徵信系統不能解決風控問題。

仔細分析下為什麼大數據無效,我的理由是多方面的——

大數據無法預測系統性風險

第一個理由就是,金融其實是看天吃飯的。我一直堅持認為——金融是被經濟形勢所決定的,在經濟形勢低迷的情況下,金融機構無論怎麼折騰都很難玩出特別好的花樣。2008年金融危機一來,覆巢之下安有完卵,就是這麼簡單的道理。系統性風險是任何一家金融機構都必須面臨的現實問題,大數據風控在系統性風險面前,毫無意義。

那麼,大數據能否預測經濟形勢,即預測系統性風險呢?很多人說大數據可以做到,我覺得都是扯淡。過去是無法有效推演未來的!

就個人而言,是否有通過數據分析形成準確判斷的可能性?這個很難說,有人一葉而知秋,有人一葉而障目,都是個人能力的結果。個人能力很難說是一種模式的核心競爭力,也缺乏可持續性。

經營性貸款無法進行大數據風控

第二個理由是,金融行業其實不完全符合大數據所要求的邏輯前提。大數據的核心邏輯前提是統計學,有兩個要素:一是樣本篩選,就是通過數據篩選出相同特徵的群體出現違約的概率;二是需要足夠數量來覆蓋統計學里的偶發性特徵。兩者是統一而不可分割的。

因為大數據的相關性必然是建立在足夠大樣本量基礎上的,僅僅是個體相關不足以成為推斷相關性的基礎。也就是說,在金融業務操作的時候,也必須覆蓋足夠大的人群,但足夠大是多少?對於單一金融機構而言,「足夠大」已經是個絕對致命的難題了。

另外,這裡其實還隱含一個基礎邏輯,就是每個操作的業務群體還要呈現獨立非相關,否則也沒啥意義。

這裡我們做個小討論:經營性貸款能否做大數據風控?我認為,經營性需求很難使用數據來進行模型化。為什麼呢?先從企業主來看。什麼人會成為企業主?事實上,只要成為企業主,無論是大是小,他們都自動從普通人群里獨立出來了。再小的企業主,其實都是社會的另類,成功的是精英,失敗的是腦殘,唯一不可能的就是社會公眾。所以這類人本身就是異類,個個都充滿極大的不確定性和變數,很難被量化和模型化。

這裡還有一個問題,相同的人群在不同場合呈現的特徵是不一樣的,尤其是目前人們在線上、線下割裂的狀態,其行為方式往往會出現強烈的反差。因此,對於同一個人,根據單一維度數據對其進行判斷的意義是很有限的,不同維度的數據會反映出極為不同的特徵,這時候全數據就顯得異常重要。

所謂全數據,就是N=所有,這個概念是牛津大學互聯網中心的維克托邁爾-舍恩伯格教授提出的,他最喜歡的對於大數據集合的定義是「N=所有」,這裡不再需要採樣,因為我們有整個人群的數據。這就好比選舉監察人不會找幾張有代表性的選票來估計選舉的結果,他們會記點每一張選票。當「N=所有」的時候,確實不再有採樣偏差的問題,因為採樣已經包含了所有人。

這個說法很有意思,因為互聯網的海量容納數據的可能性,的確給了全數據一個很好的假設前提,但是這個命題很容易回歸到假設的前提上去,在未實現全數據之前,就別談大數據了,毫無意義!

金融行業會「未來改變現在」

第三個理由是,大數據的前提——「過去決定未來」,並不總是成立的。現實中往往會出現未來改變過去的情況。這個有點難以理解,啥意思呢?其實很簡單,就是一個人某些特徵值的改變,會改變系統對他過去的數據所形成的基本特徵的認定。

比如我們經常說「男人有錢就變壞」,這裡隱含的邏輯是,過去判斷一個男人是好人,是建立在他沒錢的基礎上的。而一旦這個基礎被破壞,這個男人變成有錢人的時候,他就已經脫離了最早的系統判定,進入另外一個範疇了。因此,這個未來的變化,直接把過去建立的邏輯給打破了。

這種現象其實是一個循環函數的概念,帶有變數值的東西往往是無法建模型的。我們在金融運作中經常發現這樣的現象:給錢之後的企業跟給錢之前的企業,是有絕對不同的基礎性特徵的。過去往往被未來給改變了。

以前也碰到過有人談所謂的「量化炒股」,設定各種各樣的模型來實現炒股的自動化。這種方法,在你規模不大的情況下,我認為還真是有一定的成功概率的。但是一旦你的規模足夠大,你自己也成為了市場的重要角色的時候,你就會發現你所有模型失效了,因為你進入了死循環。《銀河帝國》裡面給了一條重要的假設,就是所有成為統計樣本的樣本主體,並不知道自己是被統計的樣本,否則就會失去統計意義。

前段時間碰到一朋友,談到大數據風控,我們無法在大數據是否可以建立風控模型上達成一致。最後,退而求其次,我就說,好吧,假設你的模型能成立,事實上,你會面臨一個非常嚴重和致命的問題,就是你的客戶群體,會變得讓你越來越不認識。

為什麼呢?因為一旦某互聯網金融公司採取大數據的量化放貸,在市場就會出現大量的放貸機構,依附在這個互聯網金融公司之上,進行尾隨和跟蹤放貸。也就是在這個金融公司放貸的基礎之上,再配置20%左右的貸款,期限比其更短。在這種情況下,這個金融公司之前所設定的所謂模型,會全部失去效應。事實上,在傳統信貸中,浙江大量股份制銀行就是採用如此策略,使得大銀行的所謂風控審核都形同虛設。

「風險滯后」使風控無法數據模型化

第四個理由是,金融業還有一個與其他行業不同的地方,就是風險滯后。風險滯后意味著什麼呢?意味著由過去數據所推導的模型,會在過去和未來之間留有一段縫隙,這個縫隙中所發生的任何變化,都讓你無法有效調整風險的認定。簡單舉例,我們根據餐飲企業的大量數據推導出某一風控模型之後,進行批量化的業務操作,等著貸款回收。

這期間,銀行基本無主動權,你要回收貸款,人家第一要有錢,第二要配合。實際上,貸前你是老大,貸后你就是孫子了。而突然某一天政府發文要求降低三公消費,你就等著傻眼吧!所有的數據都會因為期間任何一個偶發性變化而發生實質性變化,而你卻喪失了主動權。

所以,我們哪怕撇開目前大數據受限制於數據孤島等一系列的現實問題(全維度數據的成本極高、難度極大,美國政府的稜鏡計劃有點這個意思,但那幾乎是集中了一個國家的資源),就單一大數據風控而言,實現風控的數據模型化只是美好的設想,是脫離了社會現實的一種自我意淫的產物。除非體系內不存在市場博弈行為,毫無競爭對手。不過,真到了市場毫無競爭對手的情況,你需要風控模型么?閉著眼睛做就行了。

大數據的現實意義

當然,我這裡並非是全盤否認大數據的現實意義。大數據可以有效地提升效率,降低管理成本,作為金融機構,效率的提升和管理成本的下降,最終都是提升了對抗風險的能力。因此,大數據雖然不能直接提高風控能力,但也具備重要的現實意義。

我在看金融史和馬克思的《資本論》時,會設想一個奇怪的命題:大數據能否讓計劃經濟回歸?這個說法其實最早是胡曉明先生提出來的,我後來越想越有道理。

馬克思等人提出,社會總是生產出那些高於實際需要的產品,牛奶寧願倒掉也不給予普通民眾,說明市場的生產是過度的。為什麼如此?雖然從結果來看,市場經濟是高效的資源配置方式,但從過程來看,市場經濟的弊端也是非常明顯的,它高效的背後其實是巨大的資源浪費。一個成功企業的背後是倒下的無數個類似企業,這些都是要計入的社會成本。因此,市場經濟高效率的背後其實是整個社會的低效率。

在這種情況下,計劃經濟從其出發點來看,力圖構建一個體系,讓市場需求能被有效計算,然後以需定產,從而最大程度地降低社會成本。理論無限美好,但現實中卻往往發現,需求是無法統計和計算的。缺乏有效的統計手段,從而使得理想也只是理想。計劃經濟的失敗,讓前蘇聯的生產和實際需求產生了極大的錯位,重工業泛濫而輕工業不足。

那麼,現在大數據匹配雲計算,是否可以解決這個問題呢?理論上是否可能讓計劃經濟回歸或者部分回歸?呵呵,很有意思的問題。

不扯遠的了。可能很多專家會認為我的理解過於膚淺,但是,從金融運行實踐來看,我對自己的結論還是抱有極大信心的。其實,大數據即使成功,也必然只是個別案例,不具備普遍性。因為對於同一數據,不同的機構對其有效應用的能力必然是不同的,而這種應用能力,才是機構之間競爭的關鍵。



熱門推薦

本文由 yidianzixun 提供 原文連結

寵物協尋 相信 終究能找到回家的路
寫了7763篇文章,獲得2次喜歡
留言回覆
回覆
精彩推薦