人大孟生旺教授：車聯網大數據分析與汽車保險定價

2017年3月24日，由上海評駕科技有限公司主辦，保險信息技術管理有限責任公司、汽車研究中心指導的「汽車與保險大數據跨界融合·創新落地」主題會議，暨基於車輛保險經營管理應用的車聯網數據採集標準組第一次工作會議，在上海徐匯萬科中心隆重啟幕。來自行業機構、汽車企業、保險公司、汽車服務企業等相關單位的嘉賓以及媒體記者出席本次盛會。

以下是來自人民大學統計學院副院長孟生旺教授的精彩報告。

各位領導、各位嘉賓，大家下午好。我今天給大家彙報的是評駕科技做的數據分析，就車聯網大數據分析和汽車保險定價給大家做一個彙報。今天報告的內容有這五個方面，首先把數據做一個簡要介紹，後面的分析是基於什麼樣的數據做一個簡單的概況，然後是描述性的問題分析，我們做風險定價和風險分析描述性統計分析是最重要的一環。最後要做定價和風險評估基於嚴格的計算和統計的模型，我建立了兩個模型，出險頻率的模型和損失金額的模型，我就把結構簡單說一下。最後提出結論和展望。

首先我們看一下，我今天的報告做的一些數據分析是來自什麼樣的變數。這個數據有7000餘輛汽車，就是車聯網數據，每一輛汽車記錄的量是40個G左右，這7000輛車裡面有一些數據存在偏差、缺失或者匹配不好的，剩餘有效的數據是6342輛車，我把車聯網數據和保險數據之間的關係做了一個分析。車聯網數據主要包含哪些變數呢？價值變數、時間變數，行駛的空間，第三類道路類型，是哪種類型上，後面是速度，有行駛速度，有道路的限速，還有急加速、急減速的記錄，這是車聯網提供的變數。保單變數主要是出險次數，這個車在一年當中出了多少事故，每次事故的損失金額，還有簽單保費，傳統的定價結果是多少。最後還有車輛的使用性質，是家庭用車還是企業非營業用車，這個數據裡面只包含這兩類車，使用性質只分這兩類。整個的數據排錯率是8%，這是數據的基本情況。

基於這些數據，我們可以做一些分析。要做分析，我們主要對車聯網數據進行分析，所以對車聯網數據要提取信息，車聯網有時間、經緯度、道路類型，總共有十個指標，十個指標裡面我們提取一些和風險相關的因子，提取多少個因子呢？我們提了156個因子，156個風險因子。這個風險因子我們在提取的時候是基於主觀的判官，我們認為哪些指標跟風險是有關的，提取了哪些因子呢？首先車輛行駛里程是非常重要的，這是可以提取的。行駛區域面積也是非常重要的目標，第三個車輛使用的時間，在一年當中行駛了多長時間是可以提取出來了，平均速度也可以提出來，整個一年當中每小時多少公里行駛速度可以提出來。另外行駛速度的平穩性，你這個車在行駛當中平穩的行駛還是時快時慢波動性比較高判斷的風險也比較高，這是提取的信息。

另外我們提取的信息有分段行程的信息，怎麼提取的呢？行程的間隔大於5分鐘，標記行程結束，這個標記不一定準確，有可能堵車堵了5分鐘，大多數情況下還可以，但是也有例外。如果超過5分鐘沒有動車，我們就認為上一個行程結束，下一個行程開始，在這樣的情況下我們記錄了每一輛車的出行次數，每段行程的平均行使時間和最大值都可以提取出來，每段行程的行駛距離最大值最小值，關於行程的信息我們提取了這樣的信息。關於急加速信息，我們可以提出這樣的信息，急加速次數，這是很容易統計出來的。第二個每行駛100公里的急加速次數，平均每小時行駛當中急加速的次數也可以提取出來。

第四類，我們對每個時間段的急加速做了提取，一天24個時段，每個時間段的急加速也提取出來，從車聯網信息當中可以提取。第四類信息急減速的信息，一個是急減速的次數，每100公里當中急減速的次數，每行駛一小時的急減速的次數，每一個時間段24個時間段急減速的次數，這是第四類急減速的信息。

第五類是超速的信息，超速有些道路上有限速，有一些沒有，沒有限速的我們做了假設限速設置為50，分析結果還是有一點的參考價值。提取的信息有超速的次數，每行駛100公里的超速速度，每行駛一小時的超速速度，以及超速狀態下行駛多長時間和行駛多長路程，還有最大的超速程度，超速是10%、20%，這些指標都可以算出來，這是關於超速信息從數據當中可以提取。

第六類信息，道路類型的信息，分了七類，還有一類是缺失值，車聯網信息裡面沒有標識道路是哪種類型的我們作為缺失值處理，道路類型和風險是密切相關的，我們提取的信息包含下面五個，不同道路類型上的行駛歷程數，在前面七個道路類型上行駛了多長距離、多長時間，有多少次超速，平均速度是多少，急加速和急減速是多少，這些信息都可以統計出來，這是第六類信息。

第七類信息，在不同時間段上駕駛時間的分佈，比如說0點到1點，1點到兩點，不同時間段的駕駛時間，我們分了兩點，工作日在不同時間段使用的時間多長，另外節假日，節假日的情況和工作日完全不一樣，把時間分成兩類，分別統計各個時間段的駕駛時間，這是整個提取的指標。這七類指標提取下來一共156個指標，這156個指標進行分析大家會發現比較有趣的現象。

我簡單把幾個重要的指標過一下，我在這介紹幾個重要的指標。第一個指標，行駛里程數，在車聯網的條件下我們做定價，從定價的角度來講車聯網數據的分析，從定價的角度來說，我們定價的基礎就是行程里程數，跟傳統的定價不一樣，傳統的定價是車年數，在這個基礎上通過各種各樣的因子進行調整。

車聯網數據下，我們最重要的變數是行程里程數，行程里程數單位、公里、保費是多少，這是基礎，在這個基礎上根據其他的風險因子對於費率加以調整。行程里程的統計結果大家看一下，平均每輛車一年的行程里程數是1500，跑一萬公里出一次次數，非常接近1，這是出險頻率，根據出險頻率算一個總的保費，一萬公里的保費大概3500多，這是保費的基礎。通過這樣的基礎進行調整，在3560的基礎上上下調整，有的調高，有的調低，這是基於車聯網定價做的基礎性工作。最重要的指標，從156個指標進行分析，我們會發現最重要的指標就是行駛里程數，從統計意義上講和風險和損失相關最高的指標就是里程數。

我們看一下這組數據的出險次數，一共是6000多輛車，65%的車沒有出險，4146，剩下35%的車出險了，分佈情況是這樣的。出一次的1600多，兩次的471，還有4、5、6次出險。大家發現一年出了6次或者9次險的車在駕駛行為上有一些特殊的表現，我們看他特殊在什麼地方，這是大概的出險頻率的情況，平均一萬公里出險一次。

出險的次數和行駛里程數之間的關係非常密切。我右邊的這個圖，橫軸離1、2、3、4、5、6是出險次數，縱軸是行駛里程數，我畫紅圈是出險4到6次的，統計的規律不明顯，4到6次的車只有12輛、7輛、1輛車，所以規律性不強。紅色圈出的一部分大家可以不考慮，下面1、2、3車輛書比較多了，隨著出險次數增加，行駛里程數線性增加的。平均而言出險一次的車輛行駛里程數要短，出險3次的行駛里程數要高，所以行駛里程數和出險頻率之間有高度的相關性，所以我們在定價的時候為什麼要使用行駛里程數，就是這個原因，這是第一個變數行駛里程數和出險次數之間有這樣的正相關的關係，行程高的出險頻率就越高。

第二個行駛區域，也是非常重要的指標，行駛里程數表示行駛的距離，行駛區域反映活動的範圍，大家可以看出各種車行駛區域完全不一樣的，第一輛車的精度從113到114精度很小，下面的車的精度從100到130，所以他的活動範圍非常大，畫在圖上由於尺度大，行駛軌跡看著像一條曲線，把尺度放小也是彎曲的，只不過從大數上展開一條直線，不同的車輛的行駛軌跡不一樣，我們在建模的時候，數據分析的時候，每一輛車的行駛區域面積算出來，發現行駛區域面積和風險之間是高度相關的。行駛區域面積總的情況分佈是這樣的，有些比較少，5260輛車的行駛區域面積小於10萬平方公里，有1077輛車行駛區域面積大於10萬平方公里，少量的佔比比較少的車風險相對高一些，高在什麼地方？看一下，我們從出險頻率來看，4、5、6不考慮，1、2、3觀測的頻率很高，行駛區域面積增加的時候出險的頻率也在增加，不同的出險次數對應行駛區域面積也是直線上升的，行駛區域面積是第二個非常重要的風險因子。

第三個行駛時間，行駛時間的分佈畫出這樣的圖，大家平均的行駛時間一年下來166個小時，中位數114小時，行駛時間和行駛的距離是相關的，駕駛的時間長駕駛的距離就長，用行駛時間和行駛的距離有現行的相關關係，出險的次數越高，駕駛的時間越高，所以定價的時候用行駛距離更好一些。再看急加速速度，這個數據不知道記錄的準不準，今天中午聊天說急加速的統計在車聯網統計當中是有偏誤的，不清楚這個有沒有偏誤，根據急加速數據一年平均下來大家急加速638次，急加速速度如果基於這樣的統計結果，我們看不同時間段上的情況，從0、1、2一直到23，一天分為24個時段，每一個時間段的急加速速度不一樣的，最高的是0點，0點時間行駛的車輛急加速速度是最高的，凌晨行駛的這些車輛急加速最多的，剩下的是早晨的8點到10點的區間也是比較高的，這個是急加速的時間分佈情況。

急加速的分佈情況，與車損險出險次數的關係，0、1、2、3隨著出險的頻率增加，急加速速度也是增加的，但增加的不是太多，增加的幅度不是太大，但是增加了。所以急加速速度和出險頻率之間也是相關的。但是看4、5、6，後面發現雖然出了六次險，還有一輛車出了9次的，在急加速有特別的表現。還有行駛平均來說32，比急加速少了很多。急減速的時間分佈看一下，仍然是0點發生急減速的頻率最高，不知道為什麼凌晨行駛的車輛急加速、急減速都最高，可以最後做解釋，遠遠高於其他時間段。急減速和出險次數的關係也有相關性，從0、1、2、3增長的幅度不是太大，注意6，這是一輛車急減速達到200左右，遠遠高於其他的車，所以發生了6次事故的車在急加速和急減速有異常。

再看一下超速的情況，超速的情況平均超速1700公里，好像安全意識不是太高，如果按照車道路的限速，平均每輛車一年當中1700多公里的路段是有超速的。下面看超速和出險頻率的關係，出險頻率和超速是高度相關的，超速距離上升的程度還是很大的，超速和出險頻率有密切的關係。平均速度，我剛開始分析數據的時候，我預感平均速度是重要影響風險的變數，結果分析結果出人意料，平均速度城市的車都跑不起來，平均數27公里，中位數26公里，平均速度對風險有多大影響，平均速度對風險幾乎沒有影響，不管出險一次的、兩次的、三次的平均速度差不多。

沒分析數據之前我覺得平均速度跟風險有關係，實際上關係微乎其微，這是一個意外地發現。另外再看駕駛時間，駕駛時間是一個重要的變數，一天分成24個時段，工作日的駕駛時間，高峰是7點到8點，晚高峰是17點到18點，這是工作日的駕駛時間高峰可以很容易看出。但再節假日的高峰不一樣，上午在10點左右，下午5點左右，節假日的高峰完全是不一樣的，這是大家出行的時間分佈。注意凌晨零點，零點的時候也有不消的行駛時間，凌晨行車是比較危險的，這是駕駛時間。駕駛時間和出險次數，我這分析了凌晨1點到兩點的區間駕駛時間和風險之間的關係，0、1、2、3你看一下，你在這個時間段行駛的時間越多風險越高，發生兩次到三次事故的在凌晨一二點駕車的時間最多，所以凌晨駕車是高風險。

道路類型是七個類型，這是車聯網信息裡面提取的，這七個類型裡面，大家的行駛距離大多數車輛是在第一類道路就是城市普通道路行駛，還有一個城市其他道路，道路類型的分佈，在高速路上也有比較長的距離的行駛，國道上行駛的比較少，但是在每一個道路類型上的風險我們分析了一下，不同道路類型行駛的速度，高速路上行駛的速度是最快的，剩下的第二高的就是國道，然後是省道、縣道，道路類型上行駛的速度是不太一樣的，我們分析過平均行駛速度和風險之間的關係沒有那麼明顯，但是道路類型有重要影響。

我們看國道，大多車輛在國道上行駛的時間不多，但是在國道上行駛的距離和出險次數有一點點的關係，隨著0、1、2、3，隨著出險次數的增加，在國道上的行駛距離有一點點上升，當然你要分析在其他道路上的行駛距離還不如這個好理解，道路類型對出險次數有一定的影響，但是不是特別明顯。

下面我們分析異常值，在數據當中有兩個保單表現異常。一個是發生了6次事故的保單，一個是發生了9次事故的保單。發生6次事故的保單行駛區域面積，左邊的圖面積很小，行駛區域面積是平均數的13%，平均速度也低於平均數，是平均數的90%，它發生6次事故，平均每次的損失金額是47%，我判斷這輛車估計是新手開的，行駛範圍非常小，但出現次數最高6次，但每次的損失金額不大。它的異常體現在急加速和急減速，急加速速度是平均數的2.8倍，急減速是平均數的6.3倍，所以新手在急加速和急減速非常高，所以風險很高。

還有一個是發生9次索賠的保單，行駛區域面積也很小，僅僅是區域面積的5%，只有一次跑的比較遠，那個也是非常有限的，行駛區域面積是平均數的5%，可能就在家門口轉悠，損失金額每次也是平均數的60%，急加速不多，急減速也不多，都小於平均數。它的異常凌晨行駛時間，主要在凌晨行駛，凌晨行駛時間長度是平均數的10倍，所以這輛車的風險高就高在行駛時間異常，主要在凌晨行駛。所以這兩輛車，發生6次和9次的保單提取出來可以發現一個是急加速急減速異常，一個是行駛時間主要集中在凌晨，這就是風險分析的結果。我們的急加速和急減速和行駛時間就是重要的風險因素，這是描述性分析。

最後我們再看一下簽單保費，傳統的保單都有保費，保費和出險次數和出險金額之間什麼關係呢？隨著出險次數的變化，這些保單的平均簽單保費幾乎是一樣的。我們就不說4、5、6了，就從0、1、2、3出險次數來說，出險次數增加的時候簽單保費幾乎是一樣高的，發生0次索賠和1次的、2次的、3次的，這四類車簽單保費的密度線幾乎是重合的，保費沒差異，風險差異很大。這說明什麼問題？說明我們傳統上的定價結果和風險之間的關聯度很低，傳統的簽單保費和風險之間的匹配程度很低的，保費不反映風險那對保費就是不公平的，不合理的。

前面我們分析的是損失的次數，下面我們看損失金額，我們一方面考慮出險的頻率，還要考慮出險的金額。出險金額的尾巴拖的很長，左邊是小於一萬元的，右邊是大於一萬元的損失金額，大多數的小於一萬元，只有少數的超過一萬元，損失金額分佈比較偏，這是大概的分佈。平均每次事故的損失金額是3648元，整個的數據量是2000左右，比損失次數的數據量小一些，因為大量的保單不發生事故。損失金額和前面講的風險因子之間是什麼關係呢？

關係很弱，大家看一下，行駛里程數和損失金額的關係，相關係數不到1%，有相關性但很弱，行駛里程和損失次數高度相關，跟損失金額很弱。行駛面積和損失金額之間相關性也低於1%，也是很小的。所以我們發現這些風險因子對預測出險的頻率來說很好，但是預測損失的金額效果很差。再看行駛時間也一樣，相關係數不足1%，仍然預測的效果很弱。再看急加速的次數，達到了10%，這個就和急加速的次數和損失金額之間的關係，10%的相關性。急減速的次數和損失金額的關係，這個相關性也還可以，14%，算是高的了。超速的距離和損失金額之間的關係，相關性7%。這是平均速度和損失金額之間的關係，幾乎無關。平均速度的指標和出險的頻率和損失金額之間幾乎都無關，所以平均速度在風險預測當中不是一個很重要的指標。

下面建立模型，前面我講的156個指標，從行駛面積指標當中我展示了個別的指標直觀的結果，下面我們看一下建模的結果，模型怎麼建就不講了。在出險頻率模型當中，我們一共是6334輛車，這6000多輛車裡面，我們一共使用150多個變數，從這裡面挑出多少個變數對出險頻率有影響的？有36個變數對出險頻率是有影響的，都在這列出來了，左邊列了大概36個變數，我們預測損失頻率就這36個變數進行預測，而且預測效果從統計檢驗來說還是相當不錯的。看右下角的圖，如果是一條直線表示模型很好，從出險頻率來看模型是不錯的，是比較穩定的。如果要預測損失金額，有67個變數，這些變數對損失金額都有一定的影響，變數越多，模型的整體的預測效果從右下角的圖裡面，那條線和對角線的紅線吻合程度略弱一些，穩定性差一些，總體上還過得去，這是損失金額有67個變數可以預測損失金額的大小。所以我提了150多個變數，有60多個對損失金額會產生影響。

我們把結果再比較一下，我這比較了三個，一個是傳統的保費，就是簽單保費，每一個車都有一個保費。然後有一個預測的保費，基於前面的模型預測一個保費，後面還有經驗的損失金額數據，這三個數據相互比較，我們可以看出我們預測保費和經驗損失之間的相關係數可以達到37%的相關性，但是簽單保費和經驗損失之間的相關係數只有2%。也就是前面我們從直觀的分析看出簽單保費，傳統上的保費和損失之間的相關性很弱，所以保費不能準確地反映風險，基於這個模型算出來保費和損失紙煙的相關性高達37%，所以這個要準確一些，當然這個結果也不算很穩定，因為我們的樣本量比較少，只有6000多輛車，所以這個模型的穩定性也從疑，但是從簽單保費現在的概率要好一些，這是結果。

基於模型的分析結果，我們還可以得出另外的結論，我們舉一個例子，在定價模型當中或者損失因子模型當中我們可以使用很多變數，在車聯網信息當中我們提取100多個變數，還有傳統的定價因子，比如說傳統定價因子，最常使用的是汽車的使用性質，這個數據裡面有兩類車，一類是企業的非營業用車，一個是家庭自用車，這兩類車分類在傳統定價當中是非常重要的定價因素，對風險影響非常重要。在車聯網數據加進去之後，這個變數就消失了。為什麼消失呢？大家從這個圖上可以看出來，這兩類車，企業非營業車和家庭自用車在風險預測當中有重要的影響，但是這兩類車的駕駛行為模式有巨大的差別，所以當你把車聯網信息加進去之後這兩類信息舊部重要了，企業非營業車和家庭用車裡程有差距，急加速要少，急減速要少，所以家庭自用車的風險肯定要低，因為急加速、急減速、超速距離，還有其他的指標也是分檢的，所以保費要低。傳統上企業非營業車和家庭用車這兩個維度分析，也是家庭用車的風險低一些，當你把車聯網急加速、急減速和超速距離納入模型當中的時候，企業非營業車和家庭用車這樣的指標就消失了，實際上我們在建模的時候，企業非營業車和家庭用車這兩個指標在模型當中是加進去的，但是在建模的最後這兩個指標也排除了，就是急加速、急減速的指標給替代了，這就是分析的結果，車聯網的指標它對於傳統的定價因子具有比較強的分析。

這是分析的結果，有幾個結論。前面分析的數據裡面缺少重要的信息，所以結論還不是很完整，缺少哪些信息呢？比如說車輛的信息比較缺失，車輛的信息不充分，事故信息不充分，時間有時間地點信息這個模型可以做的更加準確，還缺少天氣相關的信息，所以這個模型還有優化、提升的空間。第二點，我們使用數據質量上還有一些問題，有一些數據質量缺失，或者是匹配不太好，還存在這樣一些問題。另外樣本量比較小，6000多輛車，我們在傳統的定價當中使用的樣本量至少是幾十萬輛和幾百萬輛的樣本量，我們只使用6000多輛車，所以樣本量不夠。如果做市場應用，要基於更多的車聯網數據的分析，要有穩定的結果才好用。第三點，我們發現建模當中，不管是傳統的模型還是把車聯網信息拉進去建一個模型，出險頻率與損失金額的影響因素不同，損失金額的預測更加困難，損失金額模型建立的時候遇到的困難更大，挑戰更高，這是第三點。第四點，車聯網數據納入進來，大家可以使用或者是建立的模型多種多樣，除了傳統的模型還有機器學習、數據挖掘方面比較新的模型，神經網路等等這樣的模型。但這些模型和傳統模型之間的關係，我們發現還不完全是相互替代，不是誰替代誰的問題，傳統的比如說線性的模型，有的比神經網路先進的模型預測性和解釋性都要強，所以我們不能迷信什麼機器分析、數據挖掘這些比較熱的模型，有的時候傳統的模型效果更好，不管它的預測性還是解釋性上傳統模型也有更大的優勢。最後一點，總體上來看，如果從預測效果上來看，車聯網信息用於定價，它具有替代傳統的費率因子的作用，有一些費率因子替代非常明顯，如車輛用途、家庭用車、企業用車等等，可以用車聯網的急加速和急減速因子替代，替代得出來的模型更加準確，所以定價的結果更加合理。總的一句話，如果把車聯網的信息充分的用起來，車輛信息如果不夠準確，我們就以定價的結果和預期會得到更加合理的結果，這是基於6000多輛車做了車損險的分析，交強險分析和車損險的分析結果不完全一樣，風險因子、模型的結果不完全一樣，表示形式不一樣，但是思路大體是相同的，這是關於數據分析結果，這個模型當然還有改進的空間。

我大概介紹就這些，謝謝大家。