孟生旺教授:车联网大数据分析与汽车保险定价
2017年3月24日,由上海评驾科技有限公司主办,中国保险信息技术管理有限责任公司、中国汽车研究中心指导的“汽车与保险大数据跨界融合·创新落地”主题会议,暨基于车辆保险经营管理应用的车联网数据采集标准组第一次工作会议,在上海徐汇万科中心隆重启幕。来自行业机构、汽车企业、保险公司、汽车服务企业等相关单位的嘉宾以及记者出席本次盛会。
各位领导、各位嘉宾,大家下午好。我今天给大家汇报的是评驾科技做的数据分析,就车联网大数据分析和汽车保险定价给大家做一个汇报。今天报告的内容有这五个方面,首先把数据做一个简要介绍,后面的分析是基于什么样的数据做一个简单的概况,然后是描述性的问题分析,我们做风险定价和风险分析描述性统计分析是最重要的一环。最后要做定价和风险评估基于严格的计算和统计的模型,我建立了两个模型,出险频率的模型和损失金额的模型,我就把结构简单说一下。最后提出结论和展望。
首先我们看一下,我今天的报告做的一些数据分析是来自什么样的变量。这个数据有7000余辆汽车,就是车联网数据,每一辆汽车记录的量是40个G左右,这7000辆车里面有一些数据存在偏差、缺失或者匹配不好的,剩余有效的数据是6342辆车,我把车联网数据和保险数据之间的关系做了一个分析。车联网数据主要包含哪些变量呢?价值变量、时间变量,行驶的空间,第三类道类型,是哪种类型上,后面是速度,有行驶速度,有道的限速,还有急加速、急减速的记录,这是车联网提供的变量。保单变量主要是出险次数,这个车在一年当中出了多少事故,每次事故的损失金额,还有签单保费,传统的定价结果是多少。最后还有车辆的使用性质,是家庭用车还是企业非营业用车,这个数据里面只包含这两类车,使用性质只分这两类。整个的数据排错率是8%,这是数据的基本情况。
基于这些数据,我们可以做一些分析。要做分析,我们主要对车联网数据进行分析,所以对车联网数据要提取信息,车联网有时间、经纬度、道类型,总共有十个指标,十个指标里面我们提取一些和风险相关的因子,提取多少个因子呢?我们提了156个因子,156个风险因子。这个风险因子我们在提取的时候是基于主观的判官,我们认为哪些指标跟风险是有关的,提取了哪些因子呢?首先车辆行驶里程常重要的,这是可以提取的。行驶区域面积也常重要的目标,第三个车辆使用的时间,在一年当中行驶了多长时间是可以提取出来了,平均速度也可以提出来,整个一年当中每小时多少公里行驶速度可以提出来。另外行驶速度的平稳性,你这个车在行驶当中平稳的行驶还是时快时慢波动性比较高判断的风险也比较高,这是提取的信息。
另外我们提取的信息有分段行程的信息,怎么提取的呢?行程的间隔大于5分钟,标记行程结束,这个标记不一定准确,有可能堵车堵了5分钟,大多数情况下还可以,但是也有例外。如果超过5分钟没有动车,我们就认为上一个行程结束,下一个行程开始,在这样的情况下我们记录了每一辆车的出行次数,每段行程的平均行使时间和最大值都可以提取出来,每段行程的行驶距离最大值最小值,关于行程的信息我们提取了这样的信息。关于急加速信息,我们可以提出这样的信息,急加速次数,这是很容易统计出来的。第二个每行驶100公里的急加速次数,平均每小时行驶当中急加速的次数也可以提取出来。
第四类,我们对每个时间段的急加速做了提取,一天24个时段,每个时间段的急加速也提取出来,从车联网信息当中可以提取。第四类信息急减速的信息,一个是急减速的次数,每100公里当中急减速的次数,每行驶一小时的急减速的次数,每一个时间段24个时间段急减速的次数,这是第四类急减速的信息。
第五类是超速的信息,超速有些道上有限速,有一些没有,没有限速的我们做了假设限速设置为50,分析结果还是有一点的参考价值。提取的信息有超速的次数,每行驶100公里的超速速度,每行驶一小时的超速速度,以及超速状态下行驶多长时间和行驶多长程,还有最大的超速程度,超速是10%、20%,这些指标都可以算出来,这是关于超速信息从数据当中可以提取。
第六类信息,道类型的信息,分了七类,还有一类是缺失值,车联网信息里面没有标识道是哪种类型的我们作为缺失值处理,道类型和风险是密切相关的,我们提取的信息包含下面五个,不同道类型上的行驶历程数,在前面七个道类型上行驶了多长距离、多长时间,有多少次超速,平均速度是多少,急加速和急减速是多少,这些信息都可以统计出来,这是第六类信息。
第七类信息,在不同时间段上驾驶时间的分布,比如说0点到1点,1点到两点,不同时间段的驾驶时间,我们分了两点,工作日在不同时间段使用的时间多长,另外节假日,节假日的情况和工作日完全不一样,把时间分成两类,分别统计各个时间段的驾驶时间,这是整个提取的指标。这七类指标提取下来一共156个指标,这156个指标进行分析大家会发现比较有趣的现象。
我简单把几个重要的指标过一下,我在这介绍几个重要的指标。第一个指标,行驶里程数,在车联网的条件下我们做定价,从定价的角度来讲车联网数据的分析,从定价的角度来说,我们定价的基础就是行程里程数,跟传统的定价不一样,传统的定价是车年数,在这个基础上通过各种各样的因子进行调整。
车联网数据下,我们最重要的变量是行程里程数,行程里程数单位、公里、保费是多少,这是基础,在这个基础上根据其他的风险因子对于费率加以调整。行程里程的统计结果大家看一下,平均每辆车一年的行程里程数是1500,跑一万公里出一次次数,非常接近1,这是出险频率,根据出险频率算一个总的保费,一万公里的保费大概3500多,这是保费的基础。通过这样的基础进行调整,在3560的基础上上下调整,有的调高,有的调低,这是基于车联网定价做的基础性工作。最重要的指标,从156个指标进行分析,我们会发现最重要的指标就是行驶里程数,从统计意义上讲和风险和损失相关最高的指标就是里程数。
我们看一下这组数据的出险次数,一共是6000多辆车,65%的车没有出险,4146,剩下35%的车出险了,分布情况是这样的。出一次的1600多,两次的471,还有4、5、6次出险。大家发现一年出了6次或者9次险的车在驾驶行为上有一些特殊的表现,我们看他特殊在什么地方,这是大概的出险频率的情况,平均一万公里出险一次。
出险的次数和行驶里程数之间的关系非常密切。我右边的这个图,横轴离1、2、3、4、5、6是出险次数,纵轴是行驶里程数,我画红圈是出险4到6次的,统计的规律不明显,4到6次的车只有12辆、7辆、1辆车,所以规律性不强。红色圈出的一部分大家可以不考虑,下面1、2、3车辆书比较多了,随着出险次数增加,行驶里程数线性增加的。平均而言出险一次的车辆行驶里程数要短,出险3次的行驶里程数要高,所以行驶里程数和出险频率之间有高度的相关性,所以我们在定价的时候为什么要使用行驶里程数,就是这个原因,这是第一个变量行驶里程数和出险次数之间有这样的正相关的关系,行程高的出险频率就越高。
第二个行驶区域,也常重要的指标,行驶里程数表示行驶的距离,行驶区域反映活动的范围,大家可以看出各种车行驶区域完全不一样的,第一辆车的精度从113到114精度很小,下面的车的精度从100到130,所以他的活动范围非常大,画在图上由于尺度大,行驶轨迹看着像一条曲线,把尺度放小也是弯曲的,只不过从大数上展开一条直线,不同的车辆的行驶轨迹不一样,我们在建模的时候,数据分析的时候,每一辆车的行驶区域面积算出来,发现行驶区域面积和风险之间是高度相关的。行驶区域面积总的情况分布是这样的,有些比较少,5260辆车的行驶区域面积小于10万平方公里,有1077辆车行驶区域面积大于10万平方公里,少量的占比比较少的车风险相对高一些,高在什么地方?看一下,我们从出险频率来看,4、5、6不考虑,1、2、3观测的频率很高,行驶区域面积增加的时候出险的频率也在增加,不同的出险次数对应行驶区域面积也是直线上升的,行驶区域面积是第二个非常重要的风险因子。
第三个行驶时间,行驶时间的分布画出这样的图,大家平均的行驶时间一年下来166个小时,中位数114小时,行驶时间和行驶的距离是相关的,驾驶的时间长驾驶的距离就长,用行驶时间和行驶的距离有现行的相关关系,出险的次数越高,驾驶的时间越高,所以定价的时候用行驶距离更好一些。再看急加速速度,这个数据不知道记录的准不准,今天中午聊天说急加速的统计在车联网统计当中是有偏误的,不清楚这个有没有偏误,根据急加速数据一年平均下来大家急加速638次,急加速速度如果基于这样的统计结果,我们看不同时间段上的情况,从0、1、2一直到23,一天分为24个时段,每一个时间段的急加速速度不一样的,最高的是0点,0点时间行驶的车辆急加速速度是最高的,凌晨行驶的这些车辆急加速最多的,剩下的是早晨的8点到10点的区间也是比较高的,这个是急加速的时间分布情况。
急加速的分布情况,与车损险出险次数的关系,0、1、2、3随着出险的频率增加,急加速速度也是增加的,但增加的不是太多,增加的幅度不是太大,但是增加了。所以急加速速度和出险频率之间也是相关的。但是看4、5、6,后面发现虽然出了六次险,还有一辆车出了9次的,在急加速有特别的表现。还有行驶平均来说32,比急加速少了很多。急减速的时间分布看一下,仍然是0点发生急减速的频率最高,不知道为什么凌晨行驶的车辆急加速、急减速都最高,可以最后做解释,远远高于其他时间段。急减速和出险次数的关系也有相关性,从0、1、2、3增长的幅度不是太大,注意6,这是一辆车急减速达到200左右,远远高于其他的车,所以发生了6次事故的车在急加速和急减速有异常。
再看一下超速的情况,超速的情况平均超速1700公里,好像安全意识不是太高,如果按照车道的限速,平均每辆车一年当中1700多公里的段是有超速的。下面看超速和出险频率的关系,出险频率和超速是高度相关的,超速距离上升的程度还是很大的,超速和出险频率有密切的关系。平均速度,我刚开始分析数据的时候,我预感平均速度是重要影响风险的变量,结果分析结果出人意料,平均速度城市的车都跑不起来,平均数27公里,中位数26公里,平均速度对风险有多大影响,平均速度对风险几乎没有影响,不管出险一次的、两次的、三次的平均速度差不多。
没分析数据之前我觉得平均速度跟风险有关系,实际上关系微乎其微,这是一个意外地发现。另外再看驾驶时间,驾驶时间是一个重要的变量,一天分成24个时段,工作日的驾驶时间,高峰是7点到8点,晚高峰是17点到18点,这是工作日的驾驶时间高峰可以很容易看出。但再节假日的高峰不一样,上午在10点左右,下午5点左右,节假日的高峰完全是不一样的,这是大家出行的时间分布。注意凌晨零点,零点的时候也有不消的行驶时间,凌晨行车是比较的,这是驾驶时间。驾驶时间和出险次数,我这分析了凌晨1点到两点的区间驾驶时间和风险之间的关系,0、1、2、3你看一下,你在这个时间段行驶的时间越多风险越高,发生两次到三次事故的在凌晨一二点驾车的时间最多,所以凌晨驾车是高风险。
道类型是七个类型,这是车联网信息里面提取的,这七个类型里面,大家的行驶距离大多数车辆是在第一类道就是城市普通道行驶,还有一个城市其他道,道类型的分布,在高速上也有比较长的距离的行驶,国道上行驶的比较少,但是在每一个道类型上的风险我们分析了一下,不同道类型行驶的速度,高速上行驶的速度是最快的,剩下的第二高的就是国道,然后是省道、县道,道类型上行驶的速度是不太一样的,我们分析过平均行驶速度和风险之间的关系没有那么明显,但是道类型有重要影响。
我们看国道,大多车辆在国道上行驶的时间不多,但是在国道上行驶的距离和出险次数有一点点的关系,随着0、1、2、3,随着出险次数的增加,在国道上的行驶距离有一点点上升,当然你要分析在其他道上的行驶距离还不如这个好理解,道类型对出险次数有一定的影响,但是不是特别明显。
下面我们分析异常值,在数据当中有两个保单表现异常。一个是发生了6次事故的保单,一个是发生了9次事故的保单。发生6次事故的保单行驶区域面积,左边的图面积很小,行驶区域面积是平均数的13%,平均速度也低于平均数,是平均数的90%,它发生6次事故,平均每次的损失金额是47%,我判断这辆车估计是新手开的,行驶范围非常小,但出现次数最高6次,但每次的损失金额不大。它的异常体现在急加速和急减速,急加速速度是平均数的2.8倍,急减速是平均数的6.3倍,所以新手在急加速和急减速非常高,所以风险很高。
还有一个是发生9次索赔的保单,行驶区域面积也很小,仅仅是区域面积的5%,只有一次跑的比较远,那个也常有限的,行驶区域面积是平均数的5%,可能就在口转悠,损失金额每次也是平均数的60%,急加速不多,急减速也不多,都小于平均数。它的异常凌晨行驶时间,主要在凌晨行驶,凌晨行驶时间长度是平均数的10倍,所以这辆车的风险高就高在行驶时间异常,主要在凌晨行驶。所以这两辆车,发生6次和9次的保单提取出来可以发现一个是急加速急减速异常,一个是行驶时间主要集中在凌晨,这就是风险分析的结果。我们的急加速和急减速和行驶时间就是重要的风险因素,这是描述性分析。
最后我们再看一下签单保费,传统的保单都有保费,保费和出险次数和出险金额之间什么关系呢?随着出险次数的变化,这些保单的平均签单保费几乎是一样的。我们就不说4、5、6了,就从0、1、2、3出险次数来说,出险次数增加的时候签单保费几乎是一样高的,发生0次索赔和1次的、2次的、3次的,这四类车签单保费的密度线几乎是重合的,保费没差异,风险差异很大。这说明什么问题?说明我们传统上的定价结果和风险之间的关联度很低,传统的签单保费和风险之间的匹配程度很低的,保费不反映风险那对保费就是不公平的,不合理的。
前面我们分析的是损失的次数,下面我们看损失金额,我们一方面考虑出险的频率,还要考虑出险的金额。出险金额的尾巴拖的很长,左边是小于一万元的,右边是大于一万元的损失金额,大多数的小于一万元,只有少数的超过一万元,损失金额分布比较偏,这是大概的分布。平均每次事故的损失金额是3648元,整个的数据量是2000左右,比损失次数的数据量小一些,因为大量的保单不发生事故。损失金额和前面讲的风险因子之间是什么关系呢?关系很弱,大家看一下,行驶里程数和损失金额的关系,相关系数不到1%,有相关性但很弱,行驶里程和损失次数高度相关,跟损失金额很弱。行驶面积和损失金额之间相关性也低于1%,也是很小的。所以我们发现这些风险因子对预测出险的频率来说很好,但是预测损失的金额效果很差。再看行驶时间也一样,相关系数不足1%,仍然预测的效果很弱。再看急加速的次数,达到了10%,这个就和急加速的次数和损失金额之间的关系,10%的相关性。急减速的次数和损失金额的关系,这个相关性也还可以,14%,算是高的了。超速的距离和损失金额之间的关系,相关性7%。这是平均速度和损失金额之间的关系,几乎无关。平均速度的指标和出险的频率和损失金额之间几乎都无关,所以平均速度在风险预测当中不是一个很重要的指标。
下面建立模型,前面我讲的156个指标,从行驶面积指标当中我展示了个别的指标直观的结果,下面我们看一下建模的结果,模型怎么建就不讲了。在出险频率模型当中,我们一共是6334辆车,这6000多辆车里面,我们一共使用150多个变量,从这里面挑出多少个变量对出险频率有影响的?有36个变量对出险频率是有影响的,都在这列出来了,左边列了大概36个变量,我们预测损失频率就这36个变量进行预测,而且预测效果从统计检验来说还是相当不错的。看右下角的图,如果是一条直线表示模型很好,从出险频率来看模型是不错的,是比较稳定的。如果要预测损失金额,有67个变量,这些变量对损失金额都有一定的影响,变量越多,模型的整体的预测效果从右下角的图里面,那条线和对角线的红线吻合程度略弱一些,稳定性差一些,总体上还过得去,这是损失金额有67个变量可以预测损失金额的大小。所以我提了150多个变量,有60多个对损失金额会产生影响。
我们把结果再比较一下,我这比较了三个,一个是传统的保费,就是签单保费,每一个车都有一个保费。然后有一个预测的保费,基于前面的模型预测一个保费,后面还有经验的损失金额数据,这三个数据相互比较,我们可以看出我们预测保费和经验损失之间的相关系数可以达到37%的相关性,但是签单保费和经验损失之间的相关系数只有2%。也就是前面我们从直观的分析看出签单保费,传统上的保费和损失之间的相关性很弱,所以保费不能准确地反映风险,基于这个模型算出来保费和损失纸烟的相关性高达37%,所以这个要准确一些,当然这个结果也不算很稳定,因为我们的样本量比较少,只有6000多辆车,所以这个模型的稳定性也从疑,但是从签单保费现在的概率要好一些,这是结果。
基于模型的分析结果,我们还可以得出另外的结论,我们举一个例子,在定价模型当中或者损失因子模型当中我们可以使用很多变量,在车联网信息当中我们提取100多个变量,还有传统的定价因子,比如说传统定价因子,最常使用的是汽车的使用性质,这个数据里面有两类车,一类是企业的非营业用车,一个是家庭自用车,这两类车分类在传统定价当中常重要的定价因素,对风险影响非常重要。在车联网数据加进去之后,这个变量就消失了。为什么消失呢?大家从这个图上可以看出来,这两类车,企业非营业车和家庭自用车在风险预测当中有重要的影响,但是这两类车的驾驶行为模式有巨大的差别,所以当你把车联网信息加进去之后这两类信息旧部重要了,企业非营业车和家庭用车里程有差距,急加速要少,急减速要少,所以家庭自用车的风险肯定要低,因为急加速、急减速、超速距离,还有其他的指标也是分检的,所以保费要低。传统上企业非营业车和家庭用车这两个维度分析,也是家庭用车的风险低一些,当你把车联网急加速、急减速和超速距离纳入模型当中的时候,企业非营业车和家庭用车这样的指标就消失了,实际上我们在建模的时候,企业非营业车和家庭用车这两个指标在模型当中是加进去的,但是在建模的最后这两个指标也排除了,就是急加速、急减速的指标给替代了,这就是分析的结果,车联网的指标它对于传统的定价因子具有比较强的分析。
这是分析的结果,有几个结论。前面分析的数据里面缺少重要的信息,所以结论还不是很完整,缺少哪些信息呢?比如说车辆的信息比较缺失,车辆的信息不充分,事故信息不充分,时间有时间地点信息这个模型可以做的更加准确,还缺少天气相关的信息,所以这个模型还有优化、提升的空间。第二点,我们使用数据质量上还有一些问题,有一些数据质量缺失,或者是匹配不太好,还存在这样一些问题。另外样本量比较小,6000多辆车,我们在传统的定价当中使用的样本量至少是几十万辆和几百万辆的样本量,我们只使用6000多辆车,所以样本量不够。如果做市场应用,要基于更多的车联网数据的分析,要有稳定的结果才好用。第三点,我们发现建模当中,不管是传统的模型还是把车联网信息拉进去建一个模型,出险频率与损失金额的影响因素不同,损失金额的预测更加困难,损失金额模型建立的时候遇到的困难更大,挑战更高,这是第三点。第四点,车联网数据纳入进来,大家可以使用或者是建立的模型多种多样,除了传统的模型还有机器学习、数据挖掘方面比较新的模型,神经网络等等这样的模型。但这些模型和传统模型之间的关系,我们发现还不完全是相互替代,不是谁替代谁的问题,传统的比如说线性的模型,有的比神经网络先进的模型预测性和解释性都要强,所以我们不能什么机器分析、数据挖掘这些比较热的模型,有的时候传统的模型效果更好,不管它的预测性还是解释性上传统模型也有更大的优势。最后一点,总体上来看,如果从预测效果上来看,车联网信息用于定价,它具有替代传统的费率因子的作用,有一些费率因子替代非常明显,如车辆用途、家庭用车、企业用车等等,可以用车联网的急加速和急减速因子替代,替代得出来的模型更加准确,所以定价的结果更加合理。总的一句话,如果把车联网的信息充分的用起来,车辆信息如果不够准确,我们就以定价的结果和预期会得到更加合理的结果,这是基于6000多辆车做了车损险的分析,交强险分析和车损险的分析结果不完全一样,风险因子、模型的结果不完全一样,表示形式不一样,但是思大体是相同的,这是关于数据分析结果,这个模型当然还有改进的空间。