xx省驾驶员信用评分模型

>公安项目有签订保密协议,敏感字段和与技术无关字段我已删减

 采用的是 信用评分卡模型,计算WOE值获得最终评分。

所有计算过程在ODPS中完成!

1.“Y”变量定义

为了综合评估普通驾驶员的道路交通能力,此次建模的目标为驾驶员是否有发生事故,若有则为坏样本,整体的坏样本率为1.314%,通过统计可以发现:

是否发生事故

计数

0

296058

1

3942

总计

300000


2.建模算法

现在采用的是WOE变量方式建模进行驾驶员评分,首先是获得各指标woe值,公式:


(b­i:指标i纬度坏样本数,bc:总坏样本数,g­i:指标i纬度好样本数,gc:总好样本数);

然后获得初始分数(0-1之间):


(woej:j指标woe值)

根据讨论结果,最低分取30分,做相应线性变换,得到真实分数:



3.单字段性能—IV指标

进一步验证各字段的IV值:

得到结果如下:

序号 IV值
1 0.31722
2 0.27158
3 0.25169
4 0.19057
5 0.13439
6 0.09315
7 0.09128
8 0.08199
9 0.07267
10 0.0669
11 0.04222
12 0.02809
13 0.02797
14 0.02783
15 0.02665
16 0.02352
17 0.02059
18 0.01752
19 0.01541
20 0.01458
21 0.01439
22 0.01439
23 0.01439
24 0.01439
25 0.0134
26 0.00827
27 0.00383
28 0.00139
29 0.00132
30 0.00044
31 0.00025

IV是全称InformationValue,是衡量单自变量对于应变量显著程度的指标,通常IV值越高,变量的显著性越强;

此模型变量中IV值大于0.05以上的变量超过10个。

4.模型整体性能--KS指标

通过整体的评估,模型整体的KS指标如下:

KS = 0.303768


注:KS指标衡量的是好样本和坏样本的累计分布比例之间具体最大的差距。好样本和坏样本之间的距离越大,KS指标范围在0%-100%之间,KS指标越高,模型的区分能力越强;

该模型的KS达到30%+,性能OK。

 

5.模型整体性能—ROC指标

经计算:

AUC=0.703637


注:ROC曲线及AUC系数为评估模型对客户进行正确区分的指标。ROC曲线描述了在一定累计好客户比例下的累计坏客户的比例, ROC曲线越往左上角靠近,模型的分别能力越强。AUC系数为ROC曲线下方的面积,数值范围在0.5-1之间,AUC系数越高,模型的区分能力越强。

该模型的AUC>=0.7,性能较好。

xx省驾驶员信用评分模型
https://www.920929.xyz/posts/e1bfa1bb.html
作者
DELIN
发布于
2016年8月5日
许可协议