中国微企网
全球观察:风控模型中的IV值,WOE,PSI解析
发布日期: 2023-04-03 11:21:28 来源: 商业新知网

一、IV值

在机器学习的二分类问题中,IV值(Information Value)主要用来对输入变量进行编码和预测能力评估。


(资料图)

特征变量IV值的大小即表示该变量预测能力的强弱。IV 值的取值范围是[0, 正无穷),如果当前分组中只包含响应客户或者未响应客户时,IV = 正无穷。

IV值的作用就是衡量一个变量整体的预测能力,好处在于每个变量的IV值是可比的。所谓的IV值( informationvalue ),指的是一个变量对于判定客户属于y1还是y0的信息贡献,贡献越大,IV值越大。

IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组 i ,其对应的IV值参考下图,其中n是分组个数,注意,在变量的任何分组中,不应该出现响应数为0或非响应数位0的情况,当变量的一个分组的响应数位0时,对应的woe就为负无穷,此时IV值为正无穷。如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件:

计算了一个变量的各个组的IV值之后,我们就可以计算整个变量的IV值:

在建模过程中,IV值主要用于特征选择,如果想要对变量的预测能力进行排序的话,可以按 IV 值从高到低筛选即可。

二、WOE

WOE的全称是“weight of evidence”,即证据权重。直观上讲,WOE是对原始变量的一种编码形式,要对一个变量进行WOE编码,首先需要把这个变量进行分组处理,即分箱或者离散化,常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。分组后,对于第i组,WOE的计算公式见下图:

WOE表示的含义即是"当前分组中响应客户占所有响应客户的比例"和"当前分组中没有响应的客户占所有没有响应客户的比例"的差异。

三、PSI

PSI(Population Stability Index),技术上有一个指标可以用来检测人群的偏移度。人群评分分布和评分卡所有涉及变量都可以计算出PSI用来判断人群迁移的情况。

PSI是群体稳定性指标,是从样本分布的波动上来衡量稳定性。一般可用于评价特征或模型的稳定性:

1、评价特征稳定性:关注该特征的取值是否随时间的推移发生大的波动,可用于变量监控。模型上线前做特征选择,剔除不稳定变量。

2、评价模型稳定性:对数据集的预测/分类结果进行稳定性评价。模型上线部署后,可通过PSI曲线报表来观察模型的稳定性。

计算PSI基本步骤

将A和B两个样本按照一定的规则分为n组,对比其样本分布的相似性。选择一个样本B为base,其分布也称为预期(expected)分布,通常是训练样本(in the sample);另一个样本A为test,其分布称为实际(actual)分布,通常为out of sample 或者跨时间样本(跨时间窗按月/周),也称为被比较的base样本。

将base(expected)样本分箱离散化,统计每个分组内的样本占比。注意:分箱方式可以是等宽、等频的方式,分箱数一般是10或20,也可根据数据范围调整。笔者在自己的数据集上进行试验发现,等宽、等频分箱方式下计算出的PSI略有差异,但不影响最终结论。分箱数越大,PSI会越大。在实际应用中,需要考虑箱体内的样本数。

按相同的切点,对test(actual)样本分箱,统计各分箱内的样本占比。

计算每个箱体内:(实际占比 - 预期占比)* ln(实际占比 / 预期占比),对各箱体的计算结果求和,得到PSI。结论:PSI越小,两个样本间的差异越小,代表越稳定。

最终计算的PSI指标中,若PSI<0.1 样本分布有微小变化,模型基本可以不做调整。若PSI 在0.1~0.2之间,样本分布有变化,根据实际情况调整评分切点或调整模型。若PSI>0.2,样本分布有显著变化,必须调整模型。

标签:

资讯播报
精彩推送