一般数据特征间具有一定程度的线性和非线性关联关系,传统模型如SVM、LR等是难以学习到特征间的这些相关性。因此需要通过辅助方法对特征的相关性进行分析,根据分析结果,再结合相关领域的知识以及对业务问题的专业理解,通过特征组合、特征交叉或者加减乘除的方式去构建出更能描述目标问题的关键特征。常见的特征相关性分析方法主要有:Pearson相关性系数、最大互信息系数。
1.Pearson 相关性系数
Pearson相关性系数可用于衡量两个特征间线性相关程度。假设数据集中存在两个特征变量X =(x1,x2,…,xn)和Y=(y1,y2,…,yn),通过公式可以计算出X和Y的Pearson系数,该公式输出结果的范围在[-1,1]之间,零表示线性无关,正数表示正相关,负数表示负相关,并且Pearson系数的绝对值越大,两特征的相关程度就越高。
2.最大互信息系数
最大互信息系数(MIC)可用于衡量两个特征间的线性或非线性关联程度,并且MIC值越大,两个特征的相关程度越高,其计算公式如下。MIC的具体思想如下:首先,根据两个特征的值以散点图的方式将数据点散落到二维平面中;接着,根据指定的网格分辨率对平面进行网格化,计算该网格分辨率下不同划分方式的最大互信息值,并进行归一化;最后,求出各网格分辨率中互信息的最大值作为MIC值。
作者:名字太长显得比较长
来源:CSDN