结合领域专业知识和相关任务要求对高维特征进行特征的筛选,可以选出需要的特征来进行后续模型的训练等步骤。
常用的特征筛选方法有:
(1)方差选择法:该方法是通过计算每一列特征的方差,并根据设定的阅值来判段是否需要保留或者删除特征变量。如果某一列特征的方差很小,那么认为该列特征中所有数据几乎是没有变化的,这些无变化的数据对模型的训练没有任何意义,因此需要进行删除。
(2)树模型选择法:该方法是基于树模型(如XGBoost,RF)来进行特征选择,通过计算信息增益来给每个特征的重要度进行打分,从而可以选择出重要性高的特征、
(3)递归特征消除法:该方法通过选择一个基模型(如SVM、LR),并利用数据集对其进行多轮训练,每轮训练结束后,删除权重较低的特征,再进入下一轮次的训练,重复这个过程,直到剩余的特征数量与预先设定的特征数量一致。
作者:名字太长显得比较长
来源:CSDN