填补遗漏值的方法:
1.忽略元组:当类标号缺少时通常这样做(假定挖掘任务涉及分类或描述)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比很高时,它的性能非常差。
2. 人工填写遗漏值:一般地说,该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。
3. 使用一个全局常量填充遗漏值:将遗漏的属性值用同一个常数(如“Unknown”或 –∞)替换。如果遗漏值都用“Unknown”替换,挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方法简单,我们并不推荐它。
4. 使用属性的平均值填充遗漏值:例如,假定 AllElectronics 顾客的平均收入为$28,000,则使用该值替换 income 中的遗漏值。
5. 使用与给定元组属同一类的所有样本的平均值:例如,如果将顾客按 credit_risk 分类,则用具有相同信用度的顾客的平均收入替换 income 中的遗漏值。
6. 使用最可能的值填充遗漏值:可以用回归、使用贝叶斯形式化方法或判定树归纳等基于推导的工具确定。例如,利用你的数据集中其他顾客的属性,你可以构造一棵判定树,来预测 income的遗漏值。