如果数据很大,很多的统计错误可以最终通过大量数据的综合分析而消减掉——这是大数定理。只要是任何符合正态分布的数据集,在海量数据面前,统计异常值都会快速消失掉。
与之相反,如果你想的预测模型是基于一批很小的数据,如果你没有足够强的数据知识来搞清楚小数据中的每一个细节,那么任何一个异常值都可能导致你的模型最终失败。
对于小数据来说,数据清理更重要的是用来评估一批数据的可信度;而在大数据中,它更重要的功能是将杂乱的原数据规整为一个更加简洁统一的数据集,并最终将其用在某个算法上。