噪音是测量变量的随机错误或偏差,去掉噪音才能让数据整体更平滑,方法如下:
1.分箱:分箱方法通过考察“邻居”(即,周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻,因此它进行局部平滑。
2.聚类:局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地,落在聚类集合之外的值被视为局外者
3.计算机和人工检查结合: 计算机和人工检查结合:可以通过计算机和人工检查结合的办法来识别局外者。例如,在一种应用中,使用信息理论度量,帮助识别手写体字符数据库中的局外者。度量值反映被判断的字符与已知的符号相比的“差异”程度。局外者模式可能是提供信息的(例如,识别有用的数据例外,如字符“0”或“7”的不同版本)或者是“垃圾”(例如,错误的字符)。其差异程度大于某个阈值的模式输出到一个表中。人可以审查表中的模式,识别真正的垃圾。这比人工地搜索整个数据库快得多。在其后的数据挖掘应用时,垃圾模式将由数据库中清除掉。
4. 回归:可以通过让数据适合一个函数(如回归函数)来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪音。