数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:
平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。
聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一
步用来为多粒度数据分析构造数据方。
数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如 street,
可以泛化为较高层的概念,如 city 或 country。类似地,数值属性,如 age,可以映射到较高层
概念,如 young, middle-age 和 senior。
规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到 1.0 或 0.0 到 1.0。
属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。