数据仓库数据挖掘——Data Preprocessing

本文主要是介绍数据仓库数据挖掘——Data Preprocessing，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

为什么要进行数据预处理？

Data in the real world is dirty：incomplete、noisy、inconsistent（不一致的）

No quality data, no quality mining results!

一个广为接受的多维视角：
精度、完整性、一致性、及时性、可信性、增加值、解释性、可达性

Major Tasks in Data Preprocessing

数据清洗、数据集成与转换、数据约减、离散化和概念层次生成

  Data cleaning
      Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies
  Data integration
      Integration of multiple databases, data cubes, or files
  Data transformation
      Normalization and aggregation
  Data reduction
      Obtains reduced representation in volume but produces the same or similar analytical results
  Data discretization
      Part of data reduction but with particular importance, especially for numerical data

  数据清洗的任务：
      填补缺失值
      识别异常值，平滑噪声数据
    校正不一致的数据

How to Handle Missing Data?

忽略元组：通常在类标签丢失（假设在分类任务时没有有效的每个属性的缺失值百分比变化很大。
手动填写遗漏值：乏味+不可行？
使用一个全局变量填充缺失值：例如，“未知”，一个新的类？！
使用属性意味着填补缺失值
使用属性意味着所有样本属于同一类的填补缺失值：聪明
使用最可能的值填充空缺值：推理如贝叶斯公式或决策树

Noisy Data

How to Handle Noisy Data?

    分级方法：
      第一类数据和分区（等高）箱
           然后可以通过本装置平稳，由本中值平滑，通过箱的边界光滑，等。
       聚类
           检测和删除异常
       结合计算机和人工检查
          发现可疑值并通过人来检查
       回归
           通过拟合数据平滑到回归函数

简单的离散化方法：分级

   宽度相等的分区（距离）：

      它将范围为n个大小相等的间隔：均匀网格
      如果A和B是最低和最高值的属性，间隔的宽度为W =（B-A）/ N。
      最简单的
      但异常可能会占主导地位的表现
      倾斜的数据处理不好。

   等深（频率）的划分：
      它将范围为n个区间，每个包含大约相同数目的样本
      良好的数据换算
      管理类别属性会很棘手。

Data Integration

数据集成：
结合来自多个数据源的数据在一个商店
模式集成
整合不同来源的元数据
实体识别问题：识别真实世界实体的多个数据源，例如，a.cust-idb.cust - #
检测和解决冲突的数据值
对于相同的真实世界的实体，从不同的来源属性值是不同的
可能的原因：不同的表现，不同的尺度，例如，与英国度量单位

处理冗余数据（Redundant Data）：

冗余数据时经常集成多个数据库发生
该属性可以在不同的数据库有不同的名字
一个属性可能是一个“源”的另一个表中的属性，例如，年收入
冗余的数据可以被检测到的记录联动技术或相关分析
来自多个来源的数据集成，可以帮助减少/避免小心的冗余和不一致的提高挖掘的速度和质量

Data Transformation

平滑：从数据中去除噪声
聚集：总结，数据立方体结构
概括：概念层次攀登
标准化：规模的落在一个小的，指定的范围
最小最大化
z-score normalization
采用十进制尺度归一化
属性或是特征的构建
从给定的属性构造新的属性