数据仓库数据挖掘——Data Preprocessing

2024-02-14 12:32

本文主要是介绍数据仓库数据挖掘——Data Preprocessing,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


为什么要进行数据预处理?

           Data in the real world is dirty:incomplete、noisy、inconsistent(不一致的)

           No quality data, no quality mining results!

一个广为接受的多维视角:
          精度、完整性、一致性、及时性、可信性、增加值、解释性、可达性

Major Tasks in Data Preprocessing

          数据清洗、数据集成与转换、数据约减、离散化和概念层次生成

          Data cleaning
                    Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies
          Data integration
                    Integration of multiple databases, data cubes, or files
          Data transformation
                    Normalization and aggregation
          Data reduction
                    Obtains reduced representation in volume but produces the same or similar analytical results
          Data discretization
                    Part of data reduction but with particular importance, especially for numerical data

          数据清洗的任务:
                    填补缺失值
                    识别异常值,平滑噪声数据
                    校正不一致的数据

         How to Handle Missing Data?

                   忽略元组:通常在类标签丢失(假设在分类任务时没有有效的每个属性的缺失值百分比变化很大。
                   手动填写遗漏值:乏味+不可行?
                   使用一个全局变量填充缺失值:例如,“未知”,一个新的类?!
                   使用属性意味着填补缺失值
                   使用属性意味着所有样本属于同一类的填补缺失值:聪明
                   使用最可能的值填充空缺值:推理如贝叶斯公式或决策树

         Noisy Data

         How to Handle Noisy Data?

                   分级方法:
                              第一类数据和分区(等高)箱
                              然后可以通过本装置平稳,由本中值平滑,通过箱的边界光滑,等。
                    聚类
                              检测和删除异常
                    结合计算机和人工检查
                             发现可疑值并通过人来检查
                    回归
                              通过拟合数据平滑到回归函数

         简单的离散化方法:分级

                  宽度相等的分区(距离):

                           它将范围为n个大小相等的间隔:均匀网格
                           如果A和B是最低和最高值的属性,间隔的宽度为W =(B-A)/ N。
                           最简单的
                           但异常可能会占主导地位的表现
                           倾斜的数据处理不好。

                  等深(频率)的划分:
                           它将范围为n个区间,每个包含大约相同数目的样本
                           良好的数据换算
                           管理类别属性会很棘手。

         Data Integration

数据集成:
结合来自多个数据源的数据在一个商店
模式集成
整合不同来源的元数据
实体识别问题:识别真实世界实体的多个数据源,例如,a.cust-idb.cust - #
检测和解决冲突的数据值
对于相同的真实世界的实体,从不同的来源属性值是不同的
可能的原因:不同的表现,不同的尺度,例如,与英国度量单位

                处理冗余数据(Redundant Data):

冗余数据时经常集成多个数据库发生
该属性可以在不同的数据库有不同的名字
一个属性可能是一个“源”的另一个表中的属性,例如,年收入
冗余的数据可以被检测到的记录联动技术或相关分析
来自多个来源的数据集成,可以帮助减少/避免小心的冗余和不一致的提高挖掘的速度和质量

         Data Transformation

平滑:从数据中去除噪声
聚集:总结,数据立方体结构
概括:概念层次攀登
标准化:规模的落在一个小的,指定的范围
最小最大化
z-score normalization
采用十进制尺度归一化
属性或是特征的构建
从给定的属性构造新的属性


数据立方体(Data Cube Aggregation)

        属性子集的选择(Attribute Subset Selection)

特征选择(即,属性子集选择):
选择一组最小的特点,不同类别的概率分布给出这些特征值尽可能接近给定的所有特征值的原始分布
减少在模式#模式,容易理解
启发式方法(由于选择指数#):
逐步向前选择
逐步淘汰落后
结合正向选择和淘汰落后
决策树归纳

数据压缩(Data Compression):

字符串的压缩
有广泛的理论和良好的调谐算法
通常无损
但是,只有有限的操作是不可能的扩展
音频/视频压缩
典型的有损压缩,渐进细化
有时小片段的信号可以重建,而不必重建全部


数据压缩:主成分分析——Data Compression: Principal Component Analysis (PCA)

数据压缩:数值规约——Data Compression: Numerosity Reduction

方法(1):回归和对数线性模型
方法(2):直方图
方法(3):聚类
方法(4):取样——有或没有替代、集群或分层取样

Discretization and Concept hierachy

离散化
减少对于一个给定的连续属性的属性范围划分为间隔的值的数目。区间标签就可以用来代替实际的数据值。

概念层次
通过收集和取代低层次的概念,减少数据(如属性年龄数值)的更高层次的概念(如青年,中年,或高级)。

Histograms

对数据离散化和概念层次生成

分级(见节之前)
直方图分析(见节之前)
聚类分析(见节之前)
基于熵的离散化
通过自然分割的分割

总结:

数据准备是为仓储和挖掘的一个大问题
数据准备包括
数据清理和数据集成
数据约简和特征选择
离散化
许多方法已被开发,但仍是一个活跃的研究领域







这篇关于数据仓库数据挖掘——Data Preprocessing的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/708505

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

java.sql.SQLException: No data found

Java代码如下: package com.accord.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import

FORM的ENCTYPE=multipart/form-data 时request.getParameter()值为null问题的解决

此情况发生于前台表单传送至后台java servlet处理: 问题:当Form需要FileUpload上传文件同时上传表单其他控件数据时,由于设置了ENCTYPE=”multipart/form-data” 属性,后台request.getParameter()获取的值为null 上传文件的参考代码:http://www.runoob.com/jsp/jsp-file-uploading.ht

Oracle Data Guard:Oracle数据库的高可用性和灾难恢复解决方案

在企业级数据库管理中,确保数据的高可用性和在灾难情况下的快速恢复是至关重要的。Oracle Data Guard是Oracle公司提供的一种强大的数据库高可用性解决方案,它通过在主数据库和至少一个备用数据库之间提供实时或近实时的数据保护来实现这一目标。本文将详细介绍如何在Oracle数据库中部署和使用Oracle Data Guard,包括其基本概念、配置步骤、管理技巧和实际应用示例。 1. O

Creating OpenAI Gym Environment from Map Data

题意:从地图数据创建 OpenAI Gym 环境 问题背景: I am just starting out with reinforcement learning and trying to create a custom environment with OpenAI gym. However, I am stumped with trying to create an enviro