Chapter 2 Data Exploration

2023-12-30 02:18
文章标签 data chapter exploration

本文主要是介绍Chapter 2 Data Exploration,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

1. What is Data:

    A. Data Types

    B. Record Data

    C. Types of Attributes

2. Data Exploration:

    A. About Data Quality

    B. Preprocessing

        ① Quality

        ② Sampling

        ③ Attribute Selection

        ④ Dimensionality Reduce

        ⑤ Discretization:Binning

        ⑥ Statistics

        ⑦ Visualization

        

1. What is Data:

 A.  Data Types: Document Data、Transaction Data、Graph Data、Sequence Data、Spatial-Temporal Data、Record   Data、 Data Matrix

Spatial  [ˈspeɪʃl]   空间的
Temporal [ˈtempərəl] 时间的

 B.  Record Data:

  Collection of data objects and their attributes

  An attribute is a property or characteristic of an Object

  A collection of attributes describe an Object

 property        [ˈprɑːpərti]       特性characteristic  [ˌkærəktəˈrɪstɪk]  特征

C.  Types of Attributes:

      ① Discrete Attribute and Continus Attribute

      ② Nominal Attribute and Ordinal Attribute

      ③ Interval Attribute and Ratio Attribute

Nominal  [ˈnɒmɪnl]   名义
Ordinal  [ˈɔːrdənl]  序数 Interval [ˈɪntəvl]   区间
Ratio    [ˈreɪʃioʊ]  比率

2. Data Exploration:

 A. About Data Quality: Data in the real world is dirty. 

 ① incomplete: lacking attribute values

 ② noisy:data errors, outliers

 ③ inconsistent: discrepancy between duplicate records

outlier      [ˈaʊtlaɪər]    离群的, 异常的
discrepancy  [dɪsˈkrepənsi] 差异,不一致
duplicate    [ˈduːplɪkeɪt]  完全一样的,复制的

 B. Preprocessing:

 ① Quality:Handle missing values (Ignore or Estimate)、Remove Outliers、Resolve Confilcts (Merge or Identify)

 ② Sampling:

      Key principle:using a sample will work almost as well as using the entire data sets, if the sample is representative;

                              A sample is representative if it has approximately the same property as the origin set of data

      Types of Sampling:Simple Random Sampling、Sampling without replacement、Sampling with repacement、

                                       Stratified Sampling

      Sampling Rate:

 ③ Attribute Selection:Redundant Attributes and Irrelevant Attributes

stratified  [ˈstrætɪfaɪd] 分层的
redundant   [rɪˈdʌndənt]  冗余的
irrelevant  [ɪˈreləvənt]  无关的

 ④ Dimensionality Reduce: 

      Reduce the number of attributes by creating a new set of attributes.

 ⑤ Discretization:Binning

      Convert numerical data into categorical data 

      Divides the range into N intervals

 ⑥ Statistics:

      Center Measurement:Mean、Median

      Frequency Distribution:Mode

      Variability Measurement:Variance,Standard Devitation

  ⑦ Visualization:

      Visualization is the conversion of data into a visual or tabular format

          so that characters of the data and the relations among data items or attributes can be analyzed or reported

      Visualization of data is one of the most powerful and appealing techniques for Data Exploration

dimensionality [dɪˌmɛnʃəˈnæləti] 维度
discretization   离散化
binning   [ˈbɪnɪŋ]  装箱
categorical  [ˌkætəˈɡɔːrɪkl] 分类的
mode  众数
devitation  偏差
tabular [ˈtæbjələr] 表格式的
appealing  吸引人的

      Examples Of Visualization:

      Sea Surface Temperature

          Histogram:[ˈhɪstəɡræm]  直方图

    Box Plots:方块图

       Scatter Plot:散点图

     Correlation Matrix:关联矩阵

 

 

这篇关于Chapter 2 Data Exploration的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/551407

相关文章

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

CentOS下mysql数据库data目录迁移

https://my.oschina.net/u/873762/blog/180388        公司新上线一个资讯网站,独立主机,raid5,lamp架构。由于资讯网是面向小行业,初步估计一两年内访问量压力不大,故,在做服务器系统搭建的时候,只是简单分出一个独立的data区作为数据库和网站程序的专区,其他按照linux的默认分区。apache,mysql,php均使用yum安装(也尝试

使用Spring Boot集成Spring Data JPA和单例模式构建库存管理系统

引言 在企业级应用开发中,数据库操作是非常重要的一环。Spring Data JPA提供了一种简化的方式来进行数据库交互,它使得开发者无需编写复杂的JPA代码就可以完成常见的CRUD操作。此外,设计模式如单例模式可以帮助我们更好地管理和控制对象的创建过程,从而提高系统的性能和可维护性。本文将展示如何结合Spring Boot、Spring Data JPA以及单例模式来构建一个基本的库存管理系统

15 组件的切换和对组件的data的使用

划重点 a 标签的使用事件修饰符组件的定义组件的切换:登录 / 注册 泡椒鱼头 :微辣 <!DOCTYPE html><html lang="en"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><meta http-equiv="X-UA-

12C 新特性,MOVE DATAFILE 在线移动 包括system, 附带改名 NID ,cdb_data_files视图坏了

ALTER DATABASE MOVE DATAFILE  可以改名 可以move file,全部一个命令。 resue 可以重用,keep好像不生效!!! system照移动不误-------- SQL> select file_name, status, online_status from dba_data_files where tablespace_name='SYSTEM'

Chapter 13 普通组件的注册使用

欢迎大家订阅【Vue2+Vue3】入门到实践 专栏,开启你的 Vue 学习之旅! 文章目录 前言一、组件创建二、局部注册三、全局注册 前言 在 Vue.js 中,组件是构建应用程序的基本单元。本章详细讲解了注册和使用 Vue 的普通组件的两种方式:局部注册和全局注册。 本篇文章参考黑马程序员 一、组件创建 ①定义 Vue 组件是一种具有特定功能的 Vue 实

Chapter 10 Stability and Frequency Compensation

Chapter 10 Stability and Frequency Compensation Chapter 8介绍了负反馈, 这一章介绍稳定性, 如果设计不好, 负反馈系统是要发生震荡的. 首先我们学习理解稳定判断标准和条件, 然后学习频率补偿, 介绍适用于不同运放的补偿方式, 同时介绍不同补偿对两级运放slew rate的影响, 最后介绍Nyquist’s判断标准 10.1 Gener

SIGMOD-24概览Part7: Industry Session (Graph Data Management)

👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance 🏛机构:字节 ➡️领域: Information systems → Data management systemsStorage management 📚摘要:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据 背景

java.sql.SQLException: No data found

Java代码如下: package com.accord.utils;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import

【HDU】5222 Exploration(并查集+拓扑排序)

对于无向边使用并查集合并成一个集合,对于有向边使用判断是否存在环 唯一无语的地方就是看输入是百万级的,加个输入挂跑9s,不加挂跑了5s #include<cstdio>#include<cstring>#include<vector>#include<algorithm>using namespace std;#pragma comment(linker, "/STACK:102