【模型开发】EDA探索性分析

本文主要是介绍【模型开发】EDA探索性分析，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.定义

探索性数据分析（Exploratory Data Analysis，简称EDA），是指对已有的数据（特别是调查或观察得来的原始数据）在尽量少的先验假定下进行探索，通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律并且分析数据以概括其主要特征的一种数据分析方法。

探索性数据分析在上世纪六十年代由John Tukey提出，它鼓励统计学家研究数据，并尽可能提出假设，尽可能生成新的数据收集和实验。与传统统计分析方法的区别在于：传统的统计分析方法以概率论为基础，先假定数据服从某种分布，然后依据数据样本来估计模型的一些参数及统计量，以此了解数据的特征。但实际中往往有很多数据并不符合假设的统计模型分布，这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法，它“抛开”概率理论，从数据出发，强调数据可视，让数据自身“说话”，有助于我们了解数据在形式化建模或假设测试任务之外的其他价值。

大数据时代，EDA可以很好地应用于处理各种杂乱的“脏数据”。通过EDA我们可以最真实、直接的观察到数据的结构及特征。EDA出现之后，数据分析的过程就分为两步了，探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型，验证阶段侧重于评估所发现的模式或模型,很多机器学习算法（分为训练和测试两步）都是遵循这种思想。当我们拿到一份数据时，如果做数据分析的目的不是非常明确、有针对性时，可能会感到有些茫然，那此刻就更加有必要进行EDA了，它能帮助我们先初步了解数据的结构及特征，甚至发现一些模式或模型，再结合行业背景知识，也许就能直接得到一些有用的结论。