本文主要是介绍统计学(贾俊平)学习笔记--第三章、 数据预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
数据预处理无论是从数据分类分析、数据信息抽取、数据挖掘、模型建立等方面都是需要的,也是数据工作者最开始招手做的,而统计学(贾俊平)中从理论的角度讲解了数据预处理的概念和方法吗,在此将主要要点列举如下,供有心人参考学些。
数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
审核就是检查数据中是否有错误。从完整性和准确性两个方面去审核。
完整性审核:是否有遗漏,是否完整
准确性:是否有错误,是否有异常值
审核数据:适用性和时效性
数据筛选(data filter)是根据需要找出符合特定条件的某类数据。
数据排序是指按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
数据透视表,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表(列联表)。
用 Excel 创建数据透视表:这个可以重点掌握,是个不错的简便工具。如果要从事这块工作,使用python是个不错的选择。
欢迎点赞、转发、收藏。
这篇关于统计学(贾俊平)学习笔记--第三章、 数据预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!