数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

本文主要是介绍数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

1.复习一下,如何亲手从0到1 建立一个学科体系

昨天给大家介绍了如何亲手从0到1 建立一个学科体系,我们先做一个简单回顾.

数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

现在开始着手构建数据分析的学科体系啦哎,等等,有没有这种感觉,哈哈.前一秒还在吃瓜,下一秒直接就要改变宇宙了?

数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

为了让大家更好的理解数据科学的意义,我们需要回到当时数据科学产生的背景.

2. 数据科学产生的背景

2.1 首先是数学学科的完善和发展

  • 从康拓建立集合论,到罗素提出罗素悖论,到出现数学第四次危机,再到布尔巴基学团完善集合论,数学学科的整个大厦已经建立.
  • 然而数学在现实中的应用却远远不够,甚至有些方面的内容至今都没有找到和现实生活的联系. 比如数论的内容,我们至今不知道可以用在什么地方,按照以往的经验,每一个高深数学分支在现实的落地,都将重塑我们对于现实的认知,相信当有一天,数论的内容找到和现实对应的时候,我们一定又会更新一次对现实世界的理解,就像当年爱因斯坦结合黎曼的复变几何发明广义相对论一样. 即使应用,我们应用的领域也非常有限,除了在物理最前沿的科研,例如量子力学中有一些对应,在现实生活的应用非常少.
  • 就好像我们知道有一个地方有无尽的宝藏,然而我们却不知道怎么开采一样,面对前人留下的这些顶尖智慧成果,我们不知如何利用.

2.2 其次是科学的方法论的完善

科学思维的演绎法启蒙

  • 科学思维启蒙于古希腊雅典城邦,其鲜明的特征是利用数学工具去抽象化的研究脱离现实世界的问题,这里面有鲜明的俩个特征:1 脱离现实 2 使用公理;

其中里程碑的事件是发现无理数,大家思考一下为什么?因为当时的生产活动完全不需要无理数 我们计算圆周率π,完全可以求一个3.14就可以用,根本不需要知道他其实还3.1415926.... 相比我们,中国古代只有技术,没有科学,我们的技术发展一直牢牢的与生产结合,都是一些生产经验的积累.虽然不能说没用,但是和现代科学是八竿子打不着的.

 科学思维的实验思维发端

  • 我们初中物理课都学过,伽利略的斜面实验,当时伽利略,但是这种实验思维的集大成者却不是伽利略,甚至牛顿都算不上,当数笛卡尔,没错,就是笛卡尔坐标系的那个笛卡尔.

笛卡尔在其著作<探探方法>中给出了给出了一套严格的思考思路 “第一条是,凡是我没有明确认识到的东西,我绝不把它当成真的接受。也就是说,要小心避免轻率的判断与先入之见,除了清楚分明地呈现在我的心里、使我无法怀疑的事情除外,不要多放一点东西到我的判断里。 第二条是,把我审查的每一个难题按照可能和必要的程度分成若干部分,以便一一妥为解决。 第三条是,按次序进行我的思考,从最简单、最容易认识的对象开始,一点点逐步上升,直到认识最复杂的对象;就连那些本来没有先后关系的东西,也给他们设定一个次序。 最后一条是,在任何情况下,都要尽量全面地考察,尽量普遍地复查,做到确信无疑"

  • 现代人根据笛卡尔的思想,确定了用科学方法研究一个对象的方法 1 面对一个观点 ; 2 悬置判断 3 文献综述 了解关于这个观点的前人成果 4 如果前人已经证明,直接引用 5 如果前人没有证明,那么我们需要自己实验; 科学方法在后来的发展过程中,继续丰富了自己的内涵,例如引入了同行评议,丰富了具体操作实验的方法,但是一直没有脱离以上的俩点基础:公理演绎和实验.

2.3 统计学的困境

过去,我们用统计学工具去分析问题,往往需要先收集数据,我们往往遇到俩个问题:

  • 收集数据的成本非常高.这导致了什么呢?因为高成本严格限制了统计学的应用范围,只有大公司在重大问题上的决策,才愿意去收集数据,进行统计分析;一般个人或者小型企业,往往没有这样的经济实力.
  • 收集数据的准确性低.为什么准确性低呢?因为收集数据,往往都通过调查问卷,收集数据的这个行为本身对调查对象干扰太大,人们往往愿意美好自己的实际情况,或者加重问题的描述. 因为这俩点原因,统计学的应用一直有限.

2.4 互联网基础设施的发展

  • 互联网技术的发展,导致了收集数据非常方便,而且非常准确. 我们的手机就是一个移动的传感器,无时无刻的不在收集我们的数据;而且因为收集的很多都是行为数据,非常真实. 除了手机之外,我们身边还有各种各样的传感器设备,在收集我们的数据,比如城市的摄像头/家庭里的各种智能设备. 这正好解决了统计学的燃眉之急-没有数据和数据不准确.
  • 另一方面,互联网云服务的兴起,有效解决了算力和存储的问题.特别是亚马逊的通用云服务,谷歌的专为深度学习设计的云服务,微软的混合云服务.

2.5 人工智能技术,在深度学习方向上获得进展

深度学习技术非常适合从大量数据中,发现规律,建立模型的工作.

  • 我们传统上解决一个重大难题的方法只有一个那就是去抽象转化成一个数学问题,然后用数学工具去解决他.
  • 但是我们现在有了另外一个思路,那就是把几个难题转化成一个大量的重复计算的数学问题,然后用深度学习去解决他. 至此,我们终于挖开了数学里的又一块宝藏-求解模糊解的若干方法.

2.6 总结:数据分析应运而生

现在我们对数据科学的定义有一个清晰的理解:我们用输入-处理-输出来描述数据分析的过程. 输入: 业务问题 处理: 综合 统计学/深度学习/互联网数据源/商业分析框架 底层处理工具: 科学方法论,贝叶斯过程(等会会介绍哦). 输出: 分析模型

3. 数据分析的公理化基础

终于铺垫完了,我们可以看一看数据科学这个学科的公理化基础是什么?主要有俩点:科学方法论和贝叶斯过程.

3.1 科学方法论核心三要素

  • 测量 我们面对一个问题的时候,第一个问题就是如何定义研究对象. 科学方法论上,把一个对象存在定义为可测量,就是存在=可测量. 比如 我们研究一个人的智力,智力这个概念,包涵了人类太多的情感因素,是不可以直接描述的,但是我们可以设计各种间接反映智力水平的量表(相当于答题),我们通过量表的数据来认识智力这个现实概念.
  • 实验 实验有这样几个关键要素:大样本/随机/双盲.

    大样本:试验选取的样本数要尽可能多。因为统计学的“大数原则”告诉我们,样本越大,统计结果越能稀释掉那些特例(例如某些人免疫系统特别强或特别弱),也就越能逼近真实情况。 随机:样本选取遵循随机原则。这样可以有效避免病人由于病情轻重而导致的痊愈效果阶段性差异。 双盲:实验者和被实验者都不知道对照组是哪个。

  • 演绎 通过实验获得基本的公理,然后根据公理去建立知识体系,建立模型,建立范例.
  • 同行评议 此外,还可以加上同行评议.也就是一个成果的价值不是由吃瓜群众决定的,而是由同行共识决定的,

3.2 贝叶斯过程

  • 掌握了科学之后,我们是不是就可以解决所有问题了? 有些时候,我们没有办法做实验,比如:规划一座城市的发展. 有些时候,我们没有办法测量研究对象,比如:研究爱情的时候. 有些时候,我们没有时间,没有成本去做实验,比如老板明天就要出方案. 那么面对复杂的现实情况,我们只能靠猜吗? 这个时候我们就要请出我们的另一个公理贝叶斯定理.
  • 数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

A=业务现状 B=新的影响因素 B/A=新的影响因素加入之后,对业务的影响 当不能准确知悉一个事物的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。

  • 说的简单一点就是理想很美好,现实很骨感,现实中,我们往往不是求解最优方案,而是找合适的方案,我们的解决方案可能会随着新的影响因素的不断加入,而不断调整,最后结果会趋近于最优方案.
  • 我们来看看“满意决策论”,获得过心理学杰出贡献奖、图灵奖和诺贝尔经济学奖的著名管理大师赫伯特-西蒙提出了与“麦穗理论”异曲同工的“满意决策论”。他认为:一切决策都是折中,只是当下可选的最佳行动方案。为了满意,而不是最优,决策应该遵循以下原则:第一,定下最基本的满意标准;第二,考察现有的可选方案;第三,如果有可选方案满足最基本的满意标准,就不再寻找更优方案。
  • 既然现实这么复杂,那我们掌握科学方法论还有什么意义?其实科学方法论最有意义的地方在于,我们要知道事情理想的情况是什么样的,然后现实根据理想情况去调整.
  • 现实中,完整比完美重要.

最后总结一下,我们今天主要了解了三方面

  • 数据科学的产生背景

数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

  • 数据科学的定义

    数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程

  • 数据科学的俩条基本公理
  • 1 科学方法论=测量+实验+演绎+同行评议
  • 2 贝叶斯过程=明确资源限制* 设定基本标准 * 寻找复合标准解决方案 * 根据新信息不断优化

最后讲一个小故事,苏格拉底讲解如何找到另一半

2500年前,三个学生问西方哲学奠基者苏格拉底一个问题:“怎样才能找到理想的人生伴侣?”苏格拉底带着学生来到一片麦田前,说:“请你们走进麦田,一直往前不要回头,途中摘一支最大的麦穗,只能摘一支。”第一个学生走进麦田。他很快就看见一支又大又漂亮地麦穗,于是很高兴地摘下了这支麦穗。可是,他继续往前走,发现有很多麦穗比他摘的那支大得多。他很后悔下手早了,只好遗憾的走完了全程。第二个学生吸取了教训。每当他要摘时,总是提醒自己,后面还有更好的。不知不觉就走到了终点,却一支麦穗都没摘。他也很后悔,没有把握住机会,总觉得后面会有更好的选择,最后错过了全世界。第三个学生吸取了前两者的教训。他把麦田分为三段,走过第一段麦田时,只观察不下手,在心中把麦穗分为大、中、小三类;走过第二段时,还是只观察不下手,验证第一段的判断是否正确;走到第三段,也就是最后三分之一时,他摘下了遇到的第一支属于大类中的麦穗。这可能不是最大的一支,但他心满意足地走完了全程。这就是著名的“麦穗理论”。

后来经济学家,把这个理论更加精确化,把时间分为两段,第一段用37%的时间来确定“最基本的满意标准”,第二段用63%的时间来选择满足“最基本的满意标准”的第一个方案。

一个女孩打算在19~40岁之间,也就是用21年时间寻找理想的人生伴侣。如果她相信“37%理论”,就可以用这21年的37%,也就是7.77年来交往不同的男士。到26.77(19+7.77)岁,确定“最基本的满意标准”。然后,嫁给从那一天开始他遇到的第一个好于这个标准的男士,并不再寻找更优方案。

以上纯属扯淡,爱情还是靠缘分吧,哈哈.

欢迎关注我的个人公众号:小祁同学的成长故事。里面还有很多这样的文章哦。

转载于:https://www.cnblogs.com/data-analyst-qjj/p/faddy.html

这篇关于数据分析入门-01-数据科学的世界观:科学方法论与贝叶斯过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/642402

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi