【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。

本文主要是介绍【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关性分析(具体来说,皮尔逊成对相关性)和回归分析(具体来说,双变量最小二乘 (OLS) 回归)具有许多共同的特征:

  • 两者都定期应用于两个连续变量(我们称之为 X 和 Y)。
  • 通常向学生介绍这两种图表时使用的是同一类型的图表:散点图。
  • 二者从根本上讲都是关于 X 中的偏差(即相对于平均值的单个值)与 Y 中的偏差之间的关系。
  • 两者都假设 X 和 Y 之间存在线性关系。
  • 两者都可以用于经典的假设检验,每个都依赖于相同的基础分布(t)并产生相同的p值。

事实上,双变量 OLS 回归中获得的流行 R 平方实际上就是皮尔逊相关系数 ( r ) 的平方。

那么相关性和双变量回归,有什么区别呢?

最大的区别在于我们如何解释每次分析产生的关键数量。我们从相关性分析中获得的相关系数 ( r ) 是一个标准化数字,介于 -1 到 +1 之间(其中 -1 表示完全负线性相关,而 +1 表示完全正线性相关),无论我们分析的变量是什么

另一方面,回归会产生一个 beta 系数 ( b ),它可以是任意数字,告诉我们当 X 增加一个单位时 Y 的平均变化。换句话说,b是以我们正在研究的特定 Y 变量为单位的。因此,要真正理解b,我们确实需要知道 X 和 Y 是什么以及如何测量它们的细节

两者之间存在着更重要的概念差异

  • ***r***是关于观测值围绕拟合线的聚集紧密程度,无论该线有多陡峭。
  • *b*表示拟合线的陡峭程度,无论观测值围绕该线的聚集程度如何。

r实际上关心的是 X 的较高值往往(线性)与 Y 的较高值(或较低值)对应的一致性。而b实际上关心的是,在 X 增加的情况下,Y 预计平均会发生多大变化。

围绕斜线的观测值的聚集与斜线本身并不相同

在这里插入图片描述

图表顶部的(绿色)点表示 X 和 Y 之间的关系。r值为0.70。此关系的 b 值也为 0.70。因此,存在相当强的正相关性,且“效应”为 0.70,这意味着当 X 增加 1 时,我们预计 Y(平均)将增加 0.70。此效应由穿过数据点的(红色)拟合线表示。

但现在看看下半部分的(蓝色)点。它们看起来相当混乱——它们看起来不像图表上半部分那样整齐地聚集在(橙色)拟合线周围。相对于上图,它们在拟合线周围分散得很开,这表明从 X 的一个值到 X 的较高值对应 Y 的较低值的情况相对较多*,*反之亦然。因此,我们的相关性(r)较低,现在只有 0.61,而上图为 0.70。

但现在请注意底部斜率的相对陡峭程度。平均而言,增加 X 的值会导致 Y 的预期值发生相当大的变化。因此,我们看到一个非常大的斜率: b =4.03。这意味着,X 每增加一个单位,我们平均会看到 Y 增加 4.03。这比我们在顶部看到的**b =.70 效应要陡峭得多,但底部的相关性 ( r ) 较弱。

再次强调,数据点在斜率周围的聚集程度与斜率本身并不是一回事。

举例: 现在是夏天,天气很热;你不喜欢你所在城市的高温,所以你决定去山上。幸运的是,你到达山顶,测量温度,你发现它比你所在城市的温度低。你会有点疑惑*(因为你对气温的下降不理解)*,于是决定去一座更高的山,发现那里的气温甚至比前一座山上的还要低。

你尝试不同高度的山脉,测量温度并绘制图表;你会发现,随着山的高度增加,温度降低,你可以看到一个线性趋势。这是什么意思?这意味着温度与高度有关;这并不意味着山的高度导致了温度的下降*(如果你用热气球到达同一高度、同一纬度,你会测量出什么温度?)*

相关性和回归分析不仅仅是对同一事物的不同表述方式。

补充

1.深入相关性这个概念,我们可以说,如果第一个变量的每一个值,都遵循一定的规律性对应于第二个变量的一个值,那么两个变量是相关的;因此,如果两个变量高度相关,路径将是线性的*(一条线)*,因为相关性描述了变量之间的线性关系。

也就是说,相关性表示的是变量之间的关系,而不是因果关系!如果自变量的值增加,而因变量的值也增加,但这并不意味着第一个变量导致了第二个变量值的增加!

2.回归分析是一种数学技术,用于分析一些数据,包括一个因变量和一个*(或多个)*自变量,目的是找到因变量和自变量之间的最终函数关系。

回归分析的目的是找到在因变量和自变量之间的一个估计值*(一个好的估计值!)*。从数学上讲,回归的目的是找到最适合数据的曲线。

当然,最适合数据的曲线可以是直线;但它也可以是任何曲线,这取决于它们之间是何种关系!

所以,我们要做的是计算相关系数,如果它的值接近1,我们可以在研究回归时得到一条直线;否则,我们必须尝试多项式回归*(或其他方法,比如指数回归或其他任何方法)*!

这篇关于【线性相关 vs 双变量回归】数据点在斜率周围的聚集程度与斜率本身并不是一回事。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1091715

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

变量与命名

引言         在前两个课时中,我们已经了解了 Python 程序的基本结构,学习了如何正确地使用缩进来组织代码,并且知道了注释的重要性。现在我们将进一步深入到 Python 编程的核心——变量与命名。变量是我们存储数据的主要方式,而合理的命名则有助于提高代码的可读性和可维护性。 变量的概念与使用         在 Python 中,变量是一种用来存储数据值的标识符。创建变量很简单,

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X