协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系

本文主要是介绍协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系



文章目录

  • 协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系
    • 引言
    • 协方差的概念与背景
    • 数学公式推导
    • 实例背景
    • 数据收集
    • 计算过程
    • 结果解释
    • 计算相关系数
    • 为什么使用协方差?
    • 结论
    • 商业启示


引言

在日常生活中,我们经常会遇到需要分析两个变量之间关系的情况。其中一个重要的统计量就是协方差,它可以帮助我们理解两个变量之间的线性关系方向和强度。本文将通过一个具体的实例——天气温度与冰淇淋销量之间的关系——来探讨协方差的应用,并详细介绍协方差的概念、背景、数学公式推导等内容。此外,我们还将讨论与协方差类似的概念,并探讨何时使用协方差以及为什么选择使用协方差。

协方差的概念与背景

定义:协方差是一个统计量,用于衡量两个变量之间线性关系的方向和强度。如果两个变量的值倾向于同时增加或减少,则它们具有正协方差;如果一个变量增加而另一个变量减少,则它们具有负协方差。协方差的值越大,表示两个变量之间的线性关系越强。

背景:在数据分析和统计建模中,了解两个变量间的关系是非常重要的。协方差提供了一种量化这种关系的方法。例如,在金融领域,协方差可以帮助投资者了解不同资产价格变动的趋势是否一致,这对于构建有效的投资组合非常重要。在本例中,我们将利用协方差来探索天气温度与冰淇淋销量之间的关系。

数学公式推导

设有两个随机变量 X X X Y Y Y,它们分别有一组观测值 x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn y 1 , y 2 , … , y n y_1, y_2, \ldots, y_n y1,y2,,yn。则 X X X Y Y Y 的协方差定义为:
Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1n(xixˉ)(yiyˉ)
其中, x ˉ \bar{x} xˉ y ˉ \bar{y} yˉ 分别表示 X X X Y Y Y 的样本均值。

这个公式可以分解成以下几个步骤:

  1. 计算均值:对于每个变量,计算其样本均值。

    • x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1nxi
    • y ˉ = 1 n ∑ i = 1 n y i \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i yˉ=n1i=1nyi
  2. 计算偏差:对于每个数据点 ( x i , y i ) (x_i, y_i) (xi,yi),计算其与相应变量均值的偏差。

    • d x ( i ) = x i − x ˉ d_x(i) = x_i - \bar{x} dx(i)=xixˉ
    • d y ( i ) = y i − y ˉ d_y(i) = y_i - \bar{y} dy(i)=yiyˉ
  3. 计算乘积并求和:将每个数据点的偏差相乘,然后求和。

    • p i = d x ( i ) ⋅ d y ( i ) p_i = d_x(i) \cdot d_y(i) pi=dx(i)dy(i)
    • Cov ( X , Y ) = 1 n ∑ i = 1 n p i \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} p_i Cov(X,Y)=n1i=1npi

实例背景

假设你经营着一家冰淇淋店,并希望了解天气温度与冰淇淋销量之间的关系。通过收集一个月的数据,我们可以分析这两者之间的相关性,以便更好地规划库存和调整销售策略。

数据收集

我们收集了连续30天的温度(以摄氏度为单位)和对应的冰淇淋销量(以销售数量为单位)数据:

天数温度 (°C)冰淇淋销量
120100
222120
325140
426150
523125
624130
727160
828170
929180
1030190
1126155
1227165
1325145
1423120
1522110
1624130
1725145
1826155
1927165
2028175
2129185
2230195
2328170
2427160
2526150
2625140
2724130
2823120
2922110
3021100

计算过程

  1. 计算均值:

    • 温度均值 ( T ˉ \bar{T} Tˉ) = 20 + 22 + 25 + … + 21 30 \frac{20 + 22 + 25 + \ldots + 21}{30} 3020+22+25++21 ≈ 25.4
    • 销量均值 ( V ˉ \bar{V} Vˉ) = 100 + 120 + 140 + … + 100 30 \frac{100 + 120 + 140 + \ldots + 100}{30} 30100+120+140++100 ≈ 146.33
  2. 计算协方差:

    • 使用协方差公式: Cov ( T , V ) = 1 n ∑ i = 1 n ( t i − T ˉ ) ( v i − V ˉ ) \text{Cov}(T, V) = \frac{1}{n} \sum_{i=1}^{n} (t_i - \bar{T})(v_i - \bar{V}) Cov(T,V)=n1i=1n(tiTˉ)(viVˉ)
  3. 实际计算:

    • 以第一组数据为例:

      • 温度偏差 d T ( 1 ) = 20 − 25.4 = − 5.4 d_T(1) = 20 - 25.4 = -5.4 dT(1)=2025.4=5.4
      • 销量偏差 d V ( 1 ) = 100 − 146.33 = − 46.33 d_V(1) = 100 - 146.33 = -46.33 dV(1)=100146.33=46.33
      • 乘积 p 1 = ( − 5.4 ) × ( − 46.33 ) = 250.182 p_1 = (-5.4) \times (-46.33) = 250.182 p1=(5.4)×(46.33)=250.182
    • 重复此过程,计算所有数据点的乘积并求和,然后除以数据点的数量 n n n

  4. 结果:

    • 经过计算,我们得到温度和销量之间的协方差大约为 70.48。

结果解释

  • 方向:由于协方差为正(70.48),这意味着温度和冰淇淋销量之间存在正向的线性关系。也就是说,随着温度的升高,冰淇淋销量也会增加。
  • 强度:仅凭协方差的值 70.48,我们不能直接判断这种关系的强度。为了更好地理解这种关系的强度,我们可以计算皮尔逊相关系数,它是协方差除以两个变量标准差的乘积。

计算相关系数

为了计算相关系数,我们需要知道温度和销量的标准差。假设我们已经计算出温度的标准差为 2.67,销量的标准差为 26.55。

  • 相关系数
    r = Cov ( T , V ) σ T ⋅ σ V = 70.48 2.67 × 26.55 ≈ 0.994 r = \frac{\text{Cov}(T, V)}{\sigma_T \cdot \sigma_V} = \frac{70.48}{2.67 \times 26.55} \approx 0.994 r=σTσVCov(T,V)=2.67×26.5570.480.994

这里我们得到了一个接近1的值,这意味着温度和销量之间存在非常强的正相关关系。其中, σ T \sigma_T σT σ V \sigma_V σV分别表示 T T T V V V的标准差。

为什么使用协方差?

尽管协方差可以提供关于两个变量之间线性关系方向的信息,但它有几个局限性:

  • 尺度依赖性:协方差的值受到变量尺度的影响,这意味着变量单位的不同会导致协方差值的差异。
  • 缺乏标准化:协方差值本身并不能直接告诉我们变量之间线性关系的强度。

替代概念

  • 皮尔逊相关系数:这是一个标准化的度量,消除了变量尺度的影响,并且取值范围为 [ − 1 , 1 ] [-1, 1] [1,1]。它可以更直观地反映变量之间的线性关系强度。
  • 斯皮尔曼等级相关系数:适用于非线性关系的度量,特别是在变量不是正态分布的情况下。
  • 肯德尔等级相关系数:类似于斯皮尔曼等级相关系数,但更适用于小样本情况。

何时使用协方差

  • 初步分析:在进行初步的数据探索时,协方差可以快速提供变量间关系的方向信息。
  • 联合分布:协方差矩阵在多元统计分析中非常有用,特别是在主成分分析、因子分析等高级统计方法中。

为什么选择协方差

  • 简单易用:协方差的计算相对简单,不需要复杂的数学知识。
  • 基础统计量:协方差是许多高级统计方法的基础,例如主成分分析等。

结论

通过分析,我们可以得出结论:

  • 当温度升高时,冰淇淋销量也会显著增加。这表明在炎热的日子里,顾客更倾向于购买冰淇淋。
  • 这种正相关关系非常强,相关系数接近 1,表明温度是影响冰淇淋销量的关键因素之一。

商业启示

基于这些发现,你可以采取相应的措施来优化业务运营,比如:

  • 在预测到气温较高的日子时,提前准备更多的冰淇淋库存。
  • 根据温度变化调整营销策略和促销活动。

这篇关于协方差详解及在日常生活中的应用实例——天气温度与冰淇淋销量的关系的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096584

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

【区块链 + 人才服务】可信教育区块链治理系统 | FISCO BCOS应用案例

伴随着区块链技术的不断完善,其在教育信息化中的应用也在持续发展。利用区块链数据共识、不可篡改的特性, 将与教育相关的数据要素在区块链上进行存证确权,在确保数据可信的前提下,促进教育的公平、透明、开放,为教育教学质量提升赋能,实现教育数据的安全共享、高等教育体系的智慧治理。 可信教育区块链治理系统的顶层治理架构由教育部、高校、企业、学生等多方角色共同参与建设、维护,支撑教育资源共享、教学质量评估、

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/