概率统计Python计算:假设检验应用——基于成对数据的检验

2024-08-22 22:48

本文主要是介绍概率统计Python计算:假设检验应用——基于成对数据的检验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
设有 n n n个相互独立的观测结果 ( X 1 , Y 1 ) (X_1,Y_1) (X1,Y1) ( X 2 , Y 2 ) (X_2,Y_2) (X2,Y2) ⋯ \cdots ( X n , Y n ) (X_n,Y_n) (Xn,Yn),诸对 X i X_i Xi Y i Y_i Yi受同一因素影响, D i = X i − Y i D_i=X_i-Y_i Di=XiYi~ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ , n N(\mu,\sigma^2),i=1,2,\cdots,n N(μ,σ2),i=1,2,,n。其中 μ \mu μ σ 2 \sigma^2 σ2均未知。在指定显著水平 α \alpha α下,检验假设
H 0 : μ = μ 0 ( H 1 : μ ≠ μ 0 ) 或 H 0 : μ ≤ μ 0 ( H 1 : μ > μ 0 ) 或 H 0 : μ ≥ μ 0 ( H 1 : μ < μ 0 ) . H_0:\mu=\mu_0(H_1:\mu\not=\mu_0)\text{或}\\H_0:\mu\leq\mu_0(H_1:\mu>\mu_0)\text{或} \\H_0:\mu\geq\mu_0(H_1:\mu<\mu_0). H0:μ=μ0(H1:μ=μ0)H0:μμ0(H1:μ>μ0)H0:μμ0(H1:μ<μ0).
的问题,称为基于成对数据的检验问题。由于 D i D_i Di~ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ , n N(\mu,\sigma^2),i=1,2,\cdots,n N(μ,σ2),i=1,2,,n,且 σ 2 \sigma^2 σ2未知,故可用 t t t检验法解决基于成对数据的检验问题。
由于 D i = X i − Y i D_i=X_i-Y_i Di=XiYi~ N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) i = 1 , 2 , ⋯ , n i=1,2,\cdots,n i=1,2,,n,其中 σ 2 \sigma^2 σ2未知。在显著水平 α = 0.05 \alpha=0.05 α=0.05下,为检验假设 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0(或 H 0 : μ ≤ μ 0 H_0:\mu\leq\mu_0 H0:μμ0 H 0 : μ ≥ μ 0 H_0:\mu\geq\mu_0 H0:μμ0),scipy.stats包提供了函数
ttest_1samp(a, popmean, alternative=’two-sided’) \text{ttest\_1samp(a, popmean, alternative='two-sided')} ttest_1samp(a, popmean, alternative=’two-sided’)
其参数a表示序列 { d 1 = x 1 − y 1 , d 2 = x 2 − y 2 , ⋯ , d n = x n − y n } \{d_1=x_1-y_1,d_2=x_2-y_2,\cdots,d_n=x_n-y_n\} {d1=x1y1,d2=x2y2,,dn=xnyn},popmean表示 μ \mu μ的假设值 μ 0 \mu_0 μ0,alternative为三个选项之一’two-sided’,‘greater’或’less’,分别表示双侧假设、右侧假设及左侧假设,缺省值为表示双侧假设的’two-sided’。该函数的返回值包括两个数据:表示检验统计量值 d ‾ − μ 0 s / n \frac{\overline{d}-\mu_0}{s/\sqrt{n}} s/n dμ0的statistic和表示检验p值的pvalue。
例1将双胞胎分开来抚养,一个由父母亲自带大,另一个不是由父母亲自带大。现取14对双胞胎测试他们的智商,智商测试得分如下:

序号1234567891011121314
父母带大 X i X_i Xi2331251819252818252822143436
非父母带大 Y i Y_i Yi2231292428312715232726193028

希望比较两种不同的成长环境是否对孩子的智商有不同的影响。
解: 首先,注意到表中数据是成对出现的,14对双胞胎的智商 ( X i , Y i ) , i = 1 , 2 , ⋯ , 14 (X_i,Y_i),i=1,2,\cdots,14 (Xi,Yi),i=1,2,,14,任何两对双胞胎的成长过程互不影响,故可以认为是相互独立的。同一家庭的双胞胎孩子的智商 X i X_i Xi Y i Y_i Yi应当由某种联系。为考察一对双胞胎的不同成长环境对智商的影响,考虑两者的差 D i = X i − Y i , i = 1 , 2 , ⋯ , 14 D_i=X_i-Y_i,i=1,2,\cdots,14 Di=XiYi,i=1,2,,14。由于诸 D i D_i Di均受同样因素(孩子的成长环境)影响,故可认为具有相同的分布。假定 D i D_i Di~ N ( μ , σ 2 ) , i = 1 , 2 , ⋯ , 14 N(\mu,\sigma^2),i=1,2,\cdots,14 N(μ,σ2),i=1,2,,14(由诸 ( X i , Y i ) (X_i,Y_i) (Xi,Yi)的相互独立性,知诸 D i D_i Di也是相互独立的),本例即是需要在一定的显著水平 α \alpha α下检验假设
H 0 : μ = 0 ( H 1 : μ ≠ 0 ) . H_0:\mu=0(H_1:\mu\not=0). H0:μ=0(H1:μ=0).
下列代码完成例7-26中对双侧假设 H 0 H_0 H0在显著水平 α = 0.05 \alpha=0.05 α=0.05下的检验计算。

import numpy as np                      #导入numpy
from scipy.stats import ttest_1samp     #导入ttest_1samp
x=np.array([23, 31, 25, 18, 19, 25, 28, #设置样本数据18, 25, 28, 22, 14, 34, 36])
y=np.array([22, 31, 29, 24, 28, 31, 27,15, 23, 27, 26, 19, 30, 28])
alpha=0.05                              #显著水平
d=x-y                                   #计算di=xi-yi
_,pvalue=ttest_1samp(d, 0)              #计算检验p值
print('mu=0 is %s.'%(pvalue>=alpha))

程序的第3~7行按题面设置各项数据。第8行计算序列 d = { d 1 = x 1 − y 1 , d 2 = x 2 − y 2 , ⋯ , d n = x n − y n } d=\{d_1=x_1-y_1,d_2=x_2-y_2,\cdots,d_n=x_n-y_n\} d={d1=x1y1,d2=x2y2,,dn=xnyn},记为d。第9行调用函数ttest_1samp计算检验假设 H 0 H_0 H0的p值(由于此处不需要检验统计量值,故用下划线’_'将返回值中的statistic屏蔽掉),第10行计算检验并输出。

mu=0 is True.

表示接受假设 H 0 : μ = 0 H_0:\mu=0 H0:μ=0,即生长环境对孩子的智商没有显著影响。
写博不易,敬请支持:
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
代码诚可贵,原理价更高。若为AI学,读正版书好
返回《导引》

这篇关于概率统计Python计算:假设检验应用——基于成对数据的检验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1097620

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hdu1496(用hash思想统计数目)

作为一个刚学hash的孩子,感觉这道题目很不错,灵活的运用的数组的下标。 解题步骤:如果用常规方法解,那么时间复杂度为O(n^4),肯定会超时,然后参考了网上的解题方法,将等式分成两个部分,a*x1^2+b*x2^2和c*x3^2+d*x4^2, 各自作为数组的下标,如果两部分相加为0,则满足等式; 代码如下: #include<iostream>#include<algorithm