本文主要是介绍谈谈 Python 中的 McNemar 检验(二),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
前一篇文章说了McNemar检验,除了最常用的用法是用来检验列联表的相似性之外,它还可以用来检验两个相关样本是否来自同一分布。这里主要说一下后面这个问题。前一个问题,请看如下的文献:
谈谈 Python 中的 McNemar 检验(一)-CSDN博客
我们还是使用保险的例子。两个数据模型对出险次数进行预测,得到的两个次数分布如下:
出险次数 | 模型1 | 模型2 |
0 | 0.670320 | 0.677057 |
1 | 0.268128 | 0.272097 |
2 | 0.053626 | 0.049375 |
3 | 0.007150 | 0.008113 |
4 | 0.000715 | 0.000594 |
5 | 0.000057 | 0.000072 |
现在,我们的问题又来了,我们采用的这两个数据模型的结果,到底是不是有显著的不同呢?
下面上代码,采用 Python 语言来做。
x=[0.670320,0.268128,0.053626,0.007150,0.000715,0.000057]
y=[0.677057,0.272097,0.049375,0.008113,0.000594,0.000072]import statsmodels.sandbox.stats.runs as rns
print(rns.mcnemar(x, y, exact=True, correction=False))
代码运行后的结果为:统计量值为2,p值为 0.6875。p值很大,说明两个数据模型的分析结果没有显著差异。(注意,McNemar检验的原假设是:两个数据模型结果相同)
面对这个问题,只能使用 statsnodels 中的 runs(游程)模块下的 McNemar,无法使用 contingency_tables(列联表)模块下的 McNemar。因此,我在前面的文章中也说了,前者其实是后者的扩展版本,我们面对问题使用 游程模块中的 McNemar 检验就可以了,列联表模块下的 McNemar 检验只能适用于列联表,无法适用于两个样本。
这就是 Python 中的 McNemar 分布的做法介绍。两个文章主要讲的是原理,下一篇文章,计划说一说 McNemar 的具体算法,等哪天有空再说吧。
这篇关于谈谈 Python 中的 McNemar 检验(二)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!