谈谈 Python 中的 McNemar 检验(二)

本文主要是介绍谈谈 Python 中的 McNemar 检验(二)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

前一篇文章说了McNemar检验，除了最常用的用法是用来检验列联表的相似性之外，它还可以用来检验两个相关样本是否来自同一分布。这里主要说一下后面这个问题。前一个问题，请看如下的文献：

谈谈 Python 中的 McNemar 检验(一)-CSDN博客

我们还是使用保险的例子。两个数据模型对出险次数进行预测，得到的两个次数分布如下：

出险次数	模型1	模型2
0	0.670320	0.677057
1	0.268128	0.272097
2	0.053626	0.049375
3	0.007150	0.008113
4	0.000715	0.000594
5	0.000057	0.000072

现在，我们的问题又来了，我们采用的这两个数据模型的结果，到底是不是有显著的不同呢？

下面上代码，采用 Python 语言来做。

x=[0.670320,0.268128,0.053626,0.007150,0.000715,0.000057]
y=[0.677057,0.272097,0.049375,0.008113,0.000594,0.000072]import statsmodels.sandbox.stats.runs as rns
print(rns.mcnemar(x, y, exact=True, correction=False))

代码运行后的结果为：统计量值为2，p值为 0.6875。p值很大，说明两个数据模型的分析结果没有显著差异。（注意，McNemar检验的原假设是：两个数据模型结果相同）

面对这个问题，只能使用 statsnodels 中的 runs（游程）模块下的 McNemar，无法使用 contingency_tables（列联表）模块下的 McNemar。因此，我在前面的文章中也说了，前者其实是后者的扩展版本，我们面对问题使用游程模块中的 McNemar 检验就可以了，列联表模块下的 McNemar 检验只能适用于列联表，无法适用于两个样本。

这就是 Python 中的 McNemar 分布的做法介绍。两个文章主要讲的是原理，下一篇文章，计划说一说 McNemar 的具体算法，等哪天有空再说吧。

这篇关于谈谈 Python 中的 McNemar 检验(二)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！