使用SPSS的McNemar检验两种深度学习模型的差异性

2023-12-13 16:04

本文主要是介绍使用SPSS的McNemar检验两种深度学习模型的差异性,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

使用SPSS的McNemar检验两种深度学习模型的差异性

  • 前言
  • 简述:
  • 一、McNemar检验
    • 1.1来源
    • 1.2 两配对样本的McNemar(麦克尼马尔)变化显著性检验
    • 1.3 适用范围:
    • 1.4 基于对深度学习模型检测下的检测数据要求:
  • 二、使用SPSS的McNemar检验
    • 2.1 前置
    • 2.2 问题定义
    • 2.3 使用SPSS
      • 2.3.1 非参数检验-相关样本
      • 2.3.2 选择要比较的模型
      • 2.3.3 看结果
  • 参考文章:
  • 如有不足,还请各位大佬指正!


前言

前排提示:
我看到好多McNemar检验的文章没有说如何用到深度学习模型检测的,所以自己给自己做个笔记.本身不难,但是很多文章都写的好乱,例如没有解释为什么深度学习模型中留一法,或者单独留出测试集的k折模型只能用McNemar 测试检验模型差异性。以及零假设是什么,为什么要拒绝。
1.不使用python构建McNemar检验代码
2.使用spss的McNemar检验
方便快捷,适合即时使用

简述:

深度学习模型McNemar检验
对于只能执行一次的算法,McNemar 的测试是唯一具有可接受的 I 类错误的测试。
**数据:**两个对比模型的检测结果与样本对比后的结果(0,1)(0,1表征 T or F)
I 型错误是错误地拒绝实际为真的零假设。
零假设: A和B模型在性能上的差异不具有统计学意义,即差异不显著

一、McNemar检验

1.1来源

McNemar 检验是用于配对 名义数据的统计检验。它应用于具有二分特征的2 × 2列联表,具有匹配的主题对,以确定行和列的边际频率是否相等(即是否存在“边际同质性”)。它以Quinn McNemar 的名字命名,他于 1947 年引入了它。该测试在遗传学中的一个应用是用于检测连锁不平衡的传输不平衡测试。

1.2 两配对样本的McNemar(麦克尼马尔)变化显著性检验

McNemar 检验 是 2 * 2 表的配对检验。
McNemar变化显著性检验以研究对象自身为对照,检验其两组样本变化是否显著。
**原假设: 样本来自的两配对总体分布无显著差异。**即我们后面定义的零假设
要求: McNemar变化显著性检验要求待检验的两组样本的观察值是二分类数据,在实际分析中有一定的局限性。

1.3 适用范围:

具体而言,建议在那些被比较的算法只能评估一次的情况下进行测试,例如,在一个测试集上,而不是通过重采样技术重复评估,例如 k 折交叉验证。

对于只能执行一次的算法,McNemar 的测试是唯一具有可接受的 I 类错误的测试。
对于k折交叉验证,有两种纷争,一种是全部数据进行k折,一种是训练集K折,留出单独一份测试集。不能说哪方对哪方错。选择适合数据的就是对。
所以针对单独留出一份测试集的做法,可以按照定义使用McNemar检验

1.4 基于对深度学习模型检测下的检测数据要求:

数据:两个对比模型的检测结果与样本对比后的结果(0,1)(0,1表征 T or F)

要求:两数据配对,数据完整,不可改变数据顺序

二、使用SPSS的McNemar检验

我们需要对问题进行定义,然后再进行检验。

2.1 前置

在统计假设检验中,I 型错误是错误地拒绝实际为真的零假设。
对于只能执行一次的算法,McNemar 的测试是唯一具有可接受的 I 类错误的测试。

2.2 问题定义

问题:两个深度学习模型在同一测试集下的性能是否有差异性
白话,A比B模型优秀,但是我想知道A比B的优秀是具有统计学意义的。
此时的零假设:
A和B模型在性能上的差异不具有统计学意义,即差异不显著

要拒绝零假设,那么我们最后的检验p值要小于0.05
在这里插入图片描述

2.3 使用SPSS

2.3.1 非参数检验-相关样本

在这里插入图片描述

2.3.2 选择要比较的模型

在这里插入图片描述

然后运行

2.3.3 看结果

在这里插入图片描述

拒绝原假设,模型有差异性

参考文章:

ml-mastery-zh/docs/stat/mcnemars-test-for-machine-learning.md at master · apachecn/ml-mastery-zh · GitHub

McNemar’s检验(配对卡方检验):多种操作教程,总有一个适合你! - 知乎 (zhihu.com)
https://zhuanlan.zhihu.com/p/89205077

泛化性能的比较检验-4-McNemar检验(周志华西瓜书解析) - 知乎 (zhihu.com)
https://blog.csdn.net/orDream/article/details/122540099

SPSS详细操作:配对卡方检验(McNemar’s test) (qq.com)
https://mp.weixin.qq.com/s?__biz=MzI2OTQyMzc5MA==&mid=2247490227&idx=1&sn=16788997b4de52293942da8f40feb76c&chksm=eae1df72dd96566418535e93c537f5df90b2fbc2fa6e4702d4a8c0ce502cddec7f9b3d30b6e1&scene=21#wechat_redirect

麦克尼马尔检验(McNemar test)-CSDN博客
https://blog.csdn.net/orDream/article/details/122540099

如有不足,还请各位大佬指正!

这篇关于使用SPSS的McNemar检验两种深度学习模型的差异性的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/489065

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传